2.3 Gemeenschappelijke kenmerken van big data

Big data bronnen hebben de neiging om tien kenmerken te hebben; sommige zijn goed voor sociaal-wetenschappelijk onderzoek en sommige zijn slecht.

Als onderzoekers gaan om te leren van big data dat ze niet te maken of te verzamelen, dan moeten zij de algemene kenmerken te begrijpen. In plaats van het nemen van een platform naar platform benadering (bijvoorbeeld, hier is wat je moet weten over Twitter, hier is wat je moet weten over Google search data, etc), ga ik tien algemene kenmerken van big data, kenmerken die zich voordoen te beschrijven omdat de gegevens niet geroepen omwille van sociaal onderzoek. Door een stap terug uit de details van elk bepaald systeem en kijken naar deze algemene eigenschappen kunnen onderzoekers snel meer informatie over de bestaande gegevensbronnen en een stevige set van ideeën voor toekomstige gegevensbronnen.

Ik vind het nuttig om de groep van de kenmerken in twee categorieën:

over het algemeen goed voor onderzoek: groot, always-on, niet-reactief
over het algemeen slecht voor onderzoek: incomplete, ontoegankelijke, niet-representatieve, drifting, algoritmisch beschaamd, ontoegankelijke, vies en gevoelige

In grote lijnen, de overheid administratie zijn minder niet-representatieve, minder algoritmisch beschaamd, en minder driften. Aan de andere kant, het bedrijfsleven administratie de neiging om grotere en meer always-on zijn.