2.3.2.3 Non-vertegenwoordiger

Twee bronnen van niet-representativiteit zijn verschillende populaties en verschillende gebruikspatronen.

Big data hebben de neiging om systematisch bevooroordeeld op twee manieren. Dit hoeft geen probleem voor allerlei analyses veroorzaken, maar voor sommige analyse kan een ernstige tekortkoming is.

Een eerste bron van systematische vooringenomenheid is dat de mensen gevangen zijn meestal niet een compleet universum van alle mensen of een steekproef van een specifieke populatie. Bijvoorbeeld, de Amerikanen op Twitter zijn niet een willekeurige steekproef van de Amerikanen (Hargittai 2015) . Een tweede bron van systematische vooringenomenheid is dat veel grote datasystemen vast te leggen acties, en sommige mensen dragen veel meer acties dan anderen. Bijvoorbeeld, sommige mensen op Twitter bijdragen honderden keren meer tweets dan anderen. Derhalve kan de gebeurtenissen van een specifiek platform steeds zwaarder reflecterende bepaalde subgroepen dan het platform zelf.

Normaal gesproken onderzoekers willen veel over de gegevens die ze kennen. Maar, gezien de niet-representatieve karakter van big data, is het nuttig om uw denken te spiegelen. Je moet ook veel over de gegevens die u niet hoeft te weten. Dit is vooral het geval wanneer de gegevens die je niet hoeft systematisch verschillen van de gegevens die je hebt. Bijvoorbeeld, als u de oproep records van een mobiele telefoon bedrijf in ontwikkelingslanden, moet u denken niet alleen over de mensen in uw dataset, maar ook over de mensen die te arm zijn om het bezit van een mobiele telefoon zou kunnen zijn. Verder, in hoofdstuk 3, zullen we leren over hoe weging onderzoekers in staat stellen om een betere inschatting te maken van niet-representatieve gegevens.