2.3.2.3 Non-reprezentatívne

Dva zdroje non-reprezentatívnosti sú rôzne populácie a rôzne spôsoby používania.

Spracovanie veľkých objemov dát majú tendenciu byť systematicky skresľujú v dvoch hlavných smeroch. To nemusí predstavovať problém pre všetky druhy analýzy, ale z nejakého analýzu môže byť kritická chyba.

Prvý zdrojom systematické zaujatosti je, že ľudia sú typicky zobratý ani úplný vesmír zo všetkých ľudí alebo náhodný výber z akejkoľvek špecifickej populácie. Napríklad Američania na Twitteri nie sú náhodný vzorka Američanov (Hargittai 2015) . Druhým zdrojom systematické skreslenie je, že mnoho veľkých dátových systémov zachytenie akcie, a niektorí ľudia prispievajú oveľa viac akcií než ostatní. Napríklad niektorí ľudia na Twitteri prispieť stovky krát viac tweetov než ostatní. Preto udalosti na konkrétne platforme môže byť stále silne odrážajúca konkrétne podskupiny než samotné plošiny.

Za normálnych okolností výskumníci chcú vedieť veľa o dáta, ktoré majú. Ale vzhľadom k non-reprezentatívny charakter spracovanie veľkých objemov dát, je užitočné tiež otočiť myslenie. Tiež je potrebné vedieť veľa o dáta, ktoré nemáte. To platí najmä vtedy, keď údaje, ktoré nemajú sa systematicky líšia od údajov, ktoré máte. Napríklad, ak máte záznamy hovorov z mobilného telefónu spoločnosti v rozvojových krajinách, mali by ste uvažovať nielen o ľuďoch vo vašom dátovom súbore, ale aj o ľuďoch, ktorí by mohli byť príliš chudobná vlastniť mobilný telefón. Ďalej v kapitole 3, sa dozvieme o tom, ako váženie môže umožniť výskumným pracovníkom lepšie odhadov od non-reprezentatívnych údajov.