2.3.2.3 Non-zastopnik

Dva vira niso reprezentativnosti so različne populacije in različne vzorce uporabe.

Big podatki navadno sistematično pristranski na dva načina. To ni nujno povzroči težave za vse vrste analize, ampak za nekatere analize je lahko kritična pomanjkljivost.

Prvi vir sistematične pristranskosti je, da so ljudje, ujete običajno niti popolna vesolje vseh ljudi ali naključni vzorec iz kakršne koli posebne populacije. Na primer, Američani na Twitterju niso naključni vzorec Američanov (Hargittai 2015) . Drugi vir sistematične pristranskosti je, da je veliko velikih sistemov podatkov zajame ukrepe, in nekateri ljudje prispevajo veliko več dejanj kot drugi. Na primer, nekateri ljudje na Twitterju prispevala sto krat več tweets kot drugi. Zato lahko dogajanje na posebne platforme je vedno bolj močno odražajo nekaterih podskupin od samega platformi.

Običajno raziskovalci želeli vedeti veliko o podatkih, ki jih imajo. Ampak, glede na ne-reprezentativnost velikih podatkov, je koristno, da flip tudi vaše razmišljanje. Prav tako morate vedeti veliko o podatkih, ki jih nimajo. To še posebej velja, če so podatki, ki jih nimajo sistematično razlikujejo od podatkov, ki jih imajo. Na primer, če imate zapise klicev iz mobilnega telefona družbi v državah v razvoju, bi morali razmišljati ne samo o ljudeh v vašem naboru podatkov, ampak tudi o ljudeh, ki bi lahko bile prešibke za svoj mobilni telefon. Poleg tega je v poglavju 3, bomo spoznali, kako uteževanje lahko omogočanje raziskovalcem, da bi boljše ocene od ne-reprezentativnih podatkov.