2.3.2.3 Nem reprezentatív

Két források nem reprezentativitásukat különböző populációk és a különböző használati szokásokat.

Big adatok hajlamosak rendszeresen elfogult két fő módja. Ennek nem okoz problémát mindenféle elemzés, hanem egy elemzést lehet egy kritikus hiba.

Az első forrás szisztematikus torzítás, hogy az emberek elfogott jellemzően nem egy teljes univerzum minden ember, vagy egy véletlen minta bármely adott populációban. Például, az amerikaiak a Twitter nem véletlenszerűen kiválasztott amerikaiak (Hargittai 2015) . A második forrás a szisztematikus torzítás az, hogy sok nagy adatrendszerek elfog akciók, és néhány ember hozzájárulhat több akciók, mint mások. Például néhány ember a Twitter hozzájárul százszor több tweet, mint mások. Ezért az események egy adott platform lehet egyre erőteljesebben tükrözi az egyes alcsoportok, mint a platform maga.

Normális kutatók szeretnék sokat tud az adatokat, hogy van. De, mivel a nem reprezentatív jellege nagy adatmennyiség, célszerű is a flip a gondolkodás. Azt is meg kell tudni sokat az adatokat, hogy nincs. Ez különösen igaz, ha az adatokat, amit nem kell szisztematikusan eltérnek az adatokat, ha nem kell. Például ha a hívás rekordokat egy mobiltelefon-vállalat a fejlődő országokban, meg kell gondolni nem csak az emberek a adatbázisba, hanem az emberek, akik lehet, hogy túl szegény ahhoz, hogy rendelkezik mobiltelefonnal. Továbbá, a 3. fejezetben fogunk tanulni, hogyan súlyozás segítségével a kutatók, hogy jobban meg tudják becsülni a nem reprezentatív adatok.