2.3.2.3 Ne atstovas

Du šaltiniai ne reprezentatyvumo yra skirtingos populiacijos ir įvairių naudojimo būdus.

Didelės duomenys linkę būti sistemingai šališkas dviem pagrindiniais būdais. Tai nereikia sukelti problemų, susijusių su visų tipo analizės, bet tam tikrą analizės ji gali būti kritinis trūkumas.

Pirmasis šaltinis sistemingai šališkumo yra tai, kad sugautus žmonės paprastai nei visiškas visatos visų žmonių arba atsitiktinė imtis iš bet kurio konkretaus gyventojų. Pavyzdžiui, amerikiečiai Twitter nėra atsitiktinė imtis amerikiečių (Hargittai 2015) . Antrasis šaltinis sistemingai šališkumo yra tai, kad daug didelių duomenų sistemas fiksuoti veiksmus, ir kai kurie žmonės prisideda daug daugiau veiksmų, nei kiti. Pavyzdžiui, kai kurie žmonės ant Twitter prisidėti šimtus kartų daugiau tweets nei kiti. Todėl dėl konkrečios platformos renginiai gali būti vis labai atspindintis tam tikrų pogrupių nei pati platforma.

Paprastai mokslininkai nori žinoti daug apie duomenis, kad jie turi. Tačiau, atsižvelgiant į ne atstovas pobūdis didelių duomenų, ji yra naudinga taip pat apversti savo mąstymą. Jūs taip pat turite žinoti daug apie duomenis, kad jūs neturite. Tai ypač aktualu, kai duomenys, kad jūs neturite sistemingai skiriasi nuo duomenų, kad jūs turite. Pavyzdžiui, jei turite skambučių įrašus iš mobiliojo telefono kompanijos A besivystančiose šalyse, reikia galvoti ne tik apie savo rinkinį žmonėms, bet ir apie žmones, kurie gali būti pernelyg neturtingi, kad savo mobilųjį telefoną. Be to, 3 skyriuje, mes sužinoti, kaip svorius gali įgalinti tyrinėtojus priimti geresnius įvertinimus iš ne tipinius duomenis.