2.3.2.3 Non-представителна

Два източника на не-представителност са различни популации и различни модели на използване.

Големите данни са склонни да бъдат систематично предубедени по два основни начина. Това не е необходимо да предизвика проблем за всички видове анализ, но за някои анализ може да бъде критичен недостатък.

Първият източник на системна пристрастност е, че хората, заловени са обикновено нито пълен вселена на всички хора, или случайна извадка от всяка конкретна популация. Например, американците на Twitter не са случайна извадка от американците (Hargittai 2015) . Вторият източник на системна пристрастност е, че много от големите системи улавяне на данни действия, а някои хора допринасят много повече действия, отколкото в други. Например, някои хора на Twitter допринасят стотици пъти повече туитове, отколкото в други. Следователно събитията на специфична платформа може да бъде още по-силно отразяващи на някои подгрупи от самата платформа.

Обикновено изследователите искат да знаят много за данните, които те имат. Но, имайки предвид липсата на представителния характер на големи данни, че е полезно да се обърне мисленето си. Можете също така трябва да се знае много за данните, които не е нужно. Това е особено вярно, когато данните, които не са систематично са различни от данните, които е нужно. Например, ако имате записи на разговори от телефона компания за мобилни устройства в развиващите се страни, трябва да се мисли не само за хората във вашия набор, но също така и за хората, които биха могли да бъдат твърде бедни, за да притежавате мобилен телефон. По-нататък, в Глава 3, ще научат повече за това как претегляне може да позволи на изследователите да направят по-добри оценки от не-представителни данни.