2.3.2.3 no representativa

Dues fonts de representativitat no són diferents poblacions i diferents patrons d'ús.

grans volums de dades tendeixen a estar esbiaixats sistemàticament en dues formes principals. Això no ha de causar un problema per a tot tipus d'anàlisi, però per algunes anàlisis pot ser una falla crítica.

Una primera font de biaix sistemàtic és que les persones capturades són típicament ni un univers complet de totes les persones o d'una mostra aleatòria d'una població específica. Per exemple, els nord-americans a Twitter no són una mostra aleatòria dels nord-americans (Hargittai 2015) . Una segona font de biaix sistemàtic és que molts sistemes de dades grans capturen accions, i algunes persones contribueixen moltes accions més que altres. Per exemple, algunes persones a Twitter contribueixen centenars de vegades més tuits que altres. Per tant, els esdeveniments en una plataforma específica poden ser cada vegada en major mesura un reflex de certs subgrups que la pròpia plataforma.

Normalment, els investigadors volen saber molt sobre les dades que tenen. No obstant això, donada la naturalesa no representativa de grans volums de dades, és útil també per capgirar la seva forma de pensar. També cal saber molt sobre les dades que no hi ha. Això és especialment cert quan les dades que no té són sistemàticament diferents de les dades que vostè té. Per exemple, si vostè té els registres de trucades d'una empresa de telefonia mòbil en uns països en desenvolupament, s'ha de pensar no només sobre les persones en el conjunt de dades, sinó també sobre les persones que podrien ser massa pobres per tenir un telèfon mòbil. A més, en el capítol 3, anem a aprendre sobre com ponderació pot permetre als investigadors per fer millors estimacions a partir de dades no representatius.