2.3.2.3 Mhux rappreżentattiva

Żewġ sorsi ta 'nuqqas ta' rappreżentanza huma popolazzjonijiet differenti u l-mudelli differenti ta 'użu.

data Big tendenza li tkun preġudikata b'mod sistematiku f'żewġ modi ewlenin. Din m'hemmx għalfejn joħloq problema għal kull tip ta 'analiżi, iżda għal xi analiżi tista' tkun difett kritiku.

L-ewwel sors ta 'parzjalità sistematiku huwa li l-poplu maqbuda huma tipikament la univers sħiħa tan-nies kollha jew kampjun aleatorju minn kull popolazzjoni speċifika. Per eżempju, l-Amerikani fuq Twitter mhumiex kampjun każwali tal-Amerikani (Hargittai 2015) . It-tieni sors ta 'parzjalità sistematiku hija li ħafna sistemi ta' data kbar jaqbdu azzjonijiet, u xi nies jikkontribwixxu ħafna azzjonijiet aktar minn oħrajn. Per eżempju, xi nies fuq Twitter jikkontribwixxu mijiet ta 'tweets darbiet aktar minn oħrajn. Għalhekk, l-avvenimenti fuq pjattaforma speċifika tista 'tkun jirriflettu dejjem aktar qawwi ta' ċerti sottogruppi milli l-pjattaforma innifsu.

Normalment riċerkaturi jridu jkunu jafu ħafna dwar id-data li huma għandhom. Iżda, minħabba n-natura mhux rappreżentattiva ta 'dejta kbar, huwa utli li wkoll għatu flip ħsieb tiegħek. Għandek bżonn ukoll ikunu jafu ħafna dwar id-data li inti ma għandekx. Dan hu veru speċjalment meta d-data li inti ma għandekx huma sistematikament differenti mit-tagħrif li inti do jkollhom. Per eżempju, jekk inti għandek l-rekords sejħa minn kumpanija tat-telefon ċellulari fi f'pajjiżi li qed jiżviluppaw, għandek taħseb mhux biss dwar il-persuni fil dataset tiegħek, iżda wkoll dwar il-persuni li jistgħu jkunu wisq fqar biex stess mowbajl. Barra minn hekk, fil-Kapitolu 3, aħna ser jitgħallmu dwar kif ippeżar jista 'jippermetti lir-riċerkaturi li jagħmlu stimi aħjar minn data mhux rappreżentattiva.