2.3.2.3 Non-pārstāvi

Divi avoti nav pārstāvības ir dažādas populācijas un dažādi izmantošanas modeļus.

Big dati mēdz būt sistemātiski neobjektīvs divos galvenajos veidos. Tas nav nepieciešams radīt problēmas visa veida analīzes, bet kādu analīzi, tas var būt kritiska plaisāt.

Pirmais avots sistemātiska aizspriedumiem ir tas, ka cilvēki notverti parasti nav pilnīgs visums no visiem cilvēkiem, vai nejauša izlase no konkrētas iedzīvotāju. Piemēram, amerikāņi par čivināt nav izlases veida amerikāņiem (Hargittai 2015) . Otrs avots sistemātiska aizspriedumiem ir tas, ka daudzi lielie datu sistēmas uztveršanas darbības, un daži cilvēki veicināt daudz vairāk darbību, nekā citi. Piemēram, daži cilvēki par čivināt veicināt simtiem reižu vairāk tweets nekā citi. Tāpēc notikumi par īpašas platformas var būt arvien vairāk stipri atspoguļo konkrētu apakšgrupu nekā platforma pati.

Parasti pētnieki vēlas zināt daudz par datiem, kas viņi ir. Bet, ņemot vērā ārpus pārstāvi raksturu lielo datu, tas ir noderīgi, lai arī uzsist savu domāšanu. Jums arī jāzina daudz par datiem, kas jums nav. Tas jo īpaši ir patiesi tad, ja dati, kas jums nav, ir sistemātiski atšķiras no datiem, kas jums ir. Piemēram, ja jums ir zvanu ierakstus no mobilo telefonu kompānija ir jaunattīstības valstīs, jums vajadzētu domāt ne tikai par cilvēkiem, jūsu datu kopas, bet arī par cilvēkiem, kuri varētu būt pārāk slikta, lai savu mobilo tālruni. Tālāk, 3. nodaļā, mēs uzzināt par to, kā svērumu var ļaut pētniekiem labāk aplēses no ne-reprezentatīvi dati.