2.3.2.3 Non-fertsjintwurdiger

Twa boarnen fan net-representativeness binne ferskillende populaasjes en ferskillende usage patroanen.

Big gegevens tend wurde systematysk bias yn twa wichtichste wizen. Dit hoecht net ta in probleem foar alle soarte fan analyze, mar foar guon analyze it kin wêze in kritysk flaw.

In earste boarne fan systematyske bias is dat de minsken finzen nommen binne typysk noch in folsleine hielal fan alle minsken of in willekeurige stekproef út in spesifike befolking. Bygelyks, Amerikanen op Twitter binne net in willekeurige stekproef fan Amerikanen (Hargittai 2015) . In twadde boarne fan systematyske bias is dat in soad grutte gegevens systemen feroverje aksjes, en guon minsken bydrage folle mear aksjes as oaren. Bygelyks, guon minsken op Twitter bydrage hûnderten kearen mear tweets as oaren. Dêrom, de foarfallen op in spesifike platfoarm kin wêze hieltyd mear swier spegeljende fan bepaalde groepen as it platfoarm sels.

Normaal ûndersikers wolle witte in soad oer de gegevens dy't se hawwe. Mar, sjoen de net-represintatyf karakter fan grutte gegevens, it is brûkber om ek flip jo tinken. Jo ek moatte witte in soad oer de gegevens dy't jo net ha. Dit is foaral wier as de gegevens dy't jo net ha binne systematysk oars út de gegevens dy't jo hawwe. Bygelyks, as jo de oprop records út in mobile tillefoan bedriuw yn in ûntwikkelingslannen, jo moatte tinke net allinnich oer de minsken yn dyn dataset, mar ek oer de minsken dy't miskien wêze te earm om eigen in mobile telefoan. Fierder, yn haadstik 3, wy leare oer hoe't weighting kinne ynskeakelje ûndersikers om bettere rûzings fan net-represintatyf gegevens.