2.3.2.3 Non-wakil

Dua sumber non-representativeness nu populasi beda jeung pola pamakéan beda.

data Big condong jadi sistematis bias dina dua cara utama. Ieu teu kudu ngabalukarkeun masalah pikeun sadaya jenis analisis, tapi keur sababaraha analisis bisa jadi cacad kritis.

A sumber munggaran bias sistimatis nu urang direbut nu ilaharna ayakeun hiji alam semesta lengkep sakabeh jalma atawa sampel random ti mana wae populasi husus. Contona, Amerika dina Twitter teu sampel random Amerika (Hargittai 2015) . A sumber kadua bias sistimatis nu loba sistem data gedé candak lampah, sarta sababaraha urang nyumbang loba lampah ti batur. Contona, sababaraha urang dina Twitter nyumbang ratusan kali leuwih tweets ti batur. Ku alatan éta, kajadian dina platform husus bisa kungsi leuwih beurat reflective of subgroups tangtu ti platform sorangan.

Biasana panalungtik hayang nyaho loba ngeunaan data nu dipibanda. Tapi, dibikeun alam non-wawakil data gedé, nya éta mantuan oge flip pamikiran Anjeun. Anjeun oge kudu nyaho loba ngeunaan data nu teu boga. Ieu utamana bener lamun data nu teu boga nu sistematis béda ti data nu teu boga. Contona, lamun boga catetan telepon ti hiji pausahaan telepon sélulér di nagara berkembang, Anjeun kudu mikir teu saukur ngeunaan jalma di dataset Anjeun, tapi ogé ngeunaan jelema anu bisa jadi teuing goréng sorangan telepon seluler. Salajengna, dina Bab 3, urang gé diajar ngeunaan kumaha weighting tiasa ngaktipkeun panalungtik pikeun nyieun perkiraan leuwih alus ti data non-wakil.