2.3.2.3 Non-wakil

Dua sumber bukan kerepresentatifan adalah populasi yang berbeza dan corak penggunaan yang berbeza.

data yang besar cenderung untuk secara sistematik berat sebelah dalam dua cara utama. Ini tidak perlu menyebabkan masalah bagi semua jenis analisis, tetapi bagi sesetengah analisis ia boleh menjadi satu kecacatan kritikal.

Sumber pertama berat sebelah yang sistematik ialah rakyat ditangkap biasanya tidak alam semesta lengkap semua orang atau sampel rawak daripada mana-mana penduduk tertentu. Sebagai contoh, rakyat Amerika di Twitter tidak sampel rawak rakyat Amerika (Hargittai 2015) . Sumber kedua berat sebelah yang sistematik adalah bahawa banyak sistem data yang besar menangkap tindakan, dan beberapa orang yang menyumbang banyak lagi tindakan daripada yang lain. Sebagai contoh, sesetengah orang di Twitter menyumbang beratus-ratus kali lebih tweet daripada yang lain. Oleh itu, aktiviti pada platform tertentu boleh menjadi yang lebih besar mencerminkan kumpulan kecil tertentu daripada platform itu sendiri.

Biasanya penyelidik ingin mengetahui banyak perkara mengenai data yang mereka ada. Tetapi, memandangkan sifat bukan wakil data yang besar, ia membantu untuk juga flip pemikiran anda. Anda juga perlu tahu banyak perkara mengenai data yang anda tidak mempunyai. Hal ini terutama berlaku apabila data yang anda tidak perlu secara sistematik berbeza daripada data yang anda mempunyai. Sebagai contoh, jika anda mempunyai rekod panggilan daripada syarikat telefon mudah alih dalam negara-negara membangun, anda perlu berfikir bukan sahaja mengenai orang dalam set data anda, tetapi juga mengenai orang-orang yang mungkin terlalu miskin untuk memiliki telefon bimbit. Selanjutnya, dalam Bab 3, kita akan belajar tentang bagaimana pemberat boleh membolehkan penyelidik untuk membuat anggaran yang lebih baik dari data bukan wakil.