2.3.1.1 Big

Set data yang besar adalah satu cara untuk berakhir; mereka tidak berakhir pada diri mereka sendiri.

Yang pertama daripada tiga ciri-ciri yang baik data yang besar adalah yang paling dibincangkan: ini adalah data yang besar. Sumber-sumber data boleh menjadi besar dalam tiga cara yang berbeza: ramai orang, banyak maklumat seorang, atau banyak pemerhatian dari masa ke masa. Mempunyai set data yang besar membolehkan sesetengah jenis tertentu kepelbagaian penyelidikan-mengukur, mengkaji peristiwa yang jarang berlaku, mengesan perbezaan kecil, dan membuat anggaran sebab dan akibat daripada data pemerhatian. Ia juga seolah-olah membawa kepada sesuatu jenis sloppiness.

Perkara pertama yang mana saiz amat berguna bergerak di luar Purata membuat anggaran untuk kumpulan kecil tertentu. Sebagai contoh, Gary Raja, Jennifer Pan, dan Molly Roberts (2013) diukur kebarangkalian bahawa jawatan media sosial di China akan ditapis oleh kerajaan. Dengan sendirinya ini kebarangkalian purata pemadaman tidak sangat membantu untuk memahami mengapa kerajaan penapis beberapa jawatan tetapi tidak yang lain. Tetapi, kerana set data mereka termasuk 11 juta jawatan, King dan rakan-rakan juga menghasilkan anggaran kebarangkalian penapisan bagi jawatan di 85 kategori berasingan (contohnya, pornografi, Tibet, dan Trafik di Beijing). Dengan membandingkan kebarangkalian penapisan bagi jawatan dalam kategori yang berbeza, mereka dapat memahami lebih lanjut mengenai bagaimana dan mengapa kerajaan penapis sesetengah jawatan. Dengan 11 ribu jawatan (daripada 11 juta jawatan), mereka tidak akan mampu untuk menghasilkan anggaran khusus kategori.

Kedua, saiz amat berguna untuk belajar peristiwa yang jarang berlaku. Sebagai contoh, Goel dan rakan-rakan (2015) mahu belajar cara yang berbeza yang tweet boleh pergi virus. Kerana lata besar tweet semula adalah amat jarang berlaku-kira-kira satu dalam 3000-mereka perlu mengkaji lebih daripada satu bilion tweet untuk mencari cukup lata besar untuk analisis.

Ketiga, set data yang besar membolehkan penyelidik untuk mengesan perbezaan kecil. Malah, banyak tumpuan kepada data yang besar dalam industri adalah mengenai perbezaan kecil: dengan pasti mengesan perbezaan di antara 1% dan 1.1% kadar klik-melalui iklan yang boleh diterjemahkan kepada berjuta-juta dolar dalam pendapatan tambahan. Dalam beberapa tetapan saintifik, perbezaan kecil itu mungkin tidak tertentu penting (walaupun mereka adalah ketara secara statistik). Tetapi, dalam beberapa tetapan dasar, perbezaan kecil itu boleh menjadi penting apabila dilihat secara agregat. Sebagai contoh, jika terdapat dua intervensi kesihatan awam dan ada yang sedikit lebih berkesan daripada yang lain, maka beralih kepada campur tangan yang lebih berkesan boleh berakhir menjimatkan beribu-ribu nyawa tambahan.

Akhir sekali, set data yang besar banyak meningkatkan keupayaan kita untuk membuat anggaran sebab dan akibat daripada data pemerhatian. Walaupun dataset besar tidak asasnya menukar masalah dengan membuat kesimpulan sebab dan akibat daripada data pemerhatian, yang hampir sama dan eksperimen-dua alam teknik yang penyelidik telah dibangunkan untuk membuat tuntutan sebab dan akibat daripada pemerhatian data-kedua-dua mendapat manfaat daripada set data yang besar. Saya akan menjelaskan dan menggambarkan tuntutan ini dengan lebih terperinci dalam bab ini apabila saya menerangkan strategi penyelidikan.

Walaupun bigness umumnya harta yang baik apabila digunakan dengan betul, saya dapati bahawa bigness biasanya membawa kepada kesilapan dalam konsep. Untuk sebab-sebab tertentu, bigness seolah-olah membawa penyelidik untuk mengabaikan bagaimana data mereka telah dijana. Walaupun bigness tidak mengurangkan perlu bimbang tentang ralat rawak, ia sebenarnya meningkatkan keperluan bimbang tentang kesilapan sistematik, jenis kesilapan yang saya akan menerangkan secara lebih lanjut di bawah yang timbul daripada berat sebelah dalam bagaimana data diwujudkan dan dikumpulkan. Dalam set data kecil, kedua-dua ralat rawak dan ralat sistematik boleh menjadi penting, tetapi dalam ralat rawak set data yang besar yang boleh dipuratakan jauh dan ralat sistematik mendominasi. Penyelidik yang tidak berfikir tentang kesilapan sistematik akan akhirnya menggunakan set data yang besar mereka untuk mendapatkan anggaran tepat perkara yang salah; mereka akan menjadi tepat tidak tepat (McFarland and McFarland 2015) .