2.3.2.1 tidak lengkap

Tidak kira betapa "besar" "data yang besar" anda itu mungkin tidak mempunyai maklumat yang anda mahu.

Kebanyakan sumber data yang besar tidak lengkap, dalam erti kata bahawa mereka tidak mempunyai maklumat yang anda akan mahu untuk penyelidikan anda. Ini adalah perkara biasa dalam data yang dicipta untuk tujuan selain daripada penyelidikan. Ramai saintis sosial telah mempunyai pengalaman berurusan dengan tidak lengkap, seperti kajian sedia ada yang tidak bertanya soalan yang anda mahu. Malangnya, masalah tidak lengkap cenderung untuk menjadi lebih ekstrem dalam data yang besar. Dalam pengalaman saya, data yang besar cenderung untuk hilang tiga jenis maklumat yang berguna untuk penyelidikan sosial: demografi, tingkah laku pada platform lain, dan data untuk mengendalikan membina teori.

Ketiga-tiga bentuk ketidaklengkapan digambarkan dalam satu kajian oleh Gueorgi Kossinets dan Duncan Watts (2006) mengenai evolusi rangkaian sosial di universiti. Kossinets dan Watts bermula dengan log e-mel dari universiti, yang mempunyai maklumat yang tepat tentang siapa yang menghantar e-mel kepada siapa pada waktu (penyelidik tidak mempunyai akses kepada kandungan e-mel). Rekod-rekod e-mel bunyi seperti set data luar biasa, tetapi, mereka-walaupun saiz mereka dan butiran-asasnya tidak lengkap. Sebagai contoh, log e-mel tidak termasuk data tentang ciri-ciri demografi pelajar seperti jantina dan umur. Selanjutnya, log e-mel tidak termasuk maklumat mengenai komunikasi melalui media lain, seperti panggilan telefon, mesej teks, atau perbualan muka-ke-muka. Akhir sekali, log e-mel tidak langsung termasuk maklumat mengenai perhubungan, konstruk teori dalam banyak teori yang sedia ada. Kemudian dalam bab ini, apabila saya bercakap tentang strategi penyelidikan, anda akan melihat bagaimana Kossinets dan Watts diselesaikan masalah ini.

Daripada tiga jenis tidak lengkap, masalah data yang tidak lengkap untuk mengendalikan pembinaan teori adalah yang paling sukar untuk menyelesaikan, dan dalam pengalaman saya, ia sering tidak sengaja diabaikan oleh saintis data. Kira-kira, membina teori adalah idea-idea abstrak yang ahli sains sosial belajar, tetapi, malangnya, konstruk ini tidak selalunya boleh jelas ditakrifkan dan diukur. Sebagai contoh, mari kita bayangkan cuba untuk secara empirikal menguji tuntutan itu nampaknya mudah yang orang yang lebih bijak mendapatkan lebih banyak wang. Untuk menguji tuntutan ini anda perlu untuk mengukur "kepintaran." Tetapi, apa yang perisikan? Sebagai contoh, Gardner (2011) berhujah bahawa sebenarnya ada lapan bentuk yang berbeza kecerdasan. Dan, prosedur sana yang boleh mengukur dengan tepat mana-mana bentuk perisikan? Walaupun jumlah besar kerja oleh ahli psikologi, soalan-soalan ini masih tidak mempunyai jawapan yang jelas. Oleh itu, walaupun yang agak mudah tuntutan-orang yang lebih bijak mendapatkan lebih banyak wang-boleh menjadi sukar untuk menilai secara empirikal kerana ia boleh menjadi sukar untuk mengendalikan membina teori dalam data. Contoh lain membina teori yang penting tetapi sukar untuk mengendalikan termasuk "norma", "modal sosial," dan "demokrasi." Saintis sosial memanggil perlawanan antara konstruk teori dan membina data sah (Cronbach and Meehl 1955) . Dan, seperti senarai ini konstruk mencadangkan, membina sah adalah masalah yang ahli sains sosial telah berjuang dengan untuk masa yang sangat lama, walaupun mereka telah bekerja dengan data yang telah dikumpulkan untuk tujuan penyelidikan. Apabila bekerja dengan data yang dikumpul untuk tujuan selain daripada penyelidikan, masalah kesahihan konstruk adalah lebih mencabar (Lazer 2015) .

Semasa anda membaca kertas kajian, salah satu cara yang cepat dan berguna untuk menilai kebimbangan mengenai kesahihan konstruk adalah untuk mengambil tuntutan utama dalam karya, yang biasanya dinyatakan dari segi membina, dan semula daftar-it dari segi data yang digunakan. Sebagai contoh, pertimbangkan dua kajian hipotesis yang mendakwa untuk menunjukkan bahawa orang-orang yang lebih pintar mendapatkan lebih banyak wang:

  • Kajian 1: orang yang skor dengan baik pada Ujian-a Raven Progressive Matrices ujian juga dikaji kecerdasan analitik (Carpenter, Just, and Shell 1990) -Mempunyai pendapatan dilaporkan lebih tinggi pulangan cukai mereka
  • Kajian 2: orang di Twitter yang menggunakan kata-kata yang lebih panjang lebih cenderung untuk menyebut jenama mewah

Dalam kedua-dua kes, penyelidik boleh menegaskan bahawa mereka telah menunjukkan bahawa orang yang lebih pintar mendapatkan lebih banyak wang. Tetapi, dalam kajian pertama yang membina teori dengan baik dapat dilaksanakan pada data, dan dalam kedua mereka tidak. Selanjutnya, sebagai contoh ini menggambarkan, lebih banyak data tidak secara automatik menyelesaikan masalah dengan kesahan konstruk. Anda perlu meragui keputusan Kajian 2 sama ada ia melibatkan satu juta tweet, satu bilion tweet, atau satu trilion tweet. Penyelidik tidak biasa dengan idea kesahihan konstruk, Jadual 2.2 memberikan beberapa contoh kajian yang telah beroperasi membina teori menggunakan data surih digital.

Jadual 2.2: Contoh kesan digital yang digunakan sebagai langkah konsep teori lebih abstrak. Ahli sains sosial memanggil ini sah Perlawanan membina dan ia adalah satu cabaran yang besar dengan menggunakan sumber data yang besar untuk penyelidikan sosial (Lazer 2015) .
jejak digital membina teori Citation
log e-mel dari universiti yang (meta-data sahaja) hubungan sosial Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
jawatan media sosial Weibo penglibatan sivik Zhang (2016)
log e-mel daripada firma (meta-data dan teks lengkap) patut budaya dalam sesebuah organisasi Goldberg et al. (2015)

Walaupun masalah data yang tidak lengkap untuk membina teori peringkat operasinya adalah agak sukar untuk menyelesaikan, terdapat tiga penyelesaian biasa kepada masalah maklumat demografi tidak lengkap dan maklumat yang tidak lengkap pada tingkah laku pada platform lain. Yang pertama adalah untuk benar-benar mengumpul data yang anda perlukan; Saya akan memberitahu anda tentang satu contoh bahawa dalam Bab 3 apabila saya memberitahu anda tentang kaji selidik. Malangnya, ini jenis pengumpulan data tidak selalu mungkin. Penyelesaian utama kedua adalah untuk melakukan apa yang saintis data memanggil inferens pengguna-atribut dan apa yang ahli sains sosial memanggil tohmahan. Dalam pendekatan ini, penyelidik menggunakan maklumat yang mereka ada di sesetengah orang untuk membuat kesimpulan sifat-sifat orang lain. Kemungkinan penyelesaian yang ketiga digunakan oleh Kossinets dan Watts-adalah untuk menggabungkan sumber data berganda. Proses ini kadang-kadang dipanggil penggabungan atau rekod hubungan. Metafora kegemaran saya untuk proses ini telah dicadangkan dalam perenggan yang pertama kertas yang pertama yang pernah ditulis dalam rekod hubungan (Dunn 1946) :

"Setiap orang di dunia mencipta Book of Life. Buku Ini bermula dengan kelahiran dan berakhir dengan kematian. halaman-halamannya terdiri daripada rekod peristiwa prinsip dalam hidup. Rekod hubungan adalah nama yang diberikan kepada proses memasang muka surat buku ini ke dalam jumlah yang. "

Petikan ini ditulis pada tahun 1946, dan pada masa itu, orang berfikir bahawa Kitab Life boleh termasuk peristiwa besar dalam hidup seperti kelahiran, perkahwinan, perceraian, dan kematian. Walau bagaimanapun, sekarang bahawa begitu banyak maklumat tentang orang-orang direkodkan, Kitab Kehidupan boleh menjadi potret sangat terperinci, jika halaman yang berbeza (iaitu, kesan digital kami), boleh terikat bersama-sama. Ini Buku Kehidupan boleh menjadi sumber yang besar untuk penyelidik. Tetapi, dalam Kitab Kehidupan juga boleh dipanggil pangkalan data kehancuran (Ohm 2010) , yang boleh digunakan untuk semua jenis tujuan yang tidak beretika, seperti yang dihuraikan lebih lanjut di bawah apabila saya bercakap tentang sifat sensitif maklumat yang dikumpul oleh sumber-sumber data yang besar di bawah dan dalam Bab 6 (Etika).