3.6.1 diperkaya

Dalam permintaan yang diperkaya, data tinjauan membina konteks sekitar sumber data besar yang mengandungi beberapa ukuran penting tetapi kekurangan orang lain.

Satu cara untuk menggabungkan data tinjauan dan sumber data besar adalah satu proses yang saya akan panggil meminta diperkaya . Dalam permintaan yang diperkaya, sumber data besar mengandungi beberapa ukuran penting tetapi tidak mempunyai pengukuran lain supaya penyelidik mengumpul pengukuran yang hilang ini dalam kaji selidik dan kemudian menghubungkan kedua-dua sumber data bersama-sama. Satu contoh permintaan yang diperkaya adalah kajian oleh Burke and Kraut (2014) mengenai sama ada berinteraksi di Facebook meningkatkan kekuatan persahabatan, yang saya nyatakan di bahagian 3.2). Dalam kes itu, Burke dan Kraut menggabungkan data tinjauan dengan data log Facebook.

Walau bagaimanapun, penetapan Burke dan Kraut bermakna bahawa mereka tidak perlu menangani dua masalah besar yang diperkatakan oleh para penyelidik yang biasanya dibicarakan. Pertama, sebenarnya menghubungkan bersama-sama set data peringkat individu, satu proses yang dipanggil hubungan rakaman , boleh menjadi sukar jika tiada pengecam unik di kedua-dua sumber data yang boleh digunakan untuk memastikan rekod yang betul dalam satu dataset dipadankan dengan rekod yang betul dalam dataset lain. Masalah utama kedua dengan permintaan yang diperkaya adalah bahawa kualiti sumber data yang besar akan sering menjadi sukar bagi para penyelidik untuk menilai kerana proses yang mana data diciptakan mungkin milik dan boleh terdedah kepada banyak masalah yang dijelaskan dalam bab 2. Dalam erti kata lain, permintaan yang diperkaya akan kerap kali melibatkan kaitan dengan kesilapan yang menghubungkan kaji selidik kepada sumber data kotak hitam yang tidak diketahui kualiti. Walau bagaimanapun, walaupun masalah ini diperkaya, permintaan boleh digunakan untuk menjalankan penyelidikan penting seperti yang ditunjukkan oleh Stephen Ansolabehere dan Eitan Hersh (2012) dalam penyelidikan mereka mengenai corak pengundian di Amerika Syarikat.

Golongan pengundi telah menjadi subjek penyelidikan yang luas dalam bidang sains politik, dan, pada masa lalu, pemahaman para penyelidik tentang siapa yang mengundi dan mengapa secara amnya didasarkan pada analisis data tinjauan. Walau bagaimanapun, pengundian di Amerika Syarikat adalah tingkah laku yang luarbiasa di mana kerajaan merekodkan sama ada setiap warganegara telah mengundi (tentu saja, kerajaan tidak merekodkan siapa setiap rakyat mendapat undi). Selama bertahun-tahun, rekod pengundian kerajaan ini boleh didapati di atas kertas, yang tersebar di beberapa pejabat kerajaan tempatan di seluruh negara. Ini menjadikannya sangat sukar, tetapi tidak mustahil, untuk para saintis politik mempunyai gambaran penuh pengundi dan membandingkan apa yang orang katakan dalam tinjauan mengenai pengundian dengan tingkah laku pengundian sebenar mereka (Ansolabehere and Hersh 2012) .

Tetapi rekod pengundian kini telah didigitalkan, dan beberapa syarikat swasta telah mengumpul secara sistematik dan menggabungkannya untuk menghasilkan fail pengundian tuan yang komprehensif yang mengandungi tingkah laku pengundian semua orang Amerika. Ansolabehere dan Hersh bekerjasama dengan salah satu daripada syarikat-Catalyst LCC-untuk menggunakan fail pengundian tuan mereka untuk membantu membangunkan gambaran yang lebih baik pengundi. Selanjutnya, kerana kajian mereka bergantung pada rekod digital yang dikumpulkan dan dikendalikan oleh sebuah syarikat yang telah melabur sumber yang besar dalam pengumpulan data dan pengharmonian, ia menawarkan sejumlah kelebihan terhadap usaha terdahulu yang telah dilakukan tanpa bantuan syarikat dan dengan menggunakan rekod analog.

Seperti banyak sumber data besar dalam bab 2, fail master Catalist tidak termasuk banyak maklumat demografi, sikap, dan tingkah laku yang diperlukan oleh Ansolabehere dan Hersh. Malah, mereka amat berminat untuk membandingkan tingkah laku pengundian yang dilaporkan dalam tinjauan dengan tingkah laku pengundian yang sah (iaitu, maklumat dalam pangkalan data Catalist). Jadi Ansolabehere dan Hersh mengumpul data yang mereka mahu sebagai tinjauan sosial yang besar, CCES, yang disebutkan sebelumnya dalam bab ini. Kemudian mereka memberikan data kepada Catalist, dan Catalist memberikan mereka kembali satu fail data yang disatukan yang termasuk tingkah laku pengundian yang disahkan (dari Catalist), tingkah laku pengundian diri (dari CCES) dan demografi dan sikap responden (dari CCES) (angka 3.13). Dalam erti kata lain, Ansolabehere dan Hersh menggabungkan data rekod mengundi dengan data tinjauan supaya penyelidikan yang tidak mungkin sama ada dengan sumber data secara individu.

Rajah 3.13: Skematik kajian oleh Ansolabehere dan Hersh (2012). Untuk membuat fail data tuan, Catalist menggabungkan dan mengharmonikan maklumat dari pelbagai sumber. Proses penggabungan, tidak kira betapa berhati-hati, akan menyebarkan kesilapan dalam sumber data asal dan akan memperkenalkan kesilapan baru. Sumber kedua kesilapan adalah hubungan rekod antara data tinjauan dan fail data induk. Sekiranya setiap orang mempunyai pengenalpastian yang stabil, unik dalam kedua-dua sumber data, maka hubungan akan menjadi remeh. Tetapi, Catalist perlu melakukan hubungan dengan menggunakan pengecam yang tidak sempurna, dalam nama kes ini, jantina, tahun kelahiran, dan alamat rumah. Malangnya, bagi banyak kes, maklumat tidak lengkap atau tidak tepat; seorang pemilih bernama Homer Simpson mungkin muncul sebagai Homer Jay Simpson, Homie J Simpson, atau Homer Sampsin. Meskipun potensi kesalahan dalam data dan data kesalahan tayang Catalist dalam hubungan rekod, Ansolabehere dan Hersh dapat membina keyakinan terhadap anggaran mereka melalui beberapa jenis pemeriksaan.

Rajah 3.13: Skematik kajian oleh Ansolabehere and Hersh (2012) . Untuk membuat fail data tuan, Catalist menggabungkan dan mengharmonikan maklumat dari pelbagai sumber. Proses penggabungan, tidak kira betapa berhati-hati, akan menyebarkan kesilapan dalam sumber data asal dan akan memperkenalkan kesilapan baru. Sumber kedua kesilapan adalah hubungan rekod antara data tinjauan dan fail data induk. Sekiranya setiap orang mempunyai pengenalpastian yang stabil, unik dalam kedua-dua sumber data, maka hubungan akan menjadi remeh. Tetapi, Catalist perlu melakukan hubungan dengan menggunakan pengecam yang tidak sempurna, dalam nama kes ini, jantina, tahun kelahiran, dan alamat rumah. Malangnya, bagi banyak kes, maklumat tidak lengkap atau tidak tepat; seorang pemilih bernama Homer Simpson mungkin muncul sebagai Homer Jay Simpson, Homie J Simpson, atau Homer Sampsin. Meskipun potensi kesalahan dalam data dan data kesalahan tayang Catalist dalam hubungan rekod, Ansolabehere dan Hersh dapat membina keyakinan terhadap anggaran mereka melalui beberapa jenis pemeriksaan.

Dengan data gabungan mereka, Ansolabehere dan Hersh menghasilkan tiga kesimpulan penting. Pertama, pelaporan lebih banyak pengundian berleluasa: hampir separuh daripada pemilih yang tidak mengundi mengundi, dan jika seseorang dilaporkan mengundi, hanya ada peluang 80% yang mereka undi. Kedua, lebihan pelaporan tidak rawak: pelaporan lebih tinggi adalah lebih umum di kalangan berpenghasilan tinggi, berpendidikan tinggi, partisan yang terlibat dalam hal ehwal awam. Dalam erti kata lain, orang-orang yang paling mungkin mengundi juga kemungkinan besar berbohong mengenai pengundian. Ketiga, dan paling kritis, disebabkan sifat pelaporan yang sistematik, perbezaan sebenar antara pengundi dan bukan pemilih adalah lebih kecil daripada yang ditunjukkan hanya dari tinjauan. Sebagai contoh, mereka yang mempunyai ijazah sarjana muda adalah kira-kira 22 mata peratusan yang lebih berkemungkinan untuk melaporkan pengundian, tetapi hanya 10 mata peratusan yang lebih berkemungkinan untuk mengundi. Ternyata, mungkin tidak menghairankan, bahawa teori pengundian berasaskan sumber sedia ada jauh lebih baik untuk meramalkan siapa yang akan melaporkan pengundian (yang merupakan data yang digunakan oleh para penyelidik pada masa lalu) daripada mereka yang meramalkan siapa sebenarnya undi. Oleh itu, Ansolabehere and Hersh (2012) empirik dari Ansolabehere and Hersh (2012) memanggil teori-teori baru untuk memahami dan meramalkan pengundian.

Tetapi sejauh mana kita harus mempercayai hasil ini? Ingat, keputusan ini bergantung pada rantaian ralat yang menghubungkan ke data kotak hitam dengan jumlah ralat yang tidak diketahui. Lebih terperinci, hasilnya bergantung pada dua langkah utama: (1) keupayaan Catalist menggabungkan banyak sumber data yang berbeza untuk menghasilkan fail data induk yang tepat dan (2) keupayaan Catalist menghubungkan data tinjauan ke fail data tuannya. Setiap langkah ini adalah sukar, dan kesilapan dalam salah satu langkah boleh membawa penyelidik ke kesimpulan yang salah. Walau bagaimanapun, kedua-dua pemprosesan dan penyambungan data adalah kritikal untuk kewujudan Catalist sebagai sebuah syarikat, sehingga dapat melabur sumber-sumber dalam menyelesaikan masalah-masalah ini, seringkali pada skala yang tidak sesuai dengan peneliti akademik. Di dalam kertas mereka, Ansolabehere dan Hersh meneruskan beberapa langkah untuk memeriksa keputusan kedua-dua langkah tersebut-walaupun sesetengahnya adalah proprietari-dan pemeriksaan ini mungkin berguna untuk penyelidik lain yang ingin menghubungkan data tinjauan ke data besar hitam kotak sumber.

Apakah pengajaran umum yang boleh diambil oleh penyelidik dari kajian ini? Pertama, terdapat nilai yang luar biasa baik dari memperkaya sumber data besar dengan data tinjauan dan dari memperkaya data tinjauan dengan sumber data besar (anda dapat melihat kajian ini sama ada dengan cara). Dengan menggabungkan kedua-dua sumber data ini, penyelidik dapat melakukan sesuatu yang tidak mungkin sama ada secara individu. Pelajaran umum kedua ialah walaupun sumber data komersial yang agregat, seperti data dari Catalist, tidak boleh dianggap sebagai "kebenaran tanah", dalam beberapa kes, ia boleh berguna. Skeptis kadangkala membandingkan sumber data komersil yang agregat dengan Kebenaran mutlak dan menunjukkan bahawa sumber data ini berkurang. Bagaimanapun, dalam kes ini, skeptis membuat perbandingan yang salah: semua data yang digunakan oleh para penyelidik tidak mempunyai Kebenaran mutlak. Sebaliknya, lebih baik membandingkan sumber data komersial yang agregat dengan sumber data lain yang tersedia (misalnya, tingkah laku pengundian diri), yang selalu mempunyai ralat juga. Akhir sekali, pengajaran umum ketiga kajian Ansolabehere dan Hersh adalah bahawa dalam beberapa situasi, para penyelidik boleh mendapat manfaat daripada pelaburan besar yang banyak syarikat swasta membuat dalam mengumpulkan dan menyelaraskan set data sosial yang rumit.