3.6.1 Diperkaya bertanya

Dalam permintaan yang diperkaya, data survei membangun konteks di sekitar sumber data besar yang berisi beberapa pengukuran penting tetapi kekurangan yang lain.

Salah satu cara untuk menggabungkan data survei dan sumber data besar adalah proses yang akan saya sebut permintaan yang diperkaya . Dalam permintaan yang diperkaya, sumber data besar berisi beberapa pengukuran penting tetapi tidak memiliki pengukuran lain sehingga peneliti mengumpulkan pengukuran yang hilang ini dalam survei dan kemudian menghubungkan dua sumber data bersama-sama. Salah satu contoh permintaan yang diperkaya adalah studi oleh Burke and Kraut (2014) tentang apakah berinteraksi di Facebook meningkatkan kekuatan persahabatan, yang saya jelaskan di bagian 3.2). Dalam hal ini, Burke dan Kraut menggabungkan data survei dengan data log Facebook.

Namun, pengaturan di mana Burke dan Kraut bekerja, berarti bahwa mereka tidak harus berurusan dengan dua masalah besar yang biasanya dihadapi oleh para periset. Pertama, sebenarnya menghubungkan kumpulan data tingkat individu, proses yang disebut rekam jejak , bisa sulit jika tidak ada pengenal unik di kedua sumber data yang dapat digunakan untuk memastikan bahwa data yang benar dalam satu kumpulan data dicocokkan dengan catatan yang benar. di dataset lain. Masalah utama kedua dengan permintaan yang diperkaya adalah bahwa kualitas sumber data yang besar akan sering sulit bagi para peneliti untuk menilai karena proses di mana data dibuat mungkin milik dan bisa rentan terhadap banyak masalah yang dijelaskan dalam bab 2. Dengan kata lain, permintaan yang diperkaya sering kali akan melibatkan rujukan yang salah pada survei ke sumber data black-box yang tidak diketahui kualitasnya. Meskipun masalah ini, bagaimanapun, permintaan yang diperkaya dapat digunakan untuk melakukan penelitian penting, seperti yang ditunjukkan oleh Stephen Ansolabehere dan Eitan Hersh (2012) dalam penelitian mereka tentang pola pemungutan suara di Amerika Serikat.

Partisipasi pemilih telah menjadi subjek penelitian yang luas dalam ilmu politik, dan, di masa lalu, pemahaman peneliti tentang siapa yang memilih dan mengapa secara umum didasarkan pada analisis data survei. Voting di Amerika Serikat, bagaimanapun, adalah perilaku yang tidak biasa dalam catatan pemerintah apakah setiap warga negara telah memilih (tentu saja, pemerintah tidak mencatat siapa yang dipilih setiap warga negara). Selama bertahun-tahun, catatan pemungutan suara pemerintah ini tersedia dalam bentuk kertas, tersebar di berbagai kantor pemerintah daerah di seluruh negeri. Hal ini membuatnya sangat sulit, tetapi bukan tidak mungkin, bagi para ilmuwan politik untuk memiliki gambaran lengkap tentang pemilih dan untuk membandingkan apa yang dikatakan orang dalam survei tentang pemungutan suara dengan perilaku voting mereka yang sebenarnya (Ansolabehere and Hersh 2012) .

Tapi catatan pemungutan suara ini sekarang telah didigitalkan, dan sejumlah perusahaan swasta secara sistematis mengumpulkan dan menggabungkan mereka untuk menghasilkan file pemungutan suara komprehensif yang berisi perilaku memilih semua orang Amerika. Ansolabehere dan Hersh bermitra dengan salah satu perusahaan ini — Catalist LCC — untuk menggunakan file pemungutan suara mereka untuk membantu mengembangkan gambaran yang lebih baik tentang pemilih. Lebih lanjut, karena studi mereka bergantung pada catatan digital yang dikumpulkan dan dikuratori oleh perusahaan yang telah menginvestasikan sumber daya substansial dalam pengumpulan data dan harmonisasi, ia menawarkan sejumlah keunggulan dibandingkan upaya sebelumnya yang telah dilakukan tanpa bantuan perusahaan dan dengan menggunakan catatan analog.

Seperti banyak sumber data besar di bab 2, file master Catalist tidak memasukkan banyak informasi demografis, sikap, dan perilaku yang diperlukan Ansolabehere dan Hersh. Bahkan, mereka sangat tertarik dalam membandingkan perilaku voting yang dilaporkan dalam survei dengan perilaku voting yang divalidasi (yaitu, informasi dalam database Catalist). Jadi Ansolabehere dan Hersh mengumpulkan data yang mereka inginkan sebagai survei sosial besar, CCES, yang disebutkan sebelumnya dalam bab ini. Kemudian mereka memberikan data mereka ke Catalist, dan Catalist memberi mereka kembali file data gabungan yang mencakup perilaku voting yang divalidasi (dari Catalist), perilaku voting yang dilaporkan sendiri (dari CCES) dan demografi dan sikap responden (dari CCES) (gambar 3.13). Dengan kata lain, Ansolabehere dan Hersh menggabungkan data rekaman suara dengan data survei untuk melakukan penelitian yang tidak mungkin dengan salah satu sumber data secara individual.

Gambar 3.13: Skema penelitian oleh Ansolabehere dan Hersh (2012). Untuk membuat data data master, Catalist menggabungkan dan menyelaraskan informasi dari berbagai sumber. Proses penggabungan ini, tidak peduli seberapa hati-hati, akan menyebarkan kesalahan dalam sumber data asli dan akan memperkenalkan kesalahan baru. Sumber kesalahan kedua adalah hubungan catatan antara data survei dan datafile induk. Jika setiap orang memiliki identifier yang stabil dan unik di kedua sumber data, maka hubungan akan sepele. Tapi, Catalist harus melakukan hubungan menggunakan pengidentifikasi yang tidak sempurna, dalam hal ini nama, jenis kelamin, tahun lahir, dan alamat rumah. Sayangnya, untuk banyak kasus mungkin ada informasi yang tidak lengkap atau tidak akurat; seorang pemilih bernama Homer Simpson mungkin muncul sebagai Homer Jay Simpson, Homie J Simpson, atau bahkan Homer Sampsin. Meskipun ada potensi kesalahan dalam data master Catalyst dan kesalahan dalam hubungan catatan, Ansolabehere dan Hersh mampu membangun kepercayaan dalam perkiraan mereka melalui beberapa jenis pemeriksaan yang berbeda.

Gambar 3.13: Skema penelitian oleh Ansolabehere and Hersh (2012) . Untuk membuat data data master, Catalist menggabungkan dan menyelaraskan informasi dari berbagai sumber. Proses penggabungan ini, tidak peduli seberapa hati-hati, akan menyebarkan kesalahan dalam sumber data asli dan akan memperkenalkan kesalahan baru. Sumber kesalahan kedua adalah hubungan catatan antara data survei dan datafile induk. Jika setiap orang memiliki identifier yang stabil dan unik di kedua sumber data, maka hubungan akan sepele. Tapi, Catalist harus melakukan hubungan menggunakan pengidentifikasi yang tidak sempurna, dalam hal ini nama, jenis kelamin, tahun lahir, dan alamat rumah. Sayangnya, untuk banyak kasus mungkin ada informasi yang tidak lengkap atau tidak akurat; seorang pemilih bernama Homer Simpson mungkin muncul sebagai Homer Jay Simpson, Homie J Simpson, atau bahkan Homer Sampsin. Meskipun ada potensi kesalahan dalam data master Catalyst dan kesalahan dalam hubungan catatan, Ansolabehere dan Hersh mampu membangun kepercayaan dalam perkiraan mereka melalui beberapa jenis pemeriksaan yang berbeda.

Dengan file data gabungan mereka, Ansolabehere dan Hersh mencapai tiga kesimpulan penting. Pertama, over-reporting voting merajalela: hampir setengah dari nonvoters melaporkan voting, dan jika seseorang melaporkan voting, hanya ada 80% kemungkinan bahwa mereka benar-benar memilih. Kedua, pelaporan yang berlebihan tidak acak: pelaporan yang berlebihan lebih umum di antara para partisan berpenghasilan tinggi, terdidik, dan terlibat dalam urusan publik. Dengan kata lain, orang-orang yang paling mungkin memilih juga kemungkinan besar berbohong tentang voting. Ketiga, dan paling kritis, karena sifat sistematis pelaporan yang berlebihan, perbedaan nyata antara pemilih dan non-pemilih lebih kecil daripada hanya muncul dari survei. Misalnya, mereka yang memiliki gelar sarjana adalah sekitar 22 persentase poin lebih cenderung melaporkan voting, tetapi hanya 10 persen lebih mungkin untuk benar-benar memilih. Ternyata, mungkin tidak mengherankan, bahwa teori pemilihan berbasis sumber daya yang ada jauh lebih baik dalam memprediksi siapa yang akan melaporkan pemungutan suara (yang merupakan data yang digunakan para peneliti di masa lalu) daripada memprediksi siapa yang benar-benar memberikan suara. Dengan demikian, temuan empiris Ansolabehere and Hersh (2012) menyerukan teori-teori baru untuk memahami dan memprediksi voting.

Tetapi seberapa banyak kita harus mempercayai hasil ini? Ingat, hasil ini bergantung pada kesalahan-rawan yang menghubungkan ke data kotak-hitam dengan jumlah kesalahan yang tidak diketahui. Lebih khusus lagi, hasil bergantung pada dua langkah kunci: (1) kemampuan Catalist untuk menggabungkan banyak sumber data yang berbeda untuk menghasilkan data master yang akurat dan (2) kemampuan Catalist untuk menghubungkan data survei ke datafile masternya. Masing-masing langkah ini sulit, dan kesalahan dalam salah satu langkah dapat mengarahkan peneliti ke kesimpulan yang salah. Namun, baik pemrosesan data dan penautan sangat penting bagi kelangsungan Catalist sebagai perusahaan, sehingga dapat menginvestasikan sumber daya dalam memecahkan masalah ini, sering pada skala yang tidak dapat ditandingi oleh peneliti akademik. Dalam makalahnya, Ansolabehere dan Hersh melalui sejumlah langkah untuk memeriksa hasil dari dua langkah ini — meskipun beberapa di antaranya adalah hak milik — dan pemeriksaan ini mungkin bermanfaat bagi peneliti lain yang ingin menghubungkan data survei ke black-box big data. sumber.

Apa saja pelajaran umum yang dapat ditarik oleh peneliti dari studi ini? Pertama, ada nilai luar biasa baik dari memperkaya sumber data besar dengan data survei dan dari memperkaya data survei dengan sumber data besar (Anda dapat melihat studi ini dengan cara baik). Dengan menggabungkan dua sumber data ini, para peneliti mampu melakukan sesuatu yang tidak mungkin dilakukan secara individual. Pelajaran umum kedua adalah bahwa meskipun sumber data komersial yang dikumpulkan, seperti data dari Catalist, tidak boleh dianggap sebagai “ground truth,” dalam beberapa kasus, mereka dapat berguna. Para skeptis kadang-kadang membandingkan sumber data komersial teragregasi ini dengan Kebenaran mutlak dan menunjukkan bahwa sumber data ini gagal. Namun, dalam kasus ini, para skeptis membuat perbandingan yang salah: semua data yang digunakan para peneliti tidak mencapai Kebenaran mutlak. Sebagai gantinya, lebih baik untuk membandingkan agregat, sumber data komersial dengan sumber data lain yang tersedia (misalnya, perilaku voting yang dilaporkan sendiri), yang selalu memiliki kesalahan juga. Akhirnya, pelajaran umum ketiga dari studi Ansolabehere dan Hersh adalah bahwa dalam beberapa situasi, para peneliti dapat mengambil manfaat dari investasi besar yang dilakukan banyak perusahaan swasta dalam mengumpulkan dan menyelaraskan kumpulan data sosial yang rumit.