ulasan lanjut

Seksyen ini direka untuk digunakan sebagai rujukan, dan bukannya untuk dibaca sebagai cerita.

  • Pengenalan (Seksyen 3.1)

Banyak tema di dalam bab ini juga telah bergema di Alamat Presiden baru-baru ini di Amerika Persatuan Penyelidikan Pendapat Awam (AAPOR), seperti Dillman (2002) , Newport (2011) , Santos (2014) , dan Link (2015) .

Untuk latar belakang lebih sejarah mengenai pembangunan penyelidikan kajian, lihat Smith (1976) dan Converse (1987) . Untuk maklumat lanjut mengenai idea tiga era penyelidikan kajian, lihat Groves (2011) dan Dillman, Smyth, and Christian (2008) (yang terputus tiga era sedikit berbeza).

A puncak dalam peralihan dari yang pertama untuk era kedua dalam kajian penyelidikan adalah Groves and Kahn (1979) , yang melakukan perbandingan terperinci kepala-kepala antara muka-ke-muka dan kajian telefon. Brick and Tucker (2007) kelihatan kembali pada sejarah perkembangan digit rawak kaedah persampelan dailan.

Untuk lebih lanjut bagaimana kajian penyelidikan telah berubah pada masa lalu sebagai tindak balas kepada perubahan dalam masyarakat, lihat Tourangeau (2004) , Mitofsky (1989) , dan Couper (2011) .

  • Meminta vs memerhatikan (Seksyen 3.2)

Belajar mengenai negeri dalaman dengan bertanya soalan boleh menimbulkan masalah kerana kadang-kadang responden sendiri tidak menyedari negeri dalaman mereka. Sebagai contoh, Nisbett and Wilson (1977) mempunyai kertas yang indah dengan tajuk anggun: "Memberitahu lebih daripada kita boleh tahu:. Laporan lisan kepada proses mental" Dalam karya penulis membuat kesimpulan: "mata pelajaran kadang-kadang (a) tidak menyedari kewujudan rangsangan yang penting mempengaruhi respons, (b) menyedari kewujudan sambutan, dan (c) tidak sedar bahawa rangsangan telah memberi kesan kepada tindak balas. "

Untuk hujah bahawa penyelidik lebih suka tingkah laku diperhatikan tingkah laku dilaporkan atau sikap, lihat Baumeister, Vohs, and Funder (2007) (psikologi) dan Jerolmack and Khan (2014) dan respons (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (sosiologi). Perbezaan antara bertanya dan memerhatikan juga timbul dalam bidang ekonomi, di mana penyelidik bercakap tentang keutamaan dinyatakan dan didedahkan. Sebagai contoh, penyelidik boleh meminta responden sama ada mereka lebih suka makan ais krim atau pergi ke gym (keutamaan dinyatakan) atau penyelidikan yang boleh memerhatikan kekerapan makan ais krim dan pergi ke gimnasium (keutamaan didedahkan). Terdapat keraguan dalam beberapa jenis data keutamaan yang dinyatakan dalam bidang ekonomi (Hausman 2012) .

Satu tema utama dari perdebatan ini adalah bahawa tingkah laku yang dilaporkan tidak selalunya tepat. Tetapi, tingkah laku direkodkan secara automatik mungkin tidak tepat, tidak boleh diambil pada sampel yang menarik, dan mungkin tidak boleh diakses oleh penyelidik. Oleh itu, dalam sesetengah keadaan, saya berfikir bahawa tingkah laku yang dilaporkan boleh berguna. Di samping itu, tema utama kedua dari perdebatan ini adalah bahawa laporan mengenai emosi, pengetahuan, harapan, dan pendapat tidak selalunya tepat. Tetapi, jika maklumat mengenai negara dalaman yang diperlukan oleh penyelidik-sama ada untuk membantu menjelaskan beberapa tingkah laku atau sebagai perkara yang hendaklah diterangkan-kemudian meminta mana yang sesuai.

  • Jumlah ralat kajian (Bahagian 3.3)

Untuk rawatan panjang buku mengenai jumlah ralat kajian, lihat Groves et al. (2009) atau Weisberg (2005) . Untuk sejarah perkembangan jumlah ralat kajian, lihat Groves and Lyberg (2010) .

Dari segi perwakilan, pengenalan yang baik kepada isu-isu bukan tindak balas dan bukan sambutan-berat sebelah adalah laporan Majlis Penyelidikan Kebangsaan Nonresponse dalam Surveys Sains Sosial: A Agenda Penyelidikan (2013) . Satu lagi gambaran yang berguna disediakan oleh (Groves 2006) . Juga, keseluruhan isu-isu khas Jurnal Rasmi Perangkaan Pendapat Awam Quarterly, dan The Annals of American Academy of Politik dan Sains Sosial telah diterbitkan pada topik bukan tindak balas. Akhir sekali, sebenarnya ada banyak cara yang berbeza untuk mengira kadar tindak balas; pendekatan ini diterangkan secara terperinci dalam laporan oleh Persatuan Amerika Pendapat Awam Penyelidik (AAPOR) (Public Opinion Researchers} 2015) .

1936 Literary Digest suara telah dikaji secara terperinci (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . Ia juga telah digunakan sebagai perumpamaan untuk memberi amaran terhadap pengumpulan data yang tidak teratur (Gayo-Avello 2011) . Pada tahun 1936, George Gallup digunakan bentuk yang lebih sofistikated persampelan, dan dapat menghasilkan anggaran yang lebih tepat dengan sampel yang lebih kecil. Kejayaan Gallup sejak Literary Digest adalah pencapaian pembangunan penyelidikan kaji selidik (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .

Dari segi ukuran, sumber yang besar pertama bagi soal selidik mereka bentuk adalah Bradburn, Sudman, and Wansink (2004) . Untuk rawatan yang lebih maju memberi tumpuan khusus kepada soalan sikap, lihat Schuman and Presser (1996) . Pada soalan pra-ujian lanjut boleh didapati di Presser and Blair (1994) , Presser et al. (2004) , dan Bab 8 Groves et al. (2009) .

Rawatan klasik, buku-panjang daripada keseimbangan antara kos kajian dan kesilapan penyiasatan ialah Groves (2004) .

  • Siapa yang meminta (Seksyen 3.4)

Classic rawatan buku-panjang pensampelan kebarangkalian standard dan anggaran adalah Lohr (2009) (pengenalan lebih) dan Särndal, Swensson, and Wretman (2003) (lebih maju). Rawatan buku-panjang klasik kaedah pasca stratifikasi dan berkaitan adalah Särndal and Lundström (2005) . Dalam beberapa tetapan zaman digital, penyelidik tahu sedikit sebanyak mengenai bukan responden, yang tidak selalu benar pada masa lalu. Pelbagai bentuk pelarasan yang tidak memberi jawapan yang mungkin apabila penyelidik mempunyai maklumat tentang bukan responden (Kalton and Flores-Cervantes 2003; Smith 2011) .

Kajian Xbox daripada Wang et al. (2015) menggunakan teknik yang dipanggil regresi pelbagai peringkat dan selepas stratifikasi (MRP, kadang-kadang dipanggil "Mister P") yang membolehkan penyelidik untuk menganggarkan sel bermakna walaupun terdapat banyak, banyak sel. Walaupun terdapat perdebatan tentang kualiti anggaran dari teknik ini, ia seolah-olah seperti kawasan menjanjikan untuk meneroka. Teknik ini pertama kali digunakan dalam Park, Gelman, and Bafumi (2004) , dan telah digunakan dan perbahasan berikutnya (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Untuk maklumat lanjut mengenai hubungan antara berat individu dan berat berasaskan sel melihat Gelman (2007) .

Untuk pendekatan lain kaji selidik web pemberat, lihat Schonlau et al. (2009) , Valliant and Dever (2011) , dan Bethlehem (2010) .

Sepadan sampel telah dicadangkan oleh Rivers (2007) . Bethlehem (2015) berpendapat bahawa prestasi sampel yang hampir sama sebenarnya akan sama dengan pendekatan yang lain persampelan (contohnya, pensampelan berstrata) dan pendekatan pelarasan lain (contohnya, selepas stratifikasi). Untuk maklumat lanjut mengenai panel dalam talian, melihat Callegaro et al. (2014) .

Kadang-kadang penyelidik telah mendapati bahawa sampel kebarangkalian dan sampel bukan kebarangkalian menghasilkan anggaran kualiti yang sama (Ansolabehere and Schaffner 2014) , tetapi perbandingan yang lain telah mendapati bahawa sampel bukan kebarangkalian melakukan lebih teruk (Malhotra and Krosnick 2007; Yeager et al. 2011) . Satu sebab yang mungkin bagi perbezaan ini adalah bahawa sampel bukan kebarangkalian telah bertambah baik dari masa ke masa. Untuk paparan yang lebih pesimis kaedah persampelan bukan kebarangkalian melihat Pasukan Petugas AAPOR on Non-kebarangkalian Sampling (Baker et al. 2013) , dan saya juga mengesyorkan membaca komentar yang berikut laporan ringkasan.

Untuk satu meta-analisis mengenai kesan skema jawapan untuk mengurangkan berat sebelah dalam sampel bukan kebarangkalian, lihat Jadual 2.4 di Tourangeau, Conrad, and Couper (2013) , yang membawa penulis untuk membuat kesimpulan "pelarasan seolah-olah menjadi pembetulan berguna tetapi berbuat silap. . . "

  • Bagaimana untuk meminta (Seksyen 3.5)

Conrad and Schober (2008) menyediakan jumlah disunting bertajuk Membayangkan Interview Survey di Masa Depan, dan ia menangani banyak tema di dalam seksyen ini. Couper (2011) menangani tema yang sama, dan Schober et al. (2015) menawarkan satu contoh yang baik bagaimana kaedah pengumpulan data yang disesuaikan dengan suasana yang baru boleh menyebabkan data yang lebih berkualiti.

Untuk satu lagi contoh yang menarik daripada menggunakan aplikasi Facebook untuk kaji sains sosial, lihat Bail (2015) .

Untuk nasihat yang lebih kepada membuat kaji selidik pengalaman yang menyeronokkan dan berharga untuk peserta, melihat kerja-kerja disesuaikan Kaedah Reka Bentuk (Dillman, Smyth, and Christian 2014) .

Stone et al. (2007) menawarkan rawatan panjang kitab penilaian seketika ekologi dan kaedah yang berkaitan.

  • Surveys dikaitkan dengan data yang lain (Seksyen 3.6)

Judson (2007) menyifatkan proses menggabungkan tinjauan dan data pentadbiran sebagai "integrasi maklumat," membincangkan beberapa kelebihan pendekatan ini, dan menawarkan beberapa contoh.

Cara lain yang penyelidik boleh menggunakan kesan digital dan data pentadbiran adalah rangka persampelan bagi orang-orang dengan ciri-ciri tertentu. Walau bagaimanapun, mengakses rekod-rekod ini akan digunakan rangka persampelan juga boleh membuat soalan yang berkaitan dengan privasi (Beskow, Sandler, and Weinberger 2006) .

Mengenai meminta dikuatkan, pendekatan ini tidak seperti baru kerana ia mungkin muncul dari bagaimana saya telah menyifatkannya. Pendekatan ini mempunyai hubungan yang mendalam kepada tiga kawasan yang besar di berasaskan statistik-model pasca stratifikasi (Little 1993) , tohmahan (Rubin 2004) , dan kawasan anggaran kecil (Rao and Molina 2015) . Ia juga berkaitan dengan penggunaan pembolehubah tumpang dalam penyelidikan perubatan (Pepe 1992) .

Selain daripada isu-isu etika mengenai mengakses data surih digital, meminta dikuatkan juga boleh digunakan untuk membuat kesimpulan sifat-sifat sensitif yang orang mungkin memilih untuk tidak mendedahkan dalam penyiasatan (Kosinski, Stillwell, and Graepel 2013) .

Anggaran kos dan masa dalam Blumenstock, Cadamuro, and On (2015) merujuk lebih kepada pembolehubah kos-kos satu kos kajian dan tambahan tidak termasuk tetap seperti kos untuk membersihkan dan memproses data panggilan. Secara umum, meminta dikuatkan mungkin akan mempunyai kos tetap yang tinggi dan kos berubah rendah sama dengan eksperimen digital (lihat Bab 4). Maklumat lanjut mengenai data yang digunakan dalam Blumenstock, Cadamuro, and On (2015) kertas berada dalam Blumenstock and Eagle (2010) dan Blumenstock and Eagle (2012) . Pendekatan dari pelbagai imputuation (Rubin 2004) mungkin membantu ketidakpastian tangkapan dalam anggaran daripada meminta dikuatkan. Jika penyelidik melakukan tindakan dikuatkan meminta hanya mengambil berat tentang tuduhan agregat, dan bukannya ciri-ciri individu-tahap, maka pendekatan dalam King and Lu (2008) dan Hopkins and King (2010) mungkin berguna. Untuk maklumat lanjut mengenai pendekatan pembelajaran mesin dalam Blumenstock, Cadamuro, and On (2015) , lihat James et al. (2013) (more pengenalan) atau Hastie, Tibshirani, and Friedman (2009) (lebih maju). Satu lagi pembelajaran mesin buku teks popular adalah Murphy (2012) .

Mengenai meminta diperkaya, keputusan dalam Ansolabehere dan Hersh (2012) engsel pada dua langkah utama: 1) keupayaan Catalist untuk menggabungkan banyak sumber data berbeza untuk menghasilkan datafile master tepat dan 2) keupayaan Catalist untuk menghubungkan data kajian untuk datafile tuannya. Oleh itu, Ansolabehere dan Hersh memeriksa setiap langkah-langkah berhati-hati.

Untuk membuat datafile tuan, Catalist menggabungkan dan mengharmonikan maklumat daripada pelbagai sumber yang berbeza termasuk: pelbagai rekod mengundi gambar dari setiap negeri, data dari Pejabat Pos Kebangsaan Tukar Pendaftaran Alamat dan data daripada pembekal komersial tidak ditentukan lain. Butiran ngeri tentang bagaimana semua pembersihan ini dan penggabungan yang berlaku adalah di luar skop buku ini, tetapi proses ini, tidak kira betapa berhati-hati, akan menyebarkan kesilapan dalam sumber data asal dan akan memperkenalkan kesilapan. Walaupun Catalist bersedia untuk membincangkan pemprosesan data dan menyediakan beberapa data mentah, ia adalah hanya mustahil bagi penyelidik untuk mengkaji semula keseluruhan saluran paip data Catalist. Sebaliknya, penyelidik dalam situasi di mana fail data Catalist mempunyai tertentu yang tidak diketahui, dan mungkin tidak dapat diketahui, jumlah kesilapan. Ini adalah satu kebimbangan yang serius kerana pengkritik mungkin spekulasi bahawa perbezaan besar antara laporan kajian mengenai CCES dan tingkah laku dalam fail data induk Catalist disebabkan oleh kesilapan dalam fail data induk, bukan dengan salah laporan oleh responden.

Ansolabehere dan Hersh mengambil dua pendekatan yang berbeza untuk menangani kebimbangan kualiti data. Pertama, di samping membandingkan mengundi dilaporkan sendiri untuk mengundi dalam fail induk Catalist, penyelidik juga berbanding parti yang dilaporkan sendiri, bangsa, status pendaftaran pengundi (contohnya, yang berdaftar atau tidak berdaftar) dan kaedah mengundi (contohnya, secara peribadi, tidak hadir undi, dan lain-lain) kepada nilai dijumpai di dalam pangkalan data Catalist. Kepada keempat pembolehubah demografi, penyelidik mendapati tahap yang lebih tinggi daripada perjanjian antara laporan kaji selidik dan data dalam fail induk Catalist daripada untuk mengundi. Oleh itu, Catalist fail data induk nampaknya mempunyai maklumat yang berkualiti tinggi untuk ciri-ciri lain daripada mengundi, menunjukkan bahawa ia bukan dari kualiti keseluruhan miskin. Kedua, sebahagiannya menggunakan data daripada Catalist, Ansolabehere dan Hersh membangunkan tiga langkah-langkah yang berbeza kualiti rekod pengundian daerah, dan mereka mendapati bahawa kadar anggaran lebih-laporan pengundian pada dasarnya tidak berkaitan dengan mana-mana langkah-langkah kualiti data, dapatan bahawa mencadangkan bahawa kadar yang tinggi lebih-laporan tidak dipandu oleh daerah-daerah dengan kualiti data yang luar biasa rendah.

Memandangkan penciptaan ini fail mengundi master, sumber kedua kesilapan yang berpotensi menghubungkan rekod kajian kepadanya. Sebagai contoh, jika hubungan ini dilakukan tidak betul ia boleh membawa kepada lebih-anggaran perbezaan antara tingkah laku pengundian dilaporkan dan disahkan (Neter, Maynes, and Ramanathan 1965) . Jika setiap orang mempunyai stabil, pengecam unik yang ada di kedua-dua sumber data, maka hubungan akan menjadi remeh. Di negara-negara lain Amerika Syarikat dan yang paling, bagaimanapun, tidak ada pengecam universal. Di samping itu, walaupun terdapat apa-apa orang pengecam mungkin akan teragak-agak untuk menyediakan ia untuk meninjau penyelidik! Oleh itu, Catalist terpaksa melakukan hubungan yang menggunakan pengecam yang tidak sempurna, dalam kes ini empat keping maklumat tentang setiap responden: nama, jantina, tahun kelahiran dan alamat rumah. Sebagai contoh, Catalist terpaksa membuat keputusan jika Homie J Simpson dalam CCES adalah orang yang sama dengan Homer Jay Simpson dalam fail data tuan mereka. Dalam amalan, yang hampir sama adalah satu proses yang sukar dan tidak kemas, dan, untuk membuat perkara-perkara yang lebih buruk bagi penyelidik, Catalist dianggap teknik yang hampir sama untuk menjadi hak milik.

Dalam usaha untuk mengesahkan algoritma yang hampir sama, mereka bergantung pada dua cabaran. Pertama, Catalist mengambil bahagian dalam pertandingan yang hampir sama yang telah dijalankan oleh pihak ketiga yang bebas,: yang MITRE Corporation. MITRE syarat semua peserta dua fail data bising untuk dipadankan, dan pasukan yang berbeza bersaing untuk kembali ke MITRE padanan terbaik. Kerana MITRE sendiri tahu padanan yang betul mereka mampu untuk menjaringkan pasukan. Daripada 40 syarikat yang bertanding, Catalist datang di tempat kedua. Ini jenis bebas, penilaian pihak ketiga teknologi proprietari adalah agak jarang berlaku dan sangat berharga; ia harus memberi kita keyakinan bahawa prosedur yang hampir sama Catalist ini pada dasarnya di state-of-the-art. Tetapi adakah negeri-of-the-art yang cukup baik? Selain pertandingan yang hampir sama ini, Ansolabehere dan Hersh dicipta cabaran yang hampir sama mereka sendiri untuk Catalist. Daripada projek yang lebih awal, Ansolabehere dan Hersh telah mengumpul rekod pengundi dari Florida. Mereka menyediakan beberapa rekod-rekod ini dengan beberapa bidang masing-masing disunting untuk Catalist dan kemudian dibandingkan laporan Catalist terhadap bidang ini dengan nilai-nilai sebenar mereka. Mujurlah, laporan Catalist yang rapat dengan nilai-nilai yang ditahan, menunjukkan bahawa Catalist dapat menandingi rekod pengundi separa pada fail data tuan mereka. Kedua-dua cabaran, satu oleh pihak ketiga dan satu demi Ansolabehere dan Hersh, memberi kita lebih keyakinan dalam algoritma sepadan Catalist, walaupun kita tidak boleh menyemak pelaksanaan yang tepat mereka diri kita sendiri.

Terdapat banyak percubaan sebelum ini untuk mengesahkan mengundi. Untuk gambaran keseluruhan kesusasteraan yang, lihat Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , dan Hanmer, Banks, and White (2014) .

Adalah penting untuk ambil perhatian bahawa walaupun dalam kes ini penyelidik digalakkan oleh kualiti data dari Catalist, penilaian lain vendor komersial telah kurang bersemangat. Para penyelidik telah mendapati kualiti miskin apabila data daripada kajian kepada pengguna-fail dari Marketing Systems Group (yang terdiri digabungkan bersama-sama data daripada tiga pembekal: Acxiom, Experian, dan InfoUSA) (Pasek et al. 2014) . Iaitu, fail data tidak sepadan dengan maklumbalas kajian penyelidik dijangka sebagai betul, datafile telah data untuk sebilangan besar soalan-soalan, dan corak data yang hilang hilang itu dikaitkan dengan nilai kajian dilaporkan (dalam erti kata lain data yang hilang adalah sistematik , bukan rawak).

Untuk maklumat lanjut mengenai hubungan antara rekod tinjauan dan data pentadbiran, lihat Sakshaug and Kreuter (2012) dan Schnell (2013) . Untuk maklumat lanjut mengenai rekod hubungan secara umum, lihat Dunn (1946) dan Fellegi and Sunter (1969) (historical) dan Larsen and Winkler (2014) (moden). Pendekatan yang sama juga telah dibangunkan dalam bidang sains komputer di bawah nama-nama seperti deduplication data, pengenalan contoh, nama yang hampir sama, pengesanan pendua dan salinan pengesanan rekod (Elmagarmid, Ipeirotis, and Verykios 2007) . Terdapat juga privasi memelihara pendekatan untuk merakam hubungan yang tidak memerlukan penghantaran maklumat pengenalan peribadi (Schnell 2013) . Penyelidik di Facebook dibangunkan prosedur untuk probabilisticsly menghubungkan rekod mereka kepada tingkah laku mengundi (Jones et al. 2013) ; hubungan ini dilakukan untuk menilai satu eksperimen yang saya akan memberitahu anda kira-kira dalam Bab 4 (Bond et al. 2012) .

Satu lagi contoh yang mengaitkan kajian sosial besar-besaran untuk rekod pentadbiran kerajaan berasal dari Pentadbiran Keselamatan Sosial Kesihatan dan Ukur Persaraan dan. Untuk maklumat lanjut mengenai kajian itu, termasuk maklumat mengenai prosedur kebenaran, lihat Olson (1996) dan Olson (1999) .

Proses menggabungkan banyak sumber rekod pentadbiran menjadi tuan datafile-proses yang Catalist pekerja-adalah perkara biasa di pejabat statistik beberapa kerajaan negara. Dua penyelidik Statistik Sweden telah menulis sebuah buku yang terperinci mengenai topik ini (Wallgren and Wallgren 2007) . Untuk contoh pendekatan ini dalam sebuah daerah tunggal di Amerika Syarikat (Olmstead County, Minnesota; rumah Klinik Mayo), lihat Sauver et al. (2011) . Untuk maklumat lanjut mengenai kesilapan yang boleh muncul dalam rekod pentadbiran, lihat Groen (2012) .