3.4 Siapa yang meminta

Era digital membuat pengambilan sampel probabilitas dalam praktik lebih keras dan menciptakan peluang baru untuk sampling non-probabilitas.

Dalam sejarah sampling, ada dua pendekatan yang bersaing: metode sampling probabilitas dan metode sampling non-probabilitas. Meskipun kedua pendekatan digunakan pada hari-hari awal pengambilan sampel, sampling probabilitas telah mendominasi, dan banyak peneliti sosial diajarkan untuk melihat sampling non-probabilitas dengan skeptisisme yang besar. Namun, seperti yang akan saya jelaskan di bawah, perubahan yang diciptakan oleh era digital berarti sudah waktunya bagi para peneliti untuk mempertimbangkan kembali non-probability sampling. Secara khusus, pengambilan sampel probabilitas semakin sulit dilakukan, dan pengambilan sampel non-probabilitas semakin cepat, lebih murah, dan lebih baik. Survei yang lebih cepat dan lebih murah tidak hanya berakhir pada dirinya sendiri: mereka memungkinkan peluang baru seperti survei yang lebih sering dan ukuran sampel yang lebih besar. Misalnya, dengan menggunakan metode non-probabilitas, Cooperative Congressional Election Study (CCES) dapat memiliki sekitar 10 kali lebih banyak peserta daripada studi sebelumnya menggunakan probability sampling. Sampel yang jauh lebih besar ini memungkinkan para peneliti politik untuk mempelajari variasi dalam sikap dan perilaku di seluruh subkelompok dan konteks sosial. Selanjutnya, semua skala tambahan ini datang tanpa penurunan dalam kualitas perkiraan (Ansolabehere and Rivers 2013) .

Saat ini, pendekatan dominan untuk pengambilan sampel untuk penelitian sosial adalah sampling probabilitas . Dalam pengambilan sampel probabilitas, semua anggota populasi target memiliki probabilitas, bukan nol yang diketahui sebagai sampel, dan semua orang yang diambil sampelnya menanggapi survei. Ketika kondisi ini terpenuhi, hasil matematika yang elegan menawarkan jaminan yang meyakinkan tentang kemampuan peneliti untuk menggunakan sampel untuk membuat kesimpulan tentang populasi target.

Di dunia nyata, bagaimanapun, kondisi yang mendasari hasil matematika ini jarang terpenuhi. Misalnya, sering ada kesalahan cakupan dan nonresponse. Karena masalah ini, peneliti sering harus menggunakan berbagai penyesuaian statistik untuk membuat kesimpulan dari sampel mereka ke populasi target mereka. Dengan demikian, penting untuk membedakan antara pengambilan sampel probabilitas dalam teori , yang memiliki jaminan teoritis yang kuat, dan pengambilan sampel probabilitas dalam praktik , yang tidak menawarkan jaminan seperti itu dan bergantung pada berbagai penyesuaian statistik.

Seiring waktu, perbedaan antara sampling probabilitas dalam teori dan pengambilan sampel probabilitas dalam prakteknya telah meningkat. Sebagai contoh, tingkat nonresponse terus meningkat, bahkan dalam kualitas tinggi, survei mahal (gambar 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Tingkat nonresponse jauh lebih tinggi dalam survei telepon komersial — kadang-kadang bahkan setinggi 90% (Kohut et al. 2012) . Peningkatan ini dalam nonresponse mengancam kualitas perkiraan karena perkiraan semakin tergantung pada model statistik yang digunakan peneliti untuk menyesuaikan diri untuk tidak merespon. Lebih lanjut, penurunan kualitas ini terjadi meskipun upaya yang semakin mahal oleh para peneliti survei untuk mempertahankan tingkat respons yang tinggi. Beberapa orang takut bahwa tren kembar penurunan kualitas dan biaya yang meningkat ini mengancam fondasi penelitian survei (National Research Council 2013) .

Gambar 3.5: Nonresponse telah semakin mantap, bahkan dalam survei mahal berkualitas tinggi (National Research Council 2013; B. D. Meyer, Mok, dan Sullivan 2015). Tingkat nonresponse jauh lebih tinggi untuk survei telepon komersial, kadang-kadang bahkan setinggi 90% (Kohut et al. 2012). Tren jangka panjang dalam nonresponse berarti bahwa pengumpulan data lebih mahal dan perkiraan kurang dapat diandalkan. Diadaptasi dari B. D. Meyer, Mok, dan Sullivan (2015), gambar 1.

Gambar 3.5: Nonresponse telah semakin mantap, bahkan dalam survei mahal berkualitas tinggi (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Tingkat nonresponse jauh lebih tinggi untuk survei telepon komersial, kadang-kadang bahkan setinggi 90% (Kohut et al. 2012) . Tren jangka panjang dalam nonresponse berarti bahwa pengumpulan data lebih mahal dan perkiraan kurang dapat diandalkan. Diadaptasi dari BD Meyer, Mok, and Sullivan (2015) , gambar 1.

Pada saat yang sama bahwa ada kesulitan yang berkembang untuk metode sampling probabilitas, ada juga perkembangan menarik dalam metode sampling non-probabilitas . Ada berbagai gaya metode sampling non-probabilitas, tetapi satu hal yang mereka miliki adalah bahwa mereka tidak dapat dengan mudah masuk dalam kerangka kerja matematis dari sampling probabilitas (Baker et al. 2013) . Dengan kata lain, dalam metode sampling non-probabilitas tidak semua orang memiliki probabilitas inklusi yang diketahui dan tidak nol. Metode sampling non-probabilitas memiliki reputasi yang buruk di antara para peneliti sosial dan mereka terkait dengan beberapa kegagalan paling dramatis dari para peneliti survei, seperti kegagalan Sastra Digest (dibahas sebelumnya) dan "Dewey Defeats Truman," prediksi yang salah tentang AS. pemilihan presiden 1948 (gambar 3.6).

Gambar 3.6: Presiden Harry Truman memegang tajuk utama surat kabar yang telah salah mengumumkan kekalahannya. Judul ini sebagian didasarkan pada perkiraan dari sampel non-probabilitas (Mosteller 1949; Bean 1950; Freedman, Pisani, dan Purves 2007). Meskipun Dewey Defeats Truman terjadi pada tahun 1948, itu masih merupakan alasan mengapa beberapa peneliti skeptis tentang perkiraan dari sampel non-probabilitas. Sumber: Perpustakaan & Museum Harry S. Truman.

Gambar 3.6: Presiden Harry Truman memegang tajuk utama surat kabar yang telah salah mengumumkan kekalahannya. Judul ini sebagian didasarkan pada perkiraan dari sampel non-probabilitas (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) . Meskipun "Dewey Defeats Truman" terjadi pada tahun 1948, itu masih merupakan alasan mengapa beberapa peneliti skeptis tentang perkiraan dari sampel non-probabilitas. Sumber: Perpustakaan & Museum Harry S. Truman .

Salah satu bentuk non-probability sampling yang khusus sesuai dengan era digital adalah penggunaan panel online . Peneliti yang menggunakan panel online bergantung pada beberapa penyedia panel — biasanya perusahaan, pemerintah, atau universitas — untuk membangun sekelompok besar orang yang beragam yang setuju untuk melayani sebagai responden untuk survei. Para peserta panel ini sering direkrut menggunakan berbagai metode ad hoc seperti iklan spanduk online. Kemudian, seorang peneliti dapat membayar penyedia panel untuk akses ke sampel responden dengan karakteristik yang diinginkan (misalnya, perwakilan orang dewasa nasional). Panel-panel online ini adalah metode non-probabilitas karena tidak semua orang memiliki probabilitas inklusi yang diketahui, bukan nol. Meskipun panel online non-probabilitas sudah digunakan oleh peneliti sosial (misalnya, CCES), masih ada perdebatan tentang kualitas perkiraan yang datang dari mereka (Callegaro et al. 2014) .

Terlepas dari perdebatan ini, saya pikir ada dua alasan mengapa waktu yang tepat bagi peneliti sosial untuk mempertimbangkan kembali non-probability sampling. Pertama, di era digital, ada banyak perkembangan dalam pengumpulan dan analisis sampel non-probabilitas. Metode-metode baru ini cukup berbeda dari metode yang menyebabkan masalah di masa lalu yang saya pikir masuk akal untuk menganggap mereka sebagai "non-probability sampling 2.0." Alasan kedua mengapa peneliti harus mempertimbangkan kembali non-probability sampling adalah karena probabilitas sampling di latihan menjadi semakin sulit. Ketika ada tingkat tinggi non-respons - karena ada dalam survei nyata sekarang - probabilitas nyata inklusi untuk responden tidak diketahui, dan dengan demikian, sampel probabilitas dan sampel non-probabilitas tidak berbeda dengan banyak peneliti percaya.

Seperti yang saya katakan sebelumnya, sampel non-probabilitas dipandang dengan sangat skeptis oleh banyak peneliti sosial, sebagian karena peran mereka dalam beberapa kegagalan yang paling memalukan pada hari-hari awal penelitian survei. Contoh yang jelas tentang seberapa jauh kita datang dengan sampel non-probabilitas adalah penelitian oleh Wei Wang, David Rothschild, Sharad Goel, dan Andrew Gelman (2015) yang memulihkan hasil pemilu AS 2012 dengan menggunakan sampel non-probabilitas dari Pengguna Xbox Amerika — sampel orang Amerika yang sangat tidak familier. Para peneliti merekrut responden dari sistem permainan XBox, dan seperti yang Anda duga, sampel Xbox miring laki-laki dan miring muda: 18- ke 29-tahun-tua membentuk 19% dari pemilih tetapi 65% dari sampel Xbox, dan laki-laki membuat 47% dari pemilih tetapi 93% dari sampel Xbox (gambar 3.7). Karena ini bias demografis yang kuat, data mentah Xbox adalah indikator yang buruk dari hasil pemilihan. Ini meramalkan kemenangan yang kuat untuk Mitt Romney atas Barack Obama. Sekali lagi, ini adalah contoh lain dari bahaya mentah, sampel non-probabilitas yang tidak disesuaikan dan mengingatkan pada kegagalan Sastra Digest .

Gambar 3.7: Demografi responden dalam W. Wang et al. (2015). Karena responden direkrut dari XBox, mereka lebih mungkin menjadi muda dan lebih mungkin menjadi laki-laki, relatif terhadap pemilih dalam pemilu 2012. Diadaptasi dari W. Wang et al. (2015), gambar 1.

Gambar 3.7: Demografi responden dalam W. Wang et al. (2015) . Karena responden direkrut dari XBox, mereka lebih mungkin menjadi muda dan lebih mungkin menjadi laki-laki, relatif terhadap pemilih dalam pemilu 2012. Diadaptasi dari W. Wang et al. (2015) , gambar 1.

Namun, Wang dan rekannya menyadari masalah ini dan berusaha untuk menyesuaikan proses pengambilan sampel non-acak mereka ketika membuat perkiraan. Secara khusus, mereka menggunakan pasca-stratifikasi , teknik yang juga banyak digunakan untuk menyesuaikan sampel probabilitas yang memiliki kesalahan cakupan dan non-respons.

Gagasan utama pasca-stratifikasi adalah menggunakan informasi tambahan tentang populasi target untuk membantu meningkatkan perkiraan yang berasal dari sampel. Ketika menggunakan post-stratifikasi untuk membuat perkiraan dari sampel non-probabilitas mereka, Wang dan rekan mencincang populasi ke dalam kelompok yang berbeda, memperkirakan dukungan untuk Obama dalam setiap kelompok, dan kemudian mengambil rata-rata tertimbang dari perkiraan kelompok untuk menghasilkan perkiraan keseluruhan. Misalnya, mereka bisa membagi populasi menjadi dua kelompok (pria dan wanita), memperkirakan dukungan untuk Obama di antara pria dan wanita, dan kemudian memperkirakan dukungan keseluruhan untuk Obama dengan mengambil rata-rata tertimbang untuk memperhitungkan fakta bahwa wanita membuat naik 53% dari pemilih dan laki-laki 47%. Secara kasar, pasca-stratifikasi membantu mengoreksi sampel yang tidak seimbang dengan membawa informasi tambahan tentang ukuran kelompok.

Kunci untuk pasca-stratifikasi adalah membentuk kelompok yang tepat. Jika Anda dapat memotong populasi menjadi kelompok-kelompok homogen sehingga kecenderungan respon sama untuk setiap orang di setiap kelompok, maka pasca-stratifikasi akan menghasilkan perkiraan yang tidak bias. Dengan kata lain, pasca-stratifikasi berdasarkan gender akan menghasilkan estimasi yang tidak bias jika semua pria memiliki kecenderungan respon dan semua wanita memiliki kecenderungan respons yang sama. Asumsi ini disebut asumsi homogen-respons-kecenderungan-dalam-kelompok , dan saya menggambarkannya sedikit lebih dalam catatan matematis pada akhir bab ini.

Tentu saja, tampaknya tidak mungkin bahwa kecenderungan tanggapan akan sama untuk semua pria dan semua wanita. Namun, asumsi homogen-respons-kecenderungan-dalam-kelompok menjadi lebih masuk akal karena jumlah kelompok meningkat. Kira-kira, menjadi lebih mudah untuk memotong populasi menjadi grup-grup homogen jika Anda membuat lebih banyak grup. Sebagai contoh, mungkin tampak tidak masuk akal bahwa semua wanita memiliki kecenderungan respons yang sama, tetapi mungkin tampak lebih masuk akal bahwa ada kecenderungan respons yang sama untuk semua wanita yang berusia 18-29 tahun, yang lulus dari perguruan tinggi, dan yang tinggal di California . Dengan demikian, karena jumlah kelompok yang digunakan dalam pasca-stratifikasi semakin besar, asumsi yang diperlukan untuk mendukung metode menjadi lebih masuk akal. Mengingat fakta ini, peneliti sering ingin membuat sejumlah besar kelompok untuk pasca-stratifikasi. Namun, karena jumlah kelompok meningkat, peneliti mengalami masalah yang berbeda: sparsitas data. Jika hanya ada sejumlah kecil orang dalam setiap kelompok, maka perkiraan akan lebih tidak pasti, dan dalam kasus ekstrim di mana ada kelompok yang tidak memiliki responden, maka pasca-stratifikasi benar-benar rusak.

Ada dua cara keluar dari tegangan inheren ini antara masuk akal asumsi homogen-respons-kecenderungan-dalam-kelompok dan permintaan untuk ukuran sampel yang wajar di masing-masing kelompok. Pertama, peneliti dapat mengumpulkan sampel yang lebih besar dan lebih beragam, yang membantu memastikan ukuran sampel yang masuk akal dalam setiap kelompok. Kedua, mereka dapat menggunakan model statistik yang lebih canggih untuk membuat perkiraan dalam kelompok. Dan, pada kenyataannya, terkadang peneliti melakukan keduanya, seperti yang dilakukan Wang dan rekannya dengan studi mereka tentang pemilihan menggunakan responden dari Xbox.

Karena mereka menggunakan metode sampling non-probabilitas dengan wawancara yang dikelola oleh komputer (saya akan berbicara lebih banyak tentang wawancara yang dikelola oleh komputer dalam bagian 3.5), Wang dan rekan memiliki koleksi data yang sangat murah, yang memungkinkan mereka untuk mengumpulkan informasi dari 345.858 peserta unik , jumlah besar menurut standar pemilihan umum. Ukuran sampel yang sangat besar ini memungkinkan mereka untuk membentuk sejumlah besar kelompok pasca-stratifikasi. Sedangkan pasca-stratifikasi biasanya melibatkan memotong populasi menjadi ratusan kelompok, Wang dan rekan membagi populasi menjadi 176.256 kelompok didefinisikan oleh gender (2 kategori), ras (4 kategori), usia (4 kategori), pendidikan (4 kategori), negara (51 kategori), ID partai (3 kategori), ideologi (3 kategori), dan 2008 suara (3 kategori). Dengan kata lain, ukuran sampel mereka yang sangat besar, yang dimungkinkan oleh pengumpulan data berbiaya rendah, memungkinkan mereka untuk membuat asumsi yang lebih masuk akal dalam proses estimasi mereka.

Bahkan dengan 345.858 peserta yang unik, namun, masih ada banyak, banyak kelompok di mana Wang dan rekannya hampir tidak memiliki responden. Oleh karena itu, mereka menggunakan teknik yang disebut regresi multilevel untuk memperkirakan dukungan dalam setiap kelompok. Pada dasarnya, untuk memperkirakan dukungan untuk Obama dalam kelompok tertentu, regresi multilevel mengumpulkan informasi dari banyak kelompok yang terkait erat. Misalnya, bayangkan mencoba memperkirakan dukungan untuk Obama di antara perempuan Hispanik antara 18 dan 29 tahun, yang lulusan perguruan tinggi, yang terdaftar Demokrat, yang mengidentifikasi diri sebagai moderat, dan yang memilih Obama pada tahun 2008. Ini adalah , kelompok yang sangat spesifik, dan mungkin tidak ada orang dalam sampel dengan karakteristik ini. Oleh karena itu, untuk membuat perkiraan tentang grup ini, regresi multilevel menggunakan model statistik untuk mengumpulkan perkiraan dari orang-orang dalam kelompok yang sangat mirip.

Dengan demikian, Wang dan rekannya menggunakan pendekatan yang menggabungkan regresi multilevel dan pasca-stratifikasi, sehingga mereka menyebut strategi regresi multitingkat mereka dengan pasca-stratifikasi atau, lebih mesra, “Mr. P. ”Ketika Wang dan rekannya menggunakan Mr P. untuk membuat perkiraan dari sampel non-probabilitas XBox, mereka menghasilkan perkiraan yang sangat dekat dengan dukungan keseluruhan yang diterima Obama pada pemilihan 2012 (gambar 3.8). Bahkan perkiraan mereka lebih akurat daripada agregat jajak pendapat umum tradisional. Dengan demikian, dalam hal ini, penyesuaian statistik — khususnya Mr P. — tampaknya melakukan pekerjaan dengan baik untuk mengoreksi bias dalam data non-probabilitas; bias yang jelas terlihat ketika Anda melihat perkiraan dari data Xbox yang tidak disesuaikan.

Gambar 3.8: Perkiraan dari W. Wang et al. (2015). Sampel XBox yang tidak disesuaikan menghasilkan perkiraan yang tidak akurat. Namun, sampel XBox tertimbang menghasilkan perkiraan yang lebih akurat daripada rata-rata survei telepon berbasis probabilitas. Diadaptasi dari W. Wang et al. (2015), angka 2 dan 3.

Gambar 3.8: Perkiraan dari W. Wang et al. (2015) . Sampel XBox yang tidak disesuaikan menghasilkan perkiraan yang tidak akurat. Namun, sampel XBox tertimbang menghasilkan perkiraan yang lebih akurat daripada rata-rata survei telepon berbasis probabilitas. Diadaptasi dari W. Wang et al. (2015) , angka 2 dan 3.

Ada dua pelajaran utama dari studi Wang dan rekan. Pertama, sampel non-probabilitas yang tidak disesuaikan dapat menyebabkan perkiraan buruk; ini adalah pelajaran yang banyak peneliti telah dengar sebelumnya. Pelajaran kedua, bagaimanapun, adalah bahwa sampel non-probabilitas, ketika dianalisis dengan benar, benar-benar dapat menghasilkan perkiraan yang baik; sampel non-probabilitas tidak perlu secara otomatis mengarah pada sesuatu seperti kegagalan Literary Digest .

Ke depan, jika Anda mencoba untuk memutuskan antara menggunakan pendekatan sampling probabilitas dan pendekatan sampling non-probabilitas Anda menghadapi pilihan yang sulit. Kadang-kadang peneliti menginginkan aturan yang cepat dan kaku (misalnya, selalu menggunakan metode sampling probabilitas), tetapi semakin sulit untuk menawarkan aturan seperti itu. Para peneliti menghadapi pilihan sulit antara metode sampling probabilitas dalam praktik — yang semakin mahal dan jauh dari hasil teoritis yang membenarkan penggunaannya — dan metode sampling non-probabilitas — yang lebih murah dan lebih cepat, tetapi kurang akrab dan lebih bervariasi. Satu hal yang jelas, bagaimanapun, adalah bahwa jika Anda dipaksa untuk bekerja dengan sampel non-probabilitas atau sumber data besar tidak representatif (pikirkan kembali ke Bab 2), maka ada alasan kuat untuk percaya bahwa perkiraan dibuat menggunakan pasca-stratifikasi dan teknik terkait akan lebih baik dari perkiraan mentah yang tidak disesuaikan.