3.4.3 sampel Bukan kebarangkalian: sampel yang hampir sama

terjemahan ini dihasilkan oleh komputer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.3 sampel Bukan kebarangkalian: sampel yang hampir sama

Tidak semua sampel bukan kebarangkalian adalah sama. Kita boleh menambah lebih kawalan pada bahagian hadapan.

Pendekatan Wang dan rakan-rakan digunakan untuk menganggarkan keputusan pilihan raya presiden AS 2012 bergantung sepenuhnya kepada peningkatan dalam analisis data. Iaitu, mereka mengumpul seberapa banyak jawapan yang mereka mampu dan kemudian cuba-berat semula mereka. Strategi pelengkap untuk bekerja dengan persampelan bukan kebarangkalian adalah untuk mempunyai lebih kawalan ke atas proses pengumpulan data.

Contoh yang paling mudah daripada proses persampelan bukan kebarangkalian dikawal sebahagiannya kuota persampelan, teknik yang kembali kepada hari-hari awal kajian penyelidikan. Dalam pensampelan kuota, penyelidik membahagikan populasi kepada kumpulan-kumpulan yang berbeza (contohnya, orang muda, wanita muda, dan lain-lain) dan kuota kemudian set untuk bilangan orang yang akan dipilih dalam setiap kumpulan. Responden dipilih secara melulu sehingga penyelidik telah memenuhi kuota mereka dalam setiap kumpulan. Oleh kerana kuota, sampel yang terhasil kelihatan seperti populasi sasaran daripada akan menjadi kenyataan jika tidak, tetapi kerana kebarangkalian kemasukan tidak diketahui ramai penyelidik yang ragu-ragu persampelan kuota. Malah, persampelan kuota adalah punca "Dewey kekalahan Truman" kesilapan dalam 1948 pilihan raya Presiden AS. Kerana ia menyediakan beberapa kawalan ke atas proses pensampelan, bagaimanapun, kita boleh melihat bagaimana persampelan kuota mungkin mempunyai beberapa kelebihan berbanding koleksi data benar-benar tidak terkawal.

Bergerak di luar persampelan kuota, pendekatan yang lebih moden untuk mengawal proses persampelan bukan kebarangkalian kini mungkin. Satu pendekatan seperti itu dipanggil sampel yang hampir sama, dan ia digunakan oleh beberapa komersial pembekal panel dalam talian. Dalam bentuk yang paling mudah, sampel yang hampir sama memerlukan dua sumber data: 1) suatu daftar lengkap penduduk dan 2) panel besar sukarelawan. Ia adalah penting bahawa sukarelawan tidak perlu menjadi sampel kebarangkalian dari mana-mana penduduk; menekankan bahawa tidak ada keperluan untuk pemilihan ke dalam panel, saya akan memanggilnya panel kotor. Juga, kedua-dua daftar penduduk dan panel yang kotor perlu memasukkan beberapa maklumat tambahan mengenai setiap orang, dalam contoh ini, saya akan pertimbangkan umur dan jantina, tetapi dalam situasi yang realistik maklumat tambahan ini boleh menjadi lebih terperinci. Caranya sampel yang hampir sama adalah untuk memilih sampel dari panel kotor dalam cara yang menghasilkan sampel yang kelihatan seperti sampel kebarangkalian.

Contoh yang hampir sama bermula apabila sampel kebarangkalian simulasi diambil daripada daftar penduduk; sampel simulasi ini menjadi sampel sasaran. Kemudian, berdasarkan maklumat tambahan, kes-kes dalam sampel sasaran dipadankan dengan orang dalam panel kotor untuk membentuk sampel yang sepadan. Sebagai contoh, jika ada wanita berusia 25 tahun di dalam sampel sasaran, maka penyelidik mendapati perempuan 25 tahun Perempuan daripada panel kotor berada dalam sampel dipadankan. Akhirnya, ahli-ahli sampel dipadankan ditemuramah untuk menghasilkan set terakhir daripada responden.

Walaupun sampel dipadankan kelihatan seperti sampel sasaran, ia adalah penting untuk ingat bahawa sampel dipadankan bukan sampel kebarangkalian. sampel dipadankan hanya dapat menandingi sampel sasaran pada maklumat tambahan yang dikenali (contohnya, umur dan jantina), tetapi tidak kepada ciri-ciri tidak terukur. Sebagai contoh, jika orang pada panel kotor cenderung untuk menjadi lebih miskin selepas semua, salah satu sebab untuk menyertai panel kajian adalah untuk mendapatkan wang-kemudian walaupun sampel dipadankan kelihatan seperti sampel sasaran dari segi umur dan jantina ia masih perlu berat sebelah ke arah orang-orang miskin. Keajaiban persampelan kebarangkalian benar adalah untuk menolak masalah di kedua-dua ciri-ciri yang diukur dan terukur (a ketika itu adalah selaras dengan perbincangan kita tentang sepadan secara inferens sebab dan akibat daripada kajian pengamatan dalam Bab 2).

Dalam amalan, sampel yang sepadan bergantung ingin mempunyai panel yang besar dan pelbagai sabar-sabar untuk melengkapkan kaji selidik, dan oleh itu ia adalah terutamanya yang dilakukan oleh syarikat-syarikat yang mampu untuk membangunkan dan menyenggara apa-apa panel. Juga, dalam amalan, terdapat masalah dengan yang hampir sama (kadang-kadang perlawanan yang baik untuk seseorang dalam sampel sasaran tidak wujud pada panel) dan bukan tindak balas (kadang-kadang orang dalam sampel dipadankan enggan mengambil bahagian dalam kaji selidik). Oleh itu, dalam amalan, penyelidik melakukan sampel yang hampir sama juga melaksanakan beberapa jenis pelarasan selepas stratifikasi membuat anggaran.

Adalah sukar untuk memberi jaminan teori yang berguna tentang sampel yang hampir sama, tetapi dalam amalan ia boleh melakukan dengan baik. Sebagai contoh, Stephen Ansolabehere dan Brian Schaffner (2014) berbanding tiga kaji selidik selari kira-kira 1,000 orang dijalankan pada tahun 2010 dengan menggunakan tiga sampel yang berbeza dan menemuduga kaedah: mail, telefon, dan panel Internet menggunakan padanan sampel dan pelarasan selepas stratifikasi. Anggaran dari tiga pendekatan agak serupa dengan anggaran daripada tanda aras yang berkualiti tinggi seperti Penduduk Ukur Semasa (CPS) dan Temuduga Kesihatan Kebangsaan Survey (NHIS). Lebih khusus lagi, kedua-dua kaji selidik Internet dan mel adalah off secara purata sebanyak 3 mata peratusan dan kajian telefon adalah off sebanyak 4 mata peratusan. Kesilapan ini besar kira-kira apa yang kita jangka daripada sampel kira-kira 1,000 orang. Walaupun, tiada seorang pun daripada mod ini dihasilkan data jauh lebih baik, kedua-dua kajian internet dan telefon (yang mengambil masa beberapa hari atau minggu) adalah ketara lebih cepat ke padang daripada kaji selidik mel (yang mengambil masa lapan bulan), dan kajian Internet, yang menggunakan sampel yang hampir sama, lebih murah daripada dua mod lain.

Kesimpulannya, ahli-ahli sains sosial dan ahli statistik adalah sangat sangsi dengan kesimpulan dari ini sampel bukan kebarangkalian, sebahagiannya kerana ia dikaitkan dengan beberapa kegagalan memalukan penyelidikan kajian seperti pungutan suara Literary Digest. Dalam bahagian, saya bersetuju dengan keraguan ini: sampel bukan kebarangkalian tidak dilaras mungkin menghasilkan anggaran buruk. Walau bagaimanapun, jika penyelidik boleh menyesuaikan diri untuk berat sebelah dalam proses persampelan (contohnya, selepas stratifikasi) atau mengawal proses pensampelan agak (contohnya, sampel yang hampir sama), mereka boleh menghasilkan anggaran yang lebih baik, dan juga anggaran kualiti yang mencukupi untuk kebanyakan tujuan. Sudah tentu, ia akan menjadi lebih baik untuk melakukan persampelan kebarangkalian sempurna dilaksanakan, tetapi itu tidak lagi kelihatan sebagai satu realiti.

Kedua-dua sampel bukan kebarangkalian dan sampel kebarangkalian berbeza dalam kualiti mereka, dan pada masa ini ia mungkin kes yang paling anggaran daripada sampel kebarangkalian adalah lebih dipercayai daripada anggaran daripada sampel bukan kebarangkalian. Tetapi, walaupun sekarang, anggaran daripada yang dijalankan sampel bukan kebarangkalian yang mungkin lebih baik daripada anggaran daripada sampel kebarangkalian buruk yang dijalankan. Di samping itu, sampel bukan kebarangkalian adalah jauh lebih murah. Oleh itu, didapati bahawa kebarangkalian vs persampelan bukan kebarangkalian menawarkan kos yang berkualiti keseimbangan (Rajah 3.6). Melihat ke hadapan, saya menjangkakan bahawa anggaran dari baik dilakukan sampel bukan kebarangkalian akan menjadi lebih murah dan lebih baik. Selanjutnya, kerana pecahan dalam tinjauan telefon talian tetap dan peningkatan kadar bukan tindak balas, saya menjangkakan bahawa sampel kebarangkalian akan menjadi lebih mahal dan berkualiti lebih rendah. Kerana trend jangka panjang, saya berfikir bahawa persampelan bukan kebarangkalian akan menjadi semakin penting dalam era ketiga kajian penyelidikan.

Rajah 3.6: persampelan kebarangkalian dalam amalan dan persampelan bukan kebarangkalian kedua-duanya adalah besar, kategori heterogen. Secara umum, terdapat kos-error keseimbangan dengan persampelan bukan kebarangkalian iaitu kos yang lebih rendah tetapi ralat yang lebih tinggi. Walau bagaimanapun, baik dilakukan persampelan bukan kebarangkalian boleh menghasilkan anggaran yang lebih baik daripada pensampelan kebarangkalian buruk yang dilakukan. Pada masa akan datang, saya menjangkakan bahawa persampelan bukan kebarangkalian akan menjadi lebih baik dan lebih murah manakala persampelan kebarangkalian akan menjadi lebih buruk dan lebih mahal.