Nota matematik

Dalam lampiran ini, saya akan menerangkan beberapa idea dari bab dalam bentuk yang sedikit lebih matematik. Matlamat di sini adalah untuk membantu anda selesa dengan notasi dan rangka matematik yang digunakan oleh penyelidik kaji selidik supaya anda boleh beralih kepada beberapa bahan yang lebih teknikal yang ditulis pada topik ini. Saya akan mulakan dengan memperkenalkan pensampelan kebarangkalian, kemudian berpindah ke pensampelan kebarangkalian dengan tidak bertindak balas, dan akhirnya, pensampelan bukan kebarangkalian.

Persampelan kebarangkalian

Sebagai contoh, mari kita pertimbangkan matlamat untuk menganggarkan kadar pengangguran di Amerika Syarikat. Letakkan \(U = \{1, \ldots, k, \ldots, N\}\) menjadi sasaran populasi dan biarkan \(y_k\) dengan nilai pemboleh ubah hasil bagi orang \(k\) . Dalam contoh ini \(y_k\) ialah sama ada orang \(k\) menganggur. Akhir sekali, biarkan \(F = \{1, \ldots, k, \ldots, N\}\) menjadi populasi bingkai, yang demi kesederhanaan dianggap sama dengan populasi sasaran.

Reka bentuk pensampelan asas ialah persampelan mudah rawak tanpa penggantian. Dalam kes ini, setiap orang sama-sama mungkin dimasukkan dalam sampel \(s = \{1, \ldots, i, \ldots, n\}\) . Apabila data dikumpulkan dengan reka bentuk pensampelan ini, penyelidik boleh menganggarkan kadar pengangguran penduduk dengan min sampel:

\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]

di mana \(\bar{y}\) adalah kadar pengangguran dalam populasi dan \(\hat{\bar{y}}\) adalah anggaran kadar pengangguran ( \(\hat{ }\) digunakan untuk menunjukkan penganggar).

Pada kenyataannya, penyelidik jarang menggunakan persampelan rawak mudah tanpa gantian. Untuk pelbagai sebab (salah satu daripadanya yang saya akan terangkan dalam sekejap), penyelidik sering membuat sampel dengan kebarangkalian ketidaksamaan kemasukan. Sebagai contoh, para penyelidik mungkin memilih orang di Florida dengan kebarangkalian lebih tinggi daripada orang di California. Dalam kes ini, purata sampel (contoh 3.1) mungkin tidak menjadi penganggar yang baik. Sebaliknya, apabila terdapat kebarangkalian ketidaksamaan kemasukan, penyelidik menggunakan

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]

di mana \(\hat{\bar{y}}\) adalah anggaran kadar pengangguran dan \(\pi_i\) adalah \(\pi_i\) seseorang \(i\) . Berikutan amalan standard, saya akan menghubungi penganggar dalam persamaan 3.2 pengkaji Horvitz-Thompson. Penganggar Horvitz-Thompson sangat berguna kerana ia membawa kepada taksiran yang tidak berat sebelah untuk sebarang reka bentuk pensampelan kebarangkalian (Horvitz and Thompson 1952) . Kerana penganggar Horvitz-Thompson muncul begitu kerap, sangat membantu untuk melihat bahawa ia boleh ditulis semula sebagai

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]

di mana \(w_i = 1 / \pi_i\) . Sebagai persamaan 3.3 mendedahkan, penganggar Horvitz-Thompson adalah purata sampel berwajaran di mana beratnya terbalik dengan kebarangkalian berkaitan dengan kemungkinan pemilihan. Dalam erti kata lain, kemungkinan seseorang itu dimasukkan ke dalam sampel, semakin berat orang itu harus mendapat perkiraan.

Seperti yang dijelaskan sebelum ini, para penyelidik sering mencontohi orang dengan kebarangkalian ketidaksamaan kemasukan. Satu contoh reka bentuk yang boleh membawa kepada kebarangkalian ketidaksamaan kemasukan adalah pensampelan berstrata , yang penting untuk difahami kerana ia berkait rapat dengan prosedur anggaran yang disebut post-stratification . Dalam pensampelan berstrata, seorang penyelidik memecah sasaran populasi ke \(H\) saling eksklusif dan lengkap. Kumpulan ini dipanggil strata dan ditandakan sebagai \(U_1, \ldots, U_h, \ldots, U_H\) . Dalam contoh ini, strata adalah menyatakan. Saiz kumpulan ditunjukkan sebagai \(N_1, \ldots, N_h, \ldots, N_H\) . Seorang penyelidik mungkin mahu menggunakan persampelan berstrata untuk memastikan bahawa dia mempunyai cukup orang di setiap negeri untuk membuat anggaran peringkat negeri pengangguran.

Apabila populasi telah berpecah kepada strata , anggap bahawa penyelidik memilih sampel rawak mudah tanpa penggantian saiz \(n_h\) , secara berasingan dari setiap strata. Selanjutnya, anggap semua orang yang dipilih dalam sampel menjadi responden (saya akan menangani tindak balas bukan di bahagian seterusnya). Dalam kes ini, kebarangkalian kemasukan adalah

\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]

Oleh kerana kebarangkalian ini boleh berbeza-beza dari orang ke orang, apabila membuat anggaran dari reka bentuk pensampelan ini, penyelidik perlu menimbang setiap responden dengan kebalikan dari kebarangkalian kemasukan mereka menggunakan penganggar Horvitz-Thompson (ms 3.2).

Walaupun penganggar Horvitz-Thompson tidak berat sebelah, penyelidik boleh menghasilkan perkiraan yang lebih tepat (iaitu, varians yang lebih rendah) dengan menggabungkan sampel dengan maklumat bantu . Sesetengah orang mendapati ia menghairankan bahawa ini adalah benar walaupun terdapat persampelan kebarangkalian yang sempurna. Teknik-teknik ini menggunakan maklumat tambahan sangat penting kerana, seperti yang saya akan tunjukkan nanti, maklumat bantu adalah penting untuk membuat anggaran dari sampel kebarangkalian dengan tidak bertindak balas dan dari sampel bukan kebarangkalian.

Satu teknik yang biasa untuk menggunakan maklumat bantu adalah post-stratification . Bayangkan, sebagai contoh, seorang penyelidik mengetahui bilangan lelaki dan wanita di setiap 50 negeri; kita boleh menunjukkan saiz kumpulan ini sebagai \(N_1, N_2, \ldots, N_{100}\) . Untuk menggabungkan maklumat tambahan ini dengan sampel, penyelidik boleh memisahkan sampel ke dalam kumpulan \(H\) (dalam hal ini 100), membuat anggaran untuk setiap kumpulan, dan kemudian membuat purata wajaran kumpulan ini bermaksud:

\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]

Secara kasar, penganggar dalam persamaan 3.5 mungkin lebih tepat kerana ia menggunakan maklumat populasi yang diketahui-yang \(N_h\) -untuk membetulkan anggaran jika sampel tidak seimbang akan dipilih. Salah satu cara untuk memikirkannya adalah bahawa stratifikasi pasca adalah seperti stratifikasi mendatar selepas data telah dikumpulkan.

Kesimpulannya, bahagian ini menggambarkan beberapa reka bentuk pensampelan: persampelan rawak mudah tanpa pengganti, pensampelan dengan kebarangkalian yang tidak sama rata, dan pensampelan berstrata. Ia juga menggambarkan dua idea utama mengenai anggaran: penganggar Horvitz-Thompson dan selepas penstrukturan. Untuk definisi lebih lanjut tentang reka bentuk pensampelan kebarangkalian, lihat bab 2 dari Särndal, Swensson, and Wretman (2003) . Untuk rawatan yang lebih formal dan lengkap bagi pensampelan berstrata, lihat bahagian 3.7 dari Särndal, Swensson, and Wretman (2003) . Untuk penerangan teknikal sifat-sifat pengkaji Horvitz-Thompson, lihat Horvitz and Thompson (1952) , Overton and Stehman (1995) , atau bahagian 2.8 dari @ sarndal_model_2003. Untuk rawatan yang lebih formal selepas penstrukturan, lihat Holt and Smith (1979) , Smith (1991) , Little (1993) , atau seksyen 7.6 dari Särndal, Swensson, and Wretman (2003) .

Pensampelan kebarangkalian dengan tidak bertindak balas

Hampir semua tinjauan sebenar tidak mempunyai respons; iaitu, tidak semua orang dalam populasi sampel menjawab setiap soalan. Terdapat dua jenis utama yang tidak bertanggungjawab: item yang tidak bertanggungjawab dan unit yang tidak bertanggungjawab . Dalam item yang tidak bertanggungjawab, sesetengah responden tidak menjawab beberapa perkara (misalnya, kadang-kadang responden tidak mahu menjawab soalan yang mereka anggap sensitif). Dalam unit tidak bertanggungjawab, sesetengah orang yang dipilih untuk populasi sampel tidak bertindak balas terhadap kaji selidik itu. Kedua-dua sebab yang paling biasa bagi unit yang tidak bertanggungjawab adalah bahawa orang sampel tidak dapat dihubungi dan orang sampel dihubungi tetapi enggan berpartisipasi. Dalam bahagian ini, saya akan memberi tumpuan kepada unit yang tidak bertanggungjawab; pembaca yang berminat dengan item yang tidak bertanggungjawab harus melihat Little and Rubin (2002) .

Penyelidik sering berfikir tentang tinjauan dengan unit non-respons sebagai proses persampelan dua tahap. Pada peringkat pertama, penyelidik memilih sampel \(s\) supaya setiap orang mempunyai kebarangkalian kemasukan \(\pi_i\) (di mana \(0 < \pi_i \leq 1\) ). Kemudian, dalam peringkat kedua, orang yang dipilih ke dalam sampel bertindak balas dengan kebarangkalian \(\phi_i\) (di mana \(0 < \phi_i \leq 1\) ). Keputusan dua peringkat ini dalam set terakhir responden \(r\) . Perbezaan penting antara kedua-dua peringkat ini adalah bahawa para penyelidik mengawal proses pemilihan sampel, tetapi mereka tidak mengendalikan mana-mana orang yang dijamu menjadi responden. Meletakkan kedua proses ini bersama-sama, kebarangkalian bahawa seseorang akan menjadi responden adalah

\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]

Demi kesederhanaan, saya akan mempertimbangkan kes di mana reka bentuk sampel asal adalah persampelan rawak mudah tanpa gantian. Jika seorang penyelidik memilih sampel saiz \(n_s\) yang menghasilkan responden \(n_r\) , dan jika penyelidik mengabaikan tindak balas dan menggunakan min responden, maka anggaran berat adalah:

\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]

di mana \(cor(\phi, y)\) adalah korelasi penduduk di antara kecenderungan tindak balas dan hasil (misalnya, status pengangguran), \(S(y)\) adalah sisihan piawai populasi hasil (contohnya pengangguran status), \(S(\phi)\) adalah sisihan piawai populasi kecenderungan tindak balas, dan \(\bar{\phi}\) adalah kecenderungan tindak balas penduduk purata penduduk (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Persamaan 3.7 menunjukkan bahawa ketidak respons tidak akan memperkenalkan berat sebelah jika mana-mana syarat berikut dipenuhi:

  • Tiada variasi dalam status pengangguran \((S(y) = 0)\) .
  • Tiada variasi dalam kecenderungan tindak balas \((S(\phi) = 0)\) .
  • Tiada korelasi di antara kecenderungan tindak balas dan status pengangguran \((cor(\phi, y) = 0)\) .

Malangnya, tiada satu pun daripada keadaan ini kelihatannya berkemungkinan. Nampaknya tidak masuk akal bahawa tidak akan ada perubahan dalam status pekerjaan atau tidak akan ada variasi dalam kecenderungan tindak balas. Oleh itu, istilah utama dalam persamaan 3.7 adalah korelasi: \(cor(\phi, y)\) . Sebagai contoh, jika orang yang menganggur lebih cenderung untuk bertindak balas, maka anggaran kadar pekerjaan akan menjadi berat sebelah atas.

Silap mata untuk membuat anggaran apabila terdapat ketidak respons adalah menggunakan maklumat tambahan. Sebagai contoh, satu cara yang anda boleh menggunakan maklumat tambahan adalah selepas penstrukturan (ingat semula persamaan 3.5 dari atas). Ternyata kecenderungan penganggar pasca-stratifikasi ialah:

\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]

di mana \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) dan \(\bar{\phi}^{(h)}\) ditakrifkan seperti di atas tetapi terhad kepada orang dalam kumpulan \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Oleh itu, berat sebelah keseluruhan akan menjadi kecil sekiranya kecenderungan dalam setiap kumpulan pasca-stratifikasi adalah kecil. Terdapat dua cara yang saya suka untuk berfikir tentang membuat berat sebelah kecil dalam setiap kumpulan pasca-stratifikasi. Pertama, anda ingin mencuba membentuk kumpulan homogen di mana terdapat sedikit variasi dalam kecenderungan tindak balas ( \(S(\phi)^{(h)} \approx 0\) ) dan hasil ( \(S(y)^{(h)} \approx 0\) ). Kedua, anda mahu membentuk kumpulan di mana orang yang anda lihat adalah seperti orang yang anda tidak lihat ( \(cor(\phi, y)^{(h)} \approx 0\) ). Membandingkan persamaan 3.7 dan persamaan 3.8 membantu memperjelas apabila post-stratification dapat mengurangkan bias yang disebabkan oleh ketidak respons.

Sebagai kesimpulan, seksyen ini telah menyediakan satu model untuk ujian sampling kebarangkalian dengan tidak bertindak balas dan menunjukkan kecenderungan yang tidak bertanggungjawab boleh memperkenalkan kedua-dua tanpa dan dengan penyesuaian pasca-stratifikasi. Bethlehem (1988) menawarkan derivasi kecenderungan yang disebabkan oleh ketidak respons terhadap reka bentuk pensampelan yang lebih umum. Untuk lebih lanjut mengenai penggunaan stratifikasi pasca untuk menyesuaikan diri untuk ketidak respons, lihat Smith (1991) dan Gelman and Carlin (2002) . Penstrata pasca adalah sebahagian daripada keluarga teknik yang lebih dikenali sebagai penganggar penentukuran, lihat Zhang (2000) untuk rawatan panjang artikel dan Särndal and Lundström (2005) untuk rawatan panjang buku. Untuk lebih banyak kaedah pemberat lain yang lain untuk menyesuaikan diri dengan ketidak respons, lihat Kalton and Flores-Cervantes (2003) , Brick (2013) , dan Särndal and Lundström (2005) .

Persampelan bukan kebarangkalian

Persampelan bukan kebarangkalian merangkumi pelbagai jenis reka bentuk (Baker et al. 2013) . Memfokuskan secara khusus pada sampel pengguna Xbox oleh Wang dan rakan sekerja (W. Wang et al. 2015) , anda boleh memikirkan sampel semacam itu sebagai salah satu bahagian utama reka bentuk pensampelan bukannya \(\pi_i\) ( kemungkinan penyelidikan yang didorong penyelidik) tetapi \(\phi_i\) (kecenderungan tindak balas yang didorong responden). Sememangnya, ini tidak sesuai kerana \(\phi_i\) tidak diketahui. Tetapi, seperti yang ditunjukkan oleh Wang dan rakan sekerja, sampel opt-in ini semata-mata dari bingkai persampelan dengan kesilapan liputan besar-tidak perlu menjadi bencana jika penyelidik mempunyai maklumat tambahan yang baik dan model statistik yang baik untuk menyelesaikan masalah ini.

Bethlehem (2010) memanjangkan banyak derivasi di atas mengenai post-stratification untuk merangkumi kedua-dua ketidakpercayaan dan kesilapan liputan. Selain daripada pasca-stratifikasi, teknik-teknik lain untuk bekerja dengan sampel bukan kebarangkalian-dan sampel kebarangkalian dengan kesilapan liputan dan tidak bertanggungjawab-termasuk pencocokan sampel (Ansolabehere and Rivers 2013; ??? ) , bobot kecenderungan (Lee 2006; Schonlau et al. 2009) , dan penentukuran (Lee and Valliant 2009) . Satu tema umum di antara teknik ini adalah penggunaan maklumat bantu.