Cathetan matématika

Ing lampiran iki, aku bakal njlèntrèhaké sawetara gagasan saka bab kasebut ing wangun matematika rada luwih. Tujuane ing kene kanggo mbantu sampeyan nyukupi karo notasi lan kerangka matematika sing digunakake dening peneliti survey supaya sampeyan bisa transisi menyang sawetara bahan teknis liyane sing ditulis ing topik kasebut. Aku bakal miwiti kanthi ngenalake probabilitas sampling, banjur pindhah menyang probabilitas sampling karo nonresponse, lan pungkasan, non-probability sampling.

Probability sampling

Minangka conto mlaku, priksa manawa tujuan ngitung tingkat pengangguran ing Amerika Serikat. Dadi \(U = \{1, \ldots, k, \ldots, N\}\) dadi populasi target lan supaya \(y_k\) saka nilai variabel asil kanggo wong \(k\) . Ing conto iki \(y_k\) iku apa wong \(k\) iku nganggur. Pungkasan, supaya \(F = \{1, \ldots, k, \ldots, N\}\) dadi populasi pigura, sing tujuane gampang dianggep padha karo populasi target.

Desain sampling dhasar minangka sampling acak kanthi gampang tanpa panggantos. Ing kasus iki, saben wong cenderung uga kalebu ing sampel \(s = \{1, \ldots, i, \ldots, n\}\) . Nalika data diklumpukake karo desain sampling iki, peneliti bisa ngira tingkat pengangguran populasi kanthi mean sampel:

\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]

ing ngendi \(\bar{y}\) yaiku tingkat pengangguran ing populasi lan \(\hat{\bar{y}}\) minangka perkiraan tingkat pengangguran (ing \(\hat{ }\) digunakake kanggo nunjukake sawijining estimator).

Ing kasunyatan, peneliti jarang nggunakake sampling acak prasaja tanpa panggantos. Kanggo macem-macem alasan (salah siji saka aku bakal njlèntrèhaké sajrone wayahe), panaliti kerep nyiptakaké conto-conto kanthi kamungkinan sing ora padha. Contone, para panaliti bisa milih wong ing Florida kanthi kemungkinan luwih dhuwur saka wong California. Ing kasus iki, tegese sampel (ukuran 3.1) bisa uga ora dadi estimator sing apik. Nanging, nalika ana kemungkinan sing ora cedhak, panaliti nggunakake

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]

ngendi \(\hat{\bar{y}}\) iku prakiran tingkat pengangguran lan \(\pi_i\) iku wong \(i\) 's kemungkinan Gawan. Ngikuti praktik standar, Aku bakal nelpon estimator ing eq. 3.2 estimator Horvitz-Thompson. Estimator Horvitz-Thompson banget migunani amarga ndadékaké kanggo ngira-ngira prabeya kanggo sembarang rancangan sampling kemungkinan (Horvitz and Thompson 1952) . Amarga estimator Horvitz-Thompson teka supaya kerep, mbiyantu diwenehi tandha manawa bisa ditulis maneh minangka

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]

ngendi \(w_i = 1 / \pi_i\) . Minangka ukuran. 3.3 ngungkapake, estimator Horvitz-Thompson minangka tegese sampel bobot ing endi bobot gegayutan karo kemungkinan pemilihan. Ing tembung liyané, sing luwih cendhak wong bakal kalebu ing sampel, luwih abot sing kudu ditemtokake.

Minangka diterangake sadurunge, panaliti kerep nyonto wong kanthi probabilitas sing ora padha. Salah siji conto desain sing bisa nyebabake kemungkinan sing ora padha karo inklusi yaiku stratified sampling , sing penting kanggo dimengerteni amarga hubungane karo prosedur estimasi sing disebut stratifikasi . Ing stratified sampling, panaliti pamisah populasi target menyang \(H\) kelompok bebarengan eksklusif lan lengkap. Grup kasebut disebut strata lan dituduhake minangka \(U_1, \ldots, U_h, \ldots, U_H\) . Ing conto iki, tingkat kasebut nyatakake. Ukuran saka grup kasebut dituduhake minangka \(N_1, \ldots, N_h, \ldots, N_H\) . Panaliti bisa uga pengin nggunakake sampling stratifikasi supaya manawa dheweke duwe cukup wong ing saben negara supaya nganggep pengangguran tingkat negara.

Sawise populasi dipérang dadi strata , nganggep panaliti milih sampel acak prasaja tanpa panggantos ukuran \(n_h\) , kanthi bebas saka saben lapisan. Luwih, nganggep saben wong sing dipilih ing sampel dadi responden (Aku bakal nangani non-respon ing bagean sabanjure). Ing kasus iki, kemungkinan penyertaan yaiku

\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]

Amarga kemungkinan kasebut bisa beda-beda saka wong, nalika ngira saka rancangan sampling iki, para panaliti kudu ngetokake saben responden kanthi kabalikan saka kemungkinan inklusi kanthi nggunakake estimator Horvitz-Thompson (angka 3.2).

Sanajan estimator Horvitz-Thompson ora bias, panaliti bisa ngasilake luwih akurat (misale, variasi sing luwih murah) kanthi nggabungake sampel kanthi informasi tambahan . Sawetara wong sing kesengsem menawa iki bener sanajan ana uga sampurna probabilitas sampling. Teknik iki nggunakake informasi tambahan sing penting banget amarga, kaya sing bakal dakpirsani, informasi tambahan penting kanggo nggawe prakiraan saka sampel probabilitas karo nonresponse lan saka sampel ora probabilitas.

Siji-sijine teknik umum kanggo nggunakake informasi tambahan yaiku post-stratification . Bayangkan, contone, sing peneliti mangerténi jumlah wong lanang lan wadon ing saben 50 negara; kita bisa nunjuk ukuran klompok iki minangka \(N_1, N_2, \ldots, N_{100}\) . Kanggo nggabungake informasi tambahan karo sampel, panaliti bisa pamisah sampel menyang kelompok \(H\) ing kasus iki 100, nggawe perkiraan kanggo saben klompok, banjur nggawe rata-rata bobot saka klompok kasebut tegese:

\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]

Rata-rata, estimator ing eq. 3,5 luwih kerep luwih akurat amarga migunakake informasi populasi sing dikenal-the \(N_h\) - kanggo \(N_h\) yen sampel sing ora \(N_h\) dipilih. Salah sawijining cara kanggo mikir babagan iku yaiku stratifikasi pas kaya stratifikasi approximating sawise data wis dikumpulake.

Kesimpulan, bagean iki ngandharake sawetara sampling designs: simple random sampling without replacements, sampling with probability unequal, and sampling stratified. Iku uga nggambarake rong gagasan utama babagan perkiraan: estimator Horvitz-Thompson lan post-stratification. Kanggo definisi sing luwih formal saka desain sampling kemungkinan, pirsani bab 2 saka Särndal, Swensson, and Wretman (2003) . Kanggo pengobatan stratified sampling sing luwih formal lan lengkap, waca bagean 3.7 saka Särndal, Swensson, and Wretman (2003) . Kanggo taksiran teknis sifat-sifat saka estimator Horvitz-Thompson, pirsani Horvitz and Thompson (1952) , Overton and Stehman (1995) , utawa bagean 2.8 saka @ sarndal_model_2003. Kanggo tatanan sing luwih formal babagan stratifikasi, pirsani Holt and Smith (1979) , Smith (1991) , Little (1993) , utawa bagean 7.6 saka Särndal, Swensson, and Wretman (2003) .

Probability sampling with nonresponse

Meh kabeh survey nyata duwe nonresponse; sing, ora saben wong ing populasi sampel njawab saben pitakonan. Ana rong jinis utama nonresponse: item nonresponse lan unit nonresponse . Ing item nonresponse, sawetara responden ora njawab sawetara item (contone, kadhangkala responden ora pengin njawab pitakonan sing padha dianggep sensitif). Ing unit nonresponse, sawetara wong sing dipilih kanggo populasi sampel ora nanggepi survey ing kabeh. Alasan paling umum kanggo unit nonresponse yaiku menawa wong sing ditampilake ora bisa dihubungi lan wong sampel di hubungi nanging nolak. Ing bagean iki, aku bakal fokus ing unit nonresponse; pembaca sing kasengsem ing item nonresponse kudu ndeleng Little and Rubin (2002) .

Para peneliti kerep mikir babagan survey karo unit non-respon minangka proses sampling rong tahap. Ing tahap pisanan, panaliti milih sampel \(s\) supaya saben wong nduweni kemungkinan \(\pi_i\) (ngendi \(0 < \pi_i \leq 1\) ). Banjur, ing tahap kapindho, wong sing dipilih dadi sampel kanthi probabilitas \(\phi_i\) (ngendi \(0 < \phi_i \leq 1\) ). Hasil proses panggung loro iki ing pungkasan saka responden \(r\) . Bentenane penting antarane rong tahap iki yaiku yen peneliti ngontrol proses milih sampel, nanging ora ngontrol apa sing dadi wong sing dadi sampel. Mengkono loro proses kasebut bebarengan, kemungkinan sing bakal dadi responden yaiku

\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]

Kanggo mujudake kesederhanaan, aku bakal nimbang kasus ing ngendi desain sampel asli iku kanthi gampang acak sampling tanpa panggantos. Yen panaliti milih sampel ukuran \(n_s\) sing \(n_r\) responden, lan yen peneliti ora nglirwakake non-respon lan nggunakake tegese saka responden, banjur bias saka perkiraan bakal:

\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]

\(cor(\phi, y)\) korelasi populasi antarane sensitifitas respon lan asil (umpamane, status pengangguran), \(S(y)\) yaiku nyimpangake standar deviasi populasi (umpamane, pengangguran status), \(S(\phi)\) yaiku (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) saka kecenderungan respon, lan \(\bar{\phi}\) minangka propensitas respon tegese populasi (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Eq. 3,7 nuduhaké yèn nonresponse ora bakal ngidhèntifikasi bias manawa kahanan ing ngisor iki ditemokaké:

  • Ora ana variasi status status pengangguran \((S(y) = 0)\) .
  • Ora ana variasi ing proporsi respon \((S(\phi) = 0)\) .
  • Ora ana korélasi antara propensitas respon lan status pengangguran \((cor(\phi, y) = 0)\) .

Sayange, ora ana kahanan kaya kiye. Iku koyone ora bisa ditemokake yen ora bakal ana variasi status kependudukan utawa ora bakal ana variasi minangka proporsi respon. Mangkono, istilah tombol ing eq. 3.7 iku korélasi: \(cor(\phi, y)\) . Umpamane, yen wong sing nganggur luwih cenderung nanggapi, banjur perkiraan tarif lapangan bakal bias munggah.

Trik kanggo nggawe prakiraan nalika ana nonresponse nggunakake informasi tambahan. Contone, siji cara sampeyan bisa nggunakake informasi tambahan yaiku post-stratification (pilihake soko 3.5 saka ndhuwur). Ternyata bias saka estimasi pasca-stratifikasi yaiku:

\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]

ngendi \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , lan \(\bar{\phi}^{(h)}\) ditemtokake ing ndhuwur nanging diwatesi kanggo wong ing grup \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Mangkono, bias sakabèhé bakal cilik yen bias ing saben klompok pasang-stratifikasi cilik. Ana rong cara sing aku seneng mikirake babagan bias cilik ing saben kelompok pasca-stratifikasi. Kaping pisanan, sampeyan pengin nyoba kanggo mbentuk kelompok-kelompok homogen ing ngendi ana variasi sing beda ing sensitif respon ( \(S(\phi)^{(h)} \approx 0\) ) lan hasil ( \(S(y)^{(h)} \approx 0\) ). Kapindho, sampeyan pengin mbentuk grup ing ngendi wong sing ndeleng sampeyan kaya wong sing ora katon ( \(cor(\phi, y)^{(h)} \approx 0\) ). Mbandingaken eq. 3.7 lan liya-liyane. 3.8 mbantu klarifikasi nalika stratifikasi pasca bisa ngurangi bias sing disebabake dening nonresponse.

Ing kesimpulan, bagean iki nyedhiyakake model kanggo probabilitas sampling kanthi non-respon lan nuduhaké bias sing nonresponse bisa ngenalake loro tanpa lan karo pambentukan stratifikasi. Bethlehem (1988) nyedhiyakake panularan bias sing disebabake dening nonresponse kanggo desain sampling sing luwih umum. Kanggo luwih nggunakake stratifikasi kanggo nyetel nonresponse, pirsani Smith (1991) lan Gelman and Carlin (2002) . Stratifikasi pasca bagéan saka kulawarga teknik sing luwih umum disebut estimator kalibrasi, teges Zhang (2000) kanggo perawatan artikel-panjang lan Särndal and Lundström (2005) kanggo perawatan buku-panjang. Kanggo liyane cara bobot liyane kanggo nyetel nonresponse, pirsani Kalton and Flores-Cervantes (2003) , Brick (2013) , lan Särndal and Lundström (2005) .

Sampling non-probability

Non-probability sampling kalebu macem-macem macem-macem desain (Baker et al. 2013) . Ngidhèntifikasi kanthi khusus ing sampel panganggo Xbox déning Wang lan kolega (W. Wang et al. 2015) , sampeyan bisa nyinaoni jenis sampel sing minangka bagean utama saka desain sampling sing ora kasebut \(\pi_i\) ( \(\phi_i\) dening peneliti) nanging \(\phi_i\) (proporsi respon sing didhukung dening responden). Alami, iki ora becik amarga \(\phi_i\) dingerteni. Nanging, minangka Wang lan kanca-kanca nampilake, sampel opt-in iki-malah saka bingkisan sampling kanthi kesalahan jangkoan gedhe-ora perlu dadi catastrophic yen panaliti nduweni informasi tambahan apik lan model statistik apik kanggo nyatakake masalah kasebut.

Bethlehem (2010) ngluwihi akeh derivasi kasebut ing ndhuwur bab stratifikasi kanggo nyakup loro kasalahan nonresponse lan jangkoan. Saliyane pasca-stratifikasi, teknik liya kanggo nggarap sampel non-probabilitas-lan conto-conto probabilitas karo kasalahan jangkoan lan pencocokan sampel nonresponse-kalebu (Ansolabehere and Rivers 2013; ??? ) , bobot propensitas bobot (Lee 2006; Schonlau et al. 2009) , lan kalibrasi (Lee and Valliant 2009) . Salah sijine tema umum antarane teknik iki yaiku nggunakake informasi tambahan.