Matematical notes

hubad Kini nga gibuhat sa usa ka computer. ×

Matematical notes

Niini nga apendise, akong ihulagway ang pipila sa mga ideya gikan sa kapitulo sa usa ka gamay nga dagway sa matematika. Ang tumong dinhi mao ang pagtabang kanimo nga mahimong komportable sa notasyon ug matematika nga balangkas nga gigamit sa mga tigdukiduki sa surbey aron ikaw makahimo sa pagbalhin ngadto sa uban pang mga teknikal nga materyal nga gisulat sa niini nga mga hilisgutan. Magsugod ako pinaagi sa pagpaila sa probability sampling, unya mobalhin ngadto sa probability sampling uban sa nonresponse, ug sa katapusan, non-probability sampling.

Pagdakop sa posibilidad

Ingon nga usa ka padayon nga panig-ingnan, atong hisgotan ang tumong sa pagbana-bana sa gidaghanon sa walay trabaho sa Estados Unidos. Himoa $U = \{1, \ldots, k, \ldots, N\}$ nga ang target sa populasyon ug himoa nga $y_k$ pinaagi sa bili sa sa resulta baryable alang sa tawo $k$ . Sa niini nga panig-ingnan $y_k$ mao ang kung ang tawo $k$ walay trabaho. Sa kataposan, himoa $F = \{1, \ldots, k, \ldots, N\}$ nga sa frame populasyon, nga tungod sa kayano mao ang gituohan nga sa mao usab nga ingon sa mga target populasyon.

Ang usa ka sumbanan nga sampol nga disenyo mao ang simple nga random sampling nga walay kapuli. Sa sini nga kaso, ang kada tawo pareho nga mahimo nga apil sa sample $s = \{1, \ldots, i, \ldots, n\}$ . Sa diha nga ang datos gikolekta uban niining sampling nga disenyo, ang usa ka tigdukiduki mahimo nga magbanabana sa populasyon nga walay trabaho sa gidaghanon sa sample:

$\hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)$

diin $\bar{y}$ mao ang kawalay trabaho rate sa populasyon ug sa $\hat{\bar{y}}$ mao ang banabana sa kawalay trabaho rate (ang $\hat{ }$ mao ang sagad gigamit aron ipaila ang usa ka estimator).

Sa pagkatinuod, ang tigdukiduki talagsa rang mogamit og yano nga random sampling nga walay kapuli. Alang sa nagkalainlain nga mga hinungdan (ang usa nga akong gihulagway sa usa ka higayon), ang mga tigdukiduki sa kasagaran naghimo og mga sampol nga dili parehas sa mga probisyon sa paglakip. Pananglitan, ang mga tigdukiduki mahimong mopili sa mga tawo sa Florida nga adunay mas taas nga posibilidad nga maapil kay sa mga tawo sa California. Sa kini nga kaso, ang sample mean (pananglitan 3.1) dili maayo nga tagana. Hinunoa, kon adunay dili managsama nga mga posibilidad nga ilakip, gigamit sa mga tigdukiduki

$\hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)$

diin ang $\hat{\bar{y}}$ mao ang gibana-bana nga gidaghanon sa kawalay trabaho ug $\pi_i$ $i$ mao ang posibilidad nga iapil sa tawo. Sa pagsunod sa sumbanan nga praktis, tawgon ko ang estimator sa eq. 3.2 ang estimator sa Horvitz-Thompson. Ang estimator sa Horvitz-Thompson mapuslanon kaayo tungod kay kini nagapadulong ngadto sa dili pagpa-angkon alang sa bisan unsang posibilidad nga sampling nga disenyo (Horvitz and Thompson 1952) . Tungod kay ang estimator sa Horvitz-Thompson kanunay nga makita, kini makatabang nga mahibal-an nga kini mahimong isulat pag-usab

$\hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)$

diin $w_i = 1 / \pi_i$ . Ingon nga eq. Nagpakita, ang taghatag sa Horvitz-Thompson usa ka timbang nga sample diin ang mga gibug-aton wala'y kalabutan nga may kalabutan sa probabilidad sa pagpili. Sa laing pagkasulti, ang dili kaayo posible nga ang usa ka tawo kinahanglan nga mahilakip sa sample, ang labi ka gibug-aton nga gikinahanglan sa tawo sa pagbanabana.

Sumala sa gihulagway sa sayo pa, ang mga tigdukiduki sa kasagaran nag-sulay sa mga tawo nga dili parehas nga posibilidad nga maapil. Ang usa ka pananglitan sa usa ka disenyo nga mahimong mosangpot sa dili patas nga mga posibilidad sa paglakip sa stratified sampling , nga importante nga masabtan tungod kay kini adunay kalabutan sa pamaagi sa pagbana nga gitawag nga post-stratification . Diha sa gisabog nga sampling, usa ka tigdukiduki ang nagpalahi sa target nga populasyon ngadto sa $H$ eksklusibo ug hingpit nga mga grupo. Kini nga mga grupo gitawag nga strata ug gipakita nga $U_1, \ldots, U_h, \ldots, U_H$ . Niini nga pananglitan, ang strata gipahayag. Ang mga gidak-on sa mga grupo gipakita ingon nga $N_1, \ldots, N_h, \ldots, N_H$ . Ang usa ka tigdukiduki tingali gusto nga maggamit sa nagkasumpaking sampling aron maseguro nga adunay igo nga mga tawo sa matag estado nga maghimo sa mga estima sa estadistika nga walay trabaho.

Sa diha nga ang populasyon nabahin ngadto sa strata , hunahunaa nga ang tigdukiduki mopili sa usa ka simple nga sampol nga random nga walay kapuli sa gidak-on $n_h$ , independente gikan sa matag strata. Dugang pa, hunahunaa nga ang matag usa nga napili sa sampol mahimong usa ka responder (akong pagadumala ang dili pagtubag sa sunod nga seksyon). Sa niini nga kaso, ang kalagmitan sa paglakip

$\pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)$

Tungod kay kini nga mga kalagmitan mahimong magkalain-lain gikan sa tawo ngadto sa tawo, sa paghimo sa pagbanabana gikan niining sampling nga disenyo, ang mga tigdukiduki kinahanglan nga mobug-at sa tagsa ka respondent pinaagi sa kabaligtaran sa ilang posibilidad nga ilakip gamit ang Horvitz-Thompson estimator (pananglitan 3.2).

Bisan kon ang tag-estima sa Horvitz-Thompson dili mapihigon, ang mga tigdukiduki makahimo og mas tukma (ie, mas ubos nga kalainan) nga mga pagbanabana pinaagi sa paghiusa sa sample nga dunay kaabag nga impormasyon . Ang uban nga mga tawo nakakaplag nga kini katingalahan nga kini tinuod bisan kung adunay hingpit nga gipatuman nga kalagmitan nga sampling. Ang kini nga mga pamaagi nga gamit ang impormasyon sa kaabag labi ka importante tungod kay, sama sa akong ipakita sa ulahi, ang impormasyon sa auxiliary mahinungdanon alang sa paghimo sa mga pagbanabana gikan sa mga sampol sa posibilidad nga dili responsibilidad ug gikan sa mga dili posibilidad nga mga sampol.

Ang usa ka komon nga pamaagi sa paggamit sa impormasyon sa pag- auxiliary mao ang post-stratification . Pananglitan, hunahu- naa nga usa ka tigdukiduki nahibalo sa gidaghanon sa mga lalaki ug babaye sa matag usa sa 50 ka mga estado; mahimo natong ipasabot ang mga gidak-on sa grupo sama sa $N_1, N_2, \ldots, N_{100}$ . Aron mahiusa ang impormasyon sa auxiliary sa sampol, ang tigdukiduki mahimo nga magbahin sa sample ngadto sa mga $H$ grupo (sa niini nga kaso 100), paghimo sa usa ka pagbanabana alang sa matag grupo, ug unya paghimo sa usa ka timbang nga aberids niining mga grupo nagpasabot:

$\hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)$

Sa kasarangan, ang estimator sa eq. 3.5 mas lagmit mas tukma tungod kay kini naggamit sa nahibal-an nga impormasyon sa populasyon-ang $N_h$ -nga tukma nga gibana-bana kung ang usa ka dili timbang nga sample mahitabo nga napili. Usa ka paagi sa paghunahuna mahitungod niini mao nga ang post-stratification susama sa pagtandi sa stratification human ang datos nahipos na.

Sa konklusyon, kini nga seksyon naghulagway sa pipila ka mga sampling nga mga disenyo: simple nga random sampling nga walay kapuli, sampling nga dili magkaparehas nga posibilidad, ug stratified sampling. Gihubit usab niini ang duha ka nag-unang mga ideya mahitungod sa pagbanabana: ang Horvitz-Thompson estimator ug post-stratification. Alang sa usa ka mas pormal nga paghubit sa mga disenyo sa posibilidad sa sampling, tan-awa ang kapitulo 2 sa Särndal, Swensson, and Wretman (2003) . Alang sa mas pormal ug bug-os nga pagtratar sa nagsagol nga sampol, tan-awa ang seksyon 3.7 sa Särndal, Swensson, and Wretman (2003) . Alang sa teknikal nga paghulagway sa kabtangan sa estimator sa Horvitz-Thompson, tan-awa ang Horvitz and Thompson (1952) , Overton and Stehman (1995) , o seksyon 2.8 sa @ sarndal_model_2003. Alang sa mas pormal nga pagtratar sa post-stratification, tan-awa ang Holt and Smith (1979) , Smith (1991) , Little (1993) , o seksyon 7.6 sa Särndal, Swensson, and Wretman (2003) .

Pagdakop sa posibilidad nga dili responsabli

Hapit tanan nga tinuod nga mga survey adunay dili responsibilidad; nga mao, dili tanan sa mga sampol nga populasyon mitubag sa matag pangutana. Adunay duha ka mga nag-unang matang sa mga dili responsibilidad: butang nga dili responsibilidad ug dili responsibilidad sa unit . Sa butang nga dili responsibilidad, ang pipila ka mga respondent dili motubag sa pipila ka mga butang (pananglitan, usahay ang mga respondent dili gusto nga motubag sa mga pangutana nga ilang gikonsiderar nga sensitibo). Sa yunit nga dili responsibilidad, ang pipila ka mga tawo nga gipili alang sa sampol nga populasyon wala gayud mitubag sa survey. Ang duha ka labing kasagaran nga mga rason alang sa unit nga dili responsibilidad mao nga ang sampled nga tawo dili makontak ug ang sampol nga tawo gikontak apan nagdumili sa pag-apil. Niini nga seksyon, ako mag-focus sa yunit nga dili responsibilidad; ang mga magbabasa nga interesado sa butang nga dili responsibilidad kinahanglan makakita sa Little ug Rubin (2002) .

Ang mga tigdukiduki sa kasagaran naghunahuna sa mga survey nga adunay dili pagtubag sa yunit isip usa ka duha ka yugto nga sampling nga proseso. Sa una nga yugto, ang tigdukiduki nagapili sa usa ka sampol $s$ nga ang matag tawo adunay usa ka posibilidad nga ilakip $\pi_i$ (kung diin $0 < \pi_i \leq 1$ ). Unya, sa ikaduhang yugto, ang mga tawo nga gipili sa sampol nga tubag nga may probabilidad $\phi_i$ (diin $0 < \phi_i \leq 1$ ). Kini nga duha ka yugto nga proseso moresulta sa katapusang hugpong sa mga respondents $r$ . Ang importante nga kalainan tali niining duha ka mga yugto mao nga ang mga tigdukiduki nagkontrolar sa proseso sa pagpili sa sampol, apan wala kini makontrol kung hain sa mga sampol nga mga tawo ang nahimong mga tubag. Ang pagbutang niining duha ka mga proseso nga magkauban, ang kalagmitan nga ang usa ka tawo mahimong usa ka tubag

$pr(i \in r) = \pi_i \phi_i \qquad(3.6)$

Tungod sa kasayon, akong hunahunaon ang kaso diin ang orihinal nga sampol nga disenyo mao ang simple nga random sampling nga walay kapuli. Kon ang usa ka tigdukiduki mopili sa usa ka sample sa gidak-on $n_s$ nga magahatag $n_r$ respondents, ug kon ang tigdukiduki manumbaling non-tubag ug naggamit sa mga nagpasabot sa mga respondents, nan, ang pagpabor sa banabana mahimong:

$\mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)$

diin ang $cor(\phi, y)$ mao ang correlation sa populasyon tali sa kahinugon sa tubag ug sa sangputanan (pananglitan, status disemployment), $S(y)$ mao ang populasyon nga standard deviation sa outcome (eg, unemployment $S(\phi)$ mao ang populasyon nga standard deviation sa tubag nga kahamut-an, ug $\bar{\phi}$ mao ang populasyon nga kahulogan sa kahinungdanon nga tubag (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Eq. 3.7 nagpakita nga ang mga nonresponse dili magpailad kon ang bisan unsang mosunod nga mga kondisyon natuman:

Walay kausaban sa kahimtang sa pagkawalay trabaho $(S(y) = 0)$ .
Walay kausaban sa mga tubag nga mga tubag $(S(\phi) = 0)$ .
Walay correlation tali sa responder ug sa pagkawalay trabaho status $(cor(\phi, y) = 0)$ .

Ikasubo, walay usa niini nga mga kondisyon nga daw posible. Kini daw dili katuohan nga walay pagkausab sa kahimtang sa pagpanarbaho o nga walay pagkausab sa mga tubag nga mga panglantaw. Busa, ang yawe nga termino sa eq. 3.7 ang korelasyon: $cor(\phi, y)$ . Pananglitan, kung ang mga tawo nga wala'y trabaho mahimo nga motubag, ang gibana-bana nga rate sa pagpanarbaho mahimong mapihigon pataas.

Ang lansis sa paghimo sa mga pagbana-bana sa diha nga adunay dili pagtubag mao ang paggamit sa impormasyon sa kaabag. Pananglitan, ang usa ka paagi nga imong magamit ang impormasyon sa kaabag mao ang post-stratification (i-recall ang eq 3.5 gikan sa ibabaw). Nahibal-an nga ang pagkasayop sa estimator sa post-stratification mao ang:

$bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)$

diin $cor(\phi, y)^{(h)}$ , $S(y)^{(h)}$ , $S(\phi)^{(h)}$ , ug $\bar{\phi}^{(h)}$ gihubit ingon sa ibabaw apan gipugngan sa mga tawo sa grupo $h$ (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Sa ingon, ang kinatibuk-ang pagpihig gamay ra kon gamay ra ang pagpugong sa matag post-stratification group. Adunay duha ka mga pamaagi nga gusto nakong hunahunaon ang paghimo nga gamay nga pagpugong sa matag post-stratification group. Una, gusto nimong sulayan ang pagporma sa mga homogenous nga mga grupo diin adunay gamay nga kalainan sa kahinugon sa tubag ( $S(\phi)^{(h)} \approx 0$ ) ug ang sangputanan ( $S(y)^{(h)} \approx 0$ ). Ikaduha, gusto ka nga magporma og mga grupo diin ang mga tawo nga imong nakita sama sa mga tawo nga wala nimo makita ( $cor(\phi, y)^{(h)} \approx 0$ ). Pagpaanggid sa eq. 3.7 ug eq. 3.8 makatabang sa pagpatin-aw sa diha nga ang post-stratification makapakunhod sa biased tungod sa dili pagsanong.

Sa konklusyon, kini nga seksyon naghatag og usa ka modelo alang sa probability sampling uban ang dili pagtubag ug nagpakita sa mga bias nga ang dili responsibilidad makahimo sa pagpaila sa wala ug uban sa post-stratification adjustments. Bethlehem (1988) nagtanyag sa usa ka gigikanan sa mga pag-usab tungod sa dili pagsanong alang sa dugang mga pangkinatibuk nga sampling nga mga disenyo. Alang sa dugang nga paggamit sa post-stratification nga mag-adjust alang sa nonresponse, tan-awa Smith (1991) ug Gelman and Carlin (2002) . Ang post-stratification kabahin sa usa ka labaw nga kinatibuk-ang pamilya sa mga pamaagi nga gitawag nga calibration estimators, tan-awa ang Zhang (2000) alang sa usa ka artikulo-length nga pagtambal ug Särndal and Lundström (2005) alang sa usa ka libro-length treatment. Alang sa dugang pa nga uban pang mga pamaagi sa pagtimbang alang sa dili Kalton and Flores-Cervantes (2003) , tan-awa ang Kalton and Flores-Cervantes (2003) , Brick (2013) , ug Särndal and Lundström (2005) .

Pagdili sa probinsya

Ang non-probability sampling naglakip sa usa ka dako nga matang sa mga disenyo (Baker et al. 2013) . Ang partikular nga pag-focus sa sample sa mga gumagamit ni Xbox ni Wang ug mga kaubanan (W. Wang et al. 2015) , mahimo nimong hunahunaon nga ang sample nga ingon nga ang usa ka bahin sa sampling design dili ang $\pi_i$ ( ang tigdukiduki nga gipadagan sa posibilidad nga ilakip) apan ang $\phi_i$ (ang mga tubag nga tubag sa mga tubag). Siyempre, kini dili maayo tungod kay ang $\phi_i$ wala mailhi. Apan, sama sa gipakita ni Wang ug mga kaubanan, kini nga matang sa pag-opt-in sample-bisan gikan sa sampling frame nga adunay dako nga coverage nga sayup-dili kinahanglan nga malaglagon kon ang tigdukiduki adunay maayo nga impormasyon sa kaabag ug usa ka maayo nga istatistika nga modelo sa pag-asoy sa mga problema.

Bethlehem (2010) naghatag sa daghan nga mga gihisgutan sa ibabaw mahitungod sa post-stratification nga naglakip sa dili responsibilidad ug mga sayup nga pagsakop. Gawas pa sa post-stratification, ang ubang mga pamaagi sa pagtrabaho uban sa mga dili posibilidad nga mga sampol-ug mga posibilidad nga mga sampol nga adunay mga kasayuran sa pagkasakop ug dili responsibilidad-lakip ang sample matching (Ansolabehere and Rivers 2013; ??? ) , ang propensity score weighting (Lee 2006; Schonlau et al. 2009) , ug calibration (Lee and Valliant 2009) . Usa ka komon nga tema taliwala niining mga pamaagi mao ang paggamit sa impormasyon sa auxiliary.