Nòt matematik

tradiksyon Sa a te kreye pa yon òdinatè. ×

Nòt matematik

Nan apendis sa a, mwen pral dekri kèk nan ide ki soti nan chapit la nan yon fòm yon ti kras plis matematik. Objektif la isit la se ede ou jwenn konfòtab ak fondasyon an ak matematik kadri itilize chèchè sondaj pou ke ou ka tranzisyon nan kèk nan plis materyèl teknik ekri sou sijè sa yo. Mwen pral kòmanse pa entwodwi probabilite echantiyon, Lè sa a, ale nan pwobabilite echantiyon ak nonresponse, epi finalman, ki pa Peye-probabilite echantiyon.

Probabilite probabilite

Kòm yon egzanp kouri, se pou yo konsidere objektif la nan estime to a chomaj nan peyi Etazini. Kite $U = \{1, \ldots, k, \ldots, N\}$ se popilasyon an sib epi kite $y_k$ pa valè nan varyab la rezilta pou moun nan $k$ . Nan egzanp sa a $y_k$ se si moun $k$ se pap travay. Finalman, kite $F = \{1, \ldots, k, \ldots, N\}$ se popilasyon an ankadreman, ki pou dedomajman pou la senplisite sipoze yo dwe menm bagay la tou kòm sib popilasyon an.

Yon konsepsyon echantiyon debaz se senp echantiyon o aza san ranplasman. Nan ka sa a, chak moun gen menm chans yo dwe enkli nan echantiyon an $s = \{1, \ldots, i, \ldots, n\}$ . Lè done yo kolekte ak konsepsyon echantiyon sa a, yon chèchè ka estime pousantaj chomaj popilasyon an ak echantiyon an vle di:

$\hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)$

kote $\bar{y}$ se pousantaj la chomaj nan popilasyon an ak $\hat{\bar{y}}$ se estimasyon an nan to chomaj la (nan $\hat{ }$ se souvan itilize pou endike yon estimatè).

An reyalite, chèchè raman itilize senp echantiyon o aza san ranplasman. Pou yon varyete de rezon (youn nan ki mwen pral dekri nan yon moman), chèchè souvan kreye echantiyon ak pwobabl inegal nan enklizyon. Pa egzanp, chèchè yo ka chwazi moun nan Florida avèk pi gwo pwobabilite enklizyon pase moun ki nan California. Nan ka sa a, echantiyon an vle di (ekivalan 3.1) pa ta ka yon estimatè bon. Olye de sa, lè gen pwobabl inegal nan enklizyon, chèchè yo itilize

$\hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)$

Kote $\hat{\bar{y}}$ se estimasyon pousantaj chomaj la ak $\pi_i$ se pwobabilite moun $i$ nan enklizyon. Apre pratik estanda, mwen pral rele estimatè a nan ek. 3.2 Estimatè Horvitz-Thompson. Estimatè Horvitz-Thompson a trè itil paske li mennen nan estimasyon san patipri pou nenpòt ki konsepsyon echantiyon pwobabilite (Horvitz and Thompson 1952) . Paske estimatè Horvitz-Thompson la vini konsa souvan, li itil pou remake ke li ka re-ekri kòm

$\hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)$

kote $w_i = 1 / \pi_i$ . Kòm eq. 3.3 revele, Horvitz-Thompson estimator a se yon echantiyon weighted vle di kote pwa yo yo envers relasyon ak pwobabilite pou seleksyon an. Nan lòt mo, mwens chans yon moun se yo dwe enkli nan echantiyon an, plis pwa moun sa a ta dwe jwenn nan estimasyon an.

Jan sa dekri pi bonè, chèchè souvan echantiyon moun ki gen pwobablite inegal nan enklizyon. Yon egzanp nan yon konsepsyon ki ka mennen nan pwobablite inegal nan enklizyon se stratifye echantiyon , ki se enpòtan yo konprann paske li se pre relasyon ak pwosedi a estimasyon rele pòs-stratifikasyon . Nan echantiyon stratifye, yon chèchè divize popilasyon an sib nan $H$ mityèlman eksklizif ak konplè. Gwoup sa yo rele strata epi yo endike kòm $U_1, \ldots, U_h, \ldots, U_H$ . Nan egzanp sa a, kouch yo se eta yo. Gwosè gwoup yo endike kòm $N_1, \ldots, N_h, \ldots, N_H$ . Yon chèchè ta ka vle itilize stratifye echantiyon yo nan lòd yo asire ke li gen ase moun nan chak eta fè estimasyon leta nan nivo chomaj.

Yon fwa ke popilasyon an te divize an strata , asime ke chèchè a chwazi yon echantiyon senp o aza san yo pa ranplasman nan gwosè $n_h$ , poukont soti nan chak kouch. Pli lwen, asime ke tout moun chwazi nan echantiyon an vin yon repond (mwen pral okipe repons ki pa repons nan pwochen seksyon an). Nan ka sa a, pwobabilite pou enklizyon se

$\pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)$

Paske pwobablite sa yo ka varye de moun nan yon moun, lè yo fè yon estimasyon de konsepsyon echantiyon sa a, chèchè yo bezwen pwa chak repondan pa envès nan pwobabilite yo nan enklizyon lè l sèvi avèk Horvitz-Thompson estimator a (ekivalan 3.2).

Menm si estimatè Horvitz-Thompson la san patipri, chèchè yo ka pwodui pi egzak (sa vle di, pi ba divèjans) estimasyon pa konbine echantiyon an ak enfòmasyon oksilyè . Gen kèk moun ki jwenn li etone ke sa a se vre menm lè gen echantiyon pèfòmans parfe egzekite. Teknik sa yo lè l sèvi avèk enfòmasyon oksilyè yo patikilyèman enpòtan paske, jan mwen pral montre pita, enfòmasyon oksilyè enpòtan pou fè estimasyon de echantiyon probabilite ak nonresponse ak nan echantiyon ki pa pwobabilite yo.

Yon teknik komen pou itilize enfòmasyon oksilyè se pòs-stratifikasyon . Imajine, pou egzanp, ke yon chèchè konnen kantite gason ak fanm nan chak nan 50 eta yo; nou ka endike gwosè gwoup sa yo kòm $N_1, N_2, \ldots, N_{100}$ . Pou konbine enfòmasyon oksilyè sa a ak echantiyon an, chèchè a ka fann echantiyon an nan gwoup $H$ (nan ka sa a 100), fè yon estimasyon pou chak gwoup, ak Lè sa a, kreye yon mwayèn weighted nan gwoup sa yo vle di:

$\hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)$

Apeprè, estimatè a nan eq. 3.5 gen plis chans pou yo pi egzak paske li sèvi ak enfòmasyon sou popilasyon li te ye yo - $N_h$ -a estime ki kòrèk si yon echantiyon dezekilib k ap pase pou yo chwazi. Youn nan fason yo reflechi sou li se ke pòs-stratifikasyon se tankou apwoksimasyon stratifikasyon apre done yo te deja ranmase.

An konklizyon, seksyon sa a te dekri yon desen echantiyon kèk: senp echantiyon echantiyon san ranplasman, echantiyon ak pwobabilite inegal, ak stratifye echantiyon. Li te gen tou dekri de ide prensipal sou estimasyon: Estimatè Horvitz-Thompson ak pòs-stratifikasyon. Pou yon definisyon pi fòmèl nan desen echantiyon pwobabilite, gade chapit 2 nan Särndal, Swensson, and Wretman (2003) . Pou yon tretman ki pi fòmèl ak konplè nan echantiyon stratifye, gade seksyon 3.7 nan Särndal, Swensson, and Wretman (2003) . Pou yon deskripsyon teknik sou pwopriyete Estimatè Horvitz-Thompson, gade Horvitz and Thompson (1952) , Overton and Stehman (1995) , oswa seksyon 2.8 nan @ sarndal_model_2003. Pou yon tretman plis fòmèl nan post-stratifikasyon, gade Holt and Smith (1979) , Smith (1991) , Little (1993) , oswa seksyon 7.6 nan Särndal, Swensson, and Wretman (2003) .

Probabilite echantiyon ak nonresponse

Prèske tout sondaj reyèl yo te nonresponse; Sa se, se pa tout moun nan repons lan popilasyon repons chak kesyon. Gen de kalite prensipal nan nonresponse: nonresponse atik ak nonresponse inite . Nan nonresponse atik, kèk repond pa reponn kèk atik (egzanp, pafwa repond pa vle reponn kesyon yo konsidere sansib). Nan nonresponse inite, kèk moun ke yo chwazi pou popilasyon an echantiyon pa reponn a sondaj la nan tout. De rezon ki pi komen pou nonresponse inite yo se ke moun ki pran echantiyon an pa ka kontakte ak moun nan echantiyon kontakte, men refize patisipe. Nan seksyon sa a, mwen pral konsantre sou nonresponse inite; Lektè ki enterese nan nonresponse atik yo ta dwe wè Little ak Rubin (2002) .

Chèchè souvan panse sou sondaj ak inite ki pa repons kòm yon pwosesis echantiyon de-etap. Nan premye etap la, chèchè a chwazi yon echantiyon $s$ tankou ke chak moun gen yon pwobabilite pou enklizyon $\pi_i$ (kote $0 < \pi_i \leq 1$ ). Lè sa a, nan etap nan dezyèm, moun ki chwazi nan echantiyon an reponn ak pwobabilite $\phi_i$ (kote $0 < \phi_i \leq 1$ ). Pwosesis sa a de etap etap nan seri final la nan moun ki repond $r$ . Yon diferans enpòtan ant de etap sa yo se ke chèchè yo kontwole pwosesis la nan chwazi echantiyon an, men yo pa kontwole ki nan moun sa yo pran echantiyon yo vin repond. Mete de pwosesis sa yo ansanm, pwobabilite yon moun ap yon moun ki konsène se

$pr(i \in r) = \pi_i \phi_i \qquad(3.6)$

Pou dedomajman pou la senplisite, mwen pral konsidere ka a kote konsepsyon echantiyon orijinal la se senp echantiyon echantiyon san yo pa ranplasman. Si yon chèchè chwazi yon echantiyon gwosè $n_s$ ki bay $n_r$ , e si chèchè a inyore ki repons ki pa repons epi ki sèvi ak vle di nan moun ki repond yo, Lè sa a, patipri a nan estimasyon yo pral:

$\mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)$

Ki kote $cor(\phi, y)$ popilasyon ant pwoposyon repons lan ak rezilta a (egzanp, sitiyasyon chomaj), $S(y)$ se devyasyon popilasyon estanda rezilta a (egzanp, chomaj estati), $S(\phi)$ se devyasyon an estanda popilasyon nan repwesyon an repons, ak $\bar{\phi}$ se popilasyon an vle di repons propensity (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Eq. 3.7 montre ke nonresponse pa pral prezante patipri si nenpòt nan kondisyon sa yo yo te rankontre:

Pa gen okenn varyasyon nan estati chomaj $(S(y) = 0)$ .
Pa gen okenn varyasyon nan pwoposyon repons $(S(\phi) = 0)$ .
Pa gen okenn korelasyon ant repwesyon repons ak sitiyasyon chomaj $(cor(\phi, y) = 0)$ .

Malerezman, okenn nan kondisyon sa yo sanble gen anpil chans. Li sanble implausible ke pa pwal gen okenn varyasyon nan estati travay oswa ke pa pwal gen okenn varyasyon nan pwoposite repons. Kidonk, tèm kle a nan ek. 3.7 se korelasyon an: $cor(\phi, y)$ . Pou egzanp, si moun yo ki pap travay gen plis chans reponn, Lè sa a, to a estime pousantaj yo pral partisan anwo.

Trick a fè estimasyon lè gen nonresponse se yo sèvi ak enfòmasyon oksilyè. Pou egzanp, yon fason ou ka itilize enfòmasyon oksilyè se pòs-stratifikasyon (sonje ekè 3.5 soti nan pi wo a). Li sanble ke patipri nan estatistik la pòs-stratifikasyon se:

$bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)$

kote $cor(\phi, y)^{(h)}$ $S(y)^{(h)}$ , $S(\phi)^{(h)}$ , ak $\bar{\phi}^{(h)}$ yo defini kòm pi wo a men restriksyon nan moun ki nan gwoup $h$ (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Se konsa, patipri yo an jeneral yo pral ti si patipri a nan chak gwoup pòs-stratifikasyon se ti. Gen de fason ke mwen renmen panse osijè de fè patipri ti nan chak gwoup pòs-stratifikasyon. Premyèman, ou vle eseye fòme gwoup omojèn kote gen ti varyasyon nan pwoposyon repons ( $S(\phi)^{(h)} \approx 0$ ) ak rezilta a ( $S(y)^{(h)} \approx 0$ ). Dezyèmman, ou vle fòme gwoup kote moun ou wè yo se tankou moun ou pa wè ( $cor(\phi, y)^{(h)} \approx 0$ ). Konpare eq. 3.7 ak eq. 3.8 ede klarifye lè pòs-stratifikasyon ka redwi partial la ki te koze pa nonresponse.

An konklizyon, seksyon sa a te bay yon modèl pou probabilite echantiyon ak repons ki pa repons epi yo montre patipri a ki nonresponse ka prezante tou de san yo ak ak ajisteman post-stratification. Bethlehem (1988) ofri yon derivasyon nan patipri ki lakòz pa repons pou desen plis pran desizyon jeneral. Pou plis sou lè l sèvi avèk post-stratifikasyon yo ajiste pou nonresponse, wè Smith (1991) ak Gelman and Carlin (2002) . Post-stratifikasyon se yon pati nan yon fanmi pi jeneral nan teknik ki rele estimatè kalibrasyon, gade Zhang (2000) pou yon tretman atik-longè ak Särndal and Lundström (2005) pou yon tretman liv-longè. Pou plis sou lòt metòd pondan pou ajiste pou nonresponse, gade Kalton and Flores-Cervantes (2003) , Brick (2013) , ak Särndal and Lundström (2005) .

Ki pa Peye-probabilite echantiyon

Ki pa Peye-pwobabilite echantiyon gen ladan yon varyete gwo desen (Baker et al. 2013) . Konsantre espesyalman sou echantiyon an nan itilizatè Xbox pa Wang ak kòlèg li yo (W. Wang et al. 2015) , ou ka panse a ki kalite echantiyon kòm youn kote pati nan kle nan konsepsyon an pran echantiyon se pa $\pi_i$ ( chèchè-kondwi pwobabilite pou enklizyon), men $\phi_i$ (repondan-responsab repons lan). Natirèlman, sa a pa ideyal paske $\phi_i$ yo se enkoni. Men, kòm Wang ak kòlèg li te montre, sa a kalite opt-nan echantiyon-menm soti nan yon ankadreman echantiyon ak menas kouvèti asirans-menen pa bezwen katastwofik si chèchè a gen bon enfòmasyon oksilyè ak yon modèl estatistik bon nan kont pou pwoblèm sa yo.

Bethlehem (2010) pwolonje anpil nan dérivés ki anwo yo sou post-stratifikasyon genyen ladan tou de nonresponse ak erè pwoteksyon. Anplis pòs-stratifikasyon, lòt teknik pou travay ak echantiyon ki pa pwobabilite-ak echantiyon pwobabilite ak erè kouvèti ak nonresponse-genyen ladan echantiyon matche (Ansolabehere and Rivers 2013; ??? ) , pwezidan nòt pwente (Lee 2006; Schonlau et al. 2009) , ak kalibrasyon (Lee and Valliant 2009) . Yon tèm komen nan mitan teknik sa yo se itilizasyon enfòmasyon oksilyè a.