Mathematiker Notiz

An dësem Appendix beschreiwt ech e puer Ideeën aus dem Kapitel an enger liicht méi mathematescher Form. D'Zil ass et fir Iech ze bequem mam Notaire a mathematesche Kader, deen vun Ëmfeldwëssenschaftler benotzt gëtt, sou datt Dir kënnt op e puer vun de méi techneschen Materialien op dës Themen geschéien. Ech starten duerch d'Wahrscheinlechkeetsproblematik, dann op d'Wahrscheinlechkeetsproblematik mat der Netresponsioun, an schliesslech net wahrscheinlech d'Probabilitéit.

Probabilitéit probéieren

Als Virstellungsbeispill hu mer d'Ziel vun der Schätzung vun der Aarbechtslosegkeet an den USA. Gitt \(U = \{1, \ldots, k, \ldots, N\}\) d' \(y_k\) a lass dech \(y_k\) duerch den Wäert vun der Resultatvariablen fir d'Persoun \(k\) . An dësem Beispill \(y_k\) ass ob Persoun \(k\) ass ouni Aarbecht. Schliissend lass et \(F = \{1, \ldots, k, \ldots, N\}\)

E Grondproblem designt ass einfach Zufallsprobenentzündung ouni Ersatz. An dësem Fall ass all Persoun déiselwecht wahrscheinlech an der Probe \(s = \{1, \ldots, i, \ldots, n\}\) . Wann d'Donnéeën mat dësem Ofschlossentwurf gesammelt ginn, kann d'Fuerscher d'Bevëlkerungslosegungsraten mat dem Préift bedeelegen:

\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]

wou \(\bar{y}\) d'Aarbechtslosegkeet an der Bevëlkerung ass. \(\hat{\bar{y}}\) ass d'Schätzung vun der Aarbechtslosegkeet ( \(\hat{ }\) benotzt fir e Schätzler ze weisen).

An der Realitéit benotzt d'Fuerscher selten einfache random Proben ouni Ersatz. Fir villfälteg Grënn (een vun deenen ech an engem Moment beschreiwen), hunn d'Fuerscher oft Proben mat onbestëmmte Wahrscheinlechkeet vun der Inklusioun erschaaft. Zum Beispill kënnen d'Fuerscher Leit aus Florida mat méi héigen Wahrscheinlechkeet wéi Inkomponente wéi Kalifornien wielen. An dësem Fall ass d'Probe bedeitend (eq 3.1) net e gudden Estéquateur. Amplaz, wann et onschaubar Wahrscheinlechkeet vun Inklusioun gëtt, benotzen d'Fuerscher

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]

wou \(\hat{\bar{y}}\) ass d'Devis vun de Chômagetaux an \(\pi_i\) ass Persoun \(i\) senger Probabilitéit vun Inclusioun. Déi nächst Standardpraxis ruffe mech de Schätzer an eq. 3.2 den Horvitz-Thompson Schäerf. Den Horvitz-Thompson Schätzler ass extrem nëtzlech, well et zu onbepäertene Schätzunge fir all Probabilitéitstutzenentwurf (Horvitz and Thompson 1952) . Well d'Horvitz-Thompson Schätzler esou séier sinn, ass et hëllefräich ze bemierken datt et kann erëm opgeschriwwe ginn

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]

wou \(w_i = 1 / \pi_i\) . Als eq. 3.3 weist d'Horvitz-Thompson Schätzung e gewiessene Probe bedeit, wou d'Gewichte inversin op d'Wahrscheinlechkeet vun der Auswiel bezéien. An anere Wierder, manner wahrscheinlech eng Persoun ass an der Prouf mat abegraff, wat méi Gewiicht déi Persoun muss an der Schätzung kréien.

Wéi virdrun et scho gesot, d'Fuerscher probéieren d'Leit mat ongerechten Wahrscheinlechkeet vun der Inklusioun. Ee Beispill vu engem Design deen zu ongläiche Wahrscheinlechkeet vun der Inklusioun féiert, ass d' Schicht vun der Probabilitéit , wat wichteg ass fir ze verstoen, well se eng Zesummenaarbecht mat der Schätzungsprozedur Post-Stratifikatioun ass . Bei der Schichtenentzündung setzt de Fuerscher d'Zilbezuel an d' \(H\) géigesäiteg exklusiv a komplett erschreckend Gruppen. Dës Gruppë ginn Schichten genannt an ginn als \(U_1, \ldots, U_h, \ldots, U_H\) . An dësem Beispill sinn d'Strata Staaten. D'Gréissten vun de Gruppen ginn als \(N_1, \ldots, N_h, \ldots, N_H\) . En Fuerscher wëlle verhënneren, datt d'Stratifizéierung probéieren, fir sécherzestellen, datt si genuch Leit an all Staat huet, fir Schätzungen vun der Staatsschold vun der Aarbechtslosegkeet ze maachen.

Wann d'Bevëlkerung zu Strata opgespléckt ass, ass ugeholl datt de Fuerscher een einfachen zielgülteg \(n_h\) Ersatz vun der Gréisst \(n_h\) , onofhängeg vun all Strata. Ausserdeem, ass datt jiddereen an der Prouf e gewuer gëtt (en Argument) (ech behuelen net d'Äntwert am nächste Abschnitt). An dësem Fall ass d'Wahrscheinlechkeet d'Inklusioun

\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]

Well dës Wahrscheinlechkeete vun der Persoun zu der Persoun variéiere sinn, wann Dir eng Schätzung vun dësem Probebild entwéckelt, musst de Fuerscher all Enregistrement duerch d'Invers vun hirer Wahrscheinlechkeet mat der Inklusioun duerch den Horvitz-Thompson Schätzer (eq 3.2) gewiesselt hunn.

Och wann den Horvitz-Thompson Schätzler net wäit vertrueden ass, kënnen d'Fuerscher méi genee ginn (dh manner Schwieregkeeten) schätzen duerch Kombinatioun vun der Probe mat Hëllef vun Informatiounen . E puer Leit fannen datt dat iwwerrascht gëtt datt et och richteg ass, wann et perfekt Wahrscheinlechkeetsproblematik ausgezeechent gëtt. Dës Techniken mat Hëllef vun Hëllefsinformatiounen sinn besonnesch wichteg, wéi ech spéider spéit d'Hëllef vun der Hëllef kritesch maachen fir Schätz vun Wahrscheinlechkeetsproblemer mat net respektéieren an vun Wahrscheinlechkeetsproblemer ze maachen.

Een gemeinsame Technik fir d'Hëllef vun der Hëllef vun der Hëllef vun der Noutwennegkeet ass post-Stratifikatioun . Stellt Iech vir, zum Beispill, datt e Fuerscher d'Zuel vu Männer a Frae an all de 50 Staaten kennt; Mir kënnen dës Gruppegréifen als \(N_1, N_2, \ldots, N_{100}\) bezeechnen. Fir dës Assistenz mat der Probe viraus ze kombinéieren, kann de Fuerscher d'Probe an \(H\) Gruppen (an dësem Fall 100) splitzt, eng Schätzung fir all Grupp uginn an duerno en gewiessene Mëttler vun dësen Gruppë schafft:

\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]

Awer grouss ass de Schätzer an eq. 3.5 ass wahrscheinlech méi präzis genuch, well se d'bekannte Bevëlkerungsinformatioun benotzt - den \(N_h\) - fir d'Schätz \(N_h\) wann eng onbeäntworter Probe passéiert. Ee Wee fir ze denken, ass dës Post-Stratifikatioun ähnlech wéi d'Schichtung, wéi d'Daten scho gesammelt goufen.

Am Schluss huet dës Sektioun e puer Probenentzündungen beschreift: einfach Zufallsprobenentzündung ouni Auswechslung, Prouf mat onbestëmmte Wahrscheinlechkeet a Schichtbeispill. Et huet och zwou Haaptadressen iwwer d'Schätzung beschriwwen: den Horvitz-Thompson Schätz a post-Stratifikatioun. Fir eng méi formal Definitioun vu Wahrscheinlechkeetsproblemer entwéckelen, kuckt Kapitel 2 vun Särndal, Swensson, and Wretman (2003) . Fir eng méi formal a komplett Ofgrenzung vun der Schichtenentzündung, kucke Kapitel 3.7 vun Särndal, Swensson, and Wretman (2003) . Fir eng technesch Beschreiwung vun den Eegeschafte vum Horvitz-Thompson Schätz, kuckt Horvitz and Thompson (1952) , Overton and Stehman (1995) , oder Rubrik 2.8 vum @ sarndal_model_2003. Fir eng méi formal Behandlung vu Post-Stratifikatioun ze gesinn, kuckt Holt and Smith (1979) , Smith (1991) , Little (1993) , oder Sektioun 7,6 vum Särndal, Swensson, and Wretman (2003) .

Probabilitéit Probabilitéit mat net respektéieren

Bal all richteg Uebstes hunn net respektvoll; Dat heescht, net jiddereen an der Probe-Populatioun beäntwert all Fro. Et ginn zwee Haaptarten vun der Netresponse: Element nonresponse a Eenheet nonresponse . Am Punkt net respektéiert, sinn e puer Interviewten eng Rei Saachen ze beäntweren (zB, heiansdo d'Ënnerdeelunge wëllen d'Fro beäntweren déi se sensibel beuechten). An der Eenheet nonresponse sinn e puer Leit, déi fir d'Probabilitéit ausgewielt sinn, op d'Ëmfro unzegoen. Déi zwee gänglecht Grënn fir Unitéit net respektéieren sinn datt d'Probefolleg net kontaktéiert gëtt an d'Probefester kontaktéiert ass, awer refuséiert ze maachen matzemaachen. An dëser Rubrik wëll ech mech op Unitéit net respektéieren; D'Lieser interesséieren op Element Netresponse soll Klein a Rubin gesinn (2002) .

D'Fuerscher denken iwwer d'Ëmfroen mat Eenheet net-Reaktioun als zweetstufige Prouf-Prozess. An der éischter Etapp \(\pi_i\) de Fuerscher e Probe \(s\) sou datt all Persoun eng Wahrscheinlechkeet vun der Inklusioun \(\pi_i\) (wou \(0 < \pi_i \leq 1\) ). Dann, an der zweeter Phas, reagéieren Leit, déi an der Probe ausgewielt sinn, reagéiert mat Wahrscheinlechkeet \(\phi_i\) (wou \(0 < \phi_i \leq 1\) ). Dëse zweet Stufen Prozess erreecht d'Finale vun den Interviewten \(r\) . E wichtegen Ënnerscheed tëscht deenen zwou Etappen ass, datt d'Fuerscher de Prozess vun der Préiftelausstellung kontrolléieren, awer se kontrolléieren net, wéi eng vun de Probanden enthale sinn. Déi zwee Prozesser zesummen zesummegesat, d'Wahrscheinlechkeet datt een e Respekt ass

\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]

Fir der Wichtegkeet vun der Einfachheet wäert ech de Fall erënneren, wou d'ursprénglech Sample-Design einfach Prézessiouns Probabilitéit ass ouni Ersatz. Wann e Fuerscher e Prouf vun der Gréisst \(n_s\) déi den Ënnersichter \(n_r\) , a wann de Fuerscher net d'Äntwert ignoréiert an d'Mëttel vun den Interviewten benotzt, da wäert d'Viraussiicht vun der Schätzung sinn:

\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]

woubäi \(cor(\phi, y)\) d'Bevëlkerungskorrelatioun tëscht der Responsabilitéit an dem Resultat (z. B. dem Status vum Aarbechtslosegkeet) ass. \(S(y)\) ass d'Populatiouns- Standardabweichung vum Ausgang (zB Chômage Status), \(S(\phi)\) ass d'Populatioun Standard deviation vun der Äntwert propensity, an \(\bar{\phi}\) ass d'Populatioun Äntwert propensity mengen (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Eq. 3.7 weist datt d'Non-Resonance keng Viraussiicht fënnt, wann eng vun den folgenden Konditiounen erfëllt sinn:

  • Et gëtt keng Variatioun vum Chômeur Status \((S(y) = 0)\) .
  • Et gëtt keng Variatioun vun der Reaktiounsapplikatiounen \((S(\phi) = 0)\) .
  • Et gëtt keng Korrelatioun tëscht Beweisstabilitéit an Aarbechtslosegkeet. \((cor(\phi, y) = 0)\) .

Leider si keng vun dëse Konditioune onwahrscheinlech. Et schéngt implausible ze soen datt et keng Verännerlechungsännerung gëtt oder datt et keng Variatioun vun der Responsabilitéit gëtt. Dofir ass de Schlësselwieder op eq. 3,7 ass d'Korrelatioun: \(cor(\phi, y)\) . Zum Beispill, wann Leit sinn, déi ouni Aarbecht fannen, méi séier reagéieren, da gëtt de geschätzte Beschäftegungsgrad ofgespillt.

Den Trick fir Schätzungen ze maachen, wann et net respektéiert ginn ass d'Hëllef vun Hëllefsinformatiounen. Zum Beispill, eng Aart a Weis wou Dir Informatiounen benotzt kënnt post-Stratifikatioun (erënner dech drun 3,5% uewe genannt). Et stellt sech eraus datt d'Viraussicht vun der Post-Stratifikatioun Schätzung ass:

\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]

\(cor(\phi, y)^{(h)}\) \(S(y)^{(h)}\) \(S(\phi)^{(h)}\) an \(\bar{\phi}^{(h)}\) ginn definéiert wéi et awer definéiert ass, awer fir Leit an der Grupp \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Dofir ass d'Gesamtviskositéit kleng, wann d'Viraussiicht an all Post-Stratifikatiounskrong kleng ass. Et ginn zwou Weeër, déi ech gär iwwer d'Viraussiicht an all eenzel Post-Stratifikatiounskrankzeechnung erënneren. Als éischt wëlle probéieren homogenneng Gruppen ze halen, wou et wéineg vill Variatioun an der Reaktiounsopensitéit gëtt ( \(S(\phi)^{(h)} \approx 0\) ) an dem Resultat ( \(S(y)^{(h)} \approx 0\) ). Zweetens, Dir wëllt Gruppen bilden, wou d'Leit, déi Dir gesitt, wéi d'Leit déi Dir net se gesinn ( \(cor(\phi, y)^{(h)} \approx 0\) ). Verglach mat eq. 3.7 an eq. 3.8 hëlleft ze klären, wann d'post-stratifizéierung kann de préiwen verursaacht vu net respektéieren.

Am Schluss huet dës Sektioun e Modell fir Wahrscheinlechkeetsproblem mat Nidderschlag versand an d'Viraussiicht virgespillt datt d'nonresponse kann ouni a post-stratifizéiert Anpassungen virstellen. Bethlehem (1988) bitt eng Ofdreiwung vun der Viraussetzung, déi duerch net respektéiert ginn ass fir méi generell Prouf Entworf. Fir méi iwwer d'Benotze vun der Post-Stratifikatioun fir net respektéieren ze kënnen, kuckt Smith (1991) an Gelman and Carlin (2002) . Post-Stratifikatioun ass Deel vun enger méi allgemenger Famill vun Techniken genannt Kalibratiounsschätzung, kuckt Zhang (2000) fir eng Artikel laang Behandlung a Särndal and Lundström (2005) fir eng Särndal and Lundström (2005) . Fir méi op aner aner Gewiichtmethoden fir d'Spillplaz ze maachen, kuckt Kalton and Flores-Cervantes (2003) , Brick (2013) , a Särndal and Lundström (2005) .

Probéiert net Wahrscheinlechkeet

D'Wahrscheinlechkeetsproblem enthält eng grouss Diversitéit vu Designs (Baker et al. 2013) . Wann Dir speziell op d'Probe vun Xbox Benotzer vu Wang an Kollegen zougitt (W. Wang et al. 2015) , kënnt Dir dës Zort vun engem Prouwen als ee wou de Schlësselelement vun der Probenentzündung net d' \(\pi_i\) ( d'Wahrscheinlechner vun der Inklusioun), awer d' \(\phi_i\) (d'respondentengesprong Reaktiounsapplikatiounen). Natierlech ass dat net ideal, well d' \(\phi_i\) onbekannt sinn. Mä wéi Wang a Kollegen zevill war, huet dës Zort Opt-In-Probe-souguer aus engem Probenahmerframe mat enormen Ofdeckungsfehler - net katastrofesch, wann de Fuerscher gutt Hëllefsinformation an e gudden statistesche Modell huet fir dës Problemer ze rechnen.

Bethlehem (2010) verléisst vill vun den Ofdreiwungen un der Post-Stratifikatioun, souwuel un Net-Respekt a Ofdeckungsfehler. Nieft der Post-Stratifikatioun sinn aner Techniken fir d'Aarbecht mat Wahrscheinlechkeetsproblemer a Wahrscheinlechkeetsproblemer mat Ofdeckungsfehler an Net-Respekt - ëmfaassen Probe passend (Ansolabehere and Rivers 2013; ??? ) , Gewiichtelektrizitéit (Lee 2006; Schonlau et al. 2009) , an Kalibrierung (Lee and Valliant 2009) . Een gemeinsame Thema ënnert dësen Techniken ass d'Benotze vun der Hëllef vun der Hëllef.