Wiskundige notities

In deze bijlage beschrijf ik enkele van de ideeën uit het hoofdstuk in een iets meer wiskundige vorm. Het doel is om je te helpen je vertrouwd te maken met de notatie en het wiskundig kader van enquêteonderzoekers, zodat je kunt overstappen naar meer technisch materiaal over deze onderwerpen. Ik zal beginnen met het introduceren van probabiliteitssteekproeven, dan doorgaan met waarschijnlijkheidsbemonstering met non-respons, en tenslotte, het niet-waarschijnlijk zijn van steekproeven.

Kanssteekproeven

Laten we als voorbeeld een goed voorbeeld geven van het doel van het schatten van de werkloosheid in de Verenigde Staten. Laat \(U = \{1, \ldots, k, \ldots, N\}\) de doelpopulatie zijn en laat \(y_k\) over de waarde van de uitkomstvariabele voor de persoon \(k\) . In dit voorbeeld is \(y_k\) of persoon \(k\) werkloos is. Ten slotte, laat \(F = \{1, \ldots, k, \ldots, N\}\) de framepopulatie zijn, die omwille van de eenvoud wordt verondersteld dezelfde te zijn als de doelpopulatie.

Een basisbemonsteringsontwerp is eenvoudige, willekeurige bemonstering zonder vervanging. In dit geval is het waarschijnlijk dat elke persoon in de steekproef wordt opgenomen \(s = \{1, \ldots, i, \ldots, n\}\) . Wanneer de gegevens worden verzameld met dit ontwerp voor steekproeven, kunnen onderzoekers het werkloosheidscijfer voor de bevolking schatten met het steekproefgemiddelde:

\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]

waar \(\bar{y}\) de werkloosheidsgraad in de populatie is en \(\hat{\bar{y}}\) de schatting is van de werkloosheidsgraad (de \(\hat{ }\) is vaak gebruikt om een ​​schatter aan te geven).

In werkelijkheid gebruiken onderzoekers zelden eenvoudige willekeurige steekproeven zonder vervanging. Om verschillende redenen (een daarvan beschrijf ik in een oogwenk), maken onderzoekers vaak voorbeelden met ongelijke kansen op opname. Onderzoekers selecteren bijvoorbeeld mensen in Florida met een grotere kans op opname dan mensen in Californië. In dit geval is het steekproefgemiddelde (vergelijking 3.1) misschien geen goede schatter. In plaats daarvan gebruiken onderzoekers wanneer er ongelijke kansen op inclusie zijn

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]

waar \(\hat{\bar{y}}\) de schatting van het werkloosheidscijfer is en \(\pi_i\) de waarschijnlijkheid van opname van persoon \(i\) is. Volgens de standaardpraktijk zal ik de schatter in eq. 3.2 de Horvitz-Thompson-schatter. De Horvitz-Thompson-schatter is buitengewoon nuttig omdat deze leidt tot onbevooroordeelde schattingen voor elk waarschijnlijkheidssteekproefontwerp (Horvitz and Thompson 1952) . Omdat de Horvitz-Thompson-schatter zo vaak voorkomt, is het handig op te merken dat deze opnieuw kan worden geschreven als

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]

waar \(w_i = 1 / \pi_i\) . Zoals eq. 3.3 onthult, de Horvitz-Thompson schatter is een gewogen steekproefgemiddelde waarbij de gewichten omgekeerd evenredig zijn aan de waarschijnlijkheid van selectie. Met andere woorden, hoe kleiner de kans dat een persoon in de steekproef wordt opgenomen, des te groter het gewicht dat deze persoon in de schatting moet krijgen.

Zoals eerder beschreven, nemen onderzoekers vaak mensen met ongelijke kansen op inclusie waar. Een voorbeeld van een ontwerp dat kan leiden tot ongelijke waarschijnlijkheid van integratie is gestratificeerde steekproef, wat belangrijk te begrijpen omdat het nauw gerelateerd is aan de schatting procedure genaamd poststratificatie. Bij gestratificeerde steekproeven splitst een onderzoeker de doelpopulatie in \(H\) elkaar uitsluitende en uitputtende groepen. Deze groepen worden strata genoemd en worden aangeduid als \(U_1, \ldots, U_h, \ldots, U_H\) . In dit voorbeeld zijn de lagen staten. De grootten van de groepen worden aangegeven als \(N_1, \ldots, N_h, \ldots, N_H\) . Een onderzoeker zou gestratificeerde steekproeven willen gebruiken om ervoor te zorgen dat ze genoeg mensen in elke staat heeft om schattingen van de werkloosheid op staatsniveau te maken.

Nadat de populatie is opgesplitst in strata , ga je ervan uit dat de onderzoeker een eenvoudige willekeurige steekproef selecteert zonder vervanging van de grootte \(n_h\) , onafhankelijk van elke strata. Stel verder dat iedereen die in de steekproef is geselecteerd een respondent wordt (in de volgende sectie zal ik omgaan met non-respons). In dit geval is de kans op opname

\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]

Omdat deze kansen van persoon tot persoon kunnen verschillen, moeten onderzoekers bij het maken van een schatting van dit steekproefontwerp elke respondent wegen met het omgekeerde van hun waarschijnlijkheid van opname met behulp van de Horvitz-Thompson-schatter (vgl. 3.2).

Hoewel de Horvitz-Thompson-schatter onbevooroordeeld is, kunnen onderzoekers nauwkeuriger (dat wil zeggen lagere variantie) schattingen maken door het monster te combineren met hulpinformatie . Sommige mensen vinden het verrassend dat dit ook zo is als er een perfect uitgevoerde kanssteekproef wordt uitgevoerd. Deze technieken die gebruikmaken van hulpinformatie zijn bijzonder belangrijk omdat, zoals ik later zal laten zien, hulpinformatie van cruciaal belang is voor het maken van schattingen van kanssteekproeven met non-respons en van niet-waarschijnlijkheidsmonsters.

Een gebruikelijke techniek voor het gebruik van hulpinformatie is poststratificatie . Stel je bijvoorbeeld voor dat een onderzoeker het aantal mannen en vrouwen kent in elk van de 50 staten; we kunnen deze groepsgroottes aanduiden als \(N_1, N_2, \ldots, N_{100}\) . Om deze hulpinformatie te combineren met de steekproef, kan de onderzoeker het monster splitsen in \(H\) groepen (in dit geval 100), een schatting maken voor elke groep en vervolgens een gewogen gemiddelde van deze groepsgemiddelden maken:

\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]

Grofweg is de schatter in eq. 3.5 is waarschijnlijk nauwkeuriger omdat het de bekende populatie-informatie - de \(N_h\) - gebruikt om schattingen te corrigeren als er een ongebalanceerde steekproef wordt geselecteerd. Een manier om erover na te denken is dat poststratificatie vergelijkbaar is met het benaderen van stratificatie nadat de gegevens al zijn verzameld.

Concluderend heeft dit deel een aantal bemonsteringsontwerpen beschreven: eenvoudige willekeurige bemonstering zonder vervanging, bemonstering met ongelijke waarschijnlijkheid en gestratificeerde bemonstering. Het heeft ook twee hoofdideeën over schatting beschreven: de Horvitz-Thompson-schatter en post-stratificatie. Zie hoofdstuk 2 van Särndal, Swensson, and Wretman (2003) voor een meer formele definitie van ontwerpen voor waarschijnlijkheidsbemonstering. Voor een meer formele en volledige behandeling van gestratificeerde steekproeven, zie paragraaf 3.7 van Särndal, Swensson, and Wretman (2003) . Voor een technische beschrijving van de eigenschappen van de Horvitz-Thompson schatter, zie Horvitz and Thompson (1952) , Overton and Stehman (1995) , of sectie 2.8 van @ sarndal_model_2003. Zie Holt and Smith (1979) , Smith (1991) , Little (1993) of sectie 7.6 van Särndal, Swensson, and Wretman (2003) voor een meer formele behandeling van Särndal, Swensson, and Wretman (2003) .

Kansberekening met non-respons

Bijna alle echte enquêtes hebben geen respons; dat wil zeggen dat niet iedereen in de steekproefpopulatie elke vraag beantwoordt. Er zijn twee hoofdtypen non-respons: item non-respons en unit non-respons . In item non-respons beantwoorden sommige respondenten sommige items niet (bijvoorbeeld, soms willen respondenten geen vragen beantwoorden die zij als gevoelig beschouwen). In unit non-respons reageren sommige mensen die zijn geselecteerd voor de steekproefpopulatie helemaal niet op de enquête. De twee meest voorkomende redenen voor unit non-respons zijn dat er geen contact kan worden opgenomen met de bemonsterde persoon en dat contact wordt opgenomen met de voorbeeldpersoon, maar weigert deel te nemen. In deze sectie zal ik me concentreren op unit non-respons; lezers die geïnteresseerd zijn in item non-respons zouden Little en Rubin (2002) moeten zien.

Onderzoekers denken vaak aan enquêtes met unit non-respons als een tweestaps bemonsteringsproces. In de eerste fase selecteert de onderzoeker een voorbeeld \(s\) zodanig dat elke persoon een kans heeft op opname \(\pi_i\) (where \(0 < \pi_i \leq 1\) ). In de tweede fase reageren mensen die in de steekproef zijn geselecteerd met waarschijnlijkheid \(\phi_i\) (waarbij \(0 < \phi_i \leq 1\) ). Dit proces in twee fasen resulteert in de laatste reeks respondenten \(r\) . Een belangrijk verschil tussen deze twee fasen is dat onderzoekers het proces van selectie van de steekproef bepalen, maar ze bepalen niet welke van die bemonsterde mensen respondenten worden. Door deze twee processen bij elkaar te brengen, is de kans groot dat iemand een respondent zal zijn

\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]

Eenvoudigheidshalve zal ik het geval overwegen waarin het oorspronkelijke ontwerp van het monster een eenvoudige willekeurige steekproef is zonder vervanging. Als een onderzoeker een steekproef van grootte \(n_s\) selecteert die \(n_r\) respondenten oplevert, en als de onderzoeker non-respons negeert en het gemiddelde van de respondenten gebruikt, dan zal de schatting van de schatting zijn:

\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]

waarin \(cor(\phi, y)\) de populatiecorrelatie is tussen de responsgeneigdheid en de uitkomst (bijv. werkloosheidsstatus), \(S(y)\) is de standaarddeviatie van de populatie van de uitkomst (bijv. werkloosheid) status), \(S(\phi)\) is de populatiestandaardafwijking van de responsgeneigdheid, en \(\bar{\phi}\) is de populatiegemiddelde responsgeneigdheid (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Eq. 3.7 laat zien dat non-respons geen vertekening introduceert als aan een van de volgende voorwaarden wordt voldaan:

  • Er is geen variatie in werkloosheidsstatus \((S(y) = 0)\) .
  • Er is geen variatie in reactie-eigenschappen \((S(\phi) = 0)\) .
  • Er is geen correlatie tussen responsgeneigdheid en werkloosheidsstatus \((cor(\phi, y) = 0)\) .

Helaas lijkt geen van deze voorwaarden waarschijnlijk. Het lijkt onaannemelijk dat er geen variatie in werkstatus zal zijn of dat er geen variatie zal zijn in responsgeneigdheden. Dus de sleutelterm in eq. 3.7 is de correlatie: \(cor(\phi, y)\) . Als bijvoorbeeld mensen werkloos zijn, is de kans groter dat ze zullen reageren, dan zal de geschatte arbeidsparticipatie naar boven toe vertekend zijn.

De truc om schattingen te maken als er geen respons is, is om hulpinformatie te gebruiken. Bijvoorbeeld, een manier waarop u hulpinformatie kunt gebruiken, is poststratificatie (recall eq 3.5 van hierboven). Het blijkt dat de vooringenomenheid van de poststratificatie-schatter is:

\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]

waarin \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , en \(\bar{\phi}^{(h)}\) zijn gedefinieerd zoals hierboven maar beperkt tot personen in groep \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . De algemene bias zal dus klein zijn als de bias in elke post-stratificatiegroep klein is. Er zijn twee manieren waarop ik erover denk om de bias klein te maken in elke poststratificatiegroep. Ten eerste wil je proberen homogene groepen te vormen met weinig variatie in responsgeneigdheid ( \(S(\phi)^{(h)} \approx 0\) ) en de uitkomst ( \(S(y)^{(h)} \approx 0\) ). Ten tweede wil je groepen vormen waarvan de mensen die je ziet, lijken op de mensen die je niet ziet ( \(cor(\phi, y)^{(h)} \approx 0\) ). Vergelijking van eq. 3.7 en eq. 3.8 helpt verduidelijken wanneer poststratificatie de vooringenomenheid veroorzaakt door non-respons kan verminderen.

Concluderend, deze sectie heeft een model verschaft voor probabiliteitssteekproeven met non-respons en liet de bias zien die non-respons kan introduceren zowel zonder als met post-stratificatie-aanpassingen. Bethlehem (1988) biedt een afleiding van de vertekening veroorzaakt door non-respons voor meer algemene bemonsteringsontwerpen. Zie Smith (1991) en Gelman and Carlin (2002) voor meer informatie over het gebruik van poststratificatie om zich aan te passen voor non-respons. Poststratificatie maakt deel uit van een meer algemene familie van technieken die Särndal and Lundström (2005) worden genoemd, zie Zhang (2000) voor een Särndal and Lundström (2005) voor een boeklengtebehandeling. Zie Kalton and Flores-Cervantes (2003) , Brick (2013) , Särndal and Lundström (2005) voor meer informatie over andere andere weegmethoden voor het aanpassen van non-respons.

Niet-waarschijnlijkheidsbemonstering

Niet-waarschijnlijkheidsbemonstering omvat een grote verscheidenheid aan ontwerpen (Baker et al. 2013) . Specifiek gericht op het voorbeeld van Xbox-gebruikers door Wang en collega's (W. Wang et al. 2015) , kunt u een dergelijk voorbeeld beschouwen als een voorbeeld waarbij het belangrijkste deel van het ontwerp van de steekproef niet de \(\pi_i\) ( de door de onderzoeker aangestuurde waarschijnlijkheid van inclusie) maar de \(\phi_i\) (de respondentengestuurde respons-neigingen). Dit is natuurlijk niet ideaal omdat de \(\phi_i\) onbekend zijn. Maar zoals Wang en collega's hebben aangetoond, hoeft dit type opt-in-monster, zelfs van een steekproefkader met een enorme dekkingsfout, niet catastrofaal te zijn als de onderzoeker goede hulpinformatie en een goed statistisch model heeft om deze problemen te verklaren.

Bethlehem (2010) breidt veel van de bovenstaande afleidingen over post-stratificatie uit met zowel non-respons als dekkingsfouten. Naast post-stratificatie omvatten andere technieken voor het werken met niet-probabiliteitssteekproeven-en kanssteekproeven met dekkingsfouten en non-respons-steekproef-matching (Ansolabehere and Rivers 2013; ??? ) , propensity score-weging (Lee 2006; Schonlau et al. 2009) en kalibratie (Lee and Valliant 2009) . Een gemeenschappelijk thema bij deze technieken is het gebruik van de hulpinformatie.