Mathematische Notizen

In diesem Anhang werde ich einige der Ideen aus dem Kapitel in etwas mathematischer Form beschreiben. Das Ziel ist, Ihnen dabei zu helfen, sich mit der Notation und dem mathematischen Rahmen vertraut zu machen, die von den Umfrageforschern verwendet werden, damit Sie zu etwas mehr technischem Material, das zu diesen Themen geschrieben wurde, wechseln können. Ich werde mit der Einführung der Wahrscheinlichkeitsstichprobe beginnen und mich dann der Wahrscheinlichkeitsprobe mit Nichtantworten und schließlich der Nichtwahrscheinlichkeitsprobe zuwenden.

Wahrscheinlichkeitsstichprobe

Als ein laufendes Beispiel betrachten wir das Ziel der Schätzung der Arbeitslosenquote in den Vereinigten Staaten. Sei \(U = \{1, \ldots, k, \ldots, N\}\) die Zielpopulation und lass \(y_k\) durch den Wert der Ergebnisvariablen für die Person \(k\) . In diesem Beispiel ist \(y_k\) ob Person \(k\) arbeitslos ist. Schließlich sei \(F = \{1, \ldots, k, \ldots, N\}\) die Rahmenpopulation, von der angenommen wird, dass sie die gleiche ist wie die Zielpopulation.

Ein Basis-Stichprobenplan ist eine einfache Zufallsstichprobe ohne Ersatz. In diesem Fall ist es wahrscheinlich, dass jede Person in das Beispiel \(s = \{1, \ldots, i, \ldots, n\}\) . Wenn die Daten mit diesem Stichprobenplan erfasst werden, können die Forscher die Arbeitslosenquote der Bevölkerung mit dem Stichprobenmittel schätzen:

\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]

wo \(\bar{y}\) ist die Arbeitslosenquote in der Bevölkerung und \(\hat{\bar{y}}\) ist die Schätzung der Arbeitslosenquote (die \(\hat{ }\) ist in der Regel verwendet, um einen Schätzer anzugeben).

In Wirklichkeit verwenden Forscher selten einfache Stichproben ohne Ersatz. Aus einer Vielzahl von Gründen (von denen ich eine im Folgenden kurz beschreiben werde) erstellen Forscher oft Stichproben mit ungleichen Einschlusswahrscheinlichkeiten. Zum Beispiel könnten Forscher Personen in Florida mit einer höheren Wahrscheinlichkeit der Inklusion auswählen als Menschen in Kalifornien. In diesem Fall ist der Stichprobenmittelwert (Gl. 3.1) möglicherweise kein guter Schätzer. Stattdessen, wenn es ungleichen Eintrittswahrscheinlichkeiten gibt, verwenden Forscher

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]

Wobei \(\hat{\bar{y}}\) die Schätzung der Arbeitslosenquote ist und \(\pi_i\) Eintrittswahrscheinlichkeit der Person \(i\) . Nach gängiger Praxis rufe ich den Schätzer in Gl. 3.2 der Horvitz-Thompson-Schätzer. Der Horvitz-Thompson-Schätzer ist äußerst nützlich, da er zu unverzerrten Schätzungen für jedes Wahrscheinlichkeitsmuster führt (Horvitz and Thompson 1952) . Da der Horvitz-Thompson-Schätzer so häufig auftaucht, ist es hilfreich zu beachten, dass er als neu geschrieben werden kann

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]

wo \(w_i = 1 / \pi_i\) . Wie Gl. 3.3 zeigt, dass der Horvitz-Thompson-Schätzer ein gewichteter Stichprobenmittelwert ist, bei dem die Gewichte umgekehrt proportional zur Wahrscheinlichkeit der Auswahl sind. Mit anderen Worten, je weniger wahrscheinlich eine Person in die Stichprobe aufgenommen wird, desto mehr Gewicht sollte diese Person in die Schätzung einbeziehen.

Wie zuvor beschrieben, verwenden Forscher häufig Personen mit ungleichen Einschlusswahrscheinlichkeiten. Ein Beispiel für ein Design , das zu ungleichen Wahrscheinlichkeiten der Inklusion führen kann , ist geschichtete Stichprobe, was wichtig ist , zu verstehen , weil es eng mit dem Schätzverfahren genannten Post-Schichtung in Zusammenhang steht. Bei einer geschichteten Stichprobe teilt ein Forscher die Zielpopulation in \(H\) gegenseitig ausschließende und erschöpfende Gruppen ein. Diese Gruppen heißen Schichten und werden als \(U_1, \ldots, U_h, \ldots, U_H\) . In diesem Beispiel sind die Schichten Zustände. Die Größen der Gruppen sind als \(N_1, \ldots, N_h, \ldots, N_H\) . Eine Forscherin möchte möglicherweise geschichtete Stichproben verwenden, um sicherzustellen, dass sie in jedem Staat über genügend Personen verfügt, um Schätzungen der Arbeitslosigkeit auf Landesebene vornehmen zu können.

Sobald die Population in Schichten aufgeteilt wurde , wird angenommen, dass der Forscher unabhängig von jeder Schicht eine einfache Stichprobe ohne Ersatz der Größe \(n_h\) auswählt. Nehmen wir weiterhin an, dass jeder, der in der Stichprobe ausgewählt wurde, ein Befragter wird (ich werde im nächsten Abschnitt die Nicht-Antwort behandeln). In diesem Fall ist die Wahrscheinlichkeit der Einbeziehung

\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]

Da diese Wahrscheinlichkeiten von Person zu Person variieren können, müssen die Forscher, wenn sie eine Schätzung aus diesem Stichprobenplan machen, jeden Befragten mit dem Horvitz-Thompson-Schätzer nach der Umkehrung ihrer Einschlusswahrscheinlichkeit gewichten (Gl. 3.2).

Obwohl der Horvitz-Thompson-Schätzer unverzerrt ist, können Forscher genauere Schätzungen (dh niedrigere Varianz) erzeugen, indem sie die Stichprobe mit Hilfsinformationen kombinieren. Manche Leute finden es überraschend, dass dies auch dann gilt, wenn eine perfekt durchgeführte Wahrscheinlichkeitsabtastung vorliegt. Diese Techniken, die Hilfsinformationen verwenden, sind besonders wichtig, weil, wie ich später zeigen werde, Hilfsinformationen kritisch sind, um Schätzungen von Wahrscheinlichkeitsabtastwerten mit Nicht-Antwort- und Nicht-Wahrscheinlichkeitsabtastwerten durchzuführen.

Eine übliche Technik zum Verwenden von Hilfsinformationen ist die Nachschichtung . Stellen Sie sich zum Beispiel vor, dass ein Forscher die Anzahl der Männer und Frauen in jedem der 50 Staaten kennt; wir können diese Gruppengrößen als \(N_1, N_2, \ldots, N_{100}\) . Um diese Hilfsinformationen mit der Stichprobe zu kombinieren, kann der Forscher die Stichprobe in \(H\) Gruppen (in diesem Fall 100 \(H\) aufteilen, eine Schätzung für jede Gruppe erstellen und dann einen gewichteten Durchschnitt dieser Gruppenmittel erstellen:

\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]

Grob ist der Schätzer in Gl. 3.5 ist wahrscheinlich genauer, da es die bekannte Populationsinformation - das \(N_h\) - verwendet, um die Schätzungen zu korrigieren, wenn zufällig ein unbalanciertes Sample ausgewählt wird. Eine Möglichkeit, darüber nachzudenken, ist, dass die Nach-Stratifizierung eine Annäherung an die Stratifizierung ist, nachdem die Daten bereits gesammelt wurden.

Abschließend wurden in diesem Abschnitt einige Stichprobenentwürfe beschrieben: einfache Zufallsstichproben ohne Ersatz, Stichproben mit ungleicher Wahrscheinlichkeit und geschichtete Stichproben. Es hat auch zwei Hauptideen über die Schätzung beschrieben: den Horvitz-Thompson-Schätzer und die Nachschichtung. Für eine formalere Definition von Wahrscheinlichkeitsprobenentwürfen siehe Kapitel 2 von Särndal, Swensson, and Wretman (2003) . Für eine formellere und vollständigere Behandlung der geschichteten Probenahme siehe Abschnitt 3.7 von Särndal, Swensson, and Wretman (2003) . Für eine technische Beschreibung der Eigenschaften des Horvitz-Thompson-Schätzers siehe Horvitz and Thompson (1952) , Overton and Stehman (1995) oder Abschnitt 2.8 von @ sarndal_model_2003. Für eine formalere Behandlung der Särndal, Swensson, and Wretman (2003) siehe Holt and Smith (1979) , Smith (1991) , Little (1993) oder Abschnitt 7.6 von Särndal, Swensson, and Wretman (2003) .

Probability Sampling mit Non-Response

Fast alle echten Umfragen haben Nonresponse; das heißt, nicht jeder in der Stichprobenpopulation beantwortet jede Frage. Es gibt zwei Hauptarten von Nicht-Antworten: Nicht- Antwort- Antwort und Nicht- Antwort- Antwort . Bei Nichtbestehen der Antwort antworten einige Befragte nicht auf einige Fragen (z. B. möchten die Befragten manchmal keine Fragen beantworten, die sie für sensibel halten). Bei Nicht-Antwort-Antwort antworten einige Personen, die für die Stichprobenpopulation ausgewählt wurden, überhaupt nicht auf die Umfrage. Die beiden häufigsten Gründe für das Ausbleiben von Antwortantworten sind, dass die in die Stichprobe einbezogene Person nicht kontaktiert werden kann und die Stichprobe kontaktiert wird, sich jedoch weigert, sich zu beteiligen. In diesem Abschnitt werde ich mich auf das Non-Response-Problem konzentrieren. Leser, die sich für das Item Non-Response interessieren, sollten Little and Rubin (2002) .

Forscher denken oft über Befragungen mit "Non-Response" als zweistufige Stichprobenverfahren nach. In der ersten Stufe wählt der Forscher eine Probe \(s\) so aus, dass jede Person eine Wahrscheinlichkeit für die Aufnahme hat \(\pi_i\) (wobei \(0 < \pi_i \leq 1\) ). Dann antworten in der zweiten Stufe Personen, die in die Stichprobe ausgewählt wurden, mit der Wahrscheinlichkeit \(\phi_i\) (wobei \(0 < \phi_i \leq 1\) ). Dieser zweistufige Prozess führt zum endgültigen Satz der Befragten \(r\) . Ein wichtiger Unterschied zwischen diesen beiden Phasen besteht darin, dass die Forscher den Prozess der Auswahl der Stichprobe kontrollieren, aber nicht kontrollieren, welche dieser Befragten zu Befragten werden. Wenn man diese beiden Prozesse zusammenführt, ist die Wahrscheinlichkeit, dass jemand ein Befragter sein wird,

\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]

Der Einfachheit halber werde ich den Fall betrachten, in dem das ursprüngliche Musterbeispiel eine einfache Zufallsstichprobe ohne Ersatz ist. Wenn ein Forscher eine Stichprobe der Größe \(n_s\) auswählt, die \(n_r\) Befragte ergibt, und wenn der Forscher die Nicht-Antwort ignoriert und den Mittelwert der Befragten verwendet, dann wird die Schätzung wie folgt aussehen:

\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]

Wobei \(cor(\phi, y)\) die Populationskorrelation zwischen der Antwortneigung und dem Ergebnis (z. B. Arbeitslosenstatus) ist, ist \(S(y)\) die Populationsstandardabweichung des Ergebnisses (z. B. Arbeitslosigkeit) status), \(S(\phi)\) ist die Populationsstandardabweichung der Antwortneigung, und \(\bar{\phi}\) ist die populationsgemittelte Antwortneigung (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Gl. 3.7 zeigt, dass Nonresponse keine Verzerrung hervorruft, wenn eine der folgenden Bedingungen erfüllt ist:

  • Es gibt keine Unterschiede im Arbeitslosenstatus \((S(y) = 0)\) .
  • Es gibt keine Variation der Antwortpropensitäten \((S(\phi) = 0)\) .
  • Es gibt keine Korrelation zwischen der Reaktionsneigung und dem Arbeitslosenstatus \((cor(\phi, y) = 0)\) .

Leider scheint keine dieser Bedingungen wahrscheinlich. Es scheint nicht plausibel zu sein, dass es keine Unterschiede im Beschäftigungsstatus geben wird oder dass es keine Unterschiede in der Antwortbereitschaft geben wird. So ist der Schlüsselbegriff in Gl. 3.7 ist die Korrelation: \(cor(\phi, y)\) . Wenn beispielsweise Personen, die arbeitslos sind, eher antworten, wird die geschätzte Beschäftigungsquote tendenziell höher sein.

Der Trick, Schätzungen zu machen, wenn es keine Antwort gibt, ist die Verwendung von Hilfsinformationen. Zum Beispiel ist eine Art, in der Sie Hilfsinformationen verwenden können, die Nach-Stratifizierung (siehe Gleichung 3.5 von oben). Es stellt sich heraus, dass die Voreingenommenheit des Post-Stratification Estimators ist:

\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]

wo \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , und \(\bar{\phi}^{(h)}\) sind wie oben definiert, aber auf Personen in der Gruppe \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Daher wird die Gesamtabweichung gering sein, wenn die Verzerrung in jeder Post-Stratifikationsgruppe gering ist. Es gibt zwei Wege, auf die ich gerne darüber nachdenke, die Verzerrung in jeder Post-Stratifikationsgruppe klein zu halten. Zuerst wollen Sie versuchen, homogene Gruppen zu bilden, in denen die Antwortneigung gering ist ( \(S(\phi)^{(h)} \approx 0\) ) und das Ergebnis ( \(S(y)^{(h)} \approx 0\) ). Zweitens wollen Sie Gruppen bilden, in denen die Leute, die Sie sehen, wie die Leute sind, die Sie nicht sehen ( \(cor(\phi, y)^{(h)} \approx 0\) ). Vergleichen von Gl. 3.7 und Gl. 3.8 hilft zu klären, wann Nachschichtung die Verzerrung durch Nonresponse reduzieren kann.

Zusammenfassend hat dieser Abschnitt ein Modell für die Wahrscheinlichkeitsprobenahme mit Nicht-Antwort geliefert und die Verzerrung gezeigt, die Non-Response sowohl ohne als auch mit Post-Stratifikations-Anpassungen einführen kann. Bethlehem (1988) bietet eine Ableitung der Verzerrung, die durch Nichtantworten für allgemeinere Stichprobenentwürfe verursacht wird. Weitere Informationen zur Verwendung von Post-Stratifizierung zur Anpassung von Non-Response finden Sie in Smith (1991) und Gelman and Carlin (2002) . Die Nachschichtung ist Teil einer allgemeineren Familie von Techniken, die Kalibrierungsschätzer genannt werden, siehe Zhang (2000) für eine Särndal and Lundström (2005) für eine Särndal and Lundström (2005) . Näheres zu anderen Gewichtungsmethoden zur Anpassung von Nichtantworten finden Sie unter Kalton and Flores-Cervantes (2003) , Brick (2013) sowie Särndal and Lundström (2005) .

Nicht-Wahrscheinlichkeits-Stichprobe

Nicht-Wahrscheinlichkeits-Sampling umfasst eine große Vielfalt an Designs (Baker et al. 2013) . Wenn Sie sich speziell auf die Probe von Xbox-Benutzern von Wang und Kollegen (W. Wang et al. 2015) , können Sie sich diese Art von Beispiel als eine \(\pi_i\) bei der der Schlüssel des Stichprobenplans nicht das \(\pi_i\) ( die Forscher-gesteuerte Wahrscheinlichkeit der Inklusion), aber die \(\phi_i\) (die Respondent-getriebenen Antwortpropensitäten). Natürlich ist das nicht ideal, weil die \(\phi_i\) unbekannt sind. Aber, wie Wang und seine Kollegen zeigten, muss diese Art von Opt-In-Stichprobe - sogar aus einem Stichprobenrahmen mit einem enormen Erfassungsfehler - nicht katastrophal sein, wenn der Forscher gute Hilfsinformationen und ein gutes statistisches Modell zur Berücksichtigung dieser Probleme hat.

Bethlehem (2010) erweitert viele der obigen Ableitungen zur Post-Stratifizierung, um sowohl Non-Response- als auch Coverage-Fehler zu berücksichtigen. Neben der Post-Stratifizierung beinhalten andere Techniken für die Arbeit mit Nicht-Wahrscheinlichkeits-Stichproben - und Wahrscheinlichkeits-Stichproben mit Coverage-Fehlern und Non- (Ansolabehere and Rivers 2013; ??? ) Stichprobenvergleich (Ansolabehere and Rivers 2013; ??? ) , Propensity Score Wichtung (Lee 2006; Schonlau et al. 2009) und Kalibrierung (Lee and Valliant 2009) . Ein gemeinsames Thema unter diesen Techniken ist die Verwendung der Hilfsinformationen.