3.4.2 Nicht-Wahrscheinlichkeitsstichproben: Gewichtung

Diese Übersetzung wurde von einem Computer erstellt. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.2 Nicht-Wahrscheinlichkeitsstichproben: Gewichtung

Bei nicht Wahrscheinlichkeitsstichproben können Gewichte Verzerrungen durch die angenommene Bemusterungsprozess verursacht rückgängig machen.

In der gleichen Weise, dass die Forscher Antworten von Wahrscheinlichkeitsstichproben gewichten, können sie auch Antworten Gewicht von Nicht-Zufallsstichproben. Zum Beispiel, als Alternative zu den CPS an, dass Sie Werbebanner auf Tausenden von Websites platziert Teilnehmer für eine Umfrage zu rekrutieren, um die Arbeitslosenquote zu schätzen. Natürlich wäre man skeptisch, dass der einfache Mittelwert Ihrer Probe eine gute Schätzung der Arbeitslosenquote wäre. Ihre Skepsis ist wahrscheinlich, weil Sie denken, dass einige Leute sind eher Ihre Umfrage als andere zu vervollständigen. Zum Beispiel, die Menschen nicht viel Zeit im Web verbringen weniger wahrscheinlich Ihre Umfrage.

Wie wir im letzten Abschnitt sahen jedoch, wenn wir wissen, wie die Probe ausgewählt, wie wir mit der Wahrscheinlichkeit zu tun Proben-dann können wir Verzerrungen durch die Sampling-Prozess verursacht rückgängig machen. Leider, wenn mit nicht-Wahrscheinlichkeitsstichproben arbeiten, wissen wir nicht, wie die Stichprobe ausgewählt wurde. Aber wir können Annahmen über die Sampling-Prozess machen und dann Gewichtung in gleicher Weise gelten. Wenn diese Annahmen richtig sind, dann wird die Gewichtung der Verzerrungen durch die Sampling-Prozess verursacht rückgängig machen.

Zum Beispiel vorstellen, dass als Antwort auf Ihre Banner-Werbung, Sie 100.000 Befragten rekrutiert. Aber glauben Sie nicht, dass diese 100.000 Befragten eine einfache Stichprobe der erwachsenen Amerikaner sind. In der Tat, wenn Sie Ihre Teilnehmer an der US-Bevölkerung zu vergleichen, finden Sie, dass die Menschen aus einigen Staaten (zB New York) überrepräsentiert sind und dass Menschen aus einigen Staaten (zB Alaska) unterrepräsentiert sind. Somit ist die Arbeitslosenquote Ihrer Probe wahrscheinlich eine schlechte Schätzung der Arbeitslosenquote in der Zielpopulation zu sein.

Eine Möglichkeit, die Verzerrung rückgängig zu machen, die in der Bemusterungsprozess passiert ist Gewichte zu jeder Person zuweisen; geringere Gewichte, um Menschen aus Staaten, die in der Probe überrepräsentiert sind (zB New York) und höhere Gewichte, um Menschen aus Staaten, die in der Probe (zB Alaska) unterrepräsentiert sind. Genauer gesagt wird das Gewicht für jeden Befragten auf ihre Prävalenz in Ihrer Probe in Bezug auf ihre Prävalenz in der US-Bevölkerung zusammen. Diese Gewichtungsverfahren wird nach der Schichtung genannt, und die Idee, mit einem Gewicht sollten Sie von dem Beispiel in Abschnitt 3.4.1 erinnern , wo die Befragten aus Rhode Island weniger Gewicht als die Befragten aus Kalifornien gegeben wurden. Post-Schichtung setzt voraus, dass Sie genug wissen die Befragten in Gruppen zu unterstützen und in jeder Gruppe den Anteil der Zielgruppe zu kennen.

Obwohl die Gewichtung der Wahrscheinlichkeitsstichprobe und der Nicht-Zufallsstichprobe die gleiche mathematisch (siehe technischen Anhang) sind, arbeiten sie auch in verschiedenen Situationen. Wenn die Forscher eine perfekte Wahrscheinlichkeit Probe hat (dh kein Deckungsfehler und kein Non-Response), dann wird Gewichtung unverzerrte Schätzungen für alle Merkmale in allen Fällen. Diese starke theoretische Garantie ist, warum Befürworter der Wahrscheinlichkeitsstichproben sie so attraktiv finden. Auf der anderen Seite, Gewichtung nicht Wahrscheinlichkeitsstichproben nur produzieren unverzerrte Schätzungen für alle Züge, wenn die Antwort Neigungen für alle gleich in jeder Gruppe sind. Mit anderen Worten, das Denken zurück zu unserem Beispiel, post-Schichtung verwendet, wird unverzerrte Schätzungen produzieren, wenn jeder in New York die gleiche Wahrscheinlichkeit der Teilnahme und jeder in Alaska hat die gleiche Wahrscheinlichkeit der Teilnahme und so weiter. Diese Annahme wird die homogene-Response-Propensitäten-in-Gruppen Annahme genannt, und es spielt eine wichtige Rolle in zu wissen , ob die nachträgliche Schichtung mit Proben nicht Wahrscheinlichkeit gut funktionieren wird.

Leider ist in unserem Beispiel die homogene-response-Propensitäten-within-Gruppen Annahme scheint unwahrscheinlich, wahr zu sein. Das heißt, scheint es unwahrscheinlich, dass jeder in Alaska hat die gleiche Wahrscheinlichkeit in Ihrer Erhebung. Aber gibt es drei wichtige Punkte zu beachten, über die nachträgliche Schichtung zu halten, von denen alle es vielversprechend erscheinen lassen.

Zunächst homogenen-response-Propensitäten-within-Gruppen Annahme wird als die Anzahl der Gruppen zunimmt plausibler. Und die Forscher sind nicht nur auf der Grundlage einer einzigen räumlichen Dimension zu Gruppen beschränkt. Zum Beispiel könnten wir Gruppen auf der Grundlage Zustand, Alter, Geschlecht und Bildungsniveau schaffen. Es scheint plausibel, dass es homogene Reaktion Neigungen innerhalb der Gruppe der 18 bis 29, weiblich, Hochschulabsolventen in Alaska leben, als in der Gruppe aller Menschen in Alaska leben. So wie die Anzahl der Gruppen für die nachträgliche Schichtung erhöht verwendet, benötigt die Annahmen, um es vernünftig geworden zu unterstützen. Angesichts dieser Tatsache scheint es wie ein Forscher eine große Anzahl von Gruppen für die nachträgliche Schichtung zu erstellen möchte. Aber, wie die Anzahl der Gruppen zunimmt, führen Forscher in einem anderen Problem: Daten sparsity. Wenn es nur eine kleine Anzahl von Menschen in jeder Gruppe sind, dann werden die Schätzungen unsicherer sein, und im Extremfall, wo es eine Gruppe, die keine Teilnehmer hat, dann post-Schichtung bricht völlig zusammen. Es gibt zwei Möglichkeiten, um diese inhärente Spannung zwischen der Plausibilität der homogeneous- Antwort-Neigung-in-Gruppen Annahme und die Forderung nach angemessenen Stichprobengrößen in jeder Gruppe. Ein Ansatz ist es, eine anspruchsvollere statistische Modell zu bewegen, um Gewichte zu berechnen und die andere ist eine größere, vielfältigere Probe zu sammeln, die Größen in jeder Gruppe gewährleisten angemessene Probe hilft. Und manchmal Forscher tun beide, wie ich genauer beschreiben werde unten.

Eine zweite Überlegung, wenn sie mit Post-Schichtung aus Nicht-Wahrscheinlichkeitsstichproben arbeiten, ist, dass die homogene-Reaktion-Neigung-in-Gruppen Annahme wird bereits häufig gemacht, als Wahrscheinlichkeitsstichproben zu analysieren. Der Grund, dass diese Annahme für Wahrscheinlichkeitsstichproben in der Praxis benötigt wird, ist, dass Wahrscheinlichkeitsstichproben haben Non-Response und die am häufigsten verwendete Methode für für Non-Response Einstellung ist die nachträgliche Schichtung, wie oben beschrieben. Natürlich nur, weil viele Forscher eine bestimmte Annahme, bedeutet nicht, dass Sie es auch tun sollte. Aber, bedeutet es, dass, wenn nicht-Wahrscheinlichkeit Proben Wahrscheinlichkeitsstichproben in der Praxis zu vergleichen, müssen wir bedenken, dass beide sind abhängig von Annahmen und Zusatzinformationen, um Schätzungen zu erzeugen. In den meisten realistischen Einstellungen, gibt es einfach keine Annahme freien Ansatz zur Inferenz.

Schließlich, wenn Sie über eine Schätzung insbesondere in unserem Beispiel die Arbeitslosigkeit kümmern Raten dann müssen Sie eine Bedingung schwächer als homogen-Antwort-Neigung-in-Gruppen Annahme. Insbesondere müssen Sie nicht davon ausgehen, dass jeder die gleiche Antwort Neigung hat, Sie müssen nur annehmen, dass es keine Korrelation zwischen Antwort Neigung und der Arbeitslosenquote innerhalb jeder Gruppe. Natürlich, auch wird diese schwächere Bedingung in bestimmten Situationen nicht halten. Zum Beispiel vorstellen, den Anteil der Amerikaner schätzen, die freiwillige Arbeit tun. Wenn Menschen , die Arbeit Freiwillige tun , sind eher in einer Umfrage zu einigen, dann Forscher systematisch überschätzen die Höhe des freiwilligen Engagements, auch wenn sie nach der Schichtung Anpassungen zu tun, ein Ergebnis , das empirisch nachgewiesen wurde Abraham, Helms, and Presser (2009) .

Wie ich bereits sagte, sind Nicht-Zufallsstichproben mit großer Skepsis von Sozialwissenschaftlern betrachtet, die wegen ihrer Rolle in einigen der peinlichsten Fehler in den frühen Tagen der Umfrageforschung teilweise. Ein deutliches Beispiel dafür, wie weit wir mit nicht-Wahrscheinlichkeit Proben gekommen sind, ist die Erforschung von Wei Wang, David Rothschild, Sharad Goel und Andrew Gelman, die das Ergebnis der 2012 US-Wahl unter Verwendung einer nicht-Zufallsstichprobe der amerikanischen Xbox Benutzer richtig erholt -a entschieden nicht-zufällige Stichprobe von Amerikanern (Wang et al. 2015) . Die Forscher rekrutierten Befragten aus dem XBox-Gaming-System, und wie man erwarten könnte, die Xbox Probe verzerrt männlich und verzerrt junge: 18 - 29-Jährigen 19% der Wähler ausmachen, aber 65% der Xbox Probe und Männern 47% ausmachen der Wähler und 93% der Xbox Probe (Abbildung 3.4). Aufgrund dieser starken demographischen Vorurteile, war die rohe Xbox Daten ein schlechter Indikator für die Wahlergebnisse. Es prognostiziert einen starken Sieg für Mitt Romney über Barack Obama. Auch dies ist ein weiteres Beispiel für die Gefahren des rohen, unbereinigten nicht Wahrscheinlichkeitsstichproben und ist von der Literary Digest Fiasko erinnert.

Abbildung 3.4: Demographie der Befragten in Wang et al. (2015) . Da Befragten aus XBox rekrutiert wurden, waren sie eher jung und eher männlich sein, bezogen auf die Wähler in der Wahl 2012 zu sein.

Doch Wang und Kollegen waren dieser Probleme bewusst und versucht, die Teilnehmer an Gewicht für die Probenahme zu korrigieren. Insbesondere verwendet sie eine anspruchsvollere Form der post-Schichtung ich dir erzählt habe. Es lohnt sich, etwas mehr über ihren Ansatz zu lernen, weil es Intuition über post-Schichtung baut, und die spezielle Version Wang und Kollegen verwendet wird, ist eine der spannendsten Ansätze zur Gewichtung nicht Wahrscheinlichkeitsstichproben.

In unserem einfachen Beispiel über die Arbeitslosigkeit in Abschnitt 3.4.1 Abschätzen, teilten wir die Bevölkerung in Gruppen auf der Grundlage Ansässigkeitsstaat. Im Gegensatz dazu Wang und Kollegen geteilt, um die Bevölkerung in in 176.256 Gruppen definiert: Geschlecht (2 Kategorien), Rennen (4 Kategorien), Alter (4 Kategorien), Bildung (4 Kategorien), Staat (51 Kategorien), Party-ID (3 Kategorien), Ideologie (3 Kategorien) und 2008 Abstimmung (3 Kategorien). Mit mehr Gruppen hofften die Forscher, dass es immer wahrscheinlicher wäre, dass innerhalb jeder Gruppe, Reaktionsbereitschaft mit Unterstützung für Obama unkorreliert war. Als nächstes anstatt Gewichte auf individueller Ebene der Konstruktion, wie wir in unserem Beispiel getan hat, verwendet Wang und Kollegen ein komplexes Modell, den Anteil der Menschen in jeder Gruppe zu schätzen, die für Obama stimmen würden. Schließlich kombiniert sie diese Gruppe Schätzungen der Unterstützung bei der bekannten Größe jeder Gruppe eine geschätzte Gesamtniveau der Unterstützung zu erzeugen. Mit anderen Worten, gehackt sie die Bevölkerung in verschiedene Gruppen auf, schätzte die Unterstützung für Obama in jeder Gruppe, und nahm dann einen gewichteten Durchschnitt der Gruppe Schätzungen eine Gesamtschätzung zu erzeugen.

Somit ist die große Herausforderung in ihrem Ansatz in jedem dieser 176.256 Gruppen die Unterstützung für Obama zu schätzen. Obwohl ihre Platte 345.858 einzigartige Teilnehmer enthalten, eine große Anzahl von den Standards der Wahl Polling, gab es viele, viele Gruppen, für die Wang und Kollegen fast keine Befragten hatten. Daher die Unterstützung in jeder Gruppe zu schätzen sie eine Technik, Multi-Level-Regression mit post-Schichtung genannt verwendet, die Forscher liebe Wesentlichen Herr P. nennen, die Unterstützung für Obama in einer bestimmten Gruppe zu schätzen, Informationen Herr P. Pools von vielen eng Gruppen zusammen. Betrachten wir zum Beispiel vor der Herausforderung, die Unterstützung für Obama Schätzung unter weiblichen, Hispanics, zwischen 18 bis 29 Jahren, die einen Hochschulabschluss, die Demokraten registriert sind, die als gemäßigte Selbst identifizieren und die für Obama im Jahr 2008 gestimmt Diese ist ein sehr, sehr spezifische Gruppe, und es ist möglich, dass sich niemand in der Probe mit diesen Eigenschaften ist. Daher Schätzungen zu dieser Gruppe machen, schätzt Herr P. Pools zusammen von Menschen in sehr ähnlichen Gruppen.

Mit Hilfe dieser Analysestrategie, Wang und Kollegen waren in der Lage, die XBox nicht Wahrscheinlichkeitsstichprobe zu verwenden, um die Gesamtunterstützung für sehr eng schätzen, dass Obama in der Wahl 2012 erhielt (Abbildung 3.5). In der Tat waren ihre Schätzungen genauer als ein Aggregat von Meinungsumfragen. Somit wird in diesem Fall Gewichtung spezifisch Herr P.-scheint eine gute Arbeit, die Vorurteile in nicht Wahrscheinlichkeitsdaten zu tun, zu korrigieren; Vorurteile, die sichtbar sind, wenn Sie bei den Schätzungen von den unbereinigten Xbox Daten suchen.

Abbildung 3.5: Schätzungen von Wang et al. (2015) . Das unbereinigte XBox Probe ungenaue Schätzungen erzeugt. Aber produzierte die gewichtete XBox Probe Schätzungen, die genauer waren als durchschnittlich wahrscheinlichkeitsbasierte Telefonbefragungen.

Es gibt zwei Haupt Lehren aus der Studie von Wang und Kollegen. Erstens, unangepasste Nicht-Zufallsproben können zu schlechten Schätzungen führen; das ist eine Lektion, dass viele Forscher schon einmal gehört haben. Allerdings ist die zweite Lektion, dass Nicht-Wahrscheinlichkeitsstichproben, wenn sie richtig gewichtet, kann eigentlich recht gute Schätzungen produzieren. In der Tat waren ihre Schätzungen genauer als die Schätzungen von pollster.com, einer Ansammlung von traditionellen Wahlumfragen.

Schließlich gibt es wichtige Einschränkungen, was wir von dieser einen spezifischen Studie lernen können. Nur weil die nachträgliche Schichtung gut in diesem speziellen Fall war, gibt es keine Garantie, dass es in anderen Fällen gut funktionieren wird. In der Tat sind Wahlen vielleicht eine der einfachsten Einstellungen, weil Meinungsforscher Wahlen seit fast 100 Jahren studiert haben, gibt es ein regelmäßiges Feedback (wir können sehen, wer die Wahlen gewinnt), und Parteiidentifikation und demographische Merkmale sind relativ prädiktiven der Abstimmung. An dieser Stelle fehlt uns solide Theorie und empirische Erfahrung zu wissen, wann die Gewichtung Anpassungen nicht Wahrscheinlichkeit Proben ausreichend genaue Schätzungen produzieren. Eine Sache, die klar ist jedoch, wenn Sie gezwungen sind, mit nicht-Wahrscheinlichkeitsstichproben zu arbeiten, dann gibt es guten Grund zu glauben, dass das bereinigte Schätzungen besser sein wird als nicht angepasste Schätzungen.