3.6.1 Angereichertes Fragen

In einer angereicherten Fragestellung bilden Befragungsdaten den Kontext um eine große Datenquelle, die einige wichtige Messungen enthält, denen jedoch andere fehlen.

Eine Möglichkeit, Umfragedaten und große Datenquellen zu kombinieren, ist ein Prozess, den ich bereichert raten möchte . In der erweiterten Fragestellung enthält eine große Datenquelle zwar einige wichtige Messungen, aber keine anderen Messungen. Daher sammelt der Forscher diese fehlenden Messungen in einer Umfrage und verknüpft dann die beiden Datenquellen miteinander. Ein Beispiel für angereichertes Fragen ist die Studie von Burke and Kraut (2014) ob die Interaktion auf Facebook die Stärke der Freundschaft erhöht, was ich in Abschnitt 3.2 beschrieben habe. In diesem Fall kombinierten Burke und Kraut Umfragedaten mit Facebook-Logdaten.

Das Umfeld, in dem Burke und Kraut arbeiteten, bedeutete jedoch, dass sie sich nicht mit zwei großen Problemen auseinandersetzen mussten, die Forschern, die bereichert wurden, typischerweise stellen müssen. Erstens kann das Verbinden der Datensätze auf individueller Ebene, ein Prozess namens Datensatzverknüpfung , schwierig sein, wenn in beiden Datenquellen kein eindeutiger Bezeichner vorhanden ist, der verwendet werden kann, um sicherzustellen, dass der richtige Datensatz in einem Datensatz mit dem korrekten Datensatz übereinstimmt in dem anderen Datensatz. Das zweite Hauptproblem mit angereicherten Fragen ist, dass die Qualität der Big Data-Quelle für die Forscher häufig schwierig zu beurteilen ist, da der Prozess, durch den die Daten entstehen, proprietär sein kann und für viele der in Kapitel 2 beschriebenen Probleme anfällig ist. Mit anderen Worten, ein erweitertes Fragen wird häufig eine fehleranfällige Verknüpfung von Umfragen mit Black-Box-Datenquellen unbekannter Qualität beinhalten. Trotz dieser Probleme kann das angereicherte Fragen jedoch dazu genutzt werden, wichtige Forschungen durchzuführen, wie Stephen Ansolabehere und Eitan Hersh (2012) in ihrer Untersuchung des Wahlverhaltens in den USA gezeigt haben.

Die Wahlbeteiligung war Gegenstand umfangreicher politikwissenschaftlicher Forschung, und in der Vergangenheit beruhten die Erkenntnisse der Forscher darüber, wer wählt und warum, im Allgemeinen auf der Analyse von Umfragedaten. Die Wahl in den Vereinigten Staaten ist jedoch ein ungewöhnliches Verhalten, da die Regierung aufzeichnet, ob jeder Bürger gewählt hat (natürlich zeichnet die Regierung nicht auf, für wen jeder Bürger stimmt). Über viele Jahre hinweg waren diese Regierungsbeurteilungsaufzeichnungen auf Papierformularen verfügbar, die in verschiedenen lokalen Regierungsbüros im ganzen Land verteilt waren. Dies machte es für Politologen sehr schwierig, aber nicht unmöglich, ein vollständiges Bild der Wählerschaft zu erhalten und zu vergleichen, was die (Ansolabehere and Hersh 2012) in Umfragen über das Abstimmen mit ihrem tatsächlichen Wahlverhalten (Ansolabehere and Hersh 2012) .

Aber diese Abstimmungsaufzeichnungen sind jetzt digitalisiert worden, und eine Anzahl von privaten Firmen hat systematisch gesammelt und zusammengefügt, um umfassende Hauptabstimmungsakten zu erzeugen, die das Abstimmungsverhalten aller Amerikaner enthalten. Ansolabehere und Hersh haben sich mit einer dieser Firmen - der Catalyst LCC - zusammengetan, um mit ihrer Master-Stimmdatei ein besseres Bild der Wählerschaft zu erhalten. Da sich ihre Studie auf digitale Aufzeichnungen stützt, die von einem Unternehmen gesammelt und zusammengestellt wurden, das erhebliche Ressourcen in die Datenerhebung und -harmonisierung investiert hat, bot es eine Reihe von Vorteilen gegenüber früheren Bemühungen, die ohne die Hilfe von Unternehmen und durch Verwendung analoger Aufzeichnungen durchgeführt wurden.

Wie viele der großen Datenquellen in Kapitel 2 enthielt die Catalist-Hauptdatei nicht viele der demografischen Informationen, Einstellungen und Verhaltensinformationen, die Ansolabehere und Hersh benötigten. In der Tat waren sie besonders daran interessiert, das berichtete Wahlverhalten in Umfragen mit validiertem Wahlverhalten zu vergleichen (dh die Informationen in der Catalist-Datenbank). Also sammelten Ansolabehere und Hersh die Daten, die sie wollten, als eine große soziale Umfrage, die CCES, die zuvor in diesem Kapitel erwähnt wurde. Dann gaben sie ihre Daten an Catalist weiter, und Catalist gab ihnen eine zusammengeführte Datei zurück, die validiertes Abstimmungsverhalten (von Catalist), das selbstberichtete Abstimmungsverhalten (von CCES) und die Demographie und Einstellungen der Befragten (von CCES) beinhaltete (Abb 3.13). Mit anderen Worten, Ansolabehere und Hersh kombinierten die Daten der Wahlunterlagen mit Umfragedaten, um Recherchen durchzuführen, die mit keiner der Datenquellen einzeln möglich waren.

Abbildung 3.13: Schematische Darstellung der Studie von Ansolabehere und Hersh (2012). Um die Master-Datendatei zu erstellen, kombiniert und harmonisiert Catalist Informationen aus vielen verschiedenen Quellen. Dieser Prozess der Zusammenführung, egal wie sorgfältig, wird Fehler in den ursprünglichen Datenquellen propagieren und neue Fehler einführen. Eine zweite Fehlerquelle ist die Datensatzverknüpfung zwischen den Vermessungsdaten und der Hauptdatendatei. Wenn jede Person eine stabile, eindeutige Kennung in beiden Datenquellen hätte, wäre die Verknüpfung trivial. Aber Catalist musste die Verbindung mit unvollständigen Identifikatoren herstellen, in diesem Fall Name, Geschlecht, Geburtsjahr und Heimatadresse. Leider kann es in vielen Fällen unvollständige oder ungenaue Informationen geben; ein Wähler namens Homer Simpson könnte als Homer Jay Simpson, Homie J Simpson oder Homer Sampsin auftreten. Trotz der Möglichkeit von Fehlern in der Catalist-Stammdatendatei und Fehlern in der Datensatzverknüpfung konnten Ansolabehere und Hersh durch verschiedene Arten von Prüfungen Vertrauen in ihre Schätzungen aufbauen.

Abbildung 3.13: Schematische Ansolabehere and Hersh (2012) der Studie von Ansolabehere and Hersh (2012) . Um die Master-Datendatei zu erstellen, kombiniert und harmonisiert Catalist Informationen aus vielen verschiedenen Quellen. Dieser Prozess der Zusammenführung, egal wie sorgfältig, wird Fehler in den ursprünglichen Datenquellen propagieren und neue Fehler einführen. Eine zweite Fehlerquelle ist die Datensatzverknüpfung zwischen den Vermessungsdaten und der Hauptdatendatei. Wenn jede Person eine stabile, eindeutige Kennung in beiden Datenquellen hätte, wäre die Verknüpfung trivial. Aber Catalist musste die Verbindung mit unvollständigen Identifikatoren herstellen, in diesem Fall Name, Geschlecht, Geburtsjahr und Heimatadresse. Leider kann es in vielen Fällen unvollständige oder ungenaue Informationen geben; ein Wähler namens Homer Simpson könnte als Homer Jay Simpson, Homie J Simpson oder Homer Sampsin auftreten. Trotz der Möglichkeit von Fehlern in der Catalist-Stammdatendatei und Fehlern in der Datensatzverknüpfung konnten Ansolabehere und Hersh durch verschiedene Arten von Prüfungen Vertrauen in ihre Schätzungen aufbauen.

Ansolabehere und Hersh kamen mit ihren kombinierten Daten zu drei wichtigen Schlussfolgerungen. Erstens ist die Überregistrierung der Stimmabgabe weit verbreitet: Fast die Hälfte der Nichtwähler berichtete über die Stimmabgabe, und wenn jemand die Stimmabgabe meldete, besteht nur eine 80-prozentige Chance, dass tatsächlich abgestimmt wurde. Zweitens ist die Über-Berichterstattung nicht zufällig: Über-Berichterstattung ist häufiger bei gut ausgebildeten, gut ausgebildeten Partisanen, die in öffentlichen Angelegenheiten tätig sind. Mit anderen Worten, die Personen, die am wahrscheinlichsten wählen, lügen am ehesten über das Wählen. Drittens und am kritischsten sind die tatsächlichen Unterschiede zwischen Wählern und Nichtwählern aufgrund des systematischen Charakters der Überregistrierung geringer als sie nur aus Umfragen hervorgehen. Zum Beispiel haben diejenigen mit einem Bachelor-Abschluss eine um 22 Prozentpunkte höhere Wahrscheinlichkeit, eine Wahl zu melden, aber sie haben nur eine um 10 Prozentpunkte höhere Wahrscheinlichkeit, tatsächlich zu wählen. Es ist vielleicht nicht überraschend, dass existierende ressourcenbasierte Wahltheorien viel besser vorhersagen, wer die Stimmabgabe melden wird (was die Daten sind, die Forscher in der Vergangenheit verwendet haben), als dass sie vorhersagen, wer tatsächlich abstimmt. So Ansolabehere and Hersh (2012) die empirischen Ansolabehere and Hersh (2012) von Ansolabehere and Hersh (2012) neue Theorien, um das Voting zu verstehen und vorherzusagen.

Aber wie sehr sollten wir diesen Ergebnissen vertrauen? Denken Sie daran, dass diese Ergebnisse von einer fehleranfälligen Verknüpfung mit Black-Box-Daten mit unbekannten Fehlern abhängig sind. Genauer gesagt hängen die Ergebnisse von zwei Schlüsselschritten ab: (1) der Fähigkeit von Catalist, viele verschiedene Datenquellen zu kombinieren, um eine genaue Stammdatendatei zu erzeugen, und (2) der Fähigkeit von Catalist, die Vermessungsdaten mit seiner Stammdatendatei zu verknüpfen. Jeder dieser Schritte ist schwierig, und Fehler in jedem Schritt könnten Forscher zu falschen Schlussfolgerungen führen. Datenverarbeitung und -verknüpfung sind jedoch für die weitere Existenz von Catalist als Unternehmen von entscheidender Bedeutung, so dass Ressourcen in die Lösung dieser Probleme investiert werden können, oft in einem Umfang, den kein akademischer Forscher erreichen kann. Ansolabehere und Hersh gehen in ihrer Arbeit eine Reihe von Schritten durch, um die Ergebnisse dieser beiden Schritte zu überprüfen - auch wenn einige davon proprietär sind - und diese Überprüfungen könnten anderen Forschern helfen, Umfragedaten mit Black-Box-Big Data zu verknüpfen Quellen.

Welche allgemeinen Lehren können die Forscher aus dieser Studie ziehen? Erstens gibt es einen enormen Wert, sowohl durch die Anreicherung großer Datenquellen mit Befragungsdaten als auch durch die Anreicherung von Erhebungsdaten mit großen Datenquellen (Sie können diese Studie in beide Richtungen sehen). Durch die Kombination dieser beiden Datenquellen waren die Forscher in der Lage, etwas zu tun, was mit beiden nicht möglich war. Die zweite allgemeine Lehre ist, dass kommerzielle Datenquellen wie die Daten von Catalist, obwohl sie aggregiert sind, nicht als "Grundwahrheiten" betrachtet werden sollten. In einigen Fällen können sie jedoch nützlich sein. Skeptiker vergleichen diese aggregierte, kommerzielle Datenquelle manchmal mit absoluter Wahrheit und weisen darauf hin, dass diese Datenquellen nicht ausreichen. In diesem Fall machen die Skeptiker jedoch den falschen Vergleich: Alle Daten, die von Forschern verwendet werden, entsprechen nicht der absoluten Wahrheit. Stattdessen ist es besser, aggregierte, kommerzielle Datenquellen mit anderen verfügbaren Datenquellen zu vergleichen (z. B. selbstberichtetes Abstimmungsverhalten), die ebenfalls immer Fehler aufweisen. Die dritte allgemeine Lehre aus Ansolabehers und Hershs Studie ist, dass Forscher in manchen Situationen von den enormen Investitionen profitieren können, die viele private Unternehmen bei der Sammlung und Harmonisierung komplexer sozialer Datensätze tätigen.