2.3.4 Unvollständig

Egal, wie groß Ihre Big Data sind, es hat wahrscheinlich nicht die gewünschten Informationen.

Die meisten großen Datenquellen sind unvollständig , in dem Sinne, dass sie nicht die Informationen enthalten, die Sie für Ihre Recherche benötigen. Dies ist ein gemeinsames Merkmal von Daten, die für andere Zwecke als die Forschung erstellt wurden. Viele Sozialwissenschaftler haben bereits Erfahrung mit Unvollständigkeit, wie etwa einer bestehenden Umfrage, die die Frage nicht gestellt hat. Leider sind die Probleme der Unvollständigkeit bei Big Data tendenziell extremer. Meiner Erfahrung nach fehlen bei Big Data drei Arten von Informationen, die für die Sozialforschung nützlich sind: demografische Informationen über Teilnehmer, Verhalten auf anderen Plattformen und Daten zur Operationalisierung theoretischer Konstrukte.

Von den drei Arten der Unvollständigkeit ist das Problem der unvollständigen Daten zur Operationalisierung theoretischer Konstrukte am schwierigsten zu lösen. Und nach meiner Erfahrung wird es oft versehentlich übersehen. Grob gesagt sind theoretische Konstrukte abstrakte Ideen, die Sozialwissenschaftler studieren und operationalisieren , indem sie eine Möglichkeit vorschlagen, dieses Konstrukt mit beobachtbaren Daten zu erfassen. Leider erweist sich dieser einfach klingende Prozess oft als ziemlich schwierig. Stellen wir uns zum Beispiel vor, empirisch die scheinbar einfache Behauptung zu testen, dass intelligentere Menschen mehr Geld verdienen. Um diese Behauptung zu testen, müssten Sie "Intelligenz" messen. Aber was ist Intelligenz? Gardner (2011) argumentierte, dass es tatsächlich acht verschiedene Formen von Intelligenz gibt. Und gibt es Verfahren, die genau diese Intelligenzformen messen können? Trotz enormer Bemühungen von Psychologen haben diese Fragen noch keine eindeutigen Antworten.

Selbst ein relativ einfacher Anspruch - intelligentere Menschen verdienen mehr Geld - kann daher empirisch schwer zu beurteilen sein, da es schwierig sein kann, theoretische Konstrukte in Daten zu operationalisieren. Andere Beispiele für theoretische Konstrukte , die wichtig sind , aber schwer operationalisieren „Normen“ umfasst „Sozialkapital“ und „Demokratie“ . Sozialwissenschaftler nennen das Spiel zwischen theoretischen Konstrukten und Daten Konstruktvalidität (Cronbach and Meehl 1955) . Wie diese kurze Liste von Konstrukten nahelegt, ist die Konstruktvalidität ein Problem, mit dem sich Sozialwissenschaftler seit langem herumgeschlagen haben. Nach meiner Erfahrung sind die Probleme der Konstruktvalidität jedoch noch größer, wenn mit Daten gearbeitet wird, die nicht zu Forschungszwecken erstellt wurden (Lazer 2015) .

Wenn Sie ein Forschungsergebnis bewerten, besteht eine schnelle und nützliche Methode zur Beurteilung der Konstruktvalidität darin, das Ergebnis, das normalerweise in Konstrukten ausgedrückt wird, zu nehmen und es in Bezug auf die verwendeten Daten erneut auszudrücken. Betrachten Sie zum Beispiel zwei hypothetische Studien, die zeigen sollen, dass intelligentere Menschen mehr Geld verdienen. In der ersten Studie fand der Forscher heraus, dass Personen, die im Raven Progressive Matrices Test gut abschneiden - ein gut studierter Test der analytischen Intelligenz (Carpenter, Just, and Shell 1990) - höhere gemeldete Einkommen in ihren Steuererklärungen haben. In der zweiten Studie fand der Forscher heraus, dass Menschen auf Twitter, die längere Wörter verwenden, eher Luxusmarken erwähnen. In beiden Fällen könnten diese Forscher behaupten, dass sie gezeigt haben, dass intelligentere Menschen mehr Geld verdienen. In der ersten Studie werden die theoretischen Konstrukte jedoch durch die Daten gut operationalisiert, während dies in der zweiten Studie nicht der Fall ist. Wie dieses Beispiel zeigt, lösen weitere Daten nicht automatisch Probleme mit der Konstruktvalidität. Sie sollten die Ergebnisse der zweiten Studie bezweifeln, ob es sich um eine Million Tweets, eine Milliarde Tweets oder eine Billion Tweets handelt. Für Forscher, die nicht mit der Idee der Konstruktvalidität vertraut sind, bietet Tabelle 2.2 einige Beispiele von Studien, die theoretische Konstrukte mit digitalen Trace-Daten operationalisiert haben.

Tabelle 2.2: Beispiele für digitale Spuren, die zur Operationalisierung theoretischer Konstrukte verwendet wurden
Datenquelle Theoretisches Konstrukt Verweise
E-Mail-Protokolle von einer Universität (nur Metadaten) Soziale Beziehungen Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
Social-Media-Beiträge auf Weibo Gesellschaftliches Engagement Zhang (2016)
E-Mail-Protokolle von einer Firma (Metadaten und vollständiger Text) Kulturelle Passform in einer Organisation Srivastava et al. (2017)

Obwohl das Problem unvollständiger Daten zur Erfassung theoretischer Konstrukte ziemlich schwer zu lösen ist, gibt es für die anderen üblichen Unvollständigkeitstypen gemeinsame Lösungen: unvollständige demografische Informationen und unvollständige Informationen zum Verhalten auf anderen Plattformen. Die erste Lösung besteht darin, die benötigten Daten tatsächlich zu sammeln. Ich werde Ihnen in Kapitel 3 davon erzählen, wenn ich Ihnen von Umfragen erzähle. Die zweite Hauptlösung besteht darin, zu tun, was Datenwissenschaftler als Benutzerattribut-Inferenz bezeichnen, und Sozialwissenschaftler bezeichnen Imputation . Bei diesem Ansatz verwenden die Forscher die Informationen, die sie über einige Personen haben, um auf Attribute anderer Personen zu schließen. Eine dritte mögliche Lösung besteht darin, mehrere Datenquellen zu kombinieren. Dieser Prozess wird manchmal als Datensatzverknüpfung bezeichnet . Meine Lieblingsmetapher für diesen Prozess wurde von Dunn (1946) im allerersten Absatz der allerersten Arbeit geschrieben, die jemals über die Aufzeichnung von Verbindungen geschrieben wurde:

"Jede Person auf der Welt schafft ein Buch des Lebens. Dieses Buch beginnt mit der Geburt und endet mit dem Tod. Seine Seiten bestehen aus Aufzeichnungen über die wichtigsten Ereignisse im Leben. Record Linkage ist der Name, der dem Zusammensetzen der Seiten dieses Buches zu einem Band gegeben wird. "

Als Dunn diese Stelle schrieb, stellte er sich vor, dass das Buch des Lebens wichtige Lebensereignisse wie Geburt, Heirat, Scheidung und Tod enthalten könnte. Jetzt, da so viele Informationen über Menschen aufgezeichnet werden, könnte das Buch des Lebens ein unglaublich detailliertes Porträt sein, wenn diese verschiedenen Seiten (dh unsere digitalen Spuren) miteinander verbunden werden können. Dieses Buch des Lebens könnte eine große Ressource für Forscher sein. Aber es könnte auch eine Datenbank des Ruins genannt werden (Ohm 2010) , die für alle möglichen unethischen Zwecke verwendet werden könnte, wie ich in Kapitel 6 (Ethik) beschreiben werde.