2.2 Big Daten

Big Data werden von Unternehmen und Regierungen für andere Zwecke als für die Forschung erstellt und gesammelt. Die Verwendung dieser Daten für die Forschung erfordert daher eine Neuverwendung.

Der erste Weg, auf den viele Menschen im digitalen Zeitalter mit der Sozialforschung konfrontiert sind, ist das, was oft als Big Data bezeichnet wird . Trotz der weit verbreiteten Verwendung dieses Begriffs besteht kein Konsens darüber, was Big Data überhaupt ist. Eine der häufigsten Definitionen von Big Data konzentriert sich jedoch auf die "3 Vs": Volumen, Vielfalt und Geschwindigkeit. Grob gesagt, gibt es viele Daten in einer Vielzahl von Formaten, und es wird ständig erstellt. Einige Fans von Big Data fügen auch andere "Vs" wie Veracity und Value hinzu, während einige Kritiker Vs wie Vague und Vacuous hinzufügen. Anstatt der 3 "Vs" (oder der 5 "Vs" oder der 7 "Vs"), für die Zwecke der sozialen Forschung, denke ich, ein besserer Ort zum Starten ist die 5 "Ws": Wer, Was, Wo, Wann , und warum. In der Tat, ich denke, dass viele der Herausforderungen und Möglichkeiten, die durch große Datenquellen entstehen, aus nur einem "W" folgen: Warum?

Im analogen Zeitalter wurden die meisten Daten, die für die Sozialforschung verwendet wurden, zu Forschungszwecken erstellt. Im digitalen Zeitalter wird jedoch eine riesige Menge an Daten von Unternehmen und Regierungen für andere Zwecke als für die Forschung geschaffen, wie beispielsweise die Bereitstellung von Dienstleistungen, die Generierung von Gewinn und die Verwaltung von Gesetzen. Kreative Menschen haben jedoch erkannt , dass Sie dieses Unternehmen und Behörden Daten für die Forschung umfunktionieren können. Wenn Duchamp an die Kunstanalogie in Kapitel 1 zurückdenkt, so wie Duchamp ein gefundenes Objekt zur Schaffung von Kunst umfunktioniert hat, können Wissenschaftler nun gefundene Daten für Forschungszwecke wiederverwenden.

Zwar gibt es zweifellos große Möglichkeiten für die Neuverwendung, aber die Verwendung von Daten, die nicht für Forschungszwecke erstellt wurden, stellt auch neue Herausforderungen dar. Vergleichen Sie beispielsweise einen Social-Media-Dienst wie Twitter mit einer herkömmlichen Meinungsumfrage, wie der Allgemeinen Sozialerhebung. Das Hauptziel von Twitter ist es, seinen Nutzern einen Service zu bieten und Gewinne zu erzielen. Die Allgemeine Sozialerhebung hingegen konzentriert sich auf die Erstellung von Mehrzweckdaten für die Sozialforschung, insbesondere für die Meinungsforschung. Dieser Unterschied in den Zielen bedeutet, dass die von Twitter und von der Allgemeinen Sozialen Umfrage erstellten Daten unterschiedliche Eigenschaften haben, obwohl beide für das Studium der öffentlichen Meinung verwendet werden können. Twitter arbeitet in einem Umfang und mit einer Geschwindigkeit, die die Allgemeine Sozialerhebung nicht erreichen kann, aber anders als die Allgemeine Sozialerhebung tastet Twitter die Nutzer nicht sorgfältig ab und bemüht sich nicht, die Vergleichbarkeit im Laufe der Zeit aufrechtzuerhalten. Da diese beiden Datenquellen so unterschiedlich sind, ist es nicht sinnvoll zu sagen, dass die Allgemeine Sozialerhebung besser ist als Twitter oder umgekehrt. Wenn Sie stündliche Messungen der globalen Stimmung wünschen (z. B. Golder and Macy (2011) ), ist Twitter am besten. Wenn Sie andererseits die langfristigen Veränderungen in der Polarisierung von Einstellungen in den Vereinigten Staaten verstehen wollen (zB DiMaggio, Evans, and Bryson (1996) ), dann ist die Allgemeine Sozialerhebung die beste Wahl. Allgemeiner ausgedrückt, anstatt zu versuchen, zu argumentieren, dass große Datenquellen besser oder schlechter sind als andere Arten von Daten, versucht dieses Kapitel zu klären, für welche Arten von Forschungsfragen große Datenquellen attraktive Eigenschaften haben und für welche Arten von Fragen sie nicht sein könnten Ideal.

Wenn man über große Datenquellen nachdenkt, konzentrieren sich viele Forscher sofort auf Online-Daten, die von Unternehmen erstellt und gesammelt werden, wie Suchmaschinen-Logs und Social-Media-Posts. Dieser enge Fokus lässt jedoch zwei andere wichtige Quellen für Big Data aus. Zunehmend werden zunehmend große Datenquellen von Unternehmen aus digitalen Geräten in der physischen Welt bezogen. In diesem Kapitel werde ich Ihnen zum Beispiel eine Studie vorstellen, die Supermarkt-Checkout-Daten umfunktioniert hat, um zu untersuchen, wie die Produktivität eines Arbeiters von der Produktivität seiner Kollegen beeinflusst wird (Mas and Moretti 2009) . In späteren Kapiteln werde ich dann von Forschern berichten, die Anruflisten von Mobiltelefonen (Blumenstock, Cadamuro, and On 2015) und von Stromversorgungsunternehmen erstellte Abrechnungsdaten verwendet haben (Allcott 2015) . Wie diese Beispiele zeigen, geht es bei großen Unternehmensdatenquellen um mehr als nur Online-Verhalten.

Die zweite wichtige Quelle für Big Data, die durch einen engen Fokus auf Online-Verhalten verpasst wurde, sind Daten, die von Regierungen erstellt wurden. Diese Regierungsdaten, die von den Forschern als administrative Aufzeichnungen der Regierung bezeichnet werden , umfassen Dinge wie Steueraufzeichnungen, Schulaufzeichnungen und wichtige statistische Daten (z. B. Register von Geburten und Todesfällen). Regierungen haben diese Art von Daten in einigen Fällen seit Hunderten von Jahren erstellt, und Sozialwissenschaftler nutzen sie fast so lange, wie es Sozialwissenschaftler gibt. Was sich jedoch geändert hat, ist die Digitalisierung, die es den Regierungen dramatisch erleichtert, Daten zu sammeln, zu übertragen, zu speichern und zu analysieren. In diesem Kapitel werde ich Ihnen beispielsweise von einer Studie berichten, die Daten aus digitalen Taximetern der New Yorker Regierung für eine grundsätzliche Debatte in der Arbeitsökonomie umfunktioniert hat (Farber 2015) . In späteren Kapiteln werde ich dann erzählen, wie die von der Regierung gesammelten Stimmabgaben in einer Umfrage (Ansolabehere and Hersh 2012) und einem Experiment (Bond et al. 2012) .

Ich denke, die Idee der Neuverwendung ist grundlegend, um aus großen Datenquellen zu lernen, und deshalb möchte ich, bevor ich genauer über die Eigenschaften großer Datenquellen (Abschnitt 2.3) und wie diese in der Forschung verwendet werden können (Abschnitt 2.4) sprechen um zwei allgemeine Ratschläge zur Umnutzung anzubieten. Erstens kann es verlockend sein, über den Kontrast nachzudenken, den ich zwischen "gefundenen" und "entworfenen" Daten aufgebaut habe. Das ist knapp, aber es ist nicht ganz richtig. Auch wenn große Datenquellen aus der Perspektive von Forschern "gefunden" werden, fallen sie nicht einfach vom Himmel. Stattdessen werden Datenquellen, die von Forschern "gefunden" werden, von jemandem für einen bestimmten Zweck entworfen. Da "gefundene" Daten von jemandem entworfen werden, empfehle ich immer, dass Sie versuchen, so viel wie möglich über die Personen und Prozesse zu verstehen, die Ihre Daten erstellt haben. Zweitens ist es bei der Neuverwendung von Daten oft sehr hilfreich, sich den idealen Datensatz für Ihr Problem vorzustellen und diesen idealen Datensatz dann mit dem zu vergleichen, den Sie verwenden. Wenn Sie Ihre Daten nicht selbst gesammelt haben, gibt es wahrscheinlich wichtige Unterschiede zwischen dem, was Sie wollen und dem, was Sie haben. Wenn Sie diese Unterschiede bemerken, können Sie klären, was Sie aus den Daten, die Sie haben, lernen können und welche nicht, und es könnte neue Daten vorschlagen, die Sie sammeln sollten.

Nach meiner Erfahrung neigen Sozialwissenschaftler und Datenwissenschaftler dazu, die Umverwendung sehr unterschiedlich zu machen. Sozialwissenschaftler, die daran gewöhnt sind, mit Daten zu arbeiten, die für die Forschung bestimmt sind, weisen in der Regel schnell auf die Probleme mit zweckentfremdeten Daten hin und ignorieren dabei ihre Stärken. Auf der anderen Seite weisen Datenwissenschaftler in der Regel schnell auf die Vorteile von zweckentfremdeten Daten hin und ignorieren dabei ihre Schwächen. Der beste Ansatz ist natürlich ein Hybrid. Das heißt, Forscher müssen die Eigenschaften großer Datenquellen verstehen - sowohl gute als auch schlechte - und dann herausfinden, wie sie daraus lernen können. Und das ist der Plan für den Rest dieses Kapitels. Im nächsten Abschnitt werde ich zehn gemeinsame Merkmale großer Datenquellen beschreiben. Im folgenden Abschnitt werde ich drei Forschungsansätze beschreiben, die mit solchen Daten gut funktionieren.