2.2 Big Daten

Große Daten werden von Regierungen für andere Zwecke als Forschung erstellt und gesammelt. Unter Verwendung dieser Daten für die Forschung erfordert daher Fachnutzung.

Eine idealisierte Sicht der Sozialforschung stellt sich vor, ein Wissenschaftler eine Idee und dann Daten zu sammeln, diese Idee zu testen. Diese Art der Forschung führt zu einer engen Passung zwischen Forschungsfrage und Daten, aber es ist begrenzt, weil ein einzelner Forscher oft nicht die Ressourcen benötigt, um die Daten zu sammeln sie brauchen, wie groß, reich und national repräsentative Daten. Daher hat eine Menge Sozialforschung in der Vergangenheit groß angelegten Sozialerhebungen, wie der General Social Survey (GSS), der American National Election Study (ANES) und Panel Study of Income Dynamics (PSID). Diese groß angelegte Umfrage werden von einem Team von Forschern der Regel laufen und sie sind so ausgelegt, Daten zu erstellen, die von vielen Forschern verwendet werden können. Wegen der Ziele dieser groß angelegten Umfragen, ist große Sorgfalt die Datensammlung in der Entwicklung und Herstellung der resultierenden Daten für die Verwendung durch Forscher setzen. Diese Daten werden von Forschern und für Forscher.

Die meisten Sozialforschung digitalen Zeitalter Quellen ist jedoch grundlegend anders. Anstatt Daten der Verwendung von Forschern und für Forscher gesammelt, verwendet es Datenquellen, die von Unternehmen und Regierungen für ihre eigenen Zwecke erstellt und gesammelt wurden, wie zum Beispiel einen Gewinn zu erzielen, Bereitstellung einer Dienstleistung oder ein Gesetz zu verwalten. Diese Unternehmen und Behörden Datenquellen sind gekommen , große Daten genannt werden. Forschung mit großen Daten zu tun, ist anders als die Forschung mit Daten zu tun, die ursprünglich für die Forschung geschaffen wurde. Vergleichen Sie zum Beispiel ein Social-Media-Website, wie Twitter, mit einer traditionellen Meinungsumfrage wie der General Social Survey (GSS). Twitter Hauptziele sind ein Service für seine Nutzer zur Verfügung zu stellen und einen Gewinn zu machen. In dem Verfahren, diese Ziele zu erreichen, schafft-Mail-Daten, die für die Untersuchung bestimmter Aspekte der öffentlichen Meinung nützlich sein könnten. Aber im Gegensatz zu dem General Social Survey (GSS), ist Twitter nicht in erster Linie konzentrierte sich auf Sozialforschung.

Der Begriff Big Data ist frustrierend vage, und es Gruppen viele verschiedene Dinge zusammen. Für die Zwecke der Sozialforschung, ich glaube , es hilfreich ist , zwischen zwei Arten von großen Datenquellen zu unterscheiden. Regierung Verwaltungsakten und Geschäftsverwaltungsakten Regierung Verwaltungsakten Daten sind , die von den Regierungen im Rahmen ihrer Routineaktivitäten erstellt werden. Diese Arten von Aufzeichnungen wurden von den Forschern in der Vergangenheit wie Bevölkerungswissenschaftler studieren Geburt, Heirat und Tod Aufzeichnungen, aber die Regierungen zunehmend zu sammeln und die Freigabe detaillierte Aufzeichnungen in analysierbare Form verwendet. Zum Beispiel installiert die New York City Regierung digitalen Meter innerhalb jedes Taxi in der Stadt. Diese Zähler erfassen alle Arten von Daten über jede Taxifahrt einschließlich des Fahrers, die Startzeit und die Lage, die Stoppzeit und Ort, und der Tarif. In einer Studie , dass ich später in diesem Kapitel sagen werde, Henry Farber (2015) repurposed diese Daten eine grundlegende Debatte in der Arbeitsökonomie über die Beziehung zwischen Stundenlohn zu adressieren und die Zahl der geleisteten Arbeitsstunden.

Der zweite Haupttyp der großen Daten für Sozialforschung ist das Geschäft Verwaltungsakten. Dies sind Daten, die Unternehmen im Rahmen ihrer Routinetätigkeiten schaffen und zu sammeln. Diese Business - Verwaltungsunterlagen werden häufig digitale Spuren genannt und gehören Dinge wie Suchmaschinen - Abfrage - Logs, Social - Media - Beiträge, und rufen Sie Datensätze von Mobiltelefonen. Entscheidend ist, sind diese Geschäftsverwaltungsdaten nicht nur über das Online-Verhalten. Speichert beispielsweise die Check-out-Scanner verwenden erstellen Echtzeit-Maßnahmen der Mitarbeiterproduktivität. In einer Studie , die ich Sie später in diesem Kapitel sagen werde, Alexandre Mas und Enrico Moretti (2009) repurposed dieses Supermarkt Check-out - Daten zu untersuchen , wie die Produktivität der Arbeiter durch die Produktivität ihrer Kollegen beeinflusst.

Da diese beiden Beispiele zeigen, ist die Idee der Umnutzung fundamentalen von großen Daten zu lernen. Nach meiner Erfahrung, nähern sich die Sozialwissenschaftler und Daten Wissenschaftler diese sehr unterschiedlich Repurposing. Sozialwissenschaftler, der mit Daten gewöhnt sind, zu arbeiten für die Forschung entwickelt, sind schnell, die Probleme mit repurposed Daten darauf hin, während seine Stärken zu ignorieren. Auf der anderen Seite sind die Daten Wissenschaftler schnell die Vorteile der repurposed Daten darauf hin, während ihre Schwächen zu ignorieren. Natürlich wäre der beste Ansatz ein Hybrid sein. Das heißt, müssen die Forscher die Eigenschaften dieser neuen Datenquellen-sowohl gut als auch schlecht und zu verstehen, dann herauszufinden, wie von ihnen zu lernen. Und das ist der Plan für den Rest dieses Kapitels. Als nächstes werde ich zehn gemeinsame Merkmale von Verwaltungsdaten Wirtschaft und Regierung zu beschreiben. Danach wird ich drei Forschungsansätze beschreiben, die mit diesen Daten verwendet werden können, Ansätze, die gut an die Eigenschaften dieser Daten geeignet sind.