Weitere Erläuterungen

Dieser Abschnitt soll als Referenz verwendet werden, anstatt als eine Erzählung gelesen werden.

  • Einführung (Abschnitt 2.1)

Eine Art der Feststellung, dass nicht in diesem Kapitel ist Ethnographie. Weitere Informationen über die Ethnographie in digitalen Räumen siehe Boellstorff et al. (2012) , und für mehr auf Ethnographie in gemischten digitalen und physischen Räumen sehen Lane (2016) .

  • Große Daten (Abschnitt 2.2)

Wenn Sie Daten Repurposing gibt es zwei mentale Tricks, die Ihnen die möglichen Probleme verstehen können helfen, die auftreten könnten. Erstens können Sie versuchen, den idealen Datensatz für Ihr Problem, sich vorzustellen, und das vergleichen Sie das mit der Datenmenge, die Sie verwenden. Wie sind sie ähnlich und wie unterscheiden sie sich? Wenn Sie nicht Ihre Daten selbst zu sammeln, gibt es wahrscheinlich Unterschied zwischen dem, was Sie wollen und was Sie haben. Aber, müssen Sie entscheiden, ob diese Unterschiede kleinere oder größere sind.

Zweitens, denken Sie daran, dass jemand erstellt und gesammelt Ihre Daten aus irgendeinem Grund. Sie sollten versuchen, ihre Argumentation zu verstehen. Diese Art von Reverse-Engineering kann Ihnen helfen, mögliche Probleme und Vorurteile in Ihrem repurposed Daten identifizieren.

Es gibt keine einzige Konsens Definition von "Big Data", aber viele Definitionen scheinen auf der 3 Vs zu konzentrieren: (zB Volumen, Vielfalt und Geschwindigkeit Japec et al. (2015) ). Anstatt sich auf die Eigenschaften der Daten konzentriert, konzentriert sich meine Definition mehr auf, warum die Daten erstellt wurde.

Meine Einbeziehung der staatlichen Verwaltungsdaten in der Kategorie der großen Daten ist ein wenig ungewöhnlich. Andere , die diesen Fall gemacht haben, gehören Legewie (2015) , Connelly et al. (2016) , und Einav and Levin (2014) . Für mehr über den Wert der staatlichen Verwaltungsdaten für die Forschung, siehe Card et al. (2010) , Taskforce (2012) , und Grusky, Smeeding, and Snipp (2015) .

Für eine Ansicht der Verwaltungsforschung aus dem Inneren der Regierung statistischen Systems, insbesondere des US Census Bureau, siehe Jarmin and O'Hara (2016) . Für ein Buch Länge Behandlung der Verwaltungsakten Forschung bei Statistics Sweden, siehe Wallgren and Wallgren (2007) .

Im Kapitel verglich ich kurz eine traditionelle Erhebung wie der General Social Survey (GSS) zu einer Social-Media-Datenquelle wie Twitter. Für eine gründliche und sorgfältige Vergleich zwischen traditionellen Umfragen und Social - Media - Daten siehe Schober et al. (2016) .

  • Gemeinsame Merkmale der großen Daten (Abschnitt 2.3)

Diese 10 Eigenschaften von großen Daten wurden in einer Vielzahl von verschiedenen Möglichkeiten, mit einer Vielzahl von verschiedenen Autoren beschrieben. Schreiben , die mein Denken über diese Fragen beeinflusst sind: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , und Goldstone and Lupyan (2016) .

In diesem Kapitel habe ich den Begriff digitale Spuren verwendet, die ich denke , relativ neutral ist. Ein weiterer beliebter Begriff für digitale Spuren ist die digitale Fußabdrücke (Golder and Macy 2014) , aber als Hal Abelson, Ken Ledeen und Harry Lewis (2008) weisen darauf hin, eine passendere Begriff wahrscheinlich digitale Fingerabdrücke ist. Wenn Sie Fußabdrücke erstellen, sind Sie sich bewusst, was geschieht und Ihre Fußspuren im Allgemeinen nicht auf Sie persönlich zurückverfolgt werden können. Das gleiche gilt nicht für Ihre digitalen Spuren. In der Tat, Sie verlassen Spuren die ganze Zeit über die Sie sehr wenig Wissen haben. Und das, obwohl diese Spuren haben Ihren Namen nicht auf sie, können sie oft an Sie verknüpft zurück. Mit anderen Worten, sie sind eher wie Fingerabdrücke: unsichtbar und persönlich zu identifizieren.

Groß

Für mehr auf , warum große Datensätze, machen statistische Tests problematisch, siehe Lin, Lucas, and Shmueli (2013) und McFarland and McFarland (2015) . Diese Fragen sollten Forscher führen auf praktische Bedeutung zu konzentrieren, anstatt eine statistische Signifikanz.

Immer auf

Wenn stets auf Daten bedenkt, ist es wichtig, zu prüfen, ob Sie genau die gleichen Menschen im Laufe der Zeit zu vergleichen, oder ob Sie etwas zu ändern Gruppe von Menschen zu vergleichen; siehe zum Beispiel Diaz et al. (2016) .

Nicht reaktiv

Ein klassisches Buch über nicht-reaktiven Maßnahmen ist Webb et al. (1966) . Die Beispiele in dem Buch schon vor der digitalen Zeitalter, aber sie sind immer noch beleuchtet. Für Beispiele von Menschen , ihr Verhalten wegen der Anwesenheit von Massenüberwachung ändern, finden Penney (2016) und Brayne (2014) .

Unvollständig

Weitere Informationen über Record Linkage finden Dunn (1946) und Fellegi and Sunter (1969) (historical) und Larsen and Winkler (2014) (modern). Ähnliche genähert haben auch in der Informatik unter den Namen wie Datendeduplizierung, zB Identifikation, Name - Matching, die Duplikaterkennung und doppelten Datensatz Erkennung entwickelt worden (Elmagarmid, Ipeirotis, and Verykios 2007) . Es gibt auch die Privatsphäre Ansätze zu bewahren Verknüpfung aufzuzeichnen , die erfordern nicht die Übermittlung von personenbezogenen Daten (Schnell 2013) . Facebook hat auch entwickelt, um ein verfahren ihre Aufzeichnungen zu Abstimmungsverhalten zu verknüpfen; Dies wurde getan , ein Experiment zu bewerten , dass ich Sie in Kapitel erzählen werde 4 (Bond et al. 2012; Jones et al. 2013) . .

Weitere Informationen über die Konstruktvalidität finden Shadish, Cook, and Campbell (2001) , Kapitel 3.

Nicht zugänglich

Weitere Informationen über die Log - Debakel AOL Suche, siehe Ohm (2010) . Ich biete Beratung über die Partnerschaft mit Unternehmen und Regierungen in Kapitel 4, wenn ich Experimente beschreiben. Eine Reihe von Autoren Bedenken über Forschung zum Ausdruck gebracht haben , die auf unzugänglichen Daten beruht, siehe Huberman (2012) und boyd and Crawford (2012) .

Eine gute Möglichkeit für Forscher der Universität den Datenzugriff zu erwerben, ist in einem Unternehmen als Praktikant oder Gastforscher zu arbeiten. Zusätzlich zu den Datenzugriff ermöglicht, wird dieser Prozess auch dazu beitragen, die Forscher mehr darüber zu erfahren, wie die Daten erstellt wurde, die für die Analyse wichtig ist.

Non-Vertreter

Nicht-Repräsentativität ist ein großes Problem für die Forscher und Regierungen, die wünschen Aussagen über eine ganze Bevölkerung zu machen. Dies ist weniger von Bedeutung für Firmen, die ihre Benutzer typischerweise fokussiert sind. Für mehr auf , wie Statistiken Niederlande das Problem der Nicht-Repräsentativität der Geschäfts großen Daten hält, siehe Buelens et al. (2014) .

In Kapitel 3 werde ich Probenahme und Schätzung wesentlich detaillierter beschreiben. Selbst wenn die Daten sind nicht repräsentativ, unter bestimmten Bedingungen können sie gewichtet werden, um gute Schätzungen zu erzeugen.

driften

System-Drift ist sehr schwer von außen zu sehen. Allerdings hat sich seit mehr als 15 Jahren von einem wissenschaftlichen Forschungsgruppe führen das Projekt Movielens (diskutiert in Kapitel 4). Deshalb haben sie Informationen über die Art und Weise dokumentiert und gemeinsam genutzt, die das System im Laufe der Zeit entwickelt hat und wie diese könnten Analyse auswirken (Harper and Konstan 2015) .

: Eine Reihe von Wissenschaftlern haben sich auf Drift in Twitter konzentriert Liu, Kliman-Silver, and Mislove (2014) und Tufekci (2014) .

algorithmisch verwechselt

Ich hörte zum ersten Mal der Begriff von Jon Kleinberg in einem Gespräch verwendet "algorithmisch verwechselt". Die Grundidee hinter Performativität ist , dass einige sozialwissenschaftliche Theorien "Motoren nicht Kameras" (Mackenzie 2008) . Das heißt, sie prägen die Welt tatsächlich und nicht nur sie zu erfassen.

Dreckig

Staatliche Statistikbehörden rufen Datenbereinigung, statistische Aufbereitung von Daten. De Waal, Puts, and Daas (2014) beschreiben Techniken statistische Datenaufbereitung für Vermessungsdaten entwickelt und untersuchen , in welchem ​​Umfang sie sind für große Datenquellen und Puts, Daas, and Waal (2015) präsentiert einige der gleichen Ideen für ein allgemeines Publikum.

Für einige Beispiele auf Spam in Twitter, Studien konzentrierten sich Clark et al. (2016) und Chu et al. (2012) . Schließlich Subrahmanian et al. (2016) beschreibt die Ergebnisse der DARPA Twitter Bot - Challenge.

Empfindlich

Ohm (2015) Bewertungen früheren Forschungen über die Idee von sensiblen Informationen und bietet einen Multi-Faktor - Test. Die vier Faktoren schlägt er vor, sind: die Wahrscheinlichkeit eines Schadens; Wahrscheinlichkeit eines Schadens; Vorhandensein einer vertraulichen Beziehung; und ob das Risiko widerspiegeln Mehrheits Bedenken.

  • Zählen Dinge (Abschnitt 2.4.1)

Farbers Studie von Taxis in New York wurde auf der Grundlage einer früheren Studie von Camerer et al. (1997) , die drei verschiedene Bequemlichkeit Papierproben Reise Blätter-Papierformulare , die von Fahrern verwendet , um Reise - Startzeit, Endzeit, und Tarif aufzunehmen. Diese frühere Studie fand heraus, dass die Fahrer schien Zielverdiener zu sein: sie arbeiteten weniger an den Tagen, wo die Löhne höher waren.

Kossinets and Watts (2009) wurde in sozialen Netzwerken auf die Ursprünge der Homophilie konzentriert. Siehe Wimmer and Lewis (2010) für einen anderen Ansatz für das gleiche Problem , die Daten von Facebook verwendet.

In späteren Arbeiten haben König und Kollegen weitere Online - Zensur in China erkundet (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Für einen ähnlichen Ansatz zur Online - Zensur in China Messen finden Bamman, O'Connor, and Smith (2012) . Weitere Informationen über statistische Methoden wie die verwendet in King, Pan, and Roberts (2013) die Stimmung der 11 Millionen Beiträge zu schätzen, sehen Hopkins and King (2010) . Weitere Informationen über die überwachten Lernen, siehe James et al. (2013) (weniger technisch) und Hastie, Tibshirani, and Friedman (2009) (technischer).

  • Prognose (Abschnitt 2.4.2)

Forecasting ist ein großer Teil der industriellen Daten Wissenschaft (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Eine Art von Prognosen , die häufig getan werden von Sozialforscher sind demografische Prognosen, beispielsweise Raftery et al. (2012) .

Google Grippe-Trends war nicht das erste Projekt Suchdaten zu verwenden, Influenza-Prävalenz nowcast. In der Tat, die Forscher in den Vereinigten Staaten (Polgreen et al. 2008; Ginsberg et al. 2009) und Schweden (Hulth, Rydevik, and Linde 2009) haben herausgefunden , dass bestimmte Suchbegriffe (zB "Grippe") nationalen öffentlichen Gesundheitsüberwachung vorhergesagt Daten, bevor sie veröffentlicht wurde. Anschließend viele, viele andere Projekte versucht , digitale Trace - Daten für Krankheitsüberwachung Erkennung zu verwenden, finden Sie Althouse et al. (2015) für eine Überprüfung.

Neben digitalen Trace-Daten unter Verwendung von gesundheitlichen Folgen vorherzusagen, hat es auch eine riesige Menge an Arbeit mit Twitter-Daten gewesen Wahlergebnisse vorherzusagen; für Bewertungen sehen Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Kap. 7) und Huberty (2015) .

Mit Suchdaten auf Influenza-Prävalenz Vorhersage und unter Verwendung von Daten Twitter Wahlen vorherzusagen sind beide Beispiele für eine Art von digitalen Spur mit einer Art von Ereignis in der Welt zu prognostizieren. Es eine enorme Anzahl von Studien, die diese allgemeine Struktur haben. Tabelle 2.5 enthält einige weitere Beispiele.

Tabelle 2.5: Unvollständige Liste von Studien verwenden eine digitale Spur ein Ereignis vorherzusagen.
Digitale Spur Ergebnis Zitat
zwitschern Box Office Einnahmen von Filmen in den USA Asur and Huberman (2010)
Suchprotokolle Der Verkauf von Filmen, Musik, Bücher und Videospiele in den USA Goel et al. (2010)
zwitschern Dow Jones Industrial Average (US-Aktienmarkt) Bollen, Mao, and Zeng (2011)
  • Annähernden Experimente (Abschnitt 2.4.3)

Die Zeitschrift PS Politikwissenschaft hatte ein Symposium über große Datenmengen , kausalen Inferenz und formale Theorie und Clark and Golder (2015) fasst jeden Beitrag. Die Zeitschrift Proceedings der National Academy of Sciences der Vereinigten Staaten von Amerika hatte ein Symposium über kausalen Inferenz und große Daten und Shiffrin (2016) fasst jeden Beitrag.

In Bezug auf die natürliche Experimente, Dunning (2012) bietet eine hervorragende Buch Länge der Behandlung. Weitere Informationen über den Entwurf des Lotterie als ein natürliches Experiment Vietnam finden Sie unter Berinsky and Chatfield (2015) . Für die maschinelle Lernansätze , die automatisch versuchen, natürliche Experimente innerhalb von großen Datenquellen zu entdecken, siehe Jensen et al. (2008) und Sharma, Hofman, and Watts (2015) .

In Bezug auf die Matching, für eine optimistische Übersicht siehe Stuart (2010) , und für eine pessimistische Beurteilung siehe Sekhon (2009) . Für mehr auf als eine Art der Beschneidung übereinstimmt, siehe Ho et al. (2007) . Für Bücher , die hervorragende Behandlungen von Anpassungs bieten, finden Sie Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , und Imbens and Rubin (2015) .