2.3.1.1 Big

Große Datenmengen sind ein Mittel zum Zweck; sie sind kein Selbstzweck.

Die erste der drei guten Eigenschaften der großen Daten ist die am meisten diskutiert: diese großen Datenmengen sind. Diese Datenquellen können auf drei verschiedene Arten groß sein: Viele Menschen, viele Informationen pro Person, oder viele Beobachtungen im Laufe der Zeit. eine große Daten-Set zu haben ermöglicht einige spezifische Arten von Forschung Mess Heterogenität, seltene Ereignisse zu studieren, Erkennung kleiner Unterschiede und kausalen Schätzungen von Beobachtungsdaten zu machen. Es scheint auch, auf eine bestimmte Art von Schlamperei zu führen.

Das erste, was für die Größe ist besonders nützlich ist, Mittelungen Schätzungen für bestimmte Untergruppen zu machen. Zum Beispiel Gary King, Jennifer Pan und Molly Roberts (2013) gemessen , um die Wahrscheinlichkeit , dass Social - Media - Beiträge in China würde von der Regierung zensiert werden. An sich diese mittlere Wahrscheinlichkeit Löschung ist nicht sehr hilfreich für das Verständnis, warum die Regierung einige Beiträge zensiert, andere aber nicht. Aber, weil ihre Daten-Set 11 Millionen Beiträge enthalten, König und Kollegen produziert auch Schätzungen für die Wahrscheinlichkeit der Zensur für Beiträge über 85 verschiedenen Kategorien (zB Pornographie, Tibet und Verkehr in Beijing). Durch den Vergleich der Wahrscheinlichkeit der Zensur für Beiträge in verschiedenen Kategorien, waren sie in der Lage, mehr darüber zu verstehen, wie und warum die Regierung zensiert bestimmte Arten von Beiträgen. Mit 11 Tausend Beiträge (statt 11 Millionen Beiträge), würden sie nicht in der Lage gewesen, diese kategoriespezifischen Schätzungen zu erzeugen.

Zweitens ist Größe besonders nützlich für die aus seltenen Ereignissen zu studieren. Zum Beispiel Goel und Kollegen (2015) wollte die verschiedenen Möglichkeiten zu untersuchen, die Tweets virale gehen kann. Da große Kaskaden von Re-Tweets sind extrem selten-über eine in einem 3000-sie brauchten mehr als eine Milliarde Tweets zu studieren, um genügend große Kaskaden für ihre Analyse zu finden.

Drittens große Datensätze ermöglichen Forscher kleine Unterschiede zu erkennen. In der Tat ist ein großer Teil der Fokus auf Big Data in der Industrie über diese kleinen Unterschiede: zuverlässig den Unterschied zwischen 1% und 1,1% Klickraten auf einer Ad-Erfassung in Millionen von Dollar an zusätzlichen Einnahmen zu übersetzen. In einigen wissenschaftlichen Einstellungen könnten solche kleinen Unterschiede nicht besonders wichtig sein (auch wenn sie statistisch signifikant sind). Aber in einigen Richtlinieneinstellungen, wie kleine Unterschiede können wichtig werden, wenn in ihrer Gesamtheit betrachtet. wenn es zum Beispiel sind zwei öffentliche Gesundheit Interventionen und man ist etwas effektiver als die andere, dann zu einer effektiveren Intervention Schalt könnte am Ende Tausende von zusätzlichen Leben zu retten.

Schließlich erhöhen unsere Fähigkeit, große Datenmengen stark kausal Schätzungen von Beobachtungsdaten zu machen. Obwohl große Datensätze, die Probleme nicht grundsätzlich mit der Herstellung kausalen Inferenz von Beobachtungsdaten ändern, die Anpassung und natürliche Experimente-zwei Techniken, die Forscher für die Herstellung von kausalen Ansprüche aus Beobachtungs entwickelten Daten beide stark von großen Datensätzen profitieren. Ich werde erklären, und diese Behauptung näher erläutern später in diesem Kapitel, wenn ich Forschungsstrategien beschreiben.

Obwohl bigness im Allgemeinen eine gute Eigenschaft ist, wenn sie richtig verwendet wird, habe ich bemerkt, dass bigness zu einem konzeptionellen Fehler häufig führt. Aus irgendeinem Grund scheint bigness Forscher führen zu ignorieren, wie sie ihre Daten generiert wurde. Während bigness die Notwendigkeit , sich um Zufallsfehler zu befürchten tut reduzieren, erhöht es tatsächlich die Notwendigkeit , sich um systematische Fehler zu kümmern, dass die Art von Fehler , die ich in mehr unterhalb von Verzerrungen entstehen beschreiben werden, wie Daten werden erstellt und gesammelt. In einer kleinen Datenmenge, die beide Zufallsfehler und systematische Fehler kann von Bedeutung sein, aber in einer großen Datenmenge Zufallsfehler ist, kann entfernt werden, gemittelt und systematische Fehler dominiert. Die Forscher, die nicht denken über systematische Fehler wird am Ende mit ihren großen Datenmengen eine genaue Schätzung der falsche Sache zu bekommen; sie werden genau ungenau sein (McFarland and McFarland 2015) .