2.3.1

Große Datenmengen sind ein Mittel zum Zweck; sie sind kein Selbstzweck.

Das am meisten diskutierte Merkmal großer Datenquellen ist, dass sie BIG sind. Viele Arbeiten beginnen zum Beispiel damit, zu diskutieren und manchmal zu prahlen, wie viele Daten sie analysiert haben. In einem Artikel, der in Science veröffentlicht wurde und die Verwendung von Wörtern im Google Books-Korpus untersucht, wurden beispielsweise folgende Punkte berücksichtigt (Michel et al. 2011) :

"Unser Korpus enthält über 500 Milliarden Wörter, in Englisch (361 Milliarden), Französisch (45 Milliarden), Spanisch (45 Milliarden), Deutsch (37 Milliarden), Chinesisch (13 Milliarden), Russisch (35 Milliarden) und Hebräisch (2 Billionen). Die ältesten Werke wurden in den 1500er Jahren veröffentlicht. Die ersten Jahrzehnte sind nur wenige Bücher pro Jahr, die mehrere hunderttausend Wörter umfassen. Um 1800 wächst der Korpus auf 98 Millionen Wörter pro Jahr; um 1900, 1,8 Milliarden; und bis zum Jahr 2000 11 Milliarden. Das Korpus kann nicht von einem Menschen gelesen werden. Wenn Sie versuchen würden, nur Englisch-Einträge aus dem Jahr 2000 allein zu lesen, in der angemessenen Geschwindigkeit von 200 Wörtern / min, ohne Unterbrechungen für Essen oder Schlaf, würde es 80 Jahre dauern. Die Buchstabenfolge ist 1000-mal länger als das menschliche Genom: Wenn Sie es in einer geraden Linie schreiben würden, würde es 10-mal den Mond und den Rücken erreichen. "

Der Umfang dieser Daten ist zweifellos beeindruckend, und wir sind alle glücklich, dass das Google Books-Team diese Daten der Öffentlichkeit zugänglich gemacht hat (tatsächlich nutzen einige der Aktivitäten am Ende dieses Kapitels diese Daten). Aber wenn Sie so etwas sehen, sollten Sie fragen: Sind all diese Daten wirklich etwas? Hätten sie die gleiche Forschung betreiben können, wenn die Daten nur einmal zum Mond und zurück reichen würden? Was wäre, wenn die Daten nur bis zum Gipfel des Mount Everest oder der Spitze des Eiffelturms reichen würden?

In diesem Fall hat ihre Forschung in der Tat einige Ergebnisse, die über einen langen Zeitraum einen großen Korpus von Wörtern erfordern. Zum Beispiel ist eine Sache, die sie erforschen, die Entwicklung der Grammatik, insbesondere Änderungen in der Rate der unregelmäßigen Verbkonjugation. Da einige unregelmäßige Verben ziemlich selten sind, müssen viele Daten im Laufe der Zeit erkannt werden. Zu oft jedoch scheinen die Forscher die Größe der großen Datenquelle als ein Ende zu betrachten - "schau, wie viel Daten ich knacken kann" - als ein Mittel zu einem wichtigeren wissenschaftlichen Ziel.

Nach meiner Erfahrung ist das Studium seltener Ereignisse eines der drei spezifischen wissenschaftlichen Ziele, die große Datensätze ermöglichen. Die zweite ist das Studium der Heterogenität, wie eine Studie von Raj Chetty und Kollegen (2014) zur sozialen Mobilität in den Vereinigten Staaten zeigen kann. In der Vergangenheit haben viele Forscher die soziale Mobilität untersucht, indem sie das Lebensergebnis von Eltern und Kindern verglichen haben. Ein konsistenter Befund aus dieser Literatur ist, dass bevorzugte Eltern tendenziell benachteiligte Kinder haben, aber die Stärke dieser Beziehung variiert im Zeitverlauf und länderübergreifend (Hout and DiPrete 2006) . In jüngster Zeit konnten Chetty und Kollegen jedoch die Steuerdaten von 40 Millionen Menschen verwenden, um die Heterogenität der intergenerationalen Mobilität in den Regionen der Vereinigten Staaten abzuschätzen (Abbildung 2.1). Sie fanden zum Beispiel, dass die Wahrscheinlichkeit, dass ein Kind das oberste Quintil der nationalen Einkommensverteilung ausgehend von einer Familie im untersten Quintil erreicht, etwa 13% in San Jose, Kalifornien, aber nur etwa 4% in Charlotte, North Carolina, beträgt. Wenn Sie sich Abbildung 2.1 kurz ansehen, könnten Sie sich fragen, warum die Mobilität zwischen den Generationen an manchen Orten höher ist als in anderen. Chetty und Kollegen hatten genau die gleiche Frage, und sie fanden heraus, dass diese hochmobilen Gebiete weniger Segregation, weniger Einkommensungleichheit, bessere Grundschulen, mehr Sozialkapital und größere Familienstabilität haben. Natürlich zeigen diese Korrelationen allein nicht, dass diese Faktoren eine höhere Mobilität verursachen, aber sie weisen auf mögliche Mechanismen hin, die in der weiteren Arbeit untersucht werden können, und genau das haben Chetty und seine Kollegen in späteren Arbeiten getan. Beachten Sie, wie wichtig die Größe der Daten in diesem Projekt war. Hätten Chetty und seine Kollegen die Steuerdaten von 40.000 statt 40 Millionen benutzt, wären sie nicht in der Lage gewesen, die regionale Heterogenität abzuschätzen, und sie wären nie in der Lage gewesen, weitere Untersuchungen durchzuführen, um die Mechanismen zu identifizieren, die diese Variation erzeugen.

Abbildung 2.1: Schätzungen der Chancen eines Kindes, die oberen 20% der Einkommensverteilung zu erreichen, wenn die Eltern in den unteren 20% sind (Chetty et al. 2014). Die Schätzungen auf regionaler Ebene, die Heterogenität zeigen, führen natürlich zu interessanten und wichtigen Fragen, die sich nicht aus einer einzigen Schätzung auf nationaler Ebene ergeben. Diese Schätzungen auf regionaler Ebene wurden teilweise dadurch ermöglicht, dass die Forscher eine große große Datenquelle nutzten: die Steuerdaten von 40 Millionen Menschen. Erstellt aus Daten verfügbar unter http://www.equality-of-opportunity.org/.

Abbildung 2.1: Schätzungen der Chancen eines Kindes, die oberen 20% der Einkommensverteilung zu erreichen, wenn die Eltern in den unteren 20% sind (Chetty et al. 2014) . Die Schätzungen auf regionaler Ebene, die Heterogenität zeigen, führen natürlich zu interessanten und wichtigen Fragen, die sich nicht aus einer einzigen Schätzung auf nationaler Ebene ergeben. Diese Schätzungen auf regionaler Ebene wurden teilweise dadurch ermöglicht, dass die Forscher eine große große Datenquelle nutzten: die Steuerdaten von 40 Millionen Menschen. Erstellt aus Daten verfügbar unter http://www.equality-of-opportunity.org/.

Neben der Untersuchung seltener Ereignisse und der Untersuchung der Heterogenität ermöglichen große Datensätze auch die Erkennung kleiner Unterschiede. Tatsächlich konzentriert sich ein Großteil des Fokus auf Big Data in der Industrie auf diese kleinen Unterschiede: Die zuverlässige Erkennung des Unterschieds zwischen Klickraten von 1% und 1,1% in einer Anzeige kann Millionen von Dollar zusätzlichen Einnahmen bringen. In einigen wissenschaftlichen Umgebungen sind solche kleinen Unterschiede jedoch möglicherweise nicht besonders wichtig, selbst wenn sie statistisch signifikant sind (Prentice and Miller 1992) . In einigen Richtlinieneinstellungen können sie jedoch bei Betrachtung in aggregierter Form wichtig werden. Wenn zum Beispiel zwei Interventionen im Bereich der öffentlichen Gesundheit durchgeführt werden und einer wirksamer ist als der andere, könnte die effizientere Intervention Tausende von zusätzlichen Leben retten.

Obwohl Größe im Allgemeinen eine gute Eigenschaft ist, wenn sie korrekt verwendet wird, habe ich bemerkt, dass es manchmal zu einem konzeptionellen Fehler führen kann. Aus irgendeinem Grund scheint Bigness dazu führen, dass Forscher ignorieren, wie ihre Daten generiert wurden. Während Bigness die Notwendigkeit reduziert, sich über zufällige Fehler Gedanken zu machen, erhöht sich tatsächlich die Notwendigkeit, sich um systematische Fehler zu kümmern, die Arten von Fehlern, die ich unten beschreiben werde, die sich aus Verzerrungen in der Art und Weise ergeben, wie Daten erzeugt werden. In einem Projekt, das ich später in diesem Kapitel beschreiben werde, verwendeten die Forscher zum Beispiel Nachrichten, die am 11. September 2001 generiert wurden, um eine hochauflösende emotionale Zeitachse der Reaktion auf den Terroranschlag zu erzeugen (Back, Küfner, and Egloff 2010) . Da die Forscher eine große Anzahl von Nachrichten hatten, mussten sie sich nicht wirklich darum sorgen, ob die Muster, die sie beobachteten - zunehmende Wut im Laufe des Tages - durch zufällige Variationen erklärt werden konnten. Es gab so viele Daten und das Muster war so klar, dass alle statistischen statistischen Tests darauf hindeuteten, dass dies ein echtes Muster war. Aber diese statistischen Tests wussten nicht, wie die Daten erstellt wurden. In der Tat stellte sich heraus, dass viele der Muster auf einen einzelnen Bot zurückzuführen waren, der im Laufe des Tages mehr und mehr bedeutungslose Nachrichten erzeugte. Die Entfernung dieses einen Bot hat einige der wichtigsten Ergebnisse in der Arbeit vollständig zerstört (Pury 2011; Back, Küfner, and Egloff 2011) . Ganz einfach, Forscher, die nicht über systematische Fehler nachdenken, stehen vor dem Risiko, ihre großen Datensätze zu verwenden, um eine unwichtige Menge, wie den emotionalen Inhalt bedeutungsloser Nachrichten, die von einem automatisierten Bot erzeugt werden, präzise zu schätzen.

Zusammenfassend ist festzuhalten, dass große Datensätze kein Selbstzweck sind, sondern bestimmte Arten von Forschung ermöglichen, einschließlich der Untersuchung seltener Ereignisse, der Schätzung von Heterogenität und der Erkennung kleiner Unterschiede. Große Datenmengen scheinen auch dazu zu führen, dass einige Forscher ignorieren, wie ihre Daten erstellt wurden, was dazu führen kann, dass sie eine unwichtige Menge genau schätzen.