2.3.9 Schmutzig

Große Datenquellen können mit Junk - und Spam geladen werden.

Einige Forscher glauben, dass große Datenquellen, insbesondere Online-Quellen, unberührten Ursprungs sind, da sie automatisch gesammelt werden. In der Tat wissen Leute, die mit großen Datenquellen gearbeitet haben, dass sie häufig schmutzig sind . Das bedeutet, dass sie häufig Daten enthalten, die keine echten Maßnahmen darstellen, die für Forscher von Interesse sind. Die meisten Sozialwissenschaftler sind bereits mit dem Prozess der Säuberung großangelegter sozialer Umfragedaten vertraut, aber die Reinigung großer Datenquellen scheint schwieriger zu sein. Ich denke, die ultimative Quelle dieser Schwierigkeit ist, dass viele dieser großen Datenquellen nie für die Forschung bestimmt waren und daher nicht so gesammelt, gespeichert und dokumentiert werden, dass die Datenreinigung erleichtert wird.

Die Gefahren schmutziger digitaler Trace-Daten werden in Back und Kollegen (2010) , die die emotionale Reaktion auf die Attacken vom 11. September 2001 untersuchen, die ich bereits kurz im Kapitel erwähnt habe. Normalerweise untersuchen Forscher die Reaktion auf tragische Ereignisse mit retrospektiven Daten, die über Monate oder sogar Jahre gesammelt wurden. Aber Back und Kollegen fanden immer eine Quelle digitaler Spuren - die zeitgestempelten, automatisch aufgezeichneten Nachrichten von 85.000 amerikanischen Pagern - und dies ermöglichte es ihnen, emotionale Reaktionen in einem viel feineren Zeitmaßstab zu studieren. Sie erstellten eine minutengenaue emotionale Zeitleiste des 11. Septembers, indem sie den emotionalen Inhalt der Pager-Nachrichten durch den prozentualen Anteil der Wörter in Bezug auf (1) Traurigkeit (zB "Weinen" und "Kummer"), (2) Angst ( zB "besorgt" und "ängstlich", und (3) Wut (zB "Hass" und "kritisch"). Sie fanden heraus, dass die Traurigkeit und die Angst während des Tages ohne ein starkes Muster schwankten, aber dass es während des Tages einen auffälligen Anstieg der Wut gab. Diese Forschung scheint ein wunderbares Beispiel für die Stärke von immer verfügbaren Datenquellen zu sein: Wenn traditionelle Datenquellen verwendet worden wären, wäre es unmöglich gewesen, eine solche hochauflösende Zeitleiste der unmittelbaren Reaktion auf ein unerwartetes Ereignis zu erhalten.

Nur ein Jahr später hat Cynthia Pury (2011) die Daten genauer betrachtet. Sie entdeckte, dass eine große Anzahl der angeblich wütenden Nachrichten von einem einzigen Pager erzeugt wurde und alle identisch waren. Folgendes sagten diese angeblich zornigen Botschaften:

"Reboot NT-Maschine [Name] im Schrank [name] in [Ort]: KRITISCH: [Datum und Uhrzeit]"

Diese Nachrichten wurden als wütend bezeichnet, weil sie das Wort "KRITISCH" enthielten, was im Allgemeinen Wut anzeigen kann, aber in diesem Fall nicht. Das Entfernen der Nachrichten, die von diesem einzelnen automatischen Pager erzeugt werden, beseitigt den offensichtlichen Anstieg der Wut im Laufe des Tages vollständig (Abbildung 2.4). Mit anderen Worten, das Hauptergebnis in Back, Küfner, and Egloff (2010) war ein Artefakt von einem Pager. Wie dieses Beispiel zeigt, kann die relativ einfache Analyse von relativ komplexen und unsauberen Daten zu schwerwiegenden Fehlern führen.

Abbildung 2.4: Geschätzte Wutentwicklung im Verlauf des 11. September 2001 basierend auf 85.000 amerikanischen Pagern (Back, Küfner und Egloff 2010, 2011; Pury 2011). Ursprünglich haben Back, Küfner und Egloff (2010) im Laufe des Tages ein Muster zunehmender Wut gemeldet. Die meisten dieser scheinbar verärgerten Nachrichten wurden jedoch von einem einzelnen Pager erzeugt, der wiederholt die folgende Nachricht ausgab: NT-Rechner [Name] im Büro [Name] an [Ort] neu starten: KRITISCH: [Datum und Uhrzeit]. Wenn diese Botschaft entfernt wird, verschwindet die scheinbare Zunahme der Wut (Pury 2011; Back, Küfner und Egloff 2011). Angepasst an Pury (2011), Abbildung 1b.

Abbildung 2.4: Geschätzte Wutentwicklung im Verlauf des 11. September 2001 basierend auf 85.000 amerikanischen Pagern (Back, Küfner, and Egloff 2010, 2011; Pury 2011) . Ursprünglich haben Back, Küfner, and Egloff (2010) Laufe des Tages ein Muster zunehmender Wut gemeldet. Die meisten dieser scheinbar verärgerten Nachrichten wurden jedoch von einem einzelnen Pager generiert, der wiederholt die folgende Nachricht ausgab: "NT-Computer [Name] im Büro [Name] an [Ort] neu starten: KRITISCH: [Datum und Uhrzeit]". Wenn diese Botschaft entfernt wird, verschwindet die scheinbare Zunahme der Wut (Pury 2011; Back, Küfner, and Egloff 2011) . Angepasst an Pury (2011) , Abbildung 1b.

Während schmutzige Daten, die unbeabsichtigt erzeugt werden - wie die von einem lauten Pager - von einem einigermaßen sorgfältigen Forscher entdeckt werden können, gibt es auch einige Online-Systeme, die absichtliche Spammer anziehen. Diese Spammer erzeugen aktiv gefälschte Daten und arbeiten - oft motiviert durch Profit - sehr hart, um ihre Spamming zu verbergen. Zum Beispiel scheint die politische Aktivität auf Twitter zumindest einige einigermaßen hochentwickelte Spam- (Ratkiewicz et al. 2011) zu enthalten, wobei einige politische Ursachen bewusst populärer erscheinen, als sie tatsächlich sind (Ratkiewicz et al. 2011) . Leider kann das Entfernen dieses beabsichtigten Spams ziemlich schwierig sein.

Was als schmutzige Daten angesehen werden, kann natürlich teilweise von der Forschungsfrage abhängen. Zum Beispiel werden viele Änderungen an Wikipedia durch automatisierte Bots erstellt (Geiger 2014) . Wenn Sie sich für die Ökologie von Wikipedia interessieren, dann sind diese Bot-erstellten Bearbeitungen wichtig. Aber wenn Sie daran interessiert sind, wie Menschen zu Wikipedia beitragen, sollten die vom Bot erstellten Bearbeitungen ausgeschlossen werden.

Es gibt keine einzige statistische Technik oder Methode, die sicherstellen kann, dass Sie Ihre schmutzigen Daten ausreichend bereinigt haben. Am Ende denke ich, dass der beste Weg, um nicht durch schmutzige Daten getäuscht zu werden, darin besteht, so viel wie möglich darüber zu verstehen, wie Ihre Daten erstellt wurden.