2.3.2 Immer eingeschaltet

Always-on Big Data ermöglicht die Untersuchung von unerwarteten Ereignissen und Echtzeitmessung.

Viele große Datensysteme sind immer-on; sie sammeln ständig Daten. Diese always-on Merkmal liefert den Forschern Längsschnittdaten (dh Daten über die Zeit). Always-on zu sein, hat zwei wichtige Implikationen für die Forschung.

Erstens ermöglicht die ständige Datenerfassung den Forschern, unerwartete Ereignisse auf eine Weise zu untersuchen, die sonst nicht möglich wäre. Beispielsweise konzentrierten sich Forscher, die sich im Sommer 2013 in der Türkei auf die Occupy-Gezi-Proteste konzentrieren wollten, typischerweise auf das Verhalten von Demonstranten während der Veranstaltung. Ceren Budak und Duncan Watts (2015) waren in der Lage, mehr zu tun, indem sie die ständige Natur von Twitter nutzten, um Demonstranten zu studieren, die Twitter vor, während und nach der Veranstaltung benutzten. Und sie konnten vor, während und nach der Veranstaltung eine Vergleichsgruppe von Nichtteilnehmern bilden (Abbildung 2.2). Insgesamt umfasste ihr Ex-Post-Panel die Tweets von 30.000 Menschen über zwei Jahre. Indem Budak und Watts die häufig verwendeten Daten aus den Protesten mit diesen anderen Informationen erweiterten, konnten sie viel mehr lernen: Sie konnten abschätzen, welche Arten von Menschen eher an den Gezi - Protesten teilnahmen und die Veränderungen in den Einstellungen von Teilnehmer und Nicht-Teilnehmer, sowohl auf kurze Sicht (Vergleich zwischen Gezi vor und Gezi) als auch auf lange Sicht (Vergleich von Gezi vor Gezi).

Abbildung 2.2: Von Budak und Watts (2015) verwendetes Design zur Untersuchung der Occupy-Gezi-Proteste in der Türkei im Sommer 2013. Indem die Forscher das immerwährende Wesen von Twitter nutzten, schufen sie ein so genanntes Ex-Post-Panel, das ungefähr einschloss 30.000 Menschen in zwei Jahren. Im Gegensatz zu einer typischen Studie, die sich auf Teilnehmer während der Proteste konzentrierte, fügt das Ex-Post-Panel 1) Daten von Teilnehmern vor und nach der Veranstaltung und 2) Daten von Nicht-Teilnehmern vor, während und nach der Veranstaltung hinzu. Diese angereicherte Datenstruktur ermöglichte es Budak und Watts, einzuschätzen, welche Arten von Menschen eher an den Gezi-Protesten teilnahmen und die Veränderungen in den Einstellungen von Teilnehmern und Nichtteilnehmern einzuschätzen, sowohl kurzfristig als auch während Gezi ) und auf lange Sicht (Vergleich von Vor-Gezi mit Post-Gezi).

Abbildung 2.2: Von Budak and Watts (2015) verwendetes Design zur Untersuchung der Occupy-Gezi-Proteste in der Türkei im Sommer 2013. Indem die Forscher das immerwährende Wesen von Twitter nutzten, schufen sie ein so genanntes Ex-Post-Panel , das ungefähr einschloss 30.000 Menschen in zwei Jahren. Im Gegensatz zu einer typischen Studie, die sich auf Teilnehmer während der Proteste konzentrierte, fügt das Ex-Post-Panel 1) Daten von Teilnehmern vor und nach der Veranstaltung und 2) Daten von Nicht-Teilnehmern vor, während und nach der Veranstaltung hinzu. Diese angereicherte Datenstruktur ermöglichte es Budak und Watts, einzuschätzen, welche Arten von Menschen eher an den Gezi-Protesten teilnahmen und die Veränderungen in den Einstellungen von Teilnehmern und Nichtteilnehmern einzuschätzen, sowohl kurzfristig als auch während Gezi ) und auf lange Sicht (Vergleich von Vor-Gezi mit Post-Gezi).

Ein Skeptiker könnte darauf hinweisen, dass einige dieser Schätzungen ohne ständige Datensammlungsquellen hätten gemacht werden können (z. B. langfristige Schätzungen der Einstellungsänderung), und das ist richtig, obwohl eine solche Datensammlung für 30.000 Menschen recht gewesen wäre teuer. Aber selbst bei einem unbegrenzten Budget kann ich mir keine andere Methode vorstellen, die es den Forschern im Wesentlichen ermöglicht, in die Vergangenheit zu reisen und das Verhalten der Teilnehmer in der Vergangenheit direkt zu beobachten. Die engste Alternative wäre, rückblickende Verhaltensberichte zu sammeln, aber diese Berichte wären von begrenzter Granularität und fraglicher Genauigkeit. Tabelle 2.1 enthält weitere Beispiele für Studien, in denen eine ständig aktive Datenquelle zur Untersuchung eines unerwarteten Ereignisses verwendet wird.

Tabelle 2.1: Untersuchungen zu unerwarteten Ereignissen unter Verwendung von Always-On-Big-Data-Quellen.
Unerwartetes Ereignis Always-on-Datenquelle Zitat
Occupy Gezi Bewegung in der Türkei Twitter Budak and Watts (2015)
Umbrella protestiert in Hongkong Weibo Zhang (2016)
Erschießungen der Polizei in New York City Stop-and-Frisk-Berichte Legewie (2016)
Person, die ISIS beitritt Twitter Magdy, Darwish, and Weber (2016)
11. September 2001 Angriff livejournal.com Cohn, Mehl, and Pennebaker (2004)
11. September 2001 Angriff Pager-Nachrichten Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Neben der Untersuchung unerwarteter Ereignisse können Forscher mithilfe von Always-On-Big-Data-Systemen auch Echtzeit-Schätzungen erstellen. Dies kann in Umgebungen wichtig sein, in denen politische Entscheidungsträger - sei es in der Regierung oder in der Industrie - auf Situationsbewusstsein reagieren möchten. Zum Beispiel können Social-Media-Daten dazu verwendet werden, die Notfallreaktion auf Naturkatastrophen zu steuern (Castillo 2016) und eine Vielzahl verschiedener Big-Data-Quellen kann in Echtzeit Schätzungen der wirtschaftlichen Aktivität liefern (Choi and Varian 2012) .

Zusammenfassend lassen sich mithilfe von Always-On-Datensystemen unerwartete Ereignisse untersuchen und den politischen Entscheidungsträgern Echtzeitinformationen bereitstellen. Ich bin jedoch nicht der Ansicht, dass sich immer verfügbare Datensysteme gut eignen, um Änderungen über sehr lange Zeiträume hinweg zu verfolgen. Das liegt daran, dass sich viele große Datensysteme ständig ändern - ein Prozess, den ich später nennen werde, driftet später im Kapitel (Abschnitt 2.3.7).