2.3.2 Zawsze włączony

Zawsze na dużych danych umożliwia badanie nieoczekiwanych zdarzeń i pomiarów w czasie rzeczywistym.

Wiele dużych systemów danych są zawsze włączone; są one ciągle zbieranie danych. To zawsze na charakterystyczne dostarcza naukowcom danych podłużnych (czyli danych w czasie). Będąc na zawsze ma dwie ważne konsekwencje dla badań.

Po pierwsze, ciągłe gromadzenie danych umożliwia badaczom zbadanie nieoczekiwanych zdarzeń w sposób, który w innym przypadku byłby niemożliwy. Na przykład badacze zainteresowani badaniem protestów Occupy Gezi w Turcji latem 2013 r. Zazwyczaj koncentrują się na zachowaniu protestujących podczas imprezy. Ceren Budak i Duncan Watts (2015) byli w stanie zrobić więcej, wykorzystując stale aktualną naturę Twittera do studiowania protestujących, którzy używali Twittera przed, w trakcie i po imprezie. I byli w stanie stworzyć grupę porównawczą osób niebędących uczestnikami przed, w trakcie i po wydarzeniu (rysunek 2.2). W sumie ich panel ex-post obejmował tweety z 30 000 osób w ciągu dwóch lat. Dzięki rozszerzeniu powszechnie używanych danych z protestów o te inne informacje, Budak i Watts byli w stanie nauczyć się znacznie więcej: byli w stanie oszacować, jaki rodzaj ludzi mieli większe szanse uczestniczyć w protestach Gezi i oszacować zmiany w postawach uczestnicy i osoby niebędące uczestnikami, zarówno w krótkim okresie (porównując pre-Gezi do Gezi), jak i na dłuższą metę (porównując pre-Gezi z post-Gezi).

Rysunek 2.2: Projekt wykorzystany przez Budak i Watts (2015) do badania protestów Occupy Gezi w Turcji latem 2013 roku. Korzystając z nieustannego charakteru Twittera, naukowcy stworzyli coś, co nazwali panelem ex-post obejmującym temat 30 000 osób w ciągu dwóch lat. W przeciwieństwie do typowego badania skupiającego się na uczestnikach podczas protestów, panel ex-post dodaje 1) dane od uczestników przed i po wydarzeniu oraz 2) dane od osób niebędących uczestnikami przed, w trakcie i po wydarzeniu. Ta wzbogacona struktura danych umożliwiła Budakowi i Wattsowi oszacowanie, którzy ludzie częściej uczestniczą w protestach Gezi i oszacowanie zmian w postawach uczestników i nie-uczestników, zarówno w krótkim okresie (porównując pre-Gezi z Gezi ) i na dłuższą metę (porównując pre-Gezi z post-Gezi).

Rysunek 2.2: Projekt wykorzystany przez Budak and Watts (2015) do badania protestów Occupy Gezi w Turcji latem 2013 roku. Korzystając z nieustannego charakteru Twittera, naukowcy stworzyli coś, co nazwali panelem ex-post obejmującym temat 30 000 osób w ciągu dwóch lat. W przeciwieństwie do typowego badania skupiającego się na uczestnikach podczas protestów, panel ex-post dodaje 1) dane od uczestników przed i po wydarzeniu oraz 2) dane od osób niebędących uczestnikami przed, w trakcie i po wydarzeniu. Ta wzbogacona struktura danych umożliwiła Budakowi i Wattsowi oszacowanie, którzy ludzie częściej uczestniczą w protestach Gezi i oszacowanie zmian w postawach uczestników i nie-uczestników, zarówno w krótkim okresie (porównując pre-Gezi z Gezi ) i na dłuższą metę (porównując pre-Gezi z post-Gezi).

Sceptyk może wskazać, że niektóre z tych szacunków mogły zostać dokonane bez zawsze dostępnych źródeł danych (np. Długoterminowe szacunki zmiany nastawienia), i to jest poprawne, chociaż takie gromadzenie danych dla 30 000 osób byłoby całkiem kosztowny. Nawet biorąc pod uwagę nieograniczony budżet, nie mogę wymyślić żadnej innej metody, która zasadniczo umożliwia naukowcom cofanie się w czasie i bezpośrednie obserwowanie zachowań uczestników w przeszłości. Najbliższą alternatywą byłoby zebranie retrospektywnych raportów zachowania, ale raporty te miałyby ograniczoną ziarnistość i wątpliwą dokładność. Tabela 2.1 przedstawia inne przykłady badań wykorzystujących stale dostępne źródło danych do badania nieoczekiwanego zdarzenia.

Tabela 2.1: Badanie nieoczekiwanych zdarzeń przy użyciu zawsze dużych źródeł danych.
Niespodziewane wydarzenie Zawsze włączone źródło danych Cytat
Zajmij się ruchami Gezi w Turcji Świergot Budak and Watts (2015)
Protesty parasolowe w Hong Kongu Weibo Zhang (2016)
Strzelaniny policji w Nowym Jorku Raporty o zatrzymaniu i przerzucaniu Legewie (2016)
Osoba dołączająca do ISIS Świergot Magdy, Darwish, and Weber (2016)
Atak z 11 września 2001 roku livejournal.com Cohn, Mehl, and Pennebaker (2004)
Atak z 11 września 2001 roku wiadomości na pager Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Oprócz analizowania nieoczekiwanych zdarzeń, zawsze systemy dużych zbiorów danych umożliwiają także naukowcom opracowywanie szacunków w czasie rzeczywistym, co może być ważne w miejscach, w których decydenci - w rządzie lub przemyśle - chcą reagować w oparciu o świadomość sytuacyjną. Na przykład dane z mediów społecznościowych mogą być wykorzystywane do kierowania reakcji w sytuacjach awaryjnych na klęski żywiołowe (Castillo 2016) a wiele różnych dużych źródeł danych może być wykorzystywanych do sporządzania szacunków ekonomicznych w czasie rzeczywistym (Choi and Varian 2012) .

Podsumowując, zawsze dostępne systemy danych umożliwiają naukowcom badanie niespodziewanych zdarzeń i dostarczanie informacji w czasie rzeczywistym decydentom. Nie uważam jednak, że zawsze aktualne systemy danych dobrze nadają się do śledzenia zmian w bardzo długich okresach czasu. Dzieje się tak dlatego, że wiele dużych systemów danych ciągle się zmienia - proces ten nazywam dryfowaniem w dalszej części rozdziału (sekcja 2.3.7).