2.3.2 Vždy zapnuté

Vždy-na veľkých dát umožňuje štúdium neočakávaných udalostí a meranie v reálnom čase.

Mnoho veľkých dátových systémov sú vždy v zapnutom stave; sú neustále zberu dát. To vždycky-on charakteristika poskytuje vedcom s pozdĺžnymi dát (tj údaje v priebehu času). Byť vždy-on má dva významné dôsledky pre výskum.

Po prvé, neustále zhromažďovanie údajov umožňuje výskumníkom študovať neočakávané udalosti spôsobom, ktorý by inak nebol možný. Napríklad výskumníci, ktorí sa zaujímajú o štúdium protestov obsadených Gezi v Turecku v lete roku 2013, sa zvyčajne zameriavajú na správanie protestujúcich počas podujatia. Ceren Budak a Duncan Watts (2015) dokázali urobiť viac pomocou stále pripraveného charakteru Twitteru na štúdium demonštrantov, ktorí používali Twitter pred, počas a po akcii. A mohli vytvoriť porovnávaciu skupinu neparticipantov pred, počas a po udalosti (obrázok 2.2). Celkovo ich ex-post panel obsahoval tweets 30 000 ľudí v priebehu dvoch rokov. Rozšírením bežne používaných údajov z protestov s týmito ďalšími informáciami sa Budak a Watts dozvedeli oveľa viac: boli schopní odhadnúť, aké druhy ľudí sa častejšie zúčastňujú protestov Gezi a odhadnúť zmeny postojov účastníkov a neparticipantov, a to v krátkodobom horizonte (porovnávanie pre Gezi s Gezi) a z dlhodobého hľadiska (porovnávanie pre-Geži s post-Gezi).

Obrázok 2.2: Návrh, ktorý používajú Budak a Watts (2015) na štúdium protestov Occupy Gezi v Turecku v lete roku 2013. Využitím neustálej povahy Twitteru vytvorili vedci to, čo nazvali ex-post panelom, 30 000 ľudí za dva roky. Na rozdiel od typickej štúdie zameranej na účastníkov počas protestov, ex-post panel pridáva 1) údaje od účastníkov pred a po udalosti a 2) údaje od účastníkov pred, počas a po udalosti. Táto obohatená štruktúra údajov umožnila Budakovi a Wattsovi odhadnúť, aké druhy ľudí sa častejšie zúčastňujú protestov Gezi a odhadnúť zmeny v postojoch účastníkov a neúčasti v krátkodobom časovom horizonte (porovnanie pre Gezi s Gezi ) a z dlhodobého hľadiska (porovnávanie pre-Gezi s post-Gezi).

Obrázok 2.2: Návrh, ktorý používajú Budak and Watts (2015) na štúdium protestov Occupy Gezi v Turecku v lete roku 2013. Využitím neustálej povahy Twitteru vytvorili vedci to, čo nazvali ex-post panelom , 30 000 ľudí za dva roky. Na rozdiel od typickej štúdie zameranej na účastníkov počas protestov, ex-post panel pridáva 1) údaje od účastníkov pred a po udalosti a 2) údaje od účastníkov pred, počas a po udalosti. Táto obohatená štruktúra údajov umožnila Budakovi a Wattsovi odhadnúť, aké druhy ľudí sa častejšie zúčastňujú protestov Gezi a odhadnúť zmeny v postojoch účastníkov a neúčasti v krátkodobom časovom horizonte (porovnanie pre Gezi s Gezi ) a z dlhodobého hľadiska (porovnávanie pre-Gezi s post-Gezi).

Skeptik by mohol poukázať na to, že niektoré z týchto odhadov by sa mohli uskutočniť bez vždy zdrojov zberu údajov (napr. Dlhodobých odhadov zmeny postoja), a to je správne, aj keď takýto zber údajov pre 30 000 ľudí by bol dosť drahé. Dokonca aj v prípade neobmedzeného rozpočtu nemôžem premýšľať o žiadnej inej metóde, ktorá by v podstate umožňovala výskumníkom cestovať späť v čase a priamo sledovať správanie účastníkov v minulosti. Najbližšou alternatívou by bolo zhromaždiť retrospektívne správy o správaní, ale tieto správy by mali obmedzenú granularitu a spornú presnosť. tabuľka 2.1 poskytuje ďalšie príklady štúdií, ktoré využívajú vždy zdroj údajov na štúdium neočakávanej udalosti.

Tabuľka 2.1: Štúdie neočakávaných udalostí s využitím vždy veľkých zdrojov údajov.
Neočakávaná udalosť Vždy zapnutý zdroj údajov citácie
Zaberá hnutie Gezi v Turecku cvrlikání Budak and Watts (2015)
Umbrella protesty v Hongkongu Weibo Zhang (2016)
Streľby polície v New Yorku Stop-and-frisk správy Legewie (2016)
Osoba, ktorá sa pripája k ISIS cvrlikání Magdy, Darwish, and Weber (2016)
11. september 2001 útok livejournal.com Cohn, Mehl, and Pennebaker (2004)
11. september 2001 útok správy pageru Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Okrem štúdií neočakávaných udalostí umožňujú výskumní pracovníci aj vytváranie odhadov v reálnom čase, ktoré môžu byť dôležité v prostrediach, kde politickí činitelia - vo vláde alebo priemysle - chcú reagovať na základe situačného povedomia. Napríklad dáta sociálnych médií môžu byť použité na usmernenie havarijnej reakcie na prírodné katastrofy (Castillo 2016) a môžu byť použité rôzne veľké zdroje údajov, ktoré umožňujú produkovať odhady ekonomickej aktivity v reálnom čase (Choi and Varian 2012) .

Na záver, vždy založené informačné systémy umožňujú výskumníkom študovať neočakávané udalosti a poskytovať tvorcom politík informácie v reálnom čase. Nemyslím si však, že stále používané dátové systémy sú vhodné na sledovanie zmien počas veľmi dlhých časových období. To je preto, že mnoho veľkých dátových systémov sa neustále mení, čo je proces, ktorý budem volať drift neskôr v kapitole (oddiel 2.3.7).