2.3.2 Vždy zapnuto

Vždy-na velkých dat umožňuje studium neočekávaných událostí a měření v reálném čase.

Mnoho velkých datových systémů jsou vždy v zapnutém stavu; jsou neustále sběru dat. To vždycky-on charakteristika poskytuje vědcům s podélnými dat (tj údaje v průběhu času). Být vždy-on má dva významné důsledky pro výzkum.

Za prvé, neustálé sběr dat umožňuje výzkumníkům studovat neočekávané události způsobem, který by jinak nebyl možný. Například výzkumníci, kteří se zajímají o studium protestů obsazených Gezi v Turecku v létě roku 2013, by se obvykle zaměřili na chování demonstrantů během akce. Ceren Budak a Duncan Watts (2015) dokázali udělat více, a to s využitím neustálé přírody Twitter ke studiu demonstrantů, kteří používali Twitter před, během a po události. A mohli vytvořit srovnávací skupinu neparticipantů před, během a po události (obrázek 2.2). Celkem jejich ex-post panel zahrnoval tweets 30,000 lidí za dva roky. Rozšířením běžně používaných údajů z protestů s těmito dalšími informacemi se Budak a Watts dozvěděli mnohem víc: byli schopni odhadnout, jaké druhy lidí se pravděpodobněji účastní protestů Gezi a odhadnout změny postojů účastníkům a neparticipantem, a to jak v krátkodobém horizontu (srovnávání před Gezi s Gezi), tak v dlouhodobém horizontu (srovnávání pre-Gezi s post-Gezi).

Obrázek 2.2: Návrh, který používají Budak a Watts (2015) k prozkoumání protestů Occupy Gezi v Turecku v létě 2013. Využitím neustálé povahy Twitteru vědci vytvořili to, co nazývali ex-post panel, který zahrnoval 30 000 lidí za dva roky. Na rozdíl od typické studie, která se zaměřila na účastníky během protestů, ex-post panel přidává 1) údaje od účastníků před a po události a 2) údaje od účastníků před, během a po události. Tato obohacená datová struktura umožnila Budakovi a Wattsovi odhadnout, jaké typy lidí se pravděpodobněji účastní protestů Gezi a odhadnout změny postojů účastníků a neúčastníků, a to jak v krátkodobém horizontu (srovnání před Gezi s Gezi ) a v dlouhodobém horizontu (srovnávání pre-Gezi s post-Gezi).

Obrázek 2.2: Návrh, který používají Budak and Watts (2015) k prozkoumání protestů Occupy Gezi v Turecku v létě 2013. Využitím neustálé povahy Twitteru vědci vytvořili to, co nazývali ex-post panel, který zahrnoval 30 000 lidí za dva roky. Na rozdíl od typické studie, která se zaměřila na účastníky během protestů, ex-post panel přidává 1) údaje od účastníků před a po události a 2) údaje od účastníků před, během a po události. Tato obohacená datová struktura umožnila Budakovi a Wattsovi odhadnout, jaké typy lidí se pravděpodobněji účastní protestů Gezi a odhadnout změny postojů účastníků a neúčastníků, a to jak v krátkodobém horizontu (srovnání před Gezi s Gezi ) a v dlouhodobém horizontu (srovnávání pre-Gezi s post-Gezi).

Skeptik by mohl poukázat na to, že některé z těchto odhadů by mohly být provedeny bez zdrojů vždy sběru dat (např. Dlouhodobé odhady změny postojů), a to je správné, i když by takový sběr dat pro 30 000 lidí byl docela drahý. I při neomezeném rozpočtu však nemohu přemýšlet o žádné jiné metodě, která by v podstatě umožnila výzkumníkům cestovat zpět včas a přímo pozorovat chování účastníků v minulosti. Nejbližší alternativou by bylo shromáždit retrospektivní zprávy o chování, ale tyto zprávy by byly omezené granularity a pochybné přesnosti. Tabulka 2.1 uvádí další příklady studií, které využívají vždy zdroj dat ke studiu neočekávané události.

Tabulka 2.1: Studie neočekávaných událostí s využitím stále rozsáhlých zdrojů dat.
Neočekávaná událost Vždy zapnutý zdroj dat Citace
Occupy Gezi v Turecku Cvrlikání Budak and Watts (2015)
Umbrella protesty v Hongkongu Weibo Zhang (2016)
Střely policie v New Yorku Stop-and-frisk zprávy Legewie (2016)
Osoba připojující se k ISIS Cvrlikání Magdy, Darwish, and Weber (2016)
11. září 2001 útok livejournal.com Cohn, Mehl, and Pennebaker (2004)
11. září 2001 útok zprávy pageru Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Vedle studií neočekávaných událostí mohou vždy rozsáhlé datové systémy umožňovat výzkumníkům vytvářet odhady v reálném čase, které mohou být důležité v prostředí, kde politické činitele - ve vládě nebo v průmyslu - chtějí reagovat na základě situačního povědomí. Například data z sociálních médií mohou být použita k vedení havarijní reakce na přírodní katastrofy (Castillo 2016) a mohou být použity různé velké zdroje dat, které produkují odhady ekonomické aktivity v reálném čase (Choi and Varian 2012) .

Závěrem, neustálé datové systémy umožňují výzkumníkům studovat neočekávané události a poskytovat tvůrcům politiky informace v reálném čase. Nemyslím si však, že vždy-on datové systémy jsou velmi vhodné pro sledování změn po velmi dlouhou dobu. To je proto, že mnoho velkých datových systémů se neustále mění, což je proces, který budu volat drift později v kapitole (oddíl 2.3.7).