2.3.2 Uvek

Uvijek na velikim podataka omogućava proučavanje neočekivanih događaja i mjerenje u realnom vremenu.

Mnogi velike sisteme podaci su uvijek na; oni su stalno prikupljanje podataka. To uvijek na karakterističnim pruža istraživačima sa uzdužnim podacima (tj, podaci tokom vremena). Biti uvijek na ima dvije važne implikacije za istraživanje.

Prvo, uvek na prikupljanju podataka omogućava istraživačima da proučavaju neočekivane događaje na načine koji inače ne bi bili mogući. Na primjer, istraživači zainteresovani za proučavanje protesta u Occupy Gezi u Turskoj tokom leta 2013. obično bi se fokusirali na ponašanje demonstranata tokom događaja. Ceren Budak i Duncan Watts (2015) bili su u mogućnosti da učine više koristeći uvek prirodu Tvitera da proučavaju demonstrante koji su koristili Twitter pre, tokom i nakon događaja. I, uspeli su da kreiraju uporednu grupu ne-učesnika pre, tokom i posle događaja (slika 2.2). Ukupno, njihova ex-post panel uključila je tweets od 30.000 ljudi tokom dvije godine. Povećavajući najčešće korišćene podatke iz protesta sa ovim drugim informacijama, Budak i Vots su mogli naučiti mnogo više: oni su mogli proceniti koje vrste ljudi će verovatnije učestvovati u protestima Gezi i procijeniti promjene u stavovima učesnike i ne-učesnike, kratkoročno (upoređujući pre-Gezi tokom Gezi-a) i dugoročno (upoređujući pre-Gezi sa post-Gezi).

Slika 2.2: Dizajn koji su koristili Budak i Watts (2015) za proučavanje protesta zauzima Gezi u Turskoj tokom leta 2013. Korišćenjem uvek uvrštene prirode Twittera, istraživači su stvorili ono što su nazvali bivši post panel koji je uključio 30.000 ljudi preko dve godine. Za razliku od tipične studije koja se fokusirala na učesnike tokom protesta, ex-post panel dodaje 1) podatke učesnika pre i posle događaja i 2) podatke od ne-učesnika prije, tokom i nakon događaja. Ova obogaćena struktura podataka omogućila je Budaku i Vattsu da procene koje vrste ljudi će učestvovati u protestima u Geziju i procijeniti promjene u stavovima učesnika i ne-učesnika, kako u kratkom roku (upoređujući pre-Gezi sa tokom Gezi ) i dugoročno (upoređujući pre-Gezi sa post-Gezi).

Slika 2.2: Dizajn koji su koristili Budak and Watts (2015) za proučavanje protesta zauzima Gezi u Turskoj tokom leta 2013. Korišćenjem uvek uvrštene prirode Twittera, istraživači su stvorili ono što su nazvali bivši post panel koji je uključio 30.000 ljudi preko dve godine. Za razliku od tipične studije koja se fokusirala na učesnike tokom protesta, ex-post panel dodaje 1) podatke učesnika pre i posle događaja i 2) podatke od ne-učesnika prije, tokom i nakon događaja. Ova obogaćena struktura podataka omogućila je Budaku i Vattsu da procene koje vrste ljudi će učestvovati u protestima u Geziju i procijeniti promjene u stavovima učesnika i ne-učesnika, kako u kratkom roku (upoređujući pre-Gezi sa tokom Gezi ) i dugoročno (upoređujući pre-Gezi sa post-Gezi).

Skeptik može ukazati na to da neke od ovih procena mogu biti napravljene bez uvijek izvora za prikupljanje podataka (npr. Dugoročne procjene promjene stava), a to je tačno, iako bi takvo prikupljanje podataka za 30.000 ljudi bilo prilično skupo. Međutim, čak i uz neograničeni budžet, ne mogu se smatrati ni na jedan drugi način koji suštinski omogućava istraživačima da putuju unazad i direktno posmatraju ponašanje učesnika u prošlosti. Najmanja alternativa bi bila sakupljanje retrospektivnih izvještaja o ponašanju, ali ovi izvještaji bi bili ograničeni granularnosti i upitne tačnosti. tabela 2.1 pruža druge primere studija koje koriste izvor podataka uvek za proučavanje neočekivanog događaja.

Tabela 2.1: Studije neočekivanih događaja koji koriste uvek velike izvore podataka.
Neočekivan događaj Always-on izvor podataka Citation
Zauzeti pokret Gezija u Turskoj Twitter Budak and Watts (2015)
Kišobranski protesti u Hong Kongu Weibo Zhang (2016)
Pucnjave policije u Njujorku Stop-and-frisk izveštaji Legewie (2016)
Osoba koja se pridružuje ISIS-u Twitter Magdy, Darwish, and Weber (2016)
11. septembra 2001. napad livejournal.com Cohn, Mehl, and Pennebaker (2004)
11. septembra 2001. napad pager poruke Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Osim što proučavaju neočekivane događaje, uvek na velikim sistemima podataka također omogućavaju istraživačima da prave procjene u realnom vremenu, što može biti važno u postavkama gdje kreatori politike - u vladi ili industriji - žele da odgovore na osnovu svijesti o situaciji. Na primjer, podaci o društvenim mrežama mogu se koristiti za vođenje hitnih reagovanja na prirodne katastrofe (Castillo 2016) i mogu se koristiti razni veliki izvori podataka, koji stvaraju procjene ekonomske aktivnosti u realnom vremenu (Choi and Varian 2012) .

U zaključku, sistemi podataka koji se uvek koriste omogućavaju istraživačima da proučavaju neočekivane događaje i pružaju informacije u stvarnom vremenu kreatorima politike. Međutim, ne mislim da su uvek sistemi podataka pogodni za praćenje promena u veoma dugim vremenskim periodima. To je zbog toga što mnogi veliki sistemi podaci se stalno mijenjaju-proces koji ću nazvati drift kasnije u ovom poglavlju (poglavlje 2.3.7).