2.3.2 Uvijek uključeno

Uvijek na velikim podataka omogućuje istraživanje neočekivanih događaja i mjerenja u realnom vremenu.

Mnogi veliki sustavi podataka su uvijek na; oni su stalno prikupljanje podataka. To je uvijek na svojstvo omogućuje istraživačima longitudinalnih podataka (tj podataka tijekom vremena). Biti uvijek na ima dvije važne implikacije za istraživanje.

Prvo, uvijek prikupljanje podataka omogućuje istraživačima da proučavaju neočekivane događaje na način koji inače ne bi bio moguć. Na primjer, istraživači zainteresirani za proučavanje okupacije Gezi prosvjeda u Turskoj u ljeto 2013. obično bi se usredotočili na ponašanje prosvjednika tijekom događaja. Ceren Budak i Duncan Watts (2015) uspjeli su učiniti više koristeći se uvijek prirodi Twittera kako bi proučavali prosvjednike koji su koristili Twitter prije, tijekom i poslije događaja. I, bili su u mogućnosti kreirati usporednu skupinu nezainteresiranih osoba prije, tijekom i poslije događaja (slika 2.2). Ukupno, njihova bivša ploča uključivala je tweete od 30.000 ljudi u dvije godine. Povećavajući uobičajene podatke iz prosvjeda s ovim drugim informacijama, Budak i Watts su mogli naučiti mnogo više: mogli su procijeniti koje su vrste ljudi vjerojatno sudjelovale u prosvjedima Gezi i procijeniti promjene u stavovima sudionicima i neparticipantima, kratkoročno (uspoređujući pre-Gezi s Gezijem tijekom Gezi) i dugoročno (uspoređujući pre-Gezi s post-Gezi).

Slika 2.2: Dizajn kojeg koriste Budak i Watts (2015) kako bi proučili protesti Turske u Turskoj u ljeto 2013. Korištenjem uvijek prirode Twittera, istraživači su stvorili ono što su nazvali ex-post panelom koji je uključivao 30.000 ljudi više od dvije godine. Za razliku od tipične studije koja se usredotočila na sudionike tijekom prosvjeda, ex-post ploča dodaje 1) podatke sudionika prije i poslije događaja i 2) podatke ne sudjelujućih osoba prije, za vrijeme i poslije događaja. Ova obogaćena struktura podataka omogućila je Budaku i Wattsu da procijeni koje su tipove ljudi vjerojatno sudjelovale u prosvjedima Gezi i procijenile promjene u stavovima sudionika i ne-sudionika, kako u kratkom roku (uspoređujući pre-Gezi s tijekom Gezija ) i dugoročno (uspoređujući pre-Gezi s post-Gezi).

Slika 2.2: Dizajn kojeg koriste Budak and Watts (2015) kako bi proučili protesti Turske u Turskoj u ljeto 2013. Korištenjem uvijek prirode Twittera, istraživači su stvorili ono što su nazvali ex-post panelom koji je uključivao 30.000 ljudi više od dvije godine. Za razliku od tipične studije koja se usredotočila na sudionike tijekom prosvjeda, ex-post ploča dodaje 1) podatke sudionika prije i poslije događaja i 2) podatke ne sudjelujućih osoba prije, za vrijeme i poslije događaja. Ova obogaćena struktura podataka omogućila je Budaku i Wattsu da procijeni koje su tipove ljudi vjerojatno sudjelovale u prosvjedima Gezi i procijenile promjene u stavovima sudionika i ne-sudionika, kako u kratkom roku (uspoređujući pre-Gezi s tijekom Gezija ) i dugoročno (uspoređujući pre-Gezi s post-Gezi).

Skeptik bi mogao istaknuti da bi se neke od tih procjena mogle napraviti bez ikakvih izvora prikupljanja podataka (npr. Dugoročne procjene promjene stavova), a to je točno, iako bi takva prikupljanja podataka za 30.000 ljudi bilo sasvim skup. Ipak, s obzirom na neograničen proračun, ne mogu se sjetiti ni jedne druge metode koja u biti dopušta istraživačima da putuju natrag u vremenu i izravno promatraju ponašanje sudionika u prošlosti. Najbliža alternativa bila bi prikupiti retrospektivna izvješća o ponašanju, ali ta će izvješća biti ograničena granularnost i upitna točnost. tablica 2.1 daje druge primjere studija koje koriste uvijek izvor podataka radi proučavanja neočekivanog događaja.

Tablica 2.1: Studije neočekivanih događaja koji se koriste uvijek na velikim izvorima podataka.
Neočekivan događaj Uvijek uključeni izvor podataka Citat
Zauzeti pokret Gezi u Turskoj Cvrkut Budak and Watts (2015)
Okrugli prosvjedi u Hong Kongu Weibo Zhang (2016)
Ubojstva policije u New Yorku Izvješća o zaustavljanju i zastrašivanju Legewie (2016)
Osoba koja se pridružila ISIS-u Cvrkut Magdy, Darwish, and Weber (2016)
Napad 11. rujna 2001. godine livejournal.com Cohn, Mehl, and Pennebaker (2004)
Napad 11. rujna 2001. godine pager poruka Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Pored proučavanja neočekivanih događaja, uvijek veliki sustavi podataka omogućuju istraživačima da izrađuju procjene u realnom vremenu, što može biti važno u okruženjima gdje kreatori politike - u vladi ili industriji - žele odgovoriti na temelju situacijske svijesti. Na primjer, podaci o društvenim medijima mogu se koristiti za usmjeravanje hitnih reakcija na prirodne katastrofe (Castillo 2016) i mogu se koristiti razni veliki izvori podataka za proizvodnju procjena ekonomske aktivnosti u realnom vremenu (Choi and Varian 2012) .

Zaključno, uvijek dostupni podatkovni sustavi omogućuju istraživačima da proučavaju neočekivane događaje i pružaju informacije u stvarnom vremenu kreatorima politike. Međutim, ne vjerujem da su uvijek sustavi podataka prikladni za praćenje promjena u vrlo dugim vremenskim razdobljima. To je zbog toga što mnogi veliki sustavi podataka stalno se mijenjaju-proces koji ću nazvati drift kasnije u poglavlju (odjeljak 2.3.7).