2.3.2 Vedno

Vedno-na velikih podatkov omogoča študij nepričakovanih dogodkov in meritev v realnem času.

Mnogi veliki podatkovni sistemi so vedno-na; so nenehno zbiranje podatkov. To vedno-na lastnost omogoča raziskovalcem longitudinalnih podatkov (tj podatkov skozi čas). Kot vedno-on ima dve pomembne posledice za raziskave.

Prvič, zbiranje podatkov vedno omogoča, da raziskovalci preučujejo nepričakovane dogodke na način, ki drugače ne bi bil mogoč. Na primer, raziskovalci, ki se zanimajo za preučevanje okupacijskih protestov Gezi v Turčiji poleti 2013, se običajno osredotočajo na obnašanje protestnikov med dogodkom. Ceren Budak in Duncan Watts (2015) sta lahko naredili še več, ker sta uporabljali vedno v lasti Cvrkutati, da bi preučevali protestnike, ki so uporabljali Twitter pred, med in po dogodku. In, pred, med in po dogodku so uspeli ustvariti primerjalno skupino ne-udeležencev (slika 2.2). Skupno je njihova naknadna plošča vključevala tweetove 30.000 ljudi v dveh letih. S povečanjem pogosto uporabljenih podatkov iz protestov s temi drugimi informacijami so Budak in Watts lahko naučili veliko več: lahko so ocenili, kakšne vrste ljudi je bolj verjetno sodelovalo pri protestih Gezi in ocenilo spremembe v odnosu udeležencev in ne-udeležencev, tako kratkoročno (primerjamo pred Gezi med Gezijem) in dolgoročno (primerjamo pred-Gezi s post-Gezi).

Slika 2.2: Oblika, ki so jo Budak in Watts (2015) uporabili za preučevanje okupacijskih protestov Gezija v Turčiji poleti leta 2013. Z uporabo vedno večje narave Twitterja so raziskovalci ustvarili tisto, kar so imenovali naknadno ploščo, ki je vključevala 30.000 ljudi v dveh letih. V nasprotju s tipično študijo, ki je bila osredotočena na udeležence med protestom, naknadni panel dodaja 1) podatke udeležencev pred in po dogodku ter 2) podatke ne-udeležencev pred, med in po dogodku. Ta obogatena podatkovna struktura je Budadu in Wattsu omogočila, da ocenijo, katere osebe so bolj verjetno sodelovale pri protestih Gezija in ocenile spremembe v odnosih udeležencev in ne-udeležencev, tako kratkoročno (primerjamo pred-Gezi s časom Gezi ) in na dolgi rok (primerjanje pred-Gezi s post-Gezi).

Slika 2.2: Oblika, ki so jo Budak and Watts (2015) uporabili za preučevanje okupacijskih protestov Gezija v Turčiji poleti leta 2013. Z uporabo vedno večje narave Twitterja so raziskovalci ustvarili tisto, kar so imenovali naknadno ploščo, ki je vključevala 30.000 ljudi v dveh letih. V nasprotju s tipično študijo, ki je bila osredotočena na udeležence med protestom, naknadni panel dodaja 1) podatke udeležencev pred in po dogodku ter 2) podatke ne-udeležencev pred, med in po dogodku. Ta obogatena podatkovna struktura je Budadu in Wattsu omogočila, da ocenijo, katere osebe so bolj verjetno sodelovale pri protestih Gezija in ocenile spremembe v odnosih udeležencev in ne-udeležencev, tako kratkoročno (primerjamo pred-Gezi s časom Gezi ) in na dolgi rok (primerjanje pred-Gezi s post-Gezi).

Skeptik bi lahko opozoril, da bi nekatere od teh ocen lahko bile narejene brez vedno virov zbiranja podatkov (npr. Dolgoročne ocene spremembe položaja), in to je res, čeprav bi takšno zbiranje podatkov za 30.000 ljudi bilo precej draga. Vendar pa ne glede na to, čeprav neomejen proračun, ne morem razmišljati o nobeni drugi metodi, ki v bistvu omogoča raziskovalcem, da potujejo nazaj v čas in neposredno opazujejo vedenje udeležencev v preteklosti. Najboljša alternativa bi bila zbiranje retrospektivnih poročil o obnašanju, vendar bi bila ta poročila omejena sorazmernost in vprašljiva natančnost. V tabeli 2.1 so predstavljeni drugi primeri študij, ki uporabljajo izvorni vir podatkov za preučevanje nepričakovanega dogodka.

Tabela 2.1: Študije nepričakovanih dogodkov z vedno velikimi viri podatkov.
Nepričakovan dogodek Vedno podatkovni vir Navedba
Zaseda gibanje Gezi v Turčiji Twitter Budak and Watts (2015)
Krovni protesti v Hongkongu Weibo Zhang (2016)
Ubitje policije v New Yorku Poročila Stop-and-frisk Legewie (2016)
Oseba, ki se pridruži ISIS Twitter Magdy, Darwish, and Weber (2016)
Napad 11. septembra 2001 livejournal.com Cohn, Mehl, and Pennebaker (2004)
Napad 11. septembra 2001 pager sporočil Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Poleg študij nepričakovanih dogodkov lahko vedno večji sistemi podatkov omogočajo raziskovalcem, da pripravijo ocene v realnem času, kar je lahko pomembno v okoljih, kjer se oblikovalci politik - v vladi ali industriji - želijo odzvati na podlagi situacijskega zavedanja. Podatki o socialnih medijih se lahko na primer uporabijo za usmerjanje odziva na naravne nesreče (Castillo 2016) in različni viri velikih podatkov, ki omogočajo izračun realnega časa gospodarske dejavnosti v realnem času (Choi and Varian 2012) .

Skratka, podatki o sistemih vedno omogočajo raziskovalcem, da preučujejo nepričakovane dogodke in informatorjem zagotovijo informacije v realnem času. Vendar ne mislim, da so vedno na podatkovnih sistemih primerni za spremljanje sprememb v zelo dolgih časovnih obdobjih. To je zato, ker so mnogi veliki sistemi podatkovnih nenehno spreminja-proces, da bom klic drift kasneje v poglavju (oddelek 2.3.7).