2.3.2 Alltid på

Alltid-på store data gjør studiet av uventede hendelser og måling i sanntid.

Mange store datasystemer er alltid-på; de er stadig å samle inn data. Dette alltid-på karakteristisk gir forskere med longitudinelle data (dvs. data over tid). Å være alltid-på har to viktige implikasjoner for forskning.

For det første gjør det alltid mulig for forskere å studere uventede hendelser på måter som ellers ikke ville være mulig. For eksempel vil forskere som er interessert i å studere Occupy Gezi-protestene i Tyrkia sommeren 2013, typisk fokusere på oppførselen til demonstranter under arrangementet. Ceren Budak og Duncan Watts (2015) var i stand til å gjøre mer ved å bruke Twitter's alltid-natur for å studere demonstranter som brukte Twitter før, under og etter arrangementet. Og de klarte å skape en sammenligningsgruppe av ikke-deltakere før, under og etter hendelsen (figur 2.2). Totalt sett inneholdt deres ex- postpanel tweets på 30.000 mennesker over to år. Ved å øke de brukte dataene fra protestene med denne andre informasjonen, var Budak og Watts i stand til å lære mye mer: de var i stand til å anslå hvilke typer folk som var mer sannsynlig å delta i Gezi-protestene og å estimere endringene i holdninger til deltakere og ikke-deltakere, både på kort sikt (sammenligner pre-Gezi til under Gezi) og på lang sikt (sammenligner pre-Gezi med post-Gezi).

Figur 2.2: Design brukt av Budak og Watts (2015) for å studere Occupy Gezi-protestene i Tyrkia sommeren 2013. Ved å bruke Twitter alltid på naturen skapte forskerne hva de kalte en postpanel som inkluderte om 30.000 mennesker over to år. I kontrast til en typisk studie som fokuserte på deltakere under protester, legger postpanelet 1) data fra deltakerne før og etter hendelsen og 2) data fra ikke-deltakere før, under og etter hendelsen. Denne berikede datastrukturen gjorde det mulig for Budak og Watts å estimere hva slags personer som var mer sannsynlig å delta i Gezi-protestene og å estimere endringene i holdninger til deltakere og ikke-deltakere, både på kort sikt (sammenligning av pre-Gezi med under Gezi ) og på lang sikt (sammenligner pre-Gezi med post-Gezi).

Figur 2.2: Design brukt av Budak and Watts (2015) å studere Occupy Gezi-protestene i Tyrkia sommeren 2013. Ved å bruke Twitter alltid på naturen skapte forskerne hva de kalte en postpanel som inkluderte om 30.000 mennesker over to år. I kontrast til en typisk studie som fokuserte på deltakere under protester, legger postpanelet 1) data fra deltakerne før og etter hendelsen og 2) data fra ikke-deltakere før, under og etter hendelsen. Denne berikede datastrukturen gjorde det mulig for Budak og Watts å estimere hva slags personer som var mer sannsynlig å delta i Gezi-protestene og å estimere endringene i holdninger til deltakere og ikke-deltakere, både på kort sikt (sammenligning av pre-Gezi med under Gezi ) og på lang sikt (sammenligner pre-Gezi med post-Gezi).

En skeptiker kan påpeke at noen av disse estimatene kunne ha blitt gjort uten at det alltid er på datasamlingskilder (f.eks. Langsiktige estimater av holdningsendring), og det er riktig, selv om en slik datainnsamling for 30 000 mennesker ville vært ganske dyrt. Selv gitt et ubegrenset budsjett, kan jeg imidlertid ikke tenke på noen annen metode som i hovedsak gjør det mulig for forskere å reise tilbake i tid og observere deltakernees adferd i fortiden. Det nærmeste alternativet ville være å samle tilbakevirkende rapporter om atferd, men disse rapportene ville være av begrenset grad og tvilsom nøyaktighet. Tabell 2.1 gir andre eksempler på studier som bruker en kontinuerlig datakilde for å studere en uventet hendelse.

Tabell 2.1: Undersøkelser av uventede hendelser ved bruk av alltid store datakilder.
Uventet hendelse Alltid-på datakilde Sitering
Oppta Gezi-bevegelse i Tyrkia Twitter Budak and Watts (2015)
Paraplyprotester i Hong Kong Weibo Zhang (2016)
Skyting av politiet i New York City Stop-and-frisk rapporter Legewie (2016)
Person ble med i ISIS Twitter Magdy, Darwish, and Weber (2016)
11. september 2001 angrep livejournal.com Cohn, Mehl, and Pennebaker (2004)
11. september 2001 angrep personsøker meldinger Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

I tillegg til å studere uventede hendelser gjør det alltid mulig for forskere å produsere sanntids estimater, noe som kan være viktig i innstillinger der beslutningstakere i offentlig eller næringsliv ønsker å svare ut fra situasjonell bevissthet. For eksempel kan sosiale medier data brukes til å veilede nødhjelp til naturkatastrofer (Castillo 2016) og en rekke forskjellige store datakilder kan brukes til å produsere sanntidsoverslag over økonomisk aktivitet (Choi and Varian 2012) .

Som konklusjon, gjør alltid-på datasystemer forskere til å studere uventede hendelser og gi sanntidsinformasjon til beslutningstakere. Jeg tror imidlertid ikke at alltid-på datasystemer er velegnet til å spore endringer over svært lange perioder. Det skyldes at mange store datasystemer stadig skifter - en prosess som jeg skal ringe drift senere i kapitlet (avsnitt 2.3.7).