2.3.2 Alltid på

Altid-på store data muliggør studiet af uventede begivenheder og real-time måling.

Mange store datasystemer er altid-on; de konstant at indsamle data. Dette altid-på karakteristik giver forskere med langsgående data (dvs. data over tid). Bliver altid-on har to vigtige konsekvenser for forskning.

For det første gør det muligt for forskere at studere uventede begivenheder på måder, der ellers ikke ville være mulige. For eksempel vil forskere, der er interesseret i at studere Occupy Gezi protesterne i Tyrkiet sommeren 2013, typisk fokusere på demonstranters adfærd under arrangementet. Ceren Budak og Duncan Watts (2015) var i stand til at gøre mere ved at bruge Twitter's altid karakter til at studere demonstranter, der brugte Twitter før, under og efter arrangementet. Og de kunne skabe en sammenligningsgruppe af ikke-deltagere før, under og efter arrangementet (figur 2.2). I alt indgik deres ex- postpanel tweets på 30.000 mennesker over to år. Ved at øge de almindeligt anvendte data fra protesterne med disse andre oplysninger, var Budak og Watts i stand til at lære meget mere: de var i stand til at estimere, hvilke former for personer der var mere tilbøjelige til at deltage i Gezi-protesterne og at estimere ændringer i holdninger til deltagere og ikke-deltagere, både på kort sigt (sammenligning af pre-Gezi til under Gezi) og på lang sigt (sammenligning af pre-Gezi med post-Gezi).

Figur 2.2: Design brugt af Budak og Watts (2015) til at studere Occupy Gezi protester i Tyrkiet i sommeren 2013. Ved at bruge Twitter's altid-natur skabte forskerne, hvad de kaldte et efterfølgende panel, der omfattede om 30.000 mennesker over to år. I modsætning til en typisk undersøgelse, der fokuserede på deltagere under protesterne, tilføjer ex postpanelet 1) data fra deltagere før og efter arrangementet og 2) data fra ikke-deltagere før, under og efter arrangementet. Denne berigede datastruktur gjorde det muligt for Budak og Watts at vurdere, hvilke former for personer der var mere tilbøjelige til at deltage i Gezi-protesterne og at estimere ændringer i holdninger hos deltagere og ikke-deltagere, både på kort sigt (sammenligning af pre-Gezi med under Gezi ) og på lang sigt (sammenligning af pre-Gezi med post-Gezi).

Figur 2.2: Design brugt af Budak and Watts (2015) til at studere Occupy Gezi protester i Tyrkiet i sommeren 2013. Ved at bruge Twitter's altid-natur skabte forskerne, hvad de kaldte et efterfølgende panel, der omfattede om 30.000 mennesker over to år. I modsætning til en typisk undersøgelse, der fokuserede på deltagere under protesterne, tilføjer ex postpanelet 1) data fra deltagere før og efter arrangementet og 2) data fra ikke-deltagere før, under og efter arrangementet. Denne berigede datastruktur gjorde det muligt for Budak og Watts at vurdere, hvilke former for personer der var mere tilbøjelige til at deltage i Gezi-protesterne og at estimere ændringer i holdninger hos deltagere og ikke-deltagere, både på kort sigt (sammenligning af pre-Gezi med under Gezi ) og på lang sigt (sammenligning af pre-Gezi med post-Gezi).

En skeptiker kan påpege, at nogle af disse estimater kunne have været lavet uden altid indsamlede dataindsamlingskilder (fx langsigtede estimater af holdningsændring), og det er korrekt, selv om en sådan dataindsamling for 30.000 mennesker ville have været ret dyrt. Selv hvis jeg får et ubegrænset budget, kan jeg dog ikke tænke på nogen anden metode, der i det væsentlige tillader forskere at rejse tilbage i tiden og direkte observere deltagernes adfærd i fortiden. Det nærmeste alternativ ville være at samle tilbagevirkende rapporter om adfærd, men disse rapporter ville have begrænset granularitet og tvivlsom nøjagtighed. tabel 2.1 giver andre eksempler på undersøgelser, der bruger en permanent datakilde til at studere en uventet begivenhed.

Tabel 2.1: Undersøgelser af uventede begivenheder ved hjælp af altid store store datakilder.
Uventet begivenhed Alltid-på datakilde Citation
Optag Gezi bevægelse i Tyrkiet Twitter Budak and Watts (2015)
Paraply protester i Hong Kong Weibo Zhang (2016)
Skydninger af politiet i New York City Stop-and-frisk rapporter Legewie (2016)
Person tilsluttes ISIS Twitter Magdy, Darwish, and Weber (2016)
11. september 2001 angreb livejournal.com Cohn, Mehl, and Pennebaker (2004)
11. september 2001 angreb personsøgerbeskeder Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Ud over at studere uventede begivenheder gør det også muligt for forskere at producere estimater i realtid, hvilket kan være vigtigt i indstillinger, hvor politiske beslutningstagere - i regeringen eller industrien - vil reagere på baggrund af situationsbevidsthed. For eksempel kan sociale medier data bruges til at vejlede beredskab til naturkatastrofer (Castillo 2016) og en række forskellige store datakilder kan bruges til at producere real-time estimater af økonomisk aktivitet (Choi and Varian 2012) .

Afslutningsvis gør det altid muligt for forskere at studere uventede begivenheder og give realtidsinformation til beslutningstagere. Jeg tror imidlertid ikke, at altid-on-datasystemer er velegnede til at spore ændringer i meget lange perioder. Det skyldes, at mange store datasystemer konstant ændrer sig - en proces, som jeg kalder drift senere i kapitlet (afsnit 2.3.7).