2.3.2 Alltid på

Alltid på big data möjliggör studier av oväntade händelser och realtidsmätning.

Många stora datasystem är alltid-på; de ständigt samla in data. Detta alltid-på karakteristiska förser forskare med longitudinella data (dvs. data över tid). Att alltid-på har två viktiga konsekvenser för forskningen.

För det första gör det alltid möjligt för forskare att studera oväntade händelser på sätt som annars inte skulle vara möjliga. Forskare som är intresserade av att studera Occupy Gezi-protesterna i Turkiet sommaren 2013 skulle till exempel fokusera på beteendeens beteende under evenemanget. Ceren Budak och Duncan Watts (2015) kunde göra mer genom att alltid använda Twitter för att studera demonstranter som använde Twitter före, under och efter evenemanget. Och de kunde skapa en jämförelsegrupp av icke-deltagare före, under och efter händelsen (figur 2.2). Totalt omfattade deras ex-postpanel tweetsna på 30 000 personer över två år. Genom att förstärka de allmänt använda data från protesterna med denna övrig information kunde Budak och Watts lära sig mycket mer: de kunde beräkna vilka typer av människor som var mer benägna att delta i Gezi-protesterna och att uppskatta förändringar i attityder deltagare och icke-deltagare, både på kort sikt (jämföra pre-Gezi till under Gezi) och på sikt (jämföra pre-Gezi med post-Gezi).

Figur 2.2: Design som används av Budak och Watts (2015) för att studera Occupy Gezi-protesterna i Turkiet sommaren 2013. Genom att använda Twitter-tidens natur skapade forskarna vad de kallade en efterföljande panel som inkluderade om 30 000 personer över två år. I motsats till en typisk studie som fokuserade på deltagare under protesterna lägger efterpanelen 1) data från deltagare före och efter händelsen och 2) data från icke-deltagare före, under och efter händelsen. Denna berikade datastruktur möjliggjorde Budak och Watts för att uppskatta vilka typer av personer som var mer benägna att delta i Gezi-protesterna och att uppskatta förändringar i attityder hos deltagare och icke-deltagare, både på kort sikt (jämför Pre Gezi med under Gezi ) och på lång sikt (jämför pre-Gezi med post-Gezi).

Figur 2.2: Design som används av Budak and Watts (2015) att studera Occupy Gezi-protesterna i Turkiet sommaren 2013. Genom att använda Twitter-tidens natur skapade forskarna vad de kallade en efterföljande panel som inkluderade om 30 000 personer över två år. I motsats till en typisk studie som fokuserade på deltagare under protesterna lägger efterpanelen 1) data från deltagare före och efter händelsen och 2) data från icke-deltagare före, under och efter händelsen. Denna berikade datastruktur möjliggjorde Budak och Watts för att uppskatta vilka typer av personer som var mer benägna att delta i Gezi-protesterna och att uppskatta förändringar i attityder hos deltagare och icke-deltagare, både på kort sikt (jämför Pre Gezi med under Gezi ) och på lång sikt (jämför pre-Gezi med post-Gezi).

En skeptiker kan påpeka att några av dessa uppskattningar kunde ha gjorts utan att alltid ha på datainsamlingskällor (t.ex. långsiktiga uppskattningar av attitydförändring), och det är korrekt, även om en sådan datainsamling för 30 000 personer skulle ha varit ganska dyr. Även om man får en obegränsad budget, kan jag inte tänka på någon annan metod som i huvudsak gör det möjligt för forskare att resa tillbaka i tid och direkt observera deltagarnas beteende tidigare. Det närmaste alternativet skulle vara att samla retroaktiva rapporter om beteende, men dessa rapporter skulle vara av begränsad grad och tveksamt noggrannhet. tabell 2.1 ger andra exempel på studier som använder en kontinuerlig datakälla för att studera en oväntad händelse.

Tabell 2.1: Studier av oväntade händelser med hjälp av alltid stora stora datakällor.
Oväntad händelse Alltid på datakälla Citat
Uppta Gezi-rörelsen i Turkiet Twitter Budak and Watts (2015)
Paraply protester i Hong Kong Weibo Zhang (2016)
Skott av polis i New York City Stop-and-frisk rapporter Legewie (2016)
Person som går med i ISIS Twitter Magdy, Darwish, and Weber (2016)
11 september 2001 attack livejournal.com Cohn, Mehl, and Pennebaker (2004)
11 september 2001 attack personsökarmeddelanden Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Förutom att studera oväntade händelser gör det också möjligt för forskare att producera realtidsuppskattningar, vilket kan vara viktigt i inställningar där politiska beslutsfattare - i regering eller näringsliv - vill svara på grundval av situationsmedvetenhet. Exempelvis kan sociala medier data användas för att vägleda akutmottagning mot naturkatastrofer (Castillo 2016) och en mängd olika stora datakällor kan användas för att skapa realtidskalkyler av ekonomisk aktivitet (Choi and Varian 2012) .

Sammanfattningsvis möjliggör kontinuerliga datasystem forskare att studera oväntade händelser och ge realtidsinformation till beslutsfattare. Jag tror emellertid inte att datasystem alltid är lämpade för att spåra förändringar under mycket långa perioder. Det beror på att många stora datasystem ständigt förändras - en process som jag kommer att kalla drift senare i kapitlet (avsnitt 2.3.7).