2.3.1.2 Alltid på

Alltid på big data möjliggör studier av oväntade händelser och realtidsmätning.

Många stora datasystem är alltid-på; de ständigt samla in data. Detta alltid-på karakteristiska förser forskare med longitudinella data (dvs. data över tid). Att alltid-på har två viktiga konsekvenser för forskningen.

Först, alltid-på datainsamling ger forskarna möjlighet att studera oväntade händelser på ett sätt som inte var möjligt tidigare. Till exempel skulle forskare som är intresserade av att studera Occupy Gezi protesterna i Turkiet under sommaren 2013 brukar fokusera på beteendet hos demonstranterna under evenemanget. Ceren Budak och Duncan Watts (2015) kunde göra mer genom att använda den alltid på naturen av Twitter för att studera Twitter använder demonstranter före, under och efter händelsen. Och kunde de skapa en jämförelsegrupp av icke-deltagare (eller deltagare som inte tweet om protesten) före, under och efter händelsen (Figur 2.1). Totalt deras efterhands panel ingår tweets av 30.000 personer över två år. Genom att utöka de vanligaste uppgifterna från protesterna med detta annan information, Budak och Watts kunde lära sig mycket mer: de kunde uppskatta vilken typ av människor var mer benägna att delta i Gezi protester och att uppskatta förändringar i attityder deltagare och icke-deltagare, både på kort sikt (jämför pre-Gezi till under Gezi) och på lång sikt (jämför pre-Gezi att posta-Gezi).

Figur 2.1: Design används av Budak och Watts (2015) för att studera Occupy Gezi protesterna i Turkiet under sommaren 2013. Genom att använda den alltid på naturen av Twitter, skapade forskarna vad de kallade en efterhands panel som ingår om 30.000 personer över två år. I motsats till typiska studie som fokuserade på deltagarna under protesterna, tillägger efterhands panel 1) data från deltagarna före och efter händelsen och 2) uppgifter från icke-deltagarna före, under och efter händelsen. Denna anrikade datastruktur aktiverat Budak och Watts att uppskatta vilken typ av människor var mer benägna att delta i Gezi protester och att uppskatta förändringar i attityder deltagare och icke-deltagare, både på kort sikt (jämför pre-Gezi till under Gezi) och på lång sikt (jämföra pre-Gezi att posta-Gezi).

Figur 2.1: Design används av Budak and Watts (2015) för att studera Occupy Gezi protesterna i Turkiet under sommaren 2013. Genom att använda den alltid på naturen av Twitter, skapade forskarna vad de kallade en efterhands panel som ingår om 30.000 personer över två år. I motsats till typiska studie som fokuserade på deltagarna under protesterna, tillägger efterhands panel 1) data från deltagarna före och efter händelsen och 2) uppgifter från icke-deltagarna före, under och efter händelsen. Denna anrikade datastruktur aktiverat Budak och Watts att uppskatta vilken typ av människor var mer benägna att delta i Gezi protester och att uppskatta förändringar i attityder deltagare och icke-deltagare, både på kort sikt (jämför pre-Gezi till under Gezi) och på lång sikt (jämföra pre-Gezi att posta-Gezi).

Det är sant att vissa av dessa uppskattningar skulle ha gjorts utan alltid-på datainsamlingskällor (t.ex. långsiktiga beräkningar av attitydförändring), även om datainsamlingen för 30.000 människor skulle ha varit ganska dyra. Och även med tanke på en obegränsad budget, jag kan inte tänka mig någon annan metod som i huvudsak tillåter forskare att resa tillbaka i tiden och direkt observera deltagarna beteende i det förflutna. Det närmaste alternativet skulle vara att samla retrospektiva rapporter om beteende, men dessa rapporter skulle vara begränsad kornighet och tvivelaktig noggrannhet. Tabell 2.1 ger andra exempel på studier som använder en ständig datakälla för att studera en oväntad händelse.

Tabell 2.1: Studier av oväntade händelser med ständig stora datakällor.
oväntad händelse Alltid på datakälla Citat
Ockupera Gezi rörelsen i Turkiet Twitter Budak and Watts (2015)
Paraply protester i Hong Kong Weibo Zhang (2016)
Skottlossning av polisen i New York Stop-och-Frisk rapporter Legewie (2016)
Person som ansluter sig ISIS Twitter Magdy, Darwish, and Weber (2016)
11 September, 2001 attack livejournal.com Cohn, Mehl, and Pennebaker (2004)
11 September, 2001 attack personsökare meddelanden Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

För det andra, alltid-på datainsamling ger forskarna möjlighet att producera realtidsmätningar, som kan vara viktiga i miljöer där beslutsfattare vill inte bara lära av befintlig beteende, men också svara på det. Till exempel, kan sociala medier data användas för att styra svar på naturkatastrofer (Castillo 2016) .

Sammanfattningsvis, alltid-på data system gör det möjligt för forskare att studera oväntade händelser och ger realtidsinformation till beslutsfattare. Jag har dock inte föreslår att det alltid är på data system gör det möjligt för forskare att spåra förändringar över långa tidsperioder. Det beror på att många stora datasystem förändras ständigt, en process som kallas drift (avsnitt 2.3.2.4).