2.3.2 Sempre 2.3.2

Always-on big data permette lo studio di eventi imprevisti e misura in tempo reale.

Molti sistemi di dati di grandi sono sempre attiva; sono costantemente raccogliendo dati. Questa caratteristica always-on fornisce ai ricercatori con dati longitudinali (ad esempio, i dati nel corso del tempo). Essendo sempre attivo ha due implicazioni importanti per la ricerca.

Innanzitutto, la raccolta dei dati sempre attiva consente ai ricercatori di studiare eventi imprevisti in modi che altrimenti non sarebbero possibili. Ad esempio, i ricercatori interessati a studiare le proteste di Occupy Gezi in Turchia nell'estate del 2013 si concentrano in genere sul comportamento dei manifestanti durante l'evento. Ceren Budak e Duncan Watts (2015) hanno potuto fare di più usando la natura sempre attiva di Twitter per studiare i manifestanti che hanno usato Twitter prima, durante e dopo l'evento. E, sono stati in grado di creare un gruppo di confronto di non partecipanti prima, durante e dopo l'evento (figura 2.2). In totale, il loro pannello ex post includeva i tweet di 30.000 persone in due anni. Aumentando i dati comunemente usati dalle proteste con queste altre informazioni, Budak e Watts sono stati in grado di imparare molto di più: sono stati in grado di stimare quali tipi di persone erano più propensi a partecipare alle proteste di Gezi e di stimare i cambiamenti negli atteggiamenti di partecipanti e non partecipanti, sia a breve termine (confrontando pre-Gezi a durante Gezi) sia a lungo termine (confrontando pre-Gezi con post-Gezi).

Figura 2.2: Progetto usato da Budak e Watts (2015) per studiare le proteste di Occupy Gezi in Turchia nell'estate del 2013. Utilizzando la natura always-on di Twitter, i ricercatori hanno creato quello che chiamavano un pannello ex-post che includeva 30.000 persone in due anni. In contrasto con uno studio tipico incentrato sui partecipanti durante le proteste, il pannello ex post aggiunge 1) i dati dei partecipanti prima e dopo l'evento e 2) i dati dei non partecipanti prima, durante e dopo l'evento. Questa struttura dati arricchita ha permesso a Budak e Watts di stimare quali tipi di persone erano più propensi a partecipare alle proteste di Gezi e di stimare i cambiamenti negli atteggiamenti dei partecipanti e non partecipanti, sia a breve termine (confrontando pre-Gezi con durante Gezi ) e a lungo termine (confrontando pre-Gezi con post-Gezi).

Figura 2.2: Progetto usato da Budak and Watts (2015) per studiare le proteste di Occupy Gezi in Turchia nell'estate del 2013. Utilizzando la natura always-on di Twitter, i ricercatori hanno creato quello che chiamavano un pannello ex-post che includeva 30.000 persone in due anni. In contrasto con uno studio tipico incentrato sui partecipanti durante le proteste, il pannello ex post aggiunge 1) i dati dei partecipanti prima e dopo l'evento e 2) i dati dei non partecipanti prima, durante e dopo l'evento. Questa struttura dati arricchita ha permesso a Budak e Watts di stimare quali tipi di persone erano più propensi a partecipare alle proteste di Gezi e di stimare i cambiamenti negli atteggiamenti dei partecipanti e non partecipanti, sia a breve termine (confrontando pre-Gezi con durante Gezi ) e a lungo termine (confrontando pre-Gezi con post-Gezi).

Uno scettico potrebbe far notare che alcune di queste stime potrebbero essere state fatte senza fonti di raccolta dati sempre attive (ad esempio, stime a lungo termine del cambiamento di atteggiamento), e questo è corretto, anche se una tale raccolta di dati per 30.000 persone sarebbe stata abbastanza costoso. Pur avendo un budget illimitato, tuttavia, non riesco a pensare a nessun altro metodo che consenta essenzialmente ai ricercatori di viaggiare indietro nel tempo e osservare direttamente il comportamento dei partecipanti in passato. L'alternativa più vicina sarebbe quella di raccogliere rapporti retrospettivi di comportamento, ma questi rapporti sarebbero di granularità limitata e accuratezza discutibile. la tabella 2.1 fornisce altri esempi di studi che utilizzano un'origine dati sempre attiva per studiare un evento imprevisto.

Tabella 2.1: Studi di eventi imprevisti che utilizzano fonti di dati di grandi dimensioni sempre attive.
Evento imprevisto Fonte di dati sempre attiva Citazione
Occupare il movimento Gezi in Turchia cinguettio Budak and Watts (2015)
Le proteste dell'ombrello a Hong Kong Weibo Zhang (2016)
Tiri di polizia a New York City Rapporti stop-and-frisk Legewie (2016)
Persona che si unisce all'ISIS cinguettio Magdy, Darwish, and Weber (2016)
11 settembre 2001 attacco livejournal.com Cohn, Mehl, and Pennebaker (2004)
11 settembre 2001 attacco messaggi di pager Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Oltre a studiare eventi imprevisti, i sistemi di big data sempre attivi consentono ai ricercatori di produrre stime in tempo reale, che possono essere importanti in contesti in cui i responsabili politici, nel governo o nell'industria, vogliono rispondere sulla base della consapevolezza situazionale. Ad esempio, i dati dei social media possono essere utilizzati per guidare la risposta di emergenza ai disastri naturali (Castillo 2016) e una varietà di diverse fonti di big data possono essere utilizzate per produrre stime in tempo reale dell'attività economica (Choi and Varian 2012) .

In conclusione, i sistemi di dati sempre attivi consentono ai ricercatori di studiare eventi imprevisti e fornire informazioni in tempo reale ai responsabili delle politiche. Tuttavia, non penso che i sistemi di dati sempre attivi siano adatti per tenere traccia delle modifiche su lunghi periodi di tempo. Questo perché molti grandi sistemi di dati cambiano continuamente, un processo che chiamerò deriva più avanti nel capitolo (sezione 2.3.7).