2.3.1.2 Always-on

Always-on big data permette lo studio di eventi imprevisti e misura in tempo reale.

Molti sistemi di dati di grandi sono sempre attiva; sono costantemente raccogliendo dati. Questa caratteristica always-on fornisce ai ricercatori con dati longitudinali (ad esempio, i dati nel corso del tempo). Essendo sempre attivo ha due implicazioni importanti per la ricerca.

In primo luogo, always-on raccolta dei dati consente ai ricercatori di studiare eventi imprevisti in modi che non erano possibili in precedenza. Ad esempio, i ricercatori interessati allo studio della protesta Gezi in Turchia occupare nella estate del 2013 sarebbero tipicamente concentrarsi sul comportamento dei manifestanti durante la manifestazione. Ceren Budak e Duncan Watts (2015) sono stati in grado di fare di più utilizzando la natura always-on di Twitter per studiare Twitter-utilizzando i manifestanti prima, durante e dopo l'evento. E, sono stati in grado di creare un gruppo di confronto dei non partecipanti (o partecipanti che non hanno tweet circa la protesta) prima, durante e dopo l'evento (Figura 2.1). In totale loro pannello di ex-post comprendeva i tweet di 30.000 persone con più di due anni. Aumentando i dati comunemente utilizzati dalle proteste con questo altre informazioni, Budak e Watts sono stati in grado di imparare molto di più: sono stati in grado di stimare che tipo di persone erano più propensi a partecipare alle proteste Gezi e per stimare i cambiamenti negli atteggiamenti di partecipanti e non partecipanti, sia nel breve termine (il confronto pre-Gezi a durante Gezi) e nel lungo termine (il confronto pre-Gezi al post-Gezi).

Figura 2.1: Disegno usato da Budak e Watts (2015) per studiare la Proteste di occupazione Gezi in Turchia nell'estate del 2013. Utilizzando la natura always-on di Twitter, i ricercatori hanno creato quello che hanno definito un pannello di ex-post che comprendeva circa 30.000 persone con più di due anni. In contrasto studio tipico che concentra sui partecipanti durante le manifestazioni, il pannello ex-post aggiunge 1) dati da partecipanti prima e dopo l'evento e 2) dati da non partecipanti prima, durante e dopo l'evento. Questa struttura di dati arricchito abilitato Budak e Watts per la stima che tipo di persone erano più propensi a partecipare alle proteste Gezi e per stimare i cambiamenti negli atteggiamenti dei partecipanti e non partecipanti, sia nel breve termine (il confronto pre-Gezi al corso Gezi) e nel lungo termine (il confronto pre-Gezi al post-Gezi).

Figura 2.1: Disegno usato da Budak and Watts (2015) per studiare la Proteste di occupazione Gezi in Turchia nell'estate del 2013. Utilizzando la natura always-on di Twitter, i ricercatori hanno creato quello che hanno definito un pannello di ex-post che comprendeva circa 30.000 persone con più di due anni. In contrasto studio tipico che concentra sui partecipanti durante le manifestazioni, il pannello ex-post aggiunge 1) dati da partecipanti prima e dopo l'evento e 2) dati da non partecipanti prima, durante e dopo l'evento. Questa struttura di dati arricchito abilitato Budak e Watts per la stima che tipo di persone erano più propensi a partecipare alle proteste Gezi e per stimare i cambiamenti negli atteggiamenti dei partecipanti e non partecipanti, sia nel breve termine (il confronto pre-Gezi al corso Gezi) e nel lungo termine (il confronto pre-Gezi al post-Gezi).

E 'vero che alcune di queste stime avrebbe potuto essere fatto senza always-on fonti di raccolta dati (ad esempio, le stime a lungo termine del cambiamento di atteggiamento), anche se tale raccolta di dati per 30.000 persone sarebbe stato piuttosto costoso. E, anche dato un budget illimitato, non riesco a pensare a nessun altro metodo che consente in sostanza i ricercatori di viaggiare indietro nel tempo e osservare direttamente il comportamento dei partecipanti in passato. L'alternativa più vicino sarebbe quello di raccogliere segnalazioni retrospettive di comportamento, ma questi rapporti sarebbe di granularità limitata e precisione discutibile. Tabella 2.1 fornisce altri esempi di studi che utilizzano un always-on fonte di dati per studiare un evento imprevisto.

Tabella 2.1: Studi di eventi imprevisti che utilizzano sempre su grandi fonti di dati.
evento imprevisto Always-on dati di origine Citazione
Occupare movimento Gezi in Turchia Twitter Budak and Watts (2015)
proteste ombrello in Hong Kong Weibo Zhang (2016)
Sparatorie di polizia a New York Stop-and-Frisk rapporti Legewie (2016)
Persona unendo ISIS Twitter Magdy, Darwish, and Weber (2016)
11 set 2001 attacco livejournal.com Cohn, Mehl, and Pennebaker (2004)
11 set 2001 attacco messaggi cercapersone Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

In secondo luogo, sempre attiva raccolta dei dati consente ai ricercatori di produrre misurazioni in tempo reale, che può essere importante in contesti in cui i politici vogliono non solo imparare dal comportamento esistenti, ma anche di rispondere ad esso. Ad esempio, i dati di social media possono essere utilizzati per guidare le risposte alle calamità naturali (Castillo 2016) .

In conclusione, always-on Data Systems consentono ai ricercatori di studiare gli eventi imprevisti e fornire informazioni in tempo reale ai responsabili politici. Non ho, però, propongo che always-on Data Systems consentono ai ricercatori di tenere traccia delle modifiche per lunghi periodi di tempo. Questo perché molti sistemi di dati di grandi sono in continua evoluzione, un processo chiamato di deriva (sezione 2.3.2.4).