2.3.2 Siempre activat

Sempre-en grans volums de dades permet l'estudi dels esdeveniments inesperats i mesurament en temps real.

Molts sistemes de dades grans són sempre activa; estan recopilant dades constantment. Aquesta característica sempre activa proporciona als investigadors dades longitudinals (és a dir, les dades en el temps). Estar sempre actiu té dues implicacions importants per a la investigació.

En primer lloc, la recopilació de dades sempre permet als investigadors estudiar esdeveniments inesperats d'una manera que d'altra manera no seria possible. Per exemple, els investigadors interessats en estudiar les protestes de Occupy Gezi a Turquia a l'estiu de 2013 normalment se centraran en el comportament dels manifestants durant l'esdeveniment. Ceren Budak i Duncan Watts (2015) van poder fer més utilitzant la naturalesa constant de Twitter per estudiar els manifestants que van usar Twitter abans, durant i després de l'esdeveniment. I, van poder crear un grup de comparació dels no participants abans, durant i després de l'esdeveniment (figura 2.2). En total, el seu panell ex-post incloïa els tweets de 30.000 persones durant dos anys. En augmentar les dades d'ús general de les protestes amb aquesta altra informació, Budak i Watts van poder aprendre molt més: van ser capaços d'estimar quina classe de persones tenien més probabilitats de participar en les protestes de Gezi i estimar els canvis en les actituds de participants i no participants, tant a curt termini (comparant pre-Gezi a durant Gezi) i a llarg termini (comparant pre-Gezi amb post-Gezi).

Figura 2.2: Disseny utilitzat per Budak i Watts (2015) per estudiar les protestes de Occupy Gezi a Turquia durant l'estiu de 2013. Amb l'ús constant de Twitter, els investigadors van crear el que anomenaven un panell ex-post que incloïa sobre 30.000 persones majors de dos anys. A diferència d'un estudi típic que es va centrar en els participants durant les protestes, el panell ex-post afegeix 1) dades dels participants abans i després de l'esdeveniment i 2) dades de participants no abans, durant i després de l'esdeveniment. Aquesta estructura de dades enriquida permet a Budak i Watts estimar quins tipus de persones tenien més probabilitats de participar en les protestes de Gezi i estimar els canvis en les actituds dels participants i no participants, tant a curt termini (comparar Gezi amb pre-Gezi ) ia llarg termini (comparant pre-Gezi amb post-Gezi).

Figura 2.2: Disseny utilitzat per Budak and Watts (2015) per estudiar les protestes de Occupy Gezi a Turquia durant l'estiu de 2013. Amb l'ús constant de Twitter, els investigadors van crear el que anomenaven un panell ex-post que incloïa sobre 30.000 persones majors de dos anys. A diferència d'un estudi típic que es va centrar en els participants durant les protestes, el panell ex-post afegeix 1) dades dels participants abans i després de l'esdeveniment i 2) dades de participants no abans, durant i després de l'esdeveniment. Aquesta estructura de dades enriquida permet a Budak i Watts estimar quins tipus de persones tenien més probabilitats de participar en les protestes de Gezi i estimar els canvis en les actituds dels participants i no participants, tant a curt termini (comparar Gezi amb pre-Gezi ) ia llarg termini (comparant pre-Gezi amb post-Gezi).

Un escèptic podria indicar que algunes d'aquestes estimacions es podrien haver fet sense tenir sempre en compte les fonts de recopilació de dades (per exemple, estimacions a llarg termini del canvi d'actitud), i això és correcte, encara que aquesta recopilació de dades per a 30.000 persones hauria estat força car Fins i tot tenint en compte un pressupost il·limitat, no puc pensar en cap altre mètode que permeti als investigadors viatjar al temps i observar directament el comportament dels participants en el passat. L'alternativa més propera seria recollir informes retrospectius de comportament, però aquests informes tindrien una granularitat limitada i una exactitud qüestionable. La taula 2.1 proporciona altres exemples d'estudis que utilitzen un origen de dades sempre per a l'estudi d'un esdeveniment inesperat.

Taula 2.1: Estudis d'esdeveniments inesperats utilitzant sempre fonts de dades grans.
Esdeveniment inesperat Font de dades sempre activa Cita
Ocupar el moviment Gezi a Turquia Twitter Budak and Watts (2015)
Protestes de paraigües a Hong Kong Weibo Zhang (2016)
Dispersions de policia a la ciutat de Nova York Informes de stop-and-fresh Legewie (2016)
Persona que s'uneix a ISIS Twitter Magdy, Darwish, and Weber (2016)
Atac del 11 de setembre del 2001 livejournal.com Cohn, Mehl, and Pennebaker (2004)
Atac del 11 de setembre del 2001 missatges de paginador Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

A més d'estudiar esdeveniments inesperats, els sistemes de dades sempre més grans també permeten als investigadors produir estimacions en temps real, que poden ser importants en entorns on els responsables polítics -del govern o la indústria- volen respondre en funció de la consciència situacional. Per exemple, les dades de les xarxes socials es poden utilitzar per guiar la resposta d'emergència als desastres naturals (Castillo 2016) i es poden utilitzar diverses fonts de dades grans que produeixen estimacions en temps real de l'activitat econòmica (Choi and Varian 2012) .

En conclusió, els sistemes de dades sempre permeten als investigadors estudiar esdeveniments inesperats i proporcionar informació en temps real als responsables polítics. Tanmateix, no crec que els sistemes de dades siempre siguin adequats per fer el seguiment dels canvis durant llargs períodes de temps. Això es deu a que molts sistemes de dades grans canvien constantment, un procés que anomenaré deriva més tard al capítol (secció 2.3.7).