2.3.2 Sempre activado

Always-on big data permite o estudo de eventos inesperados e medición en tempo real.

Moitos sistemas de datos grandes son sempre ligado; están constantemente a recollida de datos. Isto always-on ofrece aos investigadores datos lonxitudinais (é dicir, os datos ao longo do tempo). Sendo always-on ten dúas implicacións importantes para a investigación.

En primeiro lugar, a recopilación de datos sempre permite que os investigadores estuden acontecementos inesperados de maneira que non sería posible. Por exemplo, os investigadores interesados ​​en estudar as protestas de Occupy Gezi en Turquía no verán de 2013 normalmente centraríanse no comportamento dos manifestantes durante o evento. Ceren Budak e Duncan Watts (2015) puideron facer máis usando a natureza sempre de Twitter para estudar aos manifestantes que usaron Twitter antes, durante e despois do evento. E, foron capaces de crear un grupo comparativo de non participantes antes, durante e despois do evento (figura 2.2). En total, o seu panel ex-post incluíu os tweets de 30.000 persoas ao longo de dous anos. Ao aumentar os datos máis usados ​​das protestas con esta outra información, Budak e Watts puideron aprender moito máis: foron capaces de estimar que tipos de persoas tiñan máis probabilidades de participar nas protestas de Gezi e estimar os cambios nas actitudes de participantes e non participantes, tanto a curto prazo (comparando pre-Gezi a durante Gezi) e a longo prazo (comparando pre-Gezi con post-Gezi).

Figura 2.2: Deseño utilizado por Budak e Watts (2015) para estudar as protestas de Occupy Gezi en Turquía no verán de 2013. Ao usar a natureza sempre de Twitter, os investigadores crearon o que chamaron un panel ex post que incluía sobre 30.000 persoas ao longo de dous anos. En contraste con un estudo típico que se centrou nos participantes durante as protestas, o panel ex-post engade 1) datos dos participantes antes e despois do evento e 2) datos de non participantes antes, durante e despois do evento. Esta estrutura de datos enriquecida permitiu a Budak e Watts estimar que tipos de persoas tiñan máis probabilidades de participar nas protestas Gezi e estimar os cambios nas actitudes dos participantes e non participantes, tanto a curto prazo (comparando pre-Gezi con durante Gezi ) ea longo prazo (comparando pre-Gezi co post-Gezi).

Figura 2.2: Deseño utilizado por Budak and Watts (2015) para estudar as protestas de Occupy Gezi en Turquía no verán de 2013. Ao usar a natureza sempre de Twitter, os investigadores crearon o que chamaron un panel ex post que incluía sobre 30.000 persoas ao longo de dous anos. En contraste con un estudo típico que se centrou nos participantes durante as protestas, o panel ex-post engade 1) datos dos participantes antes e despois do evento e 2) datos de non participantes antes, durante e despois do evento. Esta estrutura de datos enriquecida permitiu a Budak e Watts estimar que tipos de persoas tiñan máis probabilidades de participar nas protestas Gezi e estimar os cambios nas actitudes dos participantes e non participantes, tanto a curto prazo (comparando pre-Gezi con durante Gezi ) ea longo prazo (comparando pre-Gezi co post-Gezi).

Un escéptico pode indicar que algunhas destas estimacións poderían ter sido feitas sen sempre nas fontes de recopilación de datos (por exemplo, estimacións a longo prazo do cambio de actitude), e iso é correcto, aínda que tal recolección de datos para 30.000 persoas sería bastante caro. Incluso se lle dá un orzamento ilimitado, non se me ocorre ningún outro método que permita aos investigadores viaxar no tempo e observar directamente o comportamento dos participantes no pasado. A alternativa máis próxima sería recompilar informes retrospectivos de comportamento, pero estes informes terían unha granularidade limitada e precisión cuestionable. A táboa 2.1 proporciona outros exemplos de estudos que utilizan unha fonte de datos sempre para estudar un evento inesperado.

Táboa 2.1: Estudos de eventos inesperados usando sempre fontes de datos grandes.
Evento inesperado Sempre fonte de datos Cita
Ocupar o movemento de Gezi en Turquía Twitter Budak and Watts (2015)
Protocolo paraugas en Hong Kong Weibo Zhang (2016)
Tiros de policía en Nova York Informes de alto e pouco Legewie (2016)
Persoa que se une a ISIS Twitter Magdy, Darwish, and Weber (2016)
Ataque do 11 de setembro de 2001 livejournal.com Cohn, Mehl, and Pennebaker (2004)
Ataque do 11 de setembro de 2001 mensaxes de buscapersonas Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Ademais de estudar eventos inesperados, os sistemas de datos sempre en grande permiten aos investigadores producir estimacións en tempo real, que poden ser importantes nos ámbitos onde os responsables políticos -en goberno ou industria- queiran responder con base na conciencia situacional. Por exemplo, os datos de redes sociais poden utilizarse para orientar a resposta de emerxencia a desastres naturais (Castillo 2016) e poden utilizarse diversas fontes de datos grandes que producen estimacións en tempo real da actividade económica (Choi and Varian 2012) .

En conclusión, os sistemas de datos sempre permiten aos investigadores que estudan eventos inesperados e proporcionen información en tempo real aos responsables políticos. Non obstante, non creo que os sistemas de datos sempre son adecuados para rastrexar cambios durante longos períodos de tempo. Isto ocorre porque moitos grandes sistemas de datos están cambiando constantemente: un proceso que eu chamaré á deriva máis tarde no capítulo (sección 2.3.7).