2.3.2 Siempre encendido

Siempre-en grandes volúmenes de datos permite el estudio de los acontecimientos inesperados y medición en tiempo real.

Muchos sistemas de datos grandes son siempre activa; están recopilando datos constantemente. Esta característica siempre activa proporciona a los investigadores datos longitudinales (es decir, los datos en el tiempo). Estar siempre activo tiene dos implicaciones importantes para la investigación.

En primer lugar, la recopilación de datos permanente permite a los investigadores estudiar eventos inesperados de maneras que de otro modo no serían posibles. Por ejemplo, los investigadores interesados ​​en estudiar las protestas de Occupy Gezi en Turquía en el verano de 2013 se centrarían típicamente en el comportamiento de los manifestantes durante el evento. Ceren Budak y Duncan Watts (2015) pudieron hacer más mediante el uso de la naturaleza siempre activa de Twitter para estudiar a los manifestantes que utilizaron Twitter antes, durante y después del evento. Y, pudieron crear un grupo de comparación de no participantes antes, durante y después del evento (figura 2.2). En total, su panel ex post incluyó los tweets de 30,000 personas durante dos años. Al aumentar los datos comúnmente utilizados de las protestas con esta otra información, Budak y Watts pudieron aprender mucho más: pudieron estimar qué tipo de personas eran más propensas a participar en las protestas Gezi y estimar los cambios en las actitudes de los manifestantes. participantes y no participantes, tanto en el corto plazo (comparando pre-Gezi como durante Gezi) y en el largo plazo (comparando pre-Gezi con post-Gezi).

Figura 2.2: Diseño utilizado por Budak y Watts (2015) para estudiar las protestas de Occupy Gezi en Turquía en el verano de 2013. Al usar la naturaleza siempre activa de Twitter, los investigadores crearon lo que llamaron un panel ex post que incluía 30,000 personas durante dos años. En contraste con un estudio típico que se centró en los participantes durante las protestas, el panel ex post agrega 1) datos de los participantes antes y después del evento y 2) datos de los no participantes antes, durante y después del evento. Esta estructura enriquecida de datos permitió a Budak y Watts estimar qué tipos de personas eran más propensos a participar en las protestas Gezi y estimar los cambios en las actitudes de los participantes y los no participantes, tanto en el corto plazo (comparando el pre-Gezi con durante Gezi ) y en el largo plazo (comparando pre-Gezi con post-Gezi).

Figura 2.2: Diseño utilizado por Budak and Watts (2015) para estudiar las protestas de Occupy Gezi en Turquía en el verano de 2013. Al usar la naturaleza siempre activa de Twitter, los investigadores crearon lo que llamaron un panel ex post que incluía 30,000 personas durante dos años. En contraste con un estudio típico que se centró en los participantes durante las protestas, el panel ex post agrega 1) datos de los participantes antes y después del evento y 2) datos de los no participantes antes, durante y después del evento. Esta estructura enriquecida de datos permitió a Budak y Watts estimar qué tipos de personas eran más propensos a participar en las protestas Gezi y estimar los cambios en las actitudes de los participantes y los no participantes, tanto en el corto plazo (comparando el pre-Gezi con durante Gezi ) y en el largo plazo (comparando pre-Gezi con post-Gezi).

Un escéptico podría señalar que algunas de estas estimaciones podrían haberse realizado sin fuentes de recopilación de datos siempre activas (por ejemplo, estimaciones a largo plazo del cambio de actitud), y eso es correcto, aunque dicha recopilación de datos para 30,000 personas habría sido bastante costoso. Sin embargo, incluso con un presupuesto ilimitado, no puedo pensar en ningún otro método que permita esencialmente a los investigadores retroceder en el tiempo y observar directamente el comportamiento de los participantes en el pasado. La alternativa más cercana sería recopilar informes retrospectivos de comportamiento, pero estos informes serían de granularidad limitada y precisión cuestionable. La tabla 2.1 proporciona otros ejemplos de estudios que usan una fuente de datos siempre activa para estudiar un evento inesperado.

Tabla 2.1: Estudios de eventos inesperados utilizando siempre fuentes de big data.
Evento inesperado Fuente de datos siempre activa Citación
Ocupar el movimiento Gezi en Turquía Gorjeo Budak and Watts (2015)
Protestas paraguas en Hong Kong Weibo Zhang (2016)
Tiroteos de la policía en la ciudad de Nueva York Informes de detención y registro Legewie (2016)
Persona que se une al ISIS Gorjeo Magdy, Darwish, and Weber (2016)
Ataque del 11 de septiembre de 2001 livejournal.com Cohn, Mehl, and Pennebaker (2004)
Ataque del 11 de septiembre de 2001 mensajes de buscapersonas Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Además de estudiar eventos inesperados, los sistemas de big data siempre activos también permiten a los investigadores producir estimaciones en tiempo real, que pueden ser importantes en entornos donde los responsables de las políticas, en el gobierno o en la industria, desean responder en función de la conciencia situacional. Por ejemplo, los datos de las redes sociales pueden usarse para guiar la respuesta de emergencia ante desastres naturales (Castillo 2016) y una variedad de diferentes fuentes de datos grandes pueden usarse para producir estimaciones en tiempo real de la actividad económica (Choi and Varian 2012) .

En conclusión, los sistemas de datos permanentes permiten a los investigadores estudiar eventos inesperados y proporcionar información en tiempo real a los responsables de la formulación de políticas. Sin embargo, no creo que los sistemas de datos permanentes estén bien adaptados para rastrear cambios durante períodos de tiempo muy largos. Esto se debe a que muchos sistemas de big data cambian constantemente, un proceso que denominaré deriva más adelante en el capítulo (sección 2.3.7).