2.3.2 Sempre ligado

Always-on big data permite o estudo de eventos inesperados e medição em tempo real.

Muitos sistemas de dados grandes são sempre ligado; eles estão constantemente a coleta de dados. Esta característica always-on fornece aos pesquisadores dados longitudinais (ou seja, os dados ao longo do tempo). Sendo always-on tem duas implicações importantes para a investigação.

Primeiro, a coleta de dados sempre ativa permite que os pesquisadores estudem eventos inesperados de maneiras que de outra forma não seriam possíveis. Por exemplo, os pesquisadores interessados ​​em estudar os protestos do Occupy Gezi na Turquia no verão de 2013 geralmente se concentram no comportamento dos manifestantes durante o evento. Ceren Budak e Duncan Watts (2015) conseguiram fazer mais usando a natureza sempre ativa do Twitter para estudar os manifestantes que usaram o Twitter antes, durante e depois do evento. E eles foram capazes de criar um grupo de comparação de não participantes antes, durante e depois do evento (figura 2.2). No total, seu painel ex-post incluiu os tweets de 30.000 pessoas em dois anos. Aumentando os dados comumente usados ​​dos protestos com esta outra informação, Budak e Watts puderam aprender muito mais: eles foram capazes de estimar que tipos de pessoas eram mais propensos a participar dos protestos de Gezi e estimar as mudanças nas atitudes de participantes e não participantes, tanto a curto prazo (comparando o pré-Gezi ao Gezi) quanto a longo prazo (comparando o pré-Gezi com o pós-Gezi).

Figura 2.2: Design usado por Budak e Watts (2015) para estudar os protestos do Occupy Gezi na Turquia no verão de 2013. Usando a natureza sempre ativa do Twitter, os pesquisadores criaram o que chamaram de painel ex-post que incluiu cerca de 30.000 pessoas durante dois anos. Em contraste com um estudo típico que focalizou os participantes durante os protestos, o painel ex-post acrescenta 1) dados dos participantes antes e depois do evento e 2) dados dos não participantes antes, durante e depois do evento. Esta estrutura de dados enriquecida permitiu que Budak e Watts estimassem que tipos de pessoas eram mais propensos a participar dos protestos de Gezi e estimar as mudanças nas atitudes de participantes e não participantes, tanto a curto prazo (comparando pré-Gezi com durante Gezi ) e a longo prazo (comparando o pré-Gezi com o pós-Gezi).

Figura 2.2: Design usado por Budak and Watts (2015) para estudar os protestos do Occupy Gezi na Turquia no verão de 2013. Usando a natureza sempre ativa do Twitter, os pesquisadores criaram o que chamaram de painel ex-post que incluiu cerca de 30.000 pessoas durante dois anos. Em contraste com um estudo típico que focalizou os participantes durante os protestos, o painel ex-post acrescenta 1) dados dos participantes antes e depois do evento e 2) dados dos não participantes antes, durante e depois do evento. Esta estrutura de dados enriquecida permitiu que Budak e Watts estimassem que tipos de pessoas eram mais propensos a participar dos protestos de Gezi e estimar as mudanças nas atitudes de participantes e não participantes, tanto a curto prazo (comparando pré-Gezi com durante Gezi ) e a longo prazo (comparando o pré-Gezi com o pós-Gezi).

Um cético pode apontar que algumas dessas estimativas poderiam ter sido feitas sem fontes de coleta de dados sempre ativas (por exemplo, estimativas de longo prazo de mudança de atitude), e isso é correto, embora tal coleta de dados para 30.000 pessoas teria sido bastante caro. Mesmo com um orçamento ilimitado, não consigo pensar em nenhum outro método que permita essencialmente aos pesquisadores viajar no tempo e observar diretamente o comportamento dos participantes no passado. A alternativa mais próxima seria coletar relatórios retrospectivos de comportamento, mas esses relatórios seriam de granularidade limitada e precisão questionável. A tabela 2.1 fornece outros exemplos de estudos que usam uma fonte de dados sempre ativa para estudar um evento inesperado.

Tabela 2.1: Estudos de eventos inesperados usando fontes de dados grandes sempre ativas.
Evento inesperado Fonte de dados sempre ativa Citação
Ocupe o movimento Gezi na Turquia Twitter Budak and Watts (2015)
Protestos de guarda-chuva em Hong Kong Weibo Zhang (2016)
Tiroteios de polícia em Nova York Relatórios de parada e reinicialização Legewie (2016)
Pessoa que se junta ao ISIS Twitter Magdy, Darwish, and Weber (2016)
Ataque de 11 de setembro de 2001 livejournal.com Cohn, Mehl, and Pennebaker (2004)
Ataque de 11 de setembro de 2001 mensagens de pager Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Além de estudar eventos inesperados, os sistemas de big data sempre ativados também permitem que os pesquisadores produzam estimativas em tempo real, o que pode ser importante em ambientes onde os formuladores de políticas - no governo ou na indústria - querem responder com base no conhecimento da situação. Por exemplo, dados de mídia social podem ser usados ​​para orientar a resposta de emergência a desastres naturais (Castillo 2016) e uma variedade de diferentes fontes de big data pode ser usada para produzir estimativas em tempo real da atividade econômica (Choi and Varian 2012) .

Em conclusão, os sistemas de dados sempre ativos permitem que os pesquisadores estudem eventos inesperados e forneçam informações em tempo real aos responsáveis ​​pelas políticas. No entanto, não acredito que os sistemas de dados sempre ativos sejam adequados para rastrear alterações por períodos de tempo muito longos. Isso ocorre porque muitos sistemas de big data estão constantemente mudando - um processo que chamarei de derivação no final do capítulo (seção 2.3.7).