2.3.1.2 Sempre-on

Always-on big data permite o estudo de eventos inesperados e medição em tempo real.

Muitos sistemas de dados grandes são sempre ligado; eles estão constantemente a coleta de dados. Esta característica always-on fornece aos pesquisadores dados longitudinais (ou seja, os dados ao longo do tempo). Sendo always-on tem duas implicações importantes para a investigação.

Em primeiro lugar, sempre-em coleta de dados permite aos pesquisadores estudar eventos inesperados de maneiras que não eram possíveis anteriormente. Por exemplo, os pesquisadores interessados ​​em estudar o Ocupe protestos Gezi na Turquia no verão de 2013 será geralmente se concentram no comportamento dos manifestantes durante o evento. Ceren Budak e Duncan Watts (2015) foram capazes de fazer mais, usando a natureza always-on de Twitter para estudar Twitter-usando manifestantes antes, durante e depois do evento. E, eles foram capazes de criar um grupo de comparação de não participantes (ou participantes que não tweet sobre o protesto) antes, durante e depois do evento (Figura 2.1). No total, seu painel de ex-post incluídos os tweets de 30.000 pessoas com mais de dois anos. Aumentando os dados comumente usados ​​os protestos com este outras informações, Budak e Watts foram capazes de aprender muito mais: eles foram capazes de estimar que tipo de pessoas eram mais propensos a participar nos protestos Gezi e estimar as mudanças nas atitudes de participantes e não participantes, tanto no curto prazo (comparando pré-Gezi para durante Gezi) e, a longo prazo (comparando pré-Gezi a pós-Gezi).

Figura 2.1: Projeto usado por Budak e Watts (2015) para estudar o Ocupe protestos Gezi na Turquia no verão de 2013. Ao usar a natureza always-on do Twitter, os pesquisadores criaram o que chamaram de um painel de ex-post, que incluiu cerca de 30.000 pessoas com mais de dois anos. Em contraste, o estudo típico que incidiu sobre os participantes durante os protestos, o painel de ex-post adiciona 1) Os dados dos participantes 2) dados de não-participantes antes, durante, antes e depois do evento e, e após o evento. Esta estrutura de dados enriquecido habilitado Budak e Watts para estimar que tipo de pessoas eram mais propensos a participar nos protestos Gezi e estimar as mudanças nas atitudes dos participantes e não participantes, tanto no curto prazo (comparando pré-Gezi para durante Gezi) e, a longo prazo (comparando pré-Gezi a pós-Gezi).

Figura 2.1: Projeto usado por Budak and Watts (2015) para estudar o Ocupe protestos Gezi na Turquia no verão de 2013. Ao usar a natureza always-on do Twitter, os pesquisadores criaram o que chamaram de um painel de ex-post, que incluiu cerca de 30.000 pessoas com mais de dois anos. Em contraste, o estudo típico que incidiu sobre os participantes durante os protestos, o painel de ex-post adiciona 1) Os dados dos participantes 2) dados de não-participantes antes, durante, antes e depois do evento e, e após o evento. Esta estrutura de dados enriquecido habilitado Budak e Watts para estimar que tipo de pessoas eram mais propensos a participar nos protestos Gezi e estimar as mudanças nas atitudes dos participantes e não participantes, tanto no curto prazo (comparando pré-Gezi para durante Gezi) e, a longo prazo (comparando pré-Gezi a pós-Gezi).

É verdade que algumas dessas estimativas poderia ter sido feito sem always-on fontes de coleta de dados (por exemplo, as estimativas de longo prazo da mudança de atitude), embora essa recolha de dados para 30.000 pessoas teriam sido muito caro. E, mesmo com um orçamento ilimitado, eu não posso pensar em qualquer outro método que essencialmente permite que os pesquisadores para viajar de volta no tempo e observar diretamente o comportamento participantes no passado. A alternativa mais próxima seria a recolher relatórios retrospectivos de comportamento, mas esses relatórios seriam de granularidade limitada e precisão questionável. Tabela 2.1 fornece outros exemplos de estudos que usam um sempre-em fonte de dados para estudar um evento inesperado.

Tabela 2.1: Estudos de eventos inesperados usando sempre-em fontes de dados grandes.
acontecimento inesperado Always-on de dados de origem Citação
Ocupe o movimento Gezi na Turquia Twitter Budak and Watts (2015)
protestos guarda-chuva em Hong Kong Weibo Zhang (2016)
Tiroteios de polícia em Nova York Stop-and-Frisk relatórios Legewie (2016)
Uma pessoa que une ISIS Twitter Magdy, Darwish, and Weber (2016)
11 de setembro de 2001 de ataque livejournal.com Cohn, Mehl, and Pennebaker (2004)
11 de setembro de 2001 de ataque mensagens de pager Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Em segundo lugar, always-on coleta de dados permite aos pesquisadores para produzir medições em tempo real, que pode ser importante em locais onde os decisores políticos querem não apenas aprender com o comportamento existente, mas também responder a ela. Por exemplo, dados de mídia social pode ser usado para orientar respostas a desastres naturais (Castillo 2016) .

Em conclusão, always-on Data Systems permitir aos investigadores estudar eventos inesperados e fornecer informações em tempo real para os decisores políticos. Eu não, no entanto, propõem que que always-on Data Systems permitir aos investigadores para acompanhar as mudanças durante longos períodos de tempo. Isso é porque muitos sistemas de dados grandes estão constantemente a mudar-um processo chamado deriva (Seção 2.3.2.4).