2.3.2.6 sujo

Fontes de dados grandes podem ser carregados com lixo e spam.

Alguns pesquisadores acreditam que as fontes de dados grandes, especialmente aqueles de fontes on-line, são impecáveis, porque eles são coletados automaticamente. Na verdade, as pessoas que trabalharam com fontes de dados grandes sabem que eles são muitas vezes sujo. Ou seja, eles freqüentemente incluem dados que não reflectem ações reais de interesse para os pesquisadores. Muitos cientistas sociais já estão familiarizados com o processo de limpeza em larga escala de dados de pesquisa social, mas a limpeza fontes de dados grandes é mais difícil por duas razões: 1) eles não foram criados por pesquisadores para pesquisadores e 2) pesquisadores geralmente têm menos compreensão de como eles foram criados.

Os perigos de dados de rastreamento digitais sujos são ilustrados por Back e seus colegas ' (2010) estudo da resposta emocional aos ataques de 11 de setembro de 2001. Os pesquisadores normalmente estudar a resposta a eventos trágicos utilizando dados retrospectivos coletados ao longo de meses ou mesmo anos. Mas, Back e seus colegas descobriram uma mensagens de always-on-fonte do digital vestígios-o timestamped, gravados automaticamente a partir de 85.000 americanos pagers, e isto permitiu que os pesquisadores para estudar a resposta emocional em uma escala de tempo muito mais fina. Voltar e colegas criaram uma linha do tempo emocional minuto a minuto de 11 de setembro codificando o conteúdo emocional das mensagens de pager pela percentagem de palavras relacionadas com (1) a tristeza (por exemplo, choro, dor), (2) a ansiedade (por exemplo, preocupado, com medo), e (3) a raiva (por exemplo, o ódio, a crítica). Eles descobriram que tristeza e ansiedade flutuou durante todo o dia sem um padrão forte, mas que não havia um aumento notável na raiva ao longo do dia. Esta pesquisa parece ser uma ilustração maravilhosa do poder de sempre-em fontes de dados: usando métodos padrão que seria impossível ter um tal cronograma de alta resolução da resposta imediata a um evento inesperado.

Apenas um ano depois, no entanto, Cynthia Pury (2011) analisaram os dados de mais cuidado. Ela descobriu que um grande número de mensagens supostamente irritados foram gerados por um único pager e eles foram todos idênticos. Aqui está o que essas mensagens supostamente raivosos disse:

"Reiniciar a máquina NT [nome] no gabinete [nome] em [local]: CRÍTICA: [data e hora]"

Estas mensagens foram marcadas com raiva porque eles incluíram a palavra "crítica", o que pode geralmente indicam raiva, mas não neste caso. Removendo as mensagens geradas por esta única pager automatizado elimina completamente o aumento aparente da raiva ao longo do dia (Figura 2.2). Em outras palavras, o principal resultado em Back, Küfner, and Egloff (2010) era um artefato de um pager. Como este exemplo ilustra, a análise relativamente simples dos dados relativamente complexas e confusas tem o potencial para ir muito errado.

Figura 2.2: Tendências estimado em raiva ao longo de 11 de setembro de 2001 com base em 85.000 pagers Americanos (Voltar, Küfner, e Egloff 2010; Pury 2011; Back, Küfner, e Egloff 2011). Originalmente, Back, Küfner, e Egloff (2010) relataram um padrão de aumentar a raiva durante todo o dia. No entanto, a maioria destas mensagens iradas aparentes foram gerados por um único pager que repetidamente enviou a seguinte mensagem: Reinicie NT máquina [nome] no gabinete [nome] em [local]: CRÍTICA: [data e hora]. Com esta mensagem removido, o aparente aumento na raiva desaparece (Pury 2011; Back, Küfner, e Egloff 2011). Esta figura é uma reprodução da figura 1B na Pury (2011).

Figura 2.2: Tendências estimado em raiva ao longo de 11 de setembro de 2001 com base em 85.000 pagers americanos (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Originalmente, Back, Küfner, and Egloff (2010) relataram um padrão de aumentar a raiva durante todo o dia. No entanto, a maioria destas mensagens iradas aparentes foram gerados por um único pager que repetidamente enviou a seguinte mensagem: "Reiniciar a máquina NT [nome] no gabinete [nome] em [local]: CRÍTICA: [data e hora]". Com esta mensagem removido, o aparente aumento na raiva desaparece (Pury 2011; Back, Küfner, and Egloff 2011) . Esta figura é uma reprodução da figura 1B na Pury (2011) .

Embora os dados sujos que são criados de forma não intencional, tal como a partir de um pager barulhento-pode ser detectado por um investigador algum cuidado, há também alguns sistemas on-line que atraem spammer intencionais. Estes spammers geram dados ativamente falsos, e, muitas vezes motivados pelo lucro-trabalho muito duro para manter sua spam oculto. Por exemplo, a atividade política no Twitter parece incluir, pelo menos, alguns spams razoavelmente sofisticado, pelo qual algumas causas políticas são intencionalmente feitas para parecer mais populares do que real são (Ratkiewicz et al. 2011) . Os investigadores que trabalham com dados que possam conter o spam intencional enfrentam o desafio de convencer o público de que eles tenham detectado e removido Spam relevante.

Finalmente, o que é considerado de dados sujos pode depender de forma sutil em suas questões de pesquisa. Por exemplo, muitas edições a Wikipedia são criados por bots automatizados (Geiger 2014) . Se você está interessado na ecologia da Wikipedia, em seguida, esses bots são importantes. Mas, se você estiver interessado em como os seres humanos contribuem para a Wikipedia, estas edições feitas por esses bots devem ser excluídos.

As melhores maneiras de evitar ser enganado por dados sujos são para entender como seus dados foram criados para executar análise exploratória simples, como fazer gráficos de dispersão simples.