2.3.2.1 incompleto

Não importa como "grandes" os seus "grandes dados" ele provavelmente não tem as informações que deseja.

A maioria das fontes de dados grandes são incompletas, no sentido de que eles não têm a informação que você quer para sua pesquisa. Esta é uma característica comum de dados que foram criados para outros fins de investigação. Muitos cientistas sociais já tiveram a experiência de lidar com a incompletude, como uma pesquisa existente que não fazer a pergunta que você queria. Infelizmente, os problemas de imperfeição tendem a ser mais extrema em dados grandes. Na minha experiência, big data tende a faltar três tipos de informações úteis para a investigação social: demografia, comportamento em outras plataformas e dados para operacionalizar construções teóricas.

Todas estas três formas de incompletude são ilustradas em um estudo realizado por Gueorgi Kossinets e Duncan Watts (2006) sobre a evolução da rede social em uma universidade. Kossinets e Watts começou com os registros de e-mail da universidade, que tinha informações precisas sobre quem enviou e-mails a quem em que momento (os pesquisadores não têm acesso ao conteúdo dos e-mails). Esses registros de e-mail soar como um conjunto de dados incrível, mas, eles são-apesar de seu tamanho e granularidade-fundamentalmente incompleta. Por exemplo, os logs de e-mail não incluem dados sobre as características demográficas dos alunos, tais como sexo e idade. Além disso, os logs de e-mail não incluem informações sobre a comunicação através de outros meios, tais como chamadas de telefone, mensagem de texto, ou conversas face-a-face. Finalmente, os logs de e-mail não incluem diretamente as informações sobre relacionamentos, as construções teóricas em muitas teorias existentes. Mais tarde, no capítulo, quando eu falar sobre estratégias de pesquisa, você verá como Kossinets e Watts resolvido estes problemas.

De três tipos de incompletude, o problema de dados incompletos para operacionalizar construções teóricas é o mais difícil de resolver, e na minha experiência, muitas vezes é esquecido acidentalmente por cientistas de dados. Grosso modo, construções teóricas são idéias abstratas que os cientistas sociais estudar, mas, infelizmente, essas construções nem sempre podem ser claramente definidos e medidos. Por exemplo, vamos imaginar tentando testar empiricamente a alegação aparentemente simples que as pessoas que são mais inteligentes ganhar mais dinheiro. Para testar esta reivindicação que você precisa para medir a "inteligência". Mas, o que é inteligência? Por exemplo, Gardner (2011) argumentou que na verdade existem oito formas diferentes de inteligência. E, existem procedimentos que podem medir com precisão qualquer uma destas formas de inteligência? Apesar de enormes quantidades de trabalho por psicólogos, essas perguntas ainda não têm respostas inequívocas. Assim, mesmo uma relativamente simples reclamação de pessoas que são mais inteligente ganhar mais dinheiro pode ser difícil de avaliar empiricamente, porque pode ser difícil de operacionalizar os constructos teóricos de dados. Outros exemplos de construções teóricas que são importantes, mas difícil de operacionalizar incluem "normas", "capital social", e "democracia". Os cientistas sociais chamam o jogo entre constructos teóricos e validade do construto de dados (Cronbach and Meehl 1955) . E, como esta lista de construções sugere, validade de construto é um problema que os cientistas sociais têm lutado por um tempo muito longo, mesmo quando eles estavam trabalhando com dados que foram recolhidos para fins de investigação. Ao trabalhar com dados recolhidos para fins que não a investigação fins, os problemas de validade de construção são ainda mais desafiador (Lazer 2015) .

Quando você está lendo um artigo de investigação, de uma forma rápida e útil para avaliar as preocupações sobre a validade da construção é levar a reivindicação principal no papel, que é normalmente expressa em termos de construções, e re expressar-lo em termos de dados utilizados. Por exemplo, considere dois estudos hipotéticos que pretendem mostrar que as pessoas mais inteligentes ganhar mais dinheiro:

  • Estudo 1: as pessoas que pontuam bem no teste-a Matrizes Progressivas Corvo teste bem estudado da inteligência analítica (Carpenter, Just, and Shell 1990) -ter maiores rendimentos relatados em suas declarações de imposto
  • Estudo 2: as pessoas no Twitter que usaram palavras mais longas são mais propensos a mencionar as marcas de luxo

Em ambos os casos, os pesquisadores poderiam afirmar que eles têm mostrado que as pessoas mais inteligentes ganhar mais dinheiro. Mas, no primeiro estudo, as construções teóricas são bem implementado através dos dados, e no segundo eles não são. Além disso, como este exemplo ilustra, mais dados não resolve automaticamente os problemas com validade de construto. Você deve duvidar dos resultados do Estudo 2 se envolver um milhão de tweets, um bilhão de tweets, ou um trilhão de tweets. Para os pesquisadores que não estão familiarizados com a ideia de validade do construto, Tabela 2.2 apresenta alguns exemplos de estudos que operacionalizadas construções teóricas usando dados de rastreio digitais.

Tabela 2.2: Exemplos de vestígios digitais que são usados ​​como medidas de conceitos teóricos mais abstratos. Os cientistas sociais chamam isso de validade jogo construção e é um grande desafio com o uso de fontes de dados grandes para a investigação social (Lazer 2015) .
trace digital construção teórica Citação
logs de e-mail de uma universidade (somente meta-dados) Relações sociais Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
mensagens de mídia social no Weibo engajamento cívico Zhang (2016)
logs de e-mail de uma empresa (meta-dados e texto completo) adequação cultural em uma organização Goldberg et al. (2015)

Embora o problema de dados incompletos para construções teóricas operacionalização é muito difícil de resolver, há três soluções comuns para o problema da informação demográfica incompleta e informações incompletas sobre o comportamento em outras plataformas. A primeira é recolher, na verdade, os dados necessários; Eu vou dizer-lhe sobre um exemplo de que no capítulo 3, quando eu te disse sobre pesquisas. Infelizmente, este tipo de recolha de dados, nem sempre é possível. A segunda solução principal é fazer o que os cientistas chamam de dados inferência-atributo de usuário e o que os cientistas sociais chamam de imputação. Nesta abordagem, os pesquisadores usam as informações que eles têm sobre algumas pessoas para inferir atributos de outras pessoas. A terceira solução possível-o utilizado pelo Kossinets e Watts-era combinar múltiplas fontes de dados. Este processo é às vezes chamado de fusão ou linkage. Minha metáfora favorita para este processo foi proposto no primeiro parágrafo do primeiro artigo já escrito sobre linkage (Dunn 1946) :

"Cada pessoa no mundo cria um Livro da Vida. Este livro começa com o nascimento e termina com a morte. Suas páginas são compostas de registros do princípio eventos na vida. ficha de ligação é o nome dado para o processo de montagem as páginas do livro em um volume ".

Esta passagem foi escrita em 1946, e naquele tempo, as pessoas pensavam que o Livro da Vida poderiam incluir grandes eventos de vida como nascimento, casamento, divórcio e morte. No entanto, agora que tanta informação sobre as pessoas é gravado, o Livro da Vida poderia ser um retrato incrivelmente detalhados, se essas páginas diferentes (ou seja, nossos traços digitais), podem ser ligadas entre si. Este livro da vida pode ser um grande recurso para os investigadores. Mas, o Livro da Vida, também poderia ser chamado de um banco de dados de ruína (Ohm 2010) , o que poderia ser usado para todos os tipos de fins não-éticos, como descrito mais abaixo quando eu falo sobre a natureza sensível da informação recolhida por fontes de dados grandes abaixo e no Capítulo 6 (Ética).