2.3 Dez características comuns do big data

Fontes de dados grandes tendem a ter um número de características em comum; alguns geralmente são bons para pesquisa social e outros geralmente são ruins.

Mesmo que cada grande fonte de dados seja distinta, é útil notar que existem certas características que tendem a ocorrer repetidamente. Portanto, em vez de adotar uma abordagem de plataforma por plataforma (por exemplo, aqui está o que você precisa saber sobre o Twitter, aqui está o que você precisa saber sobre os dados de pesquisa do Google etc.), descreverei dez características gerais de grande fontes de dados. Retrocedendo nos detalhes de cada sistema em particular e observando essas características gerais, os pesquisadores podem aprender rapidamente sobre as fontes de dados existentes e ter um conjunto firme de ideias para aplicar às fontes de dados que serão criadas no futuro.

Embora as características desejadas de uma fonte de dados dependam do objetivo da pesquisa, acho útil agrupar as dez características em duas categorias amplas:

  • geralmente útil para pesquisa: grande, sempre ativa e não-reativa
  • geralmente problemático para pesquisa: incompleto, inacessível, não representativo, derivativo, confundido por algoritmos, sujo e sensível

Como estou descrevendo essas características, você perceberá que elas geralmente surgem porque as grandes fontes de dados não foram criadas para fins de pesquisa.