2.3 As características comuns de big data

Fontes de dados grandes tendem a ter dez características; alguns são bons para a investigação social e alguns são maus.

Se os pesquisadores vão aprender a partir de dados grandes que eles não criar ou recolher, em seguida, eles devem entender suas características gerais. Ao invés de tomar uma plataforma pela abordagem de plataforma (por exemplo, aqui está o que você precisa saber sobre o Twitter, aqui está o que você precisa saber sobre os dados de pesquisa do Google, etc), eu estou indo para descrever dez características gerais de big data, características que surgem porque os dados não foi criado para fins de investigação social. Por afastando-se os detalhes de cada sistema em particular e olhando para essas propriedades gerais, os pesquisadores podem rapidamente aprender mais sobre as fontes de dados existentes e ter um conjunto firme de ideias para aplicar às fontes de dados futuros.

Acho que é útil para agrupar as características em duas categorias:

  • geralmente boa para a pesquisa: grande, always-on, não-reativo
  • geralmente ruim para a pesquisa: incompleta, inacessível, não representativa, à deriva, através de algoritmos confundidos, inacessível, sujo, e sensível

Em termos gerais, o governo registros administrativos são menos não representativa, menos de algoritmos confundidos, e menos à deriva. Por outro lado, negócios registros administrativos tendem a ser maiores e mais always-on.