2.3 As características comúns de big data

Fontes de datos grandes tenden a ter dez características; algúns son bos para a investigación social e algúns son malos.

Se os investigadores van aprender a partir de datos grandes que non crear ou recoller, a continuación, eles deben entender as súas características xerais. En vez de tomar unha plataforma pola visión de plataforma (por exemplo, aquí está o que precisa saber sobre o Twitter, aquí está o que precisa saber sobre os datos de busca de Google, etc), eu estou indo para describir dez características xerais de big data, características que xorden porque os datos non foi creado para fins de investigación social. Por afastando-se os detalles de cada sistema particular e mirando para esas propiedades xerais, os investigadores poden rapidamente aprender máis sobre as fontes de datos existentes e ter un conxunto firme de ideas para aplicar ás fontes de datos futuros.

Creo que é útil para agrupar as características en dúas categorías:

  • xeralmente boa para a busca: grande, always-on, non reactivo
  • xeralmente malo para a busca: incompleta, inaccesible, non representativa, á deriva, mediante algoritmos confundidos, inaccesible, sucio, e sensible

En termos xerais, o goberno rexistros administrativos son menos non representativa, menos de algoritmos confundidos, e menos á deriva. Por outra banda, empresas rexistros administrativos tenden a ser máis grandes e always-on.