2.3 Características comunes de grandes volúmenes de datos

Fuentes de datos grandes tienden a tener diez características; algunos son buenos para la investigación social y otros son malos.

Si los investigadores van a aprender de grandes volúmenes de datos que no crean ni recogen, entonces ellos deben entender sus características generales. En lugar de tomar una plataforma de enfoque de plataforma (por ejemplo, esto es lo que necesita saber acerca de Twitter, esto es lo que necesita saber acerca de los datos de búsqueda de Google, etc), voy a describir diez características generales de los grandes datos, características que surgen porque los datos no se ha creado con el propósito de la investigación social. Dando un paso atrás de los detalles de cada sistema particular y mirando a estas propiedades generales, los investigadores pueden aprender rápidamente más sobre las fuentes de datos existentes y tener un sólido conjunto de ideas para aplicar a futuras fuentes de datos.

Me resulta útil agrupar las características en dos categorías:

  • generalmente bueno para la investigación: grande, siempre activa y no reactiva
  • generalmente malo para la investigación: incompleto, inaccesible, no representativa, a la deriva, de forma algorítmica confundido, inaccesible, sucio, y sensible

En términos generales, los registros administrativos del gobierno son menos no representativa, menos algorítmicamente confundido, y menos a la deriva. Por otro lado, los registros administrativos de negocios tienden a ser más grandes y más siempre activa.