2.3 Diez características comunes de Big Data

Las fuentes de datos grandes tienden a tener una serie de características en común; algunos son generalmente buenos para la investigación social y algunos son generalmente malos.

Aunque cada fuente de big data es distinta, es útil notar que hay ciertas características que tienden a ocurrir una y otra vez. Por lo tanto, en lugar de adoptar un enfoque de plataforma por plataforma (por ejemplo, esto es lo que necesita saber sobre Twitter, esto es lo que necesita saber sobre los datos de búsqueda de Google, etc.), voy a describir diez características generales de las grandes fuentes de datos. Retroceder de los detalles de cada sistema en particular y observar estas características generales permite a los investigadores aprender rápidamente sobre las fuentes de datos existentes y tener un conjunto firme de ideas para aplicar a las fuentes de datos que se crearán en el futuro.

A pesar de que las características deseadas de una fuente de datos dependen del objetivo de la investigación, me parece útil agrupar crudamente las diez características en dos amplias categorías:

  • generalmente útil para la investigación: grande, siempre activo y no reactivo
  • generalmente problemático para la investigación: incompleto, inaccesible, no representativo, a la deriva, algorítmicamente confuso, sucio y sensible

A medida que describo estas características, notarán que a menudo surgen porque las grandes fuentes de datos no se crearon con fines de investigación.