2.3 Dieci caratteristiche comuni dei big data

Le grandi fonti di dati tendono ad avere un numero di caratteristiche in comune; alcuni sono generalmente buoni per la ricerca sociale e alcuni sono generalmente cattivi.

Anche se ciascuna grande fonte di dati è distinta, è utile notare che ci sono alcune caratteristiche che tendono a verificarsi più e più volte. Pertanto, piuttosto che adottare un approccio piattaforma per piattaforma (ad esempio, ecco cosa è necessario sapere su Twitter, ecco cosa è necessario sapere sui dati di ricerca di Google, ecc.), Descriverò dieci caratteristiche generali di grande Origine dei dati. Tornare indietro dai dettagli di ogni particolare sistema e osservare queste caratteristiche generali consente ai ricercatori di conoscere rapidamente le fonti di dati esistenti e avere una serie di idee da applicare alle fonti di dati che verranno create in futuro.

Anche se le caratteristiche desiderate di una fonte di dati dipendono dall'obiettivo della ricerca, trovo utile raggruppare sommariamente le dieci caratteristiche in due grandi categorie:

  • generalmente utile per la ricerca: grande, sempre attivo e non reattivo
  • generalmente problematico per la ricerca: incompleto, inaccessibile, non rappresentativo, alla deriva, algoritmicamente confuso, sporco e sensibile

Come sto descrivendo queste caratteristiche, noterete che spesso si presentano perché le fonti di Big Data non sono state create per fini di ricerca.