2.3 Les caractéristiques communes des données volumineuses

Sources de données Big ont tendance à avoir dix caractéristiques; certains sont bons pour la recherche sociale et certains sont mauvais.

Si les chercheurs vont apprendre des grandes données qu'ils ne créent pas ou recueillent, ils doivent comprendre ses caractéristiques générales. Plutôt que de prendre une plate-forme par l'approche de la plate-forme (par exemple, voici ce que vous devez savoir sur Twitter, voici ce que vous devez savoir sur les données de recherche Google, etc.), je vais décrire dix caractéristiques générales des grandes données, les caractéristiques qui se posent parce que les données n'a pas été créé dans le but de la recherche sociale. En prenant du recul des détails de chaque système particulier et en regardant ces propriétés générales, les chercheurs peuvent rapidement apprendre davantage au sujet des sources de données existantes et avoir un solide ensemble d'idées à appliquer aux futures sources de données.

Je trouve utile de regrouper les caractéristiques en deux catégories:

  • généralement bonne pour la recherche: grand, toujours en service, non réactif
  • généralement mauvais pour la recherche: incomplet, inaccessible, non représentatif, à la dérive, algorithmiquement confondu, inaccessible, sale, et sensible

D'une manière générale, les dossiers administratifs du gouvernement sont moins non représentatif, moins algorithmiquement confondus, et moins à la dérive. D'autre part, les entreprises de dossiers administratifs ont tendance à être plus grands et plus toujours sur.