2.3 Dix caractéristiques communes du big data

Les sources de données volumineuses tendent à avoir un certain nombre de caractéristiques communes; certains sont généralement bons pour la recherche sociale et certains sont généralement mauvais.

Même si chaque grande source de données est distincte, il est utile de noter que certaines caractéristiques ont tendance à se répéter encore et encore. Par conséquent, plutôt que d'adopter une approche plate-forme par plate-forme (par exemple, voici ce que vous devez savoir sur Twitter, voici ce que vous devez savoir sur les données de recherche Google, etc.), je vais décrire dix caractéristiques générales de les sources de données. Le retrait des détails de chaque système particulier et l'examen de ces caractéristiques générales permettent aux chercheurs de se familiariser rapidement avec les sources de données existantes et d'avoir un ensemble d'idées à appliquer aux sources de données qui seront créées à l'avenir.

Même si les caractéristiques souhaitées d'une source de données dépendent du but de la recherche, je trouve utile de regrouper grossièrement les dix caractéristiques en deux grandes catégories:

  • généralement utile pour la recherche: grande, toujours active et non réactive
  • généralement problématique pour la recherche: incomplète, inaccessible, non représentative, dérivante, algorithmiquement confondue, sale et sensible

Comme je décris ces caractéristiques, vous remarquerez qu'elles se produisent souvent parce que les grandes sources de données n'ont pas été créées à des fins de recherche.