2.3.1 Big

Les grands ensembles de données sont un moyen pour une fin; ils ne sont pas une fin en soi.

La caractéristique la plus discutée des sources de données volumineuses est qu'elles sont BIG. De nombreux articles, par exemple, commencent par discuter - et parfois se vanter - de la quantité de données qu'ils ont analysées. Par exemple, un article publié dans Science sur les tendances de l'utilisation des mots dans le corpus Google Livres comprend les éléments suivants (Michel et al. 2011) :

"[Notre] corpus contient plus de 500 milliards de mots, en anglais (361 milliards), français (45 milliards), espagnol (45 milliards), allemand (37 milliards), chinois (13 milliards), russe (35 milliards) et hébreu (2 milliards). Les œuvres les plus anciennes ont été publiées dans les années 1500. Les premières décennies ne sont représentées que par quelques livres par an, comprenant plusieurs centaines de milliers de mots. En 1800, le corpus atteint 98 millions de mots par an; en 1900, 1,8 milliard; et en 2000, 11 milliards. Le corpus ne peut pas être lu par un humain. Si vous avez essayé de lire seulement les entrées en anglais de l'an 2000 seulement, au rythme raisonnable de 200 mots / min, sans interruptions pour la nourriture ou le sommeil, cela prendrait 80 ans. La séquence de lettres est 1000 fois plus longue que le génome humain: si vous l'écrivez en ligne droite, elle atteindrait la Lune 10 fois plus vite. "

L'ampleur de ces données est sans aucun doute impressionnante, et nous sommes tous chanceux que l'équipe de Google Livres ait diffusé ces données au public (en fait, certaines des activités à la fin de ce chapitre utilisent ces données). Mais, chaque fois que vous voyez quelque chose comme ça, vous devriez demander: est-ce que toutes ces données font vraiment quelque chose? Auraient-ils pu faire la même recherche si les données pouvaient atteindre la Lune et revenir une seule fois? Et si les données pouvaient seulement atteindre le sommet du Mont Everest ou le sommet de la Tour Eiffel?

Dans ce cas, leur recherche a, en fait, certaines conclusions qui nécessitent un corpus de mots sur une longue période de temps. Par exemple, une chose qu'ils explorent est l'évolution de la grammaire, en particulier les changements dans le taux de conjugaison verbe irrégulière. Puisque certains verbes irréguliers sont assez rares, une grande quantité de données est nécessaire pour détecter les changements au fil du temps. Trop souvent, toutefois, les chercheurs semblent traiter la taille de la source de données volumineuses comme une fin - «regarder combien de données je peux croquer» - plutôt que comme un moyen d'atteindre un objectif scientifique plus important.

D'après mon expérience, l'étude des événements rares est l'une des trois fins scientifiques spécifiques que les grands ensembles de données tendent à permettre. La seconde est l'étude de l'hétérogénéité, comme l'illustre une étude de Raj Chetty et ses collègues (2014) sur la mobilité sociale aux États-Unis. Dans le passé, de nombreux chercheurs ont étudié la mobilité sociale en comparant les résultats de la vie des parents et des enfants. Une conclusion cohérente de cette littérature est que les parents favorisés ont tendance à avoir des enfants avantagés, mais la force de cette relation varie au fil du temps et d'un pays à l'autre (Hout and DiPrete 2006) . Plus récemment, cependant, Chetty et ses collègues ont pu utiliser les données fiscales de 40 millions de personnes pour estimer l'hétérogénéité de la mobilité intergénérationnelle entre les régions des États-Unis (figure 2.1). Ils ont constaté, par exemple, que la probabilité qu'un enfant atteigne le quintile supérieur de la distribution du revenu national à partir d'une famille du quintile inférieur est d'environ 13% à San Jose, en Californie, mais seulement environ 4% à Charlotte, en Caroline du Nord. Si vous regardez la figure 2.1 pour un moment, vous pourriez commencer à vous demander pourquoi la mobilité intergénérationnelle est plus élevée dans certains endroits que dans d'autres. Chetty et ses collègues ont exactement la même question, et ils ont constaté que les zones à forte mobilité ont moins de ségrégation résidentielle, moins d'inégalités de revenus, de meilleures écoles primaires, un plus grand capital social et une plus grande stabilité familiale. Bien sûr, ces corrélations à elles seules ne montrent pas que ces facteurs entraînent une plus grande mobilité, mais elles suggèrent des mécanismes possibles qui peuvent être explorés dans un travail ultérieur, ce qui est exactement ce que Chetty et ses collègues ont fait dans leurs travaux ultérieurs. Remarquez comment la taille des données était vraiment importante dans ce projet. Si Chetty et ses collègues avaient utilisé les dossiers fiscaux de 40 mille personnes plutôt que 40 millions, ils n'auraient pas été en mesure d'estimer l'hétérogénéité régionale et ils n'auraient jamais pu faire des recherches ultérieures pour essayer d'identifier les mécanismes qui créent cette variation.

Figure 2.1: Estimations des chances de l'enfant d'atteindre les 20% de la répartition du revenu les plus élevés selon les parents des 20% les plus pauvres (Chetty et al., 2014). Les estimations au niveau régional, qui montrent une hétérogénéité, conduisent naturellement à des questions intéressantes et importantes qui ne découlent pas d'une seule estimation nationale. Ces estimations au niveau régional ont été rendues possibles en partie parce que les chercheurs utilisaient une grande source de données importante: les dossiers fiscaux de 40 millions de personnes. Créé à partir des données disponibles sur http://www.equality-of-opportunity.org/.

Figure 2.1: Estimations des chances de l'enfant d'atteindre les 20% de la répartition du revenu les plus élevés selon les parents des 20% les plus (Chetty et al. 2014) . Les estimations au niveau régional, qui montrent une hétérogénéité, conduisent naturellement à des questions intéressantes et importantes qui ne découlent pas d'une seule estimation nationale. Ces estimations au niveau régional ont été rendues possibles en partie parce que les chercheurs utilisaient une grande source de données importante: les dossiers fiscaux de 40 millions de personnes. Créé à partir des données disponibles sur http://www.equality-of-opportunity.org/.

Enfin, en plus d'étudier des événements rares et d'étudier l'hétérogénéité, les grands ensembles de données permettent également aux chercheurs de détecter de petites différences. En fait, une grande partie de l'attention portée au big data dans l'industrie concerne ces petites différences: la détection fiable de la différence entre 1% et 1,1% des taux de clics sur une annonce peut générer des revenus supplémentaires de plusieurs millions de dollars. Dans certains milieux scientifiques, cependant, ces petites différences peuvent ne pas être particulièrement importantes, même si elles sont statistiquement significatives (Prentice and Miller 1992) . Toutefois, dans certains paramètres de stratégie, ils peuvent devenir importants lorsqu'ils sont affichés globalement. Par exemple, s'il y a deux interventions de santé publique et que l'une est légèrement plus efficace que l'autre, choisir une intervention plus efficace pourrait permettre de sauver des milliers de vies supplémentaires.

Bien que le bigness soit généralement une bonne propriété lorsqu'il est utilisé correctement, j'ai remarqué qu'il peut parfois conduire à une erreur conceptuelle. Pour une raison ou pour une autre, l'importance semble amener les chercheurs à ignorer la façon dont leurs données ont été générées. Bien que la taille réduite réduise le besoin de s'inquiéter des erreurs aléatoires, elle augmente le besoin de s'inquiéter des erreurs systématiques, les types d'erreurs que je vais décrire ci-dessous qui découlent de biais dans la façon dont les données sont créées. Par exemple, dans un projet que je décrirai plus loin dans ce chapitre, les chercheurs ont utilisé les messages générés le 11 septembre 2001 pour produire une chronologie émotionnelle à haute résolution de la réaction à l'attentat terroriste (Back, Küfner, and Egloff 2010) . Parce que les chercheurs avaient un grand nombre de messages, ils n'avaient pas vraiment besoin de s'inquiéter de savoir si les modèles qu'ils ont observés - augmentation de la colère au cours de la journée - pourraient s'expliquer par une variation aléatoire. Il y avait tellement de données et le schéma était si clair que tous les tests statistiques statistiques ont suggéré qu'il s'agissait d'un modèle réel. Mais, ces tests statistiques ignoraient comment les données ont été créées. En fait, il s'est avéré que de nombreux modèles étaient attribuables à un seul bot qui générait de plus en plus de messages insignifiants tout au long de la journée. La suppression de ce bot a complètement détruit certaines des principales conclusions de l'article (Pury 2011; Back, Küfner, and Egloff 2011) . Tout simplement, les chercheurs qui ne pensent pas à une erreur systématique sont confrontés au risque d'utiliser leurs grands ensembles de données pour obtenir une estimation précise d'une quantité sans importance, comme le contenu émotionnel de messages sans signification produits par un robot automatisé.

En conclusion, les grands ensembles de données ne sont pas une fin en soi, mais ils peuvent permettre certains types de recherche, notamment l'étude d'événements rares, l'estimation de l'hétérogénéité et la détection de petites différences. Les grands ensembles de données semblent également conduire certains chercheurs à ignorer la façon dont leurs données ont été créées, ce qui peut les amener à obtenir une estimation précise d'une quantité sans importance.