1.1 Une tache d'encre

À l'été 2009, les téléphones portables sonnaient partout au Rwanda. En plus des millions d'appels de la famille, des amis et des associés, environ 1000 Rwandais ont reçu un appel de Joshua Blumenstock et de ses collègues. Ces chercheurs étudiaient la richesse et la pauvreté en menant une enquête auprès d'un échantillon aléatoire de personnes à partir d'une base de données de 1,5 million de clients du plus grand fournisseur de téléphonie mobile du Rwanda. Blumenstock et ses collègues ont demandé aux personnes sélectionnées au hasard si elles voulaient participer à une enquête, leur ont expliqué la nature de la recherche et ont ensuite posé une série de questions sur leurs caractéristiques démographiques, sociales et économiques.

Tout ce que j'ai dit jusqu'ici donne l'impression d'une enquête traditionnelle sur les sciences sociales. Mais ce qui vient ensuite n'est pas traditionnel - du moins pas encore. En plus des données de l'enquête, Blumenstock et ses collègues avaient également les dossiers d'appels complets pour tous les 1,5 million de personnes. En combinant ces deux sources de données, ils ont utilisé les données de l'enquête pour former un modèle d'apprentissage automatique afin de prédire la richesse d'une personne en fonction de ses enregistrements d'appels. Ensuite, ils ont utilisé ce modèle pour estimer la richesse de l'ensemble des 1,5 million de clients de la base de données. Ils ont également estimé les lieux de résidence de l'ensemble des 1,5 million de clients en utilisant les informations géographiques intégrées dans les enregistrements d'appels. En rassemblant tout cela - la richesse estimée et le lieu de résidence estimé -, ils ont pu produire des cartes à haute résolution de la répartition géographique de la richesse au Rwanda. En particulier, ils pourraient produire une richesse estimée pour chacune des 2 148 cellules du Rwanda, la plus petite unité administrative du pays.

Malheureusement, il a été impossible de valider l'exactitude de ces estimations car personne n'avait jamais produit d'estimations pour des zones géographiques aussi restreintes au Rwanda. Mais lorsque Blumenstock et ses collègues ont agrégé leurs estimations aux 30 districts du Rwanda, ils ont trouvé que leurs estimations étaient très similaires aux estimations de l'Enquête Démographique et de Santé, qui est largement considérée comme la référence des enquêtes dans les pays en développement. Bien que ces deux approches aient produit des estimations similaires dans ce cas, l'approche de Blumenstock et de ses collègues était environ 10 fois plus rapide et 50 fois moins chère que les enquêtes démographiques et de santé traditionnelles. Ces estimations considérablement plus rapides et moins coûteuses créent de nouvelles possibilités pour les chercheurs, les gouvernements et les entreprises (Blumenstock, Cadamuro, and On 2015) .

Cette étude est un peu comme un test de Rorschach inkblot: ce que les gens voient dépend de leurs antécédents. De nombreux chercheurs en sciences sociales voient un nouvel outil de mesure qui peut être utilisé pour tester des théories sur le développement économique. De nombreux scientifiques voient un nouveau problème d'apprentissage automatique. Beaucoup de gens d'affaires voient une approche puissante pour débloquer de la valeur dans les grandes données qu'ils ont déjà recueillies. Beaucoup de défenseurs de la vie privée voient un rappel effrayant que nous vivons dans une période de surveillance de masse. Et enfin, de nombreux décideurs voient une manière dont les nouvelles technologies peuvent aider à créer un monde meilleur. En fait, cette étude est l'ensemble de ces choses, et parce qu'elle a ce mélange de caractéristiques, je la vois comme une fenêtre sur l'avenir de la recherche sociale.