5.4.3 Conclusion

La collecte de données distribuées est possible et, à l'avenir, elle impliquera probablement une participation technologique et passive.

Comme eBird le démontre, la collecte de données distribuée peut être utilisée pour la recherche scientifique. De plus, PhotoCity montre que les problèmes liés à l'échantillonnage et à la qualité des données sont potentiellement solubles. Comment la collecte de données distribuée pourrait-elle fonctionner pour la recherche sociale? Un exemple vient du travail de Susan Watkins et de ses collègues du Malawi Journals Project (Watkins and Swidler 2009; Kaler, Watkins, and Angotti 2015) . Dans ce projet, 22 résidents locaux - appelés «journalistes» - ont tenu des «journaux conversationnels» qui enregistraient en détail les conversations qu'ils entendaient sur le SIDA dans la vie quotidienne des gens ordinaires (au début du projet, environ 15% des adultes au Malawi étaient infectés par le VIH (Bello, Chipeta, and Aberle-Grasse 2006) ). En raison de leur statut d'initié, ces journalistes ont pu entendre des conversations inaccessibles à Watkins et à ses collaborateurs de recherche occidentaux (je parlerai plus tard de l'éthique de ce chapitre lorsque je vous conseillerai sur la conception de votre propre projet de collaboration). . Les données du Malawi Journals Project ont conduit à un certain nombre de conclusions importantes. Par exemple, avant que le projet ne commence, beaucoup d'étrangers pensaient qu'il y avait un silence sur le sida en Afrique subsaharienne, mais les journaux de conversation ont démontré que ce n'était clairement pas le cas: les journalistes ont entendu des centaines de discussions sur des sujets aussi divers que funérailles, bars et églises. De plus, la nature de ces conversations a aidé les chercheurs à mieux comprendre certaines des résistances à l'utilisation du préservatif; la façon dont l'utilisation du préservatif était encadrée dans les messages de santé publique était incompatible avec la façon dont elle était discutée dans la vie quotidienne (Tavory and Swidler 2009) .

Bien sûr, comme les données d'eBird, les données du Malawi Journals Project ne sont pas parfaites, une question discutée en détail par Watkins et ses collègues. Par exemple, les conversations enregistrées ne sont pas un échantillon aléatoire de toutes les conversations possibles. Il s'agit plutôt d'un recensement incomplet des conversations sur le sida. En termes de qualité des données, les chercheurs ont estimé que leurs journalistes étaient des journalistes de haute qualité, comme en témoigne la cohérence dans les revues et dans toutes les revues. Autrement dit, étant donné que suffisamment de journalistes ont été déployés dans un cadre suffisamment restreint et axé sur un sujet spécifique, il a été possible d'utiliser la redondance pour évaluer et garantir la qualité des données. Par exemple, une travailleuse du sexe nommée «Stella» est apparue plusieurs fois dans les journaux de quatre journalistes différents (Watkins and Swidler 2009) . Afin de renforcer votre intuition, le tableau 5.3 montre d'autres exemples de collecte de données distribuées pour la recherche sociale.

Tableau 5.3: Exemples de projets de collecte de données distribuées en recherche sociale
Données collectées Référence
Discussions sur le VIH / SIDA au Malawi Watkins and Swidler (2009) ; Kaler, Watkins, and Angotti (2015)
Street mendier à Londres Purdam (2014)
Les conflits dans l'Est du Congo Windt and Humphreys (2016)
L'activité économique au Nigeria et au Libéria Blumenstock, Keleher, and Reisinger (2016)
Surveillance de la grippe Noort et al. (2015)

Tous les exemples décrits dans cette section ont impliqué une participation active: les journalistes ont retranscrit les conversations qu'ils ont entendues; les ornithologues ont téléchargé leurs listes de contrôle d'observation des oiseaux; ou les joueurs ont téléchargé leurs photos. Mais que se passerait-il si la participation était automatique et ne nécessitait pas de compétence ou de temps spécifique à soumettre? Par exemple, la Pothole Patrol, un projet de scientifiques du MIT, a monté des accéléromètres équipés de GPS dans sept taxis de la région de Boston (Eriksson et al. 2008) . Parce que la conduite sur un nid-de-poule laisse un signal d'accéléromètre distinct, ces dispositifs, lorsqu'ils sont placés à l'intérieur de taxis mobiles, peuvent créer des cartes de nids de poule de Boston. Bien sûr, les taxis ne prélèvent pas au hasard des routes, mais, avec suffisamment de taxis, il peut y avoir une couverture suffisante pour fournir des informations sur une grande partie de la ville. Un deuxième avantage des systèmes passifs qui reposent sur la technologie est qu'ils déqualifient le processus de contribution des données: alors qu'il nécessite des compétences pour contribuer à eBird (parce que vous devez être capable d'identifier de manière fiable les espèces d'oiseaux), il n'exige aucune compétence particulière pour contribuer à la patrouille des nids de poule.

À l'avenir, je soupçonne que de nombreux projets de collecte de données distribués vont commencer à utiliser les capacités des téléphones mobiles qui sont déjà transportés par des milliards de personnes dans le monde. Ces téléphones ont déjà un grand nombre de capteurs importants pour la mesure, tels que des microphones, des caméras, des appareils GPS et des horloges. En outre, ils prennent en charge des applications tierces permettant aux chercheurs de contrôler les protocoles de collecte de données sous-jacents. Enfin, ils disposent de la connectivité Internet, ce qui leur permet de décharger les données qu'ils collectent. Il existe de nombreux défis techniques, allant de capteurs inexacts à une durée de vie de la batterie limitée, mais ces problèmes vont probablement diminuer avec le temps à mesure que la technologie se développe. D'un autre côté, les questions liées à la vie privée et à l'éthique pourraient devenir plus complexes; Je reviendrai sur les questions d'éthique lorsque je vous conseillerai sur la conception de votre propre collaboration de masse.

Dans les projets de collecte de données distribués, les bénévoles fournissent des données sur le monde. Cette approche a déjà été utilisée avec succès et les utilisations futures devront probablement répondre à des préoccupations en matière d'échantillonnage et de qualité des données. Heureusement, des projets existants tels que PhotoCity et Pothole Patrol proposent des solutions à ces problèmes. Alors que de plus en plus de projets tirent parti de la technologie qui permet une participation passive et sans qualification, les projets de collecte de données distribuées devraient considérablement augmenter, permettant aux chercheurs de recueillir des données qui étaient simplement hors limites dans le passé.