5.4.3 Conclusion

La collecte de données distribuée est possible, et dans l'avenir sera probablement impliquer la technologie et la participation passive.

Comme le montre eBird, la collecte de données distribuée peut être utilisé pour la recherche scientifique. En outre, PhotoCity montre que les problèmes liés à l'échantillonnage et la qualité des données sont potentiellement résoluble.

Comment pourrait distribuer le travail de collecte de données pour la recherche sociale? Un merveilleux exemple vient du travail de Susan Watkins et ses collègues sur le projet Journals Malawi (Watkins and Swidler 2009; Kaler, Watkins, and Angotti 2015) . Dans ce projet, 22 résidents locaux-disant "journalistes" -kept "revues de conversation" qui ont enregistré, en détail, les conversations qu'ils ont entendu parler du sida dans la vie quotidienne des gens ordinaires (au moment où le projet a commencé, environ 15% des adultes au Malawi ont été infectées par le VIH (Bello, Chipeta, and Aberle-Grasse 2006) ). En raison de leur statut d'initié, ces journalistes ont pu entendre les conversations qui auraient pu être inaccessibles à Susan Watkins et ses collaborateurs de recherche occidentaux (je vais discuter de l'éthique de cela plus tard dans le chapitre où je vous offre des conseils sur la conception de votre propre projet de collaboration de masse ). Les données du Projet Malawi Journals a conduit à un certain nombre de conclusions importantes. Par exemple, avant le début du projet, beaucoup d'étrangers croyaient qu'il y avait le silence sur le sida en Afrique sub-saharienne, mais les journaux ont démontré que cela était clairement pas le cas: les journalistes entendus des centaines de conversation sur le sujet, dans des endroits aussi divers que les funérailles , des bars et des églises. En outre, la nature de ces conversations a aidé les chercheurs à mieux comprendre une partie de la résistance à l'utilisation du préservatif; la façon dont l' utilisation du préservatif a été formulée dans les messages de santé publique était incompatible avec la façon dont il a été discuté dans la vie quotidienne (Tavory and Swidler 2009) .

Bien sûr, comme les données de eBird, les données du Projet Journals Malawi est pas parfait, un problème discuté en détail par Watkins et ses collègues. Par exemple, les conversations enregistrées ne sont pas un échantillon aléatoire de toutes les conversations possibles. Au contraire, ils sont un recensement incomplet des conversations sur le sida. En termes de qualité de données, les chercheurs croient que leurs journalistes étaient des journalistes de haute qualité, comme en témoigne la cohérence au sein des revues et dans des revues. En outre, lorsque suffisamment de journalistes sont déployés dans un cadre assez petit et les rapports sont axés sur un sujet précis, la redondance est devenu possible, ce qui accroît la confiance dans la qualité des données. Par exemple, un travailleur du sexe nommé "Stella" a montré à plusieurs reprises dans les journaux de quatre journalistes différents (Watkins and Swidler 2009) . Comme il était au PhotoCity, l'utilisation de la redondance est un principe important pour évaluer et garantir la qualité des données dans les projets de collecte de données distribuées. Afin de renforcer davantage votre intuition, le tableau 5.3 montre d'autres exemples de collecte de données distribuée pour la recherche sociale.

Tableau 5.3: Exemples de projets distribués de collecte de données dans la recherche sociale.
Les données recueillies Citation
Les discussions sur le VIH / SIDA au Malawi Watkins and Swidler (2009) ; Kaler, Watkins, and Angotti (2015)
Rue mendicité à Londres Purdam (2014)
les événements de conflit dans l'Est du Congo Windt and Humphreys (2016)
L'activité économique au Nigeria et au Libéria Blumenstock, Keleher, and Reisinger (2016)
surveillance de la grippe Noort et al. (2015)

Tous les exemples décrits dans cette section ont impliqué la participation active: les journalistes transcrites conversations qu'ils ont entendus; birders téléchargés leurs listes de contrôle d'observation des oiseaux; ou joueurs téléchargés leurs photos. Mais si la participation était automatique et ne nécessite aucune compétence ou temps spécifique à soumettre? Telle est la promesse offerte par "détection participative" ou "centrée sur les gens de détection." Par exemple, le Pothole Patrol, un projet par des scientifiques du MIT, monté GPS accéléromètres équipés à l' intérieur de sept cabines de taxi dans la région de Boston (Eriksson et al. 2008) , (Eriksson et al. 2008) . Parce que la conduite sur un nid de poule laisse un signal d'accéléromètre distinct, ces dispositifs, lorsqu'ils sont placés à l'intérieur des taxis en mouvement, peut créer des cartes nids de poule de Boston. Bien sûr, les taxis n'échantillonnent pas au hasard des routes, mais étant donné suffisamment de taxis, il peut y avoir une couverture suffisante pour fournir des informations sur une grande partie de leur ville. Un deuxième avantage des systèmes passifs qui reposent sur la technologie est qu'ils de-compétences du processus de contribution des données: alors qu'il exige des compétences pour contribuer à eBird (parce que vous devez être en mesure d'identifier de manière fiable les espèces d'oiseaux), il ne nécessite pas de compétences particulières à contribuer à Pothole Patrol.

À l'avenir, je pense que les projets de collecte de nombreuses données distribuées vont commencer à faire usage des capacités des téléphones mobiles qui sont déjà portés par des milliards de personnes à travers le monde. Ces téléphones ont déjà un grand nombre de capteurs importants pour la mesure, tels que des microphones, des caméras, des appareils GPS et des horloges. En outre, ces téléphones mobiles prennent en charge des applications tierces permettant aux chercheurs un certain contrôle sur les protocoles de collecte de données sous-jacentes. Enfin, ces téléphones ont la connectivité Internet, ce qui rend possible pour eux de décharger les données qu'ils collectent. Il y a de nombreux défis techniques de capteurs inexactes à la vie de la batterie limitée, mais ces problèmes seront probablement diminuer au fil du temps que la technologie se développe. Les questions liées à la vie privée et de l'éthique, d'autre part, pourraient devenir plus compliqué que la technologie se développe; Je vais revenir aux questions d'éthique quand j'offre des conseils sur la conception de votre propre collaboration de masse.

Dans les projets de collecte de données distribuées, les bénévoles fournissent des données sur le monde. Cette approche a déjà été utilisée avec succès, et les utilisations futures aura probablement pour faire face échantillonnage et la qualité des données préoccupations. Heureusement, les projets existants tels que PhotoCity et Pothole Patrol suggèrent des solutions à ces problèmes. Comme plus de projets profitent de la technologie qui permet la participation de-qualifiée et passive, distribué des projets de collecte de données devrait augmenter considérablement à l'échelle, ce qui permet aux chercheurs de recueillir des données qui était tout simplement hors limites dans le passé.