D'autres commentaires

Cette section est conçue pour être utilisée comme référence, plutôt que d'être lu comme un récit.

  • Introduction (section 5.1)

La collaboration de masse mêle les idées de la science citoyenne, crowdsourcing, et l' intelligence collective. La science citoyenne signifie généralement impliquant des «citoyens» (c. -à- non-scientifiques) dans le processus scientifique (Crain, Cooper, and Dickinson 2014) . Crowdsourcing signifie généralement prendre un problème généralement résolu au sein d' une organisation et à la place d' externalisation à une foule (Howe 2009) . L' intelligence collective signifie généralement des groupes d'individus agissant collectivement d' une manière qui semble intelligente (Malone and Bernstein 2015) . Nielsen (2012) est un merveilleux livre-introduction dans la puissance de la collaboration de masse pour la recherche scientifique.

Il existe plusieurs types de collaboration de masse qui ne correspondent pas parfaitement dans les trois catégories que je proposais, et je pense que trois méritent une attention particulière, car ils pourraient être utiles dans la recherche sociale à un moment donné. Un exemple est les marchés de prédiction, où les participants achètent et les contrats commerciaux qui sont rachetables fondées sur les résultats qui se produisent dans le monde (Wolfers and Zitzewitz 2004; Arrow et al. 2008) , (Wolfers and Zitzewitz 2004; Arrow et al. 2008) . Prédire les marchés sont souvent utilisés par les entreprises et les gouvernements pour la prévision, et les marchés de prédiction ont également été utilisés par des chercheurs sociaux pour prédire la réplicabilité des études publiées en psychologie (Dreber et al. 2015) .

Un deuxième exemple qui ne rentre pas bien dans mon schéma de catégorisation est le projet de Polymath, où les chercheurs ont collaboré en utilisant les blogs et les wikis pour prouver nouveaux théorèmes mathématiques (Gowers and Nielsen 2009; Cranshaw and Kittur 2011; Nielsen 2012; Kloumann et al. 2016) . Le projet Polymath est en quelque sorte similaire au Prix Netflix, mais les participants au projet de Polymath construit plus activement sur les solutions partielles des autres.

Un troisième exemple qui ne rentre pas bien dans mon schéma de catégorisation est mobilisations dépendant du temps tels que l'Agence de défense Advanced Research Projects (DARPA) Défi réseau (à savoir le défi Red Balloon). Pour en savoir plus sur ces temps sensibles mobilisations voir Pickard et al. (2011) , Tang et al. (2011) , et Rutherford et al. (2013) .

  • Calcul humain (section 5.2)

Le terme «calcul humain» sort du travail effectué par les informaticiens, et de comprendre le contexte derrière cette recherche permettra d'améliorer votre capacité à repérer les problèmes qui pourraient se prêter à elle. Pour certaines tâches, les ordinateurs sont incroyablement puissant avec des capacités dépassant de loin l'homme même expert. Par exemple, dans les échecs, les ordinateurs peuvent battre même les meilleurs grands maîtres. Mais, et cela est moins bien appréciée par les scientifiques sociaux-pour d'autres tâches, les ordinateurs sont en fait bien pire que les gens. En d'autres termes, en ce moment, vous êtes mieux que même l'ordinateur le plus sophistiqué à certaines tâches impliquant le traitement d'images, vidéo, audio et texte. Ainsi, comme cela a été illustré par un merveilleux XKCD dessin animé il y a des tâches qui sont faciles pour les ordinateurs et difficile pour les gens, mais il y a aussi des tâches qui sont difficiles pour les ordinateurs et facile pour les gens (figure 5.13). Les informaticiens qui travaillent sur ces dur pour-ordinateurs facile pour les humains tâches, par conséquent, ont réalisé qu'ils pourraient inclure les humains dans leur processus de calcul. Voici comment Luis von Ahn (2005) décrit le calcul humain quand il a inventé le terme dans sa thèse: "un paradigme pour l' utilisation de la puissance de traitement humain pour résoudre les problèmes que les ordinateurs ne peuvent pas encore résoudre."

Figure 5.13: Pour certaines tâches ordinateurs sont incroyables, dépassant la capacité des experts humains. Mais, pour d'autres tâches, les humains ordinaires peuvent surpasser les systèmes d'ordinateurs, même sophistiqués. Les grands problèmes d'échelle qui impliquent des tâches qui sont difficiles pour les ordinateurs et facile pour les humains sont bien adaptés pour le calcul humain. Utilisé selon les termes décrits ici: http://xkcd.com/license.html

Figure 5.13: Pour certaines tâches ordinateurs sont incroyables, dépassant la capacité des experts humains. Mais, pour d'autres tâches, les humains ordinaires peuvent surpasser les systèmes d'ordinateurs, même sophistiqués. Les grands problèmes d'échelle qui impliquent des tâches qui sont difficiles pour les ordinateurs et facile pour les humains sont bien adaptés pour le calcul humain. Utilisé selon les termes décrits ici: http://xkcd.com/license.html

Par cette définition Foldit, qui je l'ai décrit dans la section sur les appels ouverts-pourrait être considéré comme un projet de calcul humain. Cependant, je choisis de classer Foldit comme un appel, car il exige des compétences spécialisées et il faut la meilleure solution a contribué plutôt que d'utiliser un apply-combiner scission stratégie.

Pour un excellent traitement de la longueur du livre de calcul humain, dans le sens le plus général du terme, voir la Law and Ahn (2011) . Le chapitre 3 de la Law and Ahn (2011) a une discussion intéressante de combiner des mesures plus complexes que celles de ce chapitre.

Le terme «split-appliquer-combiner" a été utilisé par Wickham (2011) pour décrire une stratégie pour le calcul statistique, mais il capte parfaitement le processus de nombreux projets de calcul des droits. La stratégie-apply-combiner répartition est similaire au cadre MapReduce développé à Google (Dean and Ghemawat 2004; Dean and Ghemawat 2008) .

Deux projets de calcul humains intelligents que je ne dispose pas d'espace pour discuter sont le jeu ESP (Ahn and Dabbish 2004) et reCAPTCHA (Ahn et al. 2008) , (Ahn et al. 2008) . Ces deux projets ont trouvé des moyens créatifs pour motiver les participants à fournir des étiquettes sur les images. Cependant, ces deux projets ont également soulevé des questions éthiques car, contrairement à Galaxy Zoo, les participants au jeu ESP et reCAPTCHA ne savaient pas comment leurs données a été utilisé (Lung 2012; Zittrain 2008) .

Inspiré par le jeu ESP, de nombreux chercheurs ont tenté de développer d' autres "jeux avec un but" (Ahn and Dabbish 2008) (c. -à «jeux de calcul humain-basé" (Pe-Than, Goh, and Lee 2015) ) qui peut être utilisé pour résoudre une grande variété d'autres problèmes. Qu'est-ce que ces «jeux avec un but" ont en commun est qu'ils essaient de faire les tâches impliquées dans le calcul humain agréable. Ainsi, alors que le jeu ESP partage le split-apply-combiner même structure avec Galaxy Zoo, elle diffère dans la façon dont les participants sont motivés-fun vs désir d'aider la science.

Ma description de Galaxy Zoo appuie sur Nielsen (2012) , Adams (2012) , Clery (2011) , et à la Hand (2010) , et ma présentation des objectifs de recherche de Galaxy Zoo a été simplifiée. Pour en savoir plus sur l'histoire de la classification des galaxies en astronomie et comment Galaxy Zoo poursuit cette tradition, voir Masters (2012) et Marshall, Lintott, and Fletcher (2015) . Miser sur Galaxy Zoo, les chercheurs ont terminé Galaxy Zoo 2 qui a recueilli plus de 60 millions de classifications morphologiques complexes des volontaires (Masters et al. 2011) , (Masters et al. 2011) . En outre, ils ramifiés dans des problèmes en dehors de la morphologie galaxie y compris explorer la surface de la lune, la recherche de planètes, et transcrivant documents anciens. À l' heure actuelle, tous leurs projets sont recueillis à www.zooniverse.org (Cox et al. 2015) . L' un des projets-Snapshot Serengeti-fournit la preuve que les projets de classification des images Galaxy Zoo de type peut également être fait pour la recherche environnementale (Swanson et al. 2016) .

Pour les chercheurs envisagent d'utiliser un marché du travail micro-tâche (par exemple, Amazon Mechanical Turk) pour un projet de calcul humain, Chandler, Paolacci, and Mueller (2013) et Wang, Ipeirotis, and Provost (2015) offrent de bons conseils sur la conception des tâches et d'autres questions connexes.

Les chercheurs intéressés à la création de ce que j'ai appelé les systèmes de calcul humain de deuxième génération (par exemple, les systèmes qui utilisent des étiquettes humaines pour former un modèle d'apprentissage de la machine) pourraient être intéressés par Shamir et al. (2014) (pour un exemple en utilisant l' audio) et Cheng and Bernstein (2015) . En outre, ces projets peuvent être faites avec des appels ouverts, de sorte que les chercheurs sont en concurrence pour créer des modèles d'apprentissage de la machine avec la plus grande performance prédictive. Par exemple, l'équipe Galaxy Zoo a couru un appel ouvert et a trouvé une nouvelle approche qui a surpassé celle développée dans Banerji et al. (2010) ; voir Dieleman, Willett, and Dambre (2015) pour plus de détails.

  • Appels ouverts (section 5.3)

Appels ouverts ne sont pas nouvelles. En fait, l'un des appels ouverts les plus connus remonte à 1714, lorsque le Parlement britannique a créé le Prix Longitude pour tous ceux qui pourraient développer une façon de déterminer la longitude d'un navire en mer. Le problème perplexe bon nombre des plus grands scientifiques de l'époque, y compris Isaac Newton et la solution gagnante a finalement été soumise par un horloger de la campagne qui a abordé le problème différemment des scientifiques qui se sont concentrés sur une solution qui serait en quelque sorte impliquer l' astronomie (Sobel 1996) . Comme le montre cet exemple, une des raisons pour que les appels sont pensés pour fonctionner si bien est qu'ils fournissent l' accès aux personnes ayant des perspectives différentes et des compétences (Boudreau and Lakhani 2013) . Voir Hong and Page (2004) et la Page (2008) pour en savoir plus sur la valeur de la diversité dans la résolution de problèmes.

Chacun des cas d'appels ouverts dans le chapitre exige un peu plus d'explications pour expliquer pourquoi il appartient à cette catégorie. Tout d'abord, d'une façon que je distingue entre le calcul humain et les projets d'appels ouverts est de savoir si la sortie est une moyenne de toutes les solutions (calcul humain) ou la meilleure solution (appel ouvert). Le Prix Netflix est un peu délicate à cet égard parce que la meilleure solution est avéré être un moyen sophistiqué de solutions individuelles, une approché appelé une solution ensemble (Bell, Koren, and Volinsky 2010; Feuerverger, He, and Khatri 2012) . Du point de vue de Netflix, cependant, tout ce qu'ils avaient à faire était de choisir la meilleure solution.

Deuxièmement, selon certaines définitions de calcul humain (par exemple, Von Ahn (2005) ), Foldit devrait être considéré comme un projet de calcul humain. Cependant, je choisis de classer Foldit comme un appel, car il exige des compétences spécialisées et il faut la meilleure solution a contribué, plutôt que d'utiliser un apply-combiner scission stratégie.

Enfin, on pourrait dire que est Peer-to-Patent un exemple de collecte de données distribuées. Je choisis de l'inclure comme un appel, car il a une structure concours-like et seules les meilleures contributions sont utilisées (alors que la collecte de données distribuée, l'idée de bonnes et de mauvaises contributions est moins claire).

Pour en savoir plus sur le Prix Netflix, voir Bennett and Lanning (2007) , Thompson (2008) , Bell, Koren, and Volinsky (2010) , et Feuerverger, He, and Khatri (2012) . Pour en savoir plus sur Foldit voir, Cooper et al. (2010) , Andersen et al. (2012) , et Khatib et al. (2011) ; ma description de Foldit puise dans les descriptions de Nielsen (2012) , Bohannon (2009) , et à la Hand (2010) . Pour en savoir plus sur Peer-to-brevets, voir Noveck (2006) , Bestor and Hamp (2010) , Ledford (2007) , et Noveck (2009) .

Comme pour les résultats de Glaeser et al. (2016) , Mayer-Schönberger and Cukier (2013) , chapitre 10 rapports d' importants gains de productivité des inspecteurs de logement à New York lors des inspections sont guidées par des modèles prédictifs. A New York, ces modèles prédictifs ont été construits par les employés de la ville, mais dans d' autres cas, on pourrait imaginer qu'ils pourraient être créés ou améliorés avec des appels ouverts (par exemple, Glaeser et al. (2016) ). Cependant, une préoccupation majeure avec des modèles prédictifs utilisés pour allouer des ressources est que les modèles ont le potentiel de renforcer les préjugés existants. De nombreux chercheurs savent déjà "garbage in, garbage out", et avec des modèles prédictifs il peut être «préjugé, parti pris dehors." Voir Barocas and Selbst (2016) et O'Neil (2016) pour en savoir plus sur les dangers des modèles prédictifs construits avec des données de formation biaisés.

Un problème qui pourrait empêcher les gouvernements d'utiliser des concours ouverts est qu'il exige la libération de données, ce qui pourrait conduire à des violations de la vie privée. Pour en savoir plus sur la confidentialité et la diffusion des données dans les appels ouverts voir Narayanan, Huey, and Felten (2016) et la discussion au chapitre 6.

  • La collecte de données distribuées (Section 5.4)

Ma description de eBird tire sur les descriptions dans Bhattacharjee (2005) et Robbins (2013) . Pour en savoir plus sur la façon dont les chercheurs utilisent des modèles statistiques pour analyser les données eBird voir Hurlbert and Liang (2012) et Fink et al. (2010) . Pour en savoir plus sur l'histoire de la science des citoyens à ornothology, voir Greenwood (2007) .

Pour en savoir plus sur le projet Journals Malawi, voir Watkins and Swidler (2009) et Kaler, Watkins, and Angotti (2015) . Et pour en savoir plus sur un projet connexe en Afrique du Sud, voir Angotti and Sennott (2015) . Pour plus d' exemples de données de recherche à l' aide du Projet Malawi Journaux voir Kaler (2004) et Angotti et al. (2014) .

  • Concevoir votre propre (Section 5.5)

Mon approche d'offrir des conseils de conception était inductive, sur la base des exemples de succès et a échoué projets de collaboration de masse que j'ai entendu parler. Il y a aussi un courant de recherche tente d'appliquer les théories psychologiques sociaux plus généraux à la conception des communautés en ligne qui se rapportent à la conception des projets de collaboration de masse, voir, par exemple, Kraut et al. (2012) .

En ce qui concerne les participants de motivation, il est en fait assez difficile de comprendre exactement pourquoi les gens participent à des projets de collaboration de masse (Nov, Arazy, and Anderson 2011; Cooper et al. 2010, Raddick et al. (2013) ; Tuite et al. 2011; Preist, Massung, and Coyle 2014) . Si vous envisagez de motiver les participants avec le paiement sur un marché du travail micro-tâche (par exemple, Amazon Mechanical Turk) Kittur et al. (2013) propose quelques conseils.

En ce qui concerne permettant surprise, pour plus d' exemples de découvertes inattendues qui sortent des projets zooniverse, voir Marshall, Lintott, and Fletcher (2015) .

En ce qui concerne être éthique, quelques bonnes introductions générales aux enjeux sont Gilbert (2015) , Salehi et al. (2015) , Schmidt (2013) , Williamson (2016) , Resnik, Elliott, and Miller (2015) , et Zittrain (2008) . Pour les questions spécifiquement liées aux questions juridiques avec les employés de la foule, voir Felstiner (2011) . O'Connor (2013) traite des questions sur la surveillance éthique de la recherche lorsque les rôles des chercheurs et des participants brouillent. Pour les questions relatives à l'échange de données tout en protégeant participats dans des projets de science citoyenne, voir Bowser et al. (2014) . Les deux Purdam (2014) et Windt and Humphreys (2016) ont une discussion sur les questions d' éthique dans la collecte des données distribuées. Enfin, la plupart des projets reconnaissent les contributions, mais ne donnent pas de crédit de l'auteur aux participants. En Foldit, les joueurs Foldit sont souvent répertoriés comme auteur (Cooper et al. 2010; Khatib et al. 2011) , (Cooper et al. 2010; Khatib et al. 2011) . Dans d' autres projets d'appel ouvert, le contributeur peut souvent gagner écrire un article décrivant leurs solutions (par exemple, Bell, Koren, and Volinsky (2010) et Dieleman, Willett, and Dambre (2015) ). Dans la famille Galaxy Zoo des projets, des contributeurs très actifs et importants sont parfois invités à être co-auteurs sur les papiers. Par exemple, Ivan Terentev et Tim Matorny, deux participants Radio Galaxy Zoo de la Russie, étaient co-auteurs sur l' un des documents qui ont découlé de ce projet (Banfield et al. 2016; Galaxy Zoo 2016) .