5.2.1 Galaxy Zoo

Galaxy Zoo combine les efforts de nombreux bénévoles non-experts pour classer un million de galaxies.

Galaxy Zoo est née d'un problème rencontré par Kevin Schawinski, un étudiant diplômé en astronomie à l'Université d'Oxford en 2007. Simplifier un peu, Schawinski était intéressé par les galaxies et les galaxies peuvent être classés par leur morphologie elliptique ou en spirale et par leur couleur bleu ou rouge. A l'époque, la sagesse conventionnelle parmi les astronomes est que les galaxies spirales, comme notre Voie Lactée, étaient de couleur bleue (jeunes indiquant) et que les galaxies elliptiques sont de couleur rouge (indiquant la vieillesse). Schawinski douter cette sagesse conventionnelle. Il soupçonne que si ce modèle pourrait être vrai en général, il y avait probablement un nombre important d'exceptions, et que par l'étude de beaucoup de ces galaxies-les inhabituelles ceux qui ne correspondaient pas à l'attendre motif qu'il pouvait apprendre quelque chose sur le processus par lequel galaxies se sont formées.

Ainsi, ce qui Schawinski nécessaire pour renverser la sagesse conventionnelle était un grand ensemble de galaxies morphologiquement petites; qui est, les galaxies qui avaient été classées comme étant soit en spirale ou elliptique. Le problème, cependant, est que les méthodes algorithmiques existants de classification ne sont pas encore assez bon pour être utilisé pour la recherche scientifique; en d'autres termes, les galaxies de classification était, à ce moment-là, un problème qui a été difficile pour les ordinateurs. Par conséquent, ce qui était nécessaire était un grand nombre de galaxies classées humaines. Schawinski a entrepris ce problème de classification avec l'enthousiasme d'un étudiant diplômé. Dans une session marathon de sept, 12 heures par jour, il a été en mesure de classer 50.000 galaxies. Alors que 50.000 galaxies peuvent sembler beaucoup, il est en fait seulement environ 5% des près d'un million de galaxies qui avaient été photographiés dans le Sloan Digital Sky Survey. Schawinski a réalisé qu'il avait besoin d'une approche plus évolutive.

Heureusement, il se trouve que la tâche des galaxies de classification ne nécessite pas de formation avancée en astronomie; vous pouvez enseigner à quelqu'un de le faire assez rapidement. En d'autres termes, même si la classification des galaxies est une tâche qui a été difficile pour les ordinateurs, il était très facile pour les humains. Ainsi, alors qu'il était assis dans un pub à Oxford, Schawinski et son compatriote astronome Chris Lintott imaginé un site Web où les bénévoles se classer des images de galaxies. Quelques mois plus tard, Galaxy Zoo est né.

Sur le site Galaxy Zoo, les volontaires seraient soumis à quelques minutes de formation; par exemple, l'apprentissage de la différence entre la spirale et galaxie elliptique (figure 5.2). Après cette formation, les volontaires ont dû passer une classification relativement facile quiz correctement 11 des 15 galaxies avec classifications connues et puis le volontaire commencerait classification réelle des galaxies inconnues par le biais d'une interface web simple (Figure 5.3). La transition du bénévolat à l'astronome aurait lieu en moins de 10 minutes et seulement nécessaire passer le plus bas d'obstacles, un quiz simple.

Figure 5.2: Des exemples des deux principaux types de galaxies: spirale et elliptique. Le projet Galaxy Zoo utilisé plus de 100.000 volontaires à des catégories plus de 900.000 images. Source: www.galaxyzoo.org.

Figure 5.2: Des exemples des deux principaux types de galaxies: spirale et elliptique. Le projet Galaxy Zoo utilisé plus de 100.000 volontaires à des catégories plus de 900.000 images. Source: www.galaxyzoo.org .

Figure 5.3: écran d'entrée où on a demandé aux électeurs de classer une seule image. Source: www.galaxyzoo.org.

Figure 5.3: écran d'entrée où on a demandé aux électeurs de classer une seule image. Source: www.galaxyzoo.org .

Galaxy Zoo a attiré ses premiers volontaires après que le projet a été présenté dans un article de nouvelles, et dans environ six mois, le projet est né d'impliquer plus de 100.000 citoyens scientifiques, les personnes qui ont participé parce qu'ils ont apprécié la tâche et qu'ils voulaient aider l'astronomie avance. Ensemble, ces 100.000 bénévoles ont contribué un total de plus de 40 millions de classifications, la majorité des classifications provenant d'un groupe relativement restreint, noyau de participants (Lintott et al. 2008) , (Lintott et al. 2008) .

Les chercheurs qui ont l'expérience d'embauche d'assistants de recherche de premier cycle pourraient être immédiatement sceptiques quant à la qualité des données. Bien que ce scepticisme est raisonnable, Galaxy Zoo montre que lorsque les contributions volontaires sont correctement nettoyés, debiased, et agrégées, ils peuvent produire des résultats de haute qualité (Lintott et al. 2008) , (Lintott et al. 2008) . Un truc important pour obtenir la foule pour créer des données de qualité professionnelle est la redondance; qui est, ayant la même tâche réalisée par de nombreuses personnes différentes. Dans Galaxy Zoo, il y avait environ 40 classifications par galaxie; les chercheurs qui utilisent des assistants de recherche de premier cycle ne pourrait jamais se permettre ce niveau de redondance et ont donc besoin d'être beaucoup plus préoccupés par la qualité de chaque classement individuel. Ce que les volontaires manquaient dans la formation, ils ont fait pour la redondance.

Même avec plusieurs classifications par galaxie, cependant, combinant l'ensemble des classifications de bénévoles pour produire une classification de consensus est délicate. Parce que des défis très similaires se posent dans la plupart des projets de calcul des droits, il est utile d'examiner brièvement les trois étapes que les chercheurs Galaxy Zoo utilisés pour produire leurs classifications de consensus. Tout d'abord, les chercheurs ont "nettoyé" les données en supprimant les classifications fausses. Par exemple, les gens qui ont classé à plusieurs reprises la même galaxie, quelque chose qui se passerait s'ils essayaient de manipuler les résultats, avaient toutes leurs classifications rejetées. Ceci et d'autres nettoyage similaire retiré environ 4% de toutes les classifications.

Deuxièmement, après le nettoyage, les chercheurs ont besoin pour éliminer les biais systématiques dans les classifications. Grâce à une série d'études de détection de polarisation incorporés dans l'exemple de projet pour origine, montrant quelques volontaires de la galaxie en monochrome au lieu de couleur , les chercheurs ont découvert plusieurs biais systématiques, comme un biais systématique pour classer les galaxies loin en spirale que les galaxies elliptiques (Bamford et al. 2009) , (Bamford et al. 2009) . Réglage de ces biais systématiques est extrêmement important parce que la moyenne de nombreuses contributions ne supprime pas de biais systématique; il ne supprime l'erreur aléatoire.

Enfin, après dépolarisation, les chercheurs ont besoin d'une méthode pour combiner les classifications individuelles pour produire une classification de consensus. La façon la plus simple de combiner classifications pour chaque galaxie serait de choisir la classification la plus courante. Cependant, cette approche donnerait chaque volontaire poids égal, et les chercheurs ont suspecté que certains bénévoles étaient mieux au classement que d'autres. Par conséquent, les chercheurs ont développé une procédure de pondération itérative plus complexe qui tente de détecter automatiquement les meilleurs classificateurs et leur donner plus de poids.

Ainsi, après trois étapes processus de nettoyage, dépolarisation, et la pondération-équipe de recherche Galaxy Zoo avait converti 40 millions de classifications volontaires dans un ensemble de consensus classifications morphologiques. Lorsque ces classifications Galaxy Zoo ont été comparées à trois précédentes tentatives plus petite échelle par des astronomes professionnels, y compris la classification par Schawinski qui a contribué à inspirer Galaxy Zoo, il y avait une forte entente. Ainsi, les volontaires, au total, ont été en mesure de fournir des classifications de haute qualité et à une échelle que les chercheurs ne pouvaient pas correspondre (Lintott et al. 2008) , (Lintott et al. 2008) . En fait, en ayant des classifications humaines pour un si grand nombre de galaxies, Schawinski, Lintott, et d'autres ont pu montrer que seulement environ 80% des galaxies suivent les spirales attendues de motif bleu et ellipticals-et rouges de nombreux articles ont été écrits sur cette découverte (Fortson et al. 2011) , (Fortson et al. 2011) .

Dans ce contexte, nous pouvons maintenant voir comment Galaxy Zoo suit le split-apply-combiner recette, la même recette qui est utilisé pour la plupart des projets de calcul des droits. Tout d' abord, un gros problème est divisé en morceaux. Dans ce cas, le problème de la classification d'un million de galaxies est divisé en un million de problèmes de classification d'une galaxie. Ensuite, une opération est appliquée à chaque bloc de façon indépendante. Dans ce cas, un volontaire serait classer chaque galaxie spirale ou elliptique. Enfin, les résultats sont combinés pour produire un résultat de consensus. Dans ce cas, l'étape de combiner inclus le nettoyage, dépolarisation, et la pondération pour produire une classification de consensus pour chaque galaxie. Même si la plupart des projets utilisent cette recette générale, chacune des étapes doit personnalisée au problème spécifique abordé. Par exemple, dans le projet de calcul humain décrit ci-dessous, la même recette sera suivie, mais les étapes d'appliquer et de combiner sera tout à fait différent.

Pour l'équipe Galaxy Zoo, ce premier projet était que le début. Très vite ils ont réalisé que même si elles étaient en mesure de classer près d'un million de galaxies, cette échelle ne suffit pas de travailler avec les études du ciel numérique les plus récents, ce qui pourrait produire des images d'environ 10 milliards de galaxies (Kuminski et al. 2014) . Pour faire face à une augmentation de 1000000-10000000000-un facteur de 10.000 Galaxy Zoo aurait besoin de recruter environ 10.000 fois plus de participants. Même si le nombre de bénévoles sur Internet est grand, il est pas infinie. Par conséquent, les chercheurs ont réalisé que si elles vont gérer des quantités toujours croissantes de données, une nouvelle encore plus évolutive, approche, était nécessaire.

Par conséquent, Manda Banerji-travail avec Kevin Schawinski, Chris Lintott, et d'autres membres des ordinateurs d'enseignement en équipe de départ Galaxy Zoo de classer les galaxies. Plus précisément, en utilisant les classifications humaines créées par Galaxy Zoo, Banerji et al. (2010) ont construit un modèle d'apprentissage de la machine qui pourrait prédire la classification humaine d'une galaxie en fonction des caractéristiques de l'image. Si ce modèle d'apprentissage de la machine pourrait reproduire les classifications humaines avec une grande précision, alors il pourrait être utilisé par les chercheurs Galaxy Zoo de classer un nombre essentiellement infini de galaxies.

Le noyau de l'approche Banerji et ses collègues est en fait assez similaire à des techniques couramment utilisées dans la recherche sociale, bien que la similitude pourrait ne pas être clair au premier coup d'œil. Tout d' abord, Banerji et ses collègues convertis chaque image en un ensemble de caractéristiques numériques qui résument ses propriétés. Par exemple, pour les images de galaxies il pourrait y avoir trois caractéristiques: la quantité de bleu dans l'image, la variance de la luminosité des pixels, et la proportion de pixels non blancs. La sélection des caractéristiques correctes est une partie importante du problème, et elle exige généralement une expertise en la matière. Cette première étape, communément appelée fonction d' ingénierie, se traduit par une matrice de données avec une ligne par image, puis trois colonnes décrivant cette image. Compte tenu de la matrice de données et la sortie désirée (par exemple, si l'image a été classé par un être humain comme une galaxie elliptique), le chercheur estime les paramètres d'un exemple de modèle à des fins statistiques, quelque chose comme une régression qui logistique prédit la classification humaine basée les caractéristiques de l'image. Enfin, le chercheur utilise les paramètres dans ce modèle statistique pour produire des classifications estimées de nouvelles galaxies (figure 5.4). Pour penser à un analogue sociale, imaginez que vous avez eu des informations démographiques sur un million d'étudiants, et vous savez s'ils sont diplômés de l'université ou non. Vous pouvez ajuster une régression logistique à ces données, et ensuite vous pouvez utiliser les paramètres du modèle résultant de prédire si les nouveaux étudiants vont obtenir leur diplôme d'études collégiales. Dans l' apprentissage de la machine, cette approche utilisant des exemples étiquetés pour créer un modèle statistique qui peut alors marquer de nouvelles données-est appelé apprentissage supervisé (Hastie, Tibshirani, and Friedman 2009) .

Figure 5.4: Description simplifiée de la façon dont Banerji et al. (2010) ont utilisé les classifications Galaxy Zoo de former un modèle d'apprentissage de la machine à faire le classement galaxie. Images de galaxies ont été converties dans une matrice de fonctionnalités. Dans cet exemple simplifié, il y a trois caractéristiques (la quantité de bleu dans l'image, la variance de la luminosité des pixels, et la proportion de pixels non blancs). Ensuite, pour un sous-ensemble des images, les étiquettes Galaxy Zoo sont utilisés pour former un modèle d'apprentissage de la machine. Enfin, l'apprentissage de la machine est utilisée pour estimer les classifications pour les galaxies restantes. J'appelle ce genre de projet, un projet de calcul humain de deuxième génération parce que, plutôt que d'avoir l'homme à résoudre un problème, ils ont les humains construisent un ensemble de données qui peut être utilisé pour former un ordinateur pour résoudre le problème. L'avantage de cette approche assistée par ordinateur est qu'il vous permet de gérer des quantités essentiellement infinies de données en utilisant seulement une quantité limitée de l'effort humain.

Figure 5.4: Description simplifiée de la façon dont Banerji et al. (2010) ont utilisé les classifications Galaxy Zoo de former un modèle d'apprentissage de la machine à faire le classement galaxie. Images de galaxies ont été converties dans une matrice de fonctionnalités. Dans cet exemple simplifié, il y a trois caractéristiques (la quantité de bleu dans l'image, la variance de la luminosité des pixels, et la proportion de pixels non blancs). Ensuite, pour un sous-ensemble des images, les étiquettes Galaxy Zoo sont utilisés pour former un modèle d'apprentissage de la machine. Enfin, l'apprentissage de la machine est utilisée pour estimer les classifications pour les galaxies restantes. J'appelle ce genre de projet, un projet de calcul humain de deuxième génération parce que, plutôt que d'avoir l'homme à résoudre un problème, ils ont les humains construisent un ensemble de données qui peut être utilisé pour former un ordinateur pour résoudre le problème. L'avantage de cette approche assistée par ordinateur est qu'il vous permet de gérer des quantités essentiellement infinies de données en utilisant seulement une quantité limitée de l'effort humain.

Les fonctionnalités de Banerji et al. (2010) modèle d'apprentissage de la machine étaient plus complexes que ceux de mon jouet par exemple, par exemple, elle a utilisé des fonctionnalités telles que "de Vaucouleurs adapter rapport axial» -et son modèle n'a pas été régression logistique, il était un réseau neuronal artificiel. En utilisant ses fonctionnalités, son modèle, et les consensus classifications Galaxy Zoo, elle a été en mesure de créer des poids sur chaque fonction, et ensuite utiliser ces poids pour faire des prédictions au sujet de la classification des galaxies. Par exemple, l'analyse a révélé que les images à faible "de Vaucouleurs adaptent rapport axial" étaient plus susceptibles d'être des galaxies spirales. Compte tenu de ces poids, elle a été en mesure de prédire la classification humaine d'une galaxie avec une précision raisonnable.

Les travaux de Banerji et al. (2010) tourné Galaxy Zoo dans ce que je qualifierais d' un système de calcul humain de deuxième génération. La meilleure façon de penser à ces systèmes de deuxième génération est que, plutôt que d'avoir des êtres humains à résoudre un problème, ils ont les humains construisent un ensemble de données qui peut être utilisé pour former un ordinateur pour résoudre le problème. La quantité de données nécessaires pour former l'ordinateur peut être si grand qu'il exige une collaboration de masse humaine pour créer. Dans le cas du Galaxy Zoo, les réseaux de neurones utilisés par Banerji et al. (2010) exigeait un très grand nombre d'exemples de l' homme marqué afin de construire un modèle qui a été en mesure de reproduire de manière fiable la classification humaine.

L'avantage de cette approche assistée par ordinateur est qu'il vous permet de gérer des quantités essentiellement infinies de données en utilisant seulement une quantité limitée de l'effort humain. Par exemple, un chercheur avec un million de galaxies classées humaines peut construire un modèle prédictif qui peut ensuite être utilisé pour classer un milliard ou même un billion de galaxies. S'il y a un nombre considérable de galaxies, alors ce genre d'homme-ordinateur hybride est vraiment la seule solution possible. Cette évolutivité infinie est pas libre, cependant. Construire un modèle d'apprentissage de la machine qui peut reproduire correctement les classifications humaines est elle - même un problème difficile, mais heureusement , il y a déjà d' excellents livres consacrés à ce sujet (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo montre l'évolution de nombreux projets de calcul des droits. Tout d'abord, un chercheur tente projet par elle-même ou avec une petite équipe d'assistants de recherche (par exemple, l'effort de classification initiale de Schawinski). Si cette approche ne pas bien, le chercheur peut se déplacer à un projet de calcul humain où beaucoup de gens contribuent classifications. Mais, pour un certain volume de données, l'effort humain pur ne sera pas suffisant. À ce moment-là, les chercheurs ont besoin pour construire des systèmes de deuxième génération où classifications humaines sont utilisées pour former un modèle d'apprentissage de la machine qui peut ensuite être appliqué à des quantités pratiquement illimitées de données.