5.2.1 Galaxy Zoo

Galaxy Zoo combina los esfuerzos de muchos voluntarios no expertos para clasificar un millón de galaxias.

Galaxy Zoo surgió a partir de un problema que enfrentan Kevin Schawinski, un estudiante graduado en astronomía en la Universidad de Oxford en 2007. simplificando un poco, Schawinski estaba interesado en las galaxias y las galaxias se pueden clasificar por su morfología elíptica o en espiral y por su color, azul o rojo. En ese momento, la sabiduría convencional entre los astrónomos es que las galaxias espirales, como nuestra Vía Láctea, eran de color azul (que indica la juventud) y que las galaxias elípticas eran de color rojo (que indica la vejez). Schawinski dudaba de esta sabiduría convencional. Sospechaba que, si bien este patrón podría ser cierto en general, probablemente hubo un considerable número de excepciones, y que mediante el estudio de una gran cantidad de estas galaxias -las inusuales los que no se ajustan a la espera de patrones que podía aprender algo sobre el proceso a través del cual galaxias se formaron.

Por lo tanto, lo que Schawinski necesario con el fin de revertir la sabiduría convencional era un gran conjunto de galaxias morfológicamente de anuncios; es decir, las galaxias que habían sido clasificadas como espiral o elíptica. El problema, sin embargo, era que los métodos algorítmicos de clasificación ya no eran lo suficientemente bueno para ser utilizado para la investigación científica; en otras palabras, las galaxias clasificación era, en ese momento, un problema que era difícil para las computadoras. Por lo tanto, lo que se necesitaba era un gran número de galaxias clasificadas humanos. Schawinski emprendió este problema de clasificación con el entusiasmo de un estudiante graduado. En una maratónica sesión de siete días, 12 horas, fue capaz de clasificar 50.000 galaxias. Mientras que 50.000 galaxias pueden sonar como mucho, en realidad es sólo el 5% de los casi un millón de galaxias que había sido fotografiado en el Sloan Digital Sky Survey. Schawinski cuenta de que necesitaba un enfoque más escalable.

Afortunadamente, resulta que la tarea de clasificar las galaxias no requiere una formación avanzada en astronomía; se puede enseñar a alguien que lo haga con bastante rapidez. En otras palabras, a pesar de que la clasificación de las galaxias es una tarea que era difícil para los ordenadores, que fue bastante fácil para los seres humanos. Así, mientras se está sentado en un bar en Oxford, Schawinski y compañero astrónomo Chris Lintott ideó un sitio web donde los voluntarios clasificarían imágenes de galaxias. Unos meses más tarde, Galaxy Zoo nació.

En el sitio web de Galaxy Zoo, los voluntarios se someterían a unos minutos de entrenamiento; por ejemplo, el aprendizaje de la diferencia entre una espiral y la galaxia elíptica (Figura 5.2). Después de esta formación, los voluntarios tuvieron que pasar unos clasificación relativamente fácil quiz-correctamente 11 de 15 galaxias conocidas con clasificaciones y luego el voluntario comenzaría la clasificación real de galaxias desconocidas a través de una sencilla interfaz basada en la web (Figura 5.3). La transición de voluntarios para el astrónomo se llevaría a cabo en menos de 10 minutos y sólo se requiere pasar el más bajo de obstáculos, una prueba sencilla.

Figura 5.2: Ejemplos de los dos tipos principales de las galaxias: espirales y elípticas. El proyecto Galaxy Zoo utiliza más de 100.000 voluntarios para categorías más de 900.000 imágenes. Fuente: www.galaxyzoo.org.

Figura 5.2: Ejemplos de los dos tipos principales de las galaxias: espirales y elípticas. El proyecto Galaxy Zoo utiliza más de 100.000 voluntarios para categorías más de 900.000 imágenes. Fuente: www.galaxyzoo.org .

Figura 5.3: Pantalla de introducción, donde se pidió a los votantes para clasificar una sola imagen. Fuente: www.galaxyzoo.org.

Figura 5.3: Pantalla de introducción, donde se pidió a los votantes para clasificar una sola imagen. Fuente: www.galaxyzoo.org .

Galaxy Zoo atrajo a sus voluntarios iniciales después de que el proyecto fue presentado en un artículo de noticias, y en unos seis meses, el proyecto creció para involucrar a más de 100.000 ciudadanos científicos, las personas que participaron, ya que disfrutaron de la tarea y querían ayudar a la astronomía antelación. En conjunto, estos 100.000 voluntarios contribuyeron con un total de más de 40 millones de clasificaciones, con la mayoría de las clasificaciones procedentes de un grupo relativamente pequeño, el núcleo de los participantes (Lintott et al. 2008) .

Los investigadores que tienen experiencia contratar asistentes de investigación universitarios sería posible seguir escépticos acerca de la calidad de datos. Mientras que este escepticismo es razonable, Galaxy Zoo muestra que cuando las contribuciones voluntarias se limpian correctamente, debiased, y se agregan, pueden producir resultados de alta calidad (Lintott et al. 2008) . Un truco importante para conseguir la multitud para crear datos de calidad profesional es la redundancia; es decir, después de haber realizado la misma tarea por muchas personas diferentes. En Galaxy Zoo, había alrededor de 40 clasificaciones por galaxia; los investigadores que usan asistentes de investigación universitarios nunca podría permitirse este nivel de redundancia y por lo tanto tienen que ser mucho más preocupados por la calidad de cada clasificación individual. Lo que los voluntarios carecían de formación, lo compensaron con redundancia.

Incluso con múltiples clasificaciones por galaxia, sin embargo, la combinación del conjunto de clasificaciones de voluntarios para producir una clasificación de consenso es difícil. Debido a que surgen desafíos muy similares en la mayoría de los proyectos de computación humana, es útil revisar brevemente los tres pasos que los investigadores Galaxy Zoo utilizan para producir sus clasificaciones de consenso. En primer lugar, los investigadores "limpian" los datos mediante la eliminación de las clasificaciones falsas. Por ejemplo, las personas que en repetidas ocasiones clasifican la misma galaxia, algo que ocurriría si estuvieran tratando de manipular los resultados tenían todas sus clasificaciones-descartados. Esta y otras similares de limpieza elimina aproximadamente el 4% de todas las clasificaciones.

En segundo lugar, después de la limpieza, los investigadores necesitan para eliminar las desviaciones sistemáticas en las clasificaciones. A través de una serie de estudios de detección de sesgos implícitos dentro del proyecto, por ejemplo originales, mostrando algunos voluntarios de la galaxia en blanco y negro en lugar de color los investigadores descubrieron varias desviaciones sistemáticas, como un sesgo sistemático para clasificar galaxias muy lejos en espiral como las galaxias elípticas (Bamford et al. 2009) . El ajuste para estas desviaciones sistemáticas es extremadamente importante, ya que un promedio de muchas contribuciones no elimina el sesgo sistemático; sólo se elimina el error aleatorio.

Finalmente, después de debiasing, los investigadores necesitan un método para combinar las clasificaciones individuales para producir una clasificación de consenso. La forma más sencilla de combinar las clasificaciones de cada galaxia sería elegir la clasificación más común. Sin embargo, este enfoque daría a cada voluntario peso igual, y los investigadores sospechan que algunos de los voluntarios eran mejores en la clasificación que otros. Por lo tanto, los investigadores desarrollaron un procedimiento de ponderación iterativa más complejo que intenta detectar automáticamente los mejores clasificadores y darles más peso.

Por lo tanto, después de un proceso de limpieza de tres pasos, debiasing, y la ponderación equipo de investigación de Galaxy Zoo se había convertido 40 millones de clasificaciones de voluntarios en un conjunto de consenso clasificaciones morfológicas. Cuando estas clasificaciones Galaxy Zoo se compararon con tres intentos anteriores de menor escala por los astrónomos profesionales, incluida la clasificación por Schawinski que ayudó a inspirar Galaxy Zoo, existe un fuerte acuerdo. De este modo, los voluntarios, en total, fueron capaces de proporcionar las clasificaciones de alta calidad y en una escala que los investigadores no pudieron igualar (Lintott et al. 2008) . De hecho, al tener las clasificaciones humanos para un gran número de galaxias tal, Schawinski, Lintott, y otros fueron capaces de mostrar que sólo alrededor del 80% de las galaxias sigue las espirales esperados patrón azul y elípticas Rojo-y numerosos artículos se han escrito sobre este descubrimiento (Fortson et al. 2011) .

Teniendo en cuenta estos antecedentes, ahora podemos ver cómo sigue Galaxy Zoo la fracción de aplicar combinar-receta, la misma receta que se utiliza para la mayoría de los proyectos de computación humana. En primer lugar, un gran problema se divide en trozos. En este caso, el problema de la clasificación de un millón de galaxias se divide en un millón de problemas de la clasificación de una galaxia. A continuación, una operación se aplica a cada trozo de forma independiente. En este caso, un voluntario clasificaría cada galaxia, ya sea como espiral o elíptica. Finalmente, los resultados se combinan para producir un resultado de consenso. En este caso, la etapa de combinar incluye la limpieza, debiasing, y la ponderación para producir una clasificación de consenso para cada galaxy. Aunque la mayoría de los proyectos utilizan esta receta general, cada uno de los pasos tiene que personalizar al problema específico que se dirige. Por ejemplo, en el proyecto de computación humana se describe a continuación, la misma receta será seguida, pero los pasos se aplican y combinar será muy diferente.

Para el equipo de Galaxy Zoo, este primer proyecto era sólo el principio. Muy rápidamente se dieron cuenta de que a pesar de que fueron capaces de clasificar a cerca de un millón de galaxias, esta escala no es suficiente para trabajar con los nuevos estudios del cielo digitales, lo que podría producir imágenes de unos 10 mil millones de galaxias (Kuminski et al. 2014) . Para manejar una, de 1 millón a 10 millones de un factor de 10.000-Galaxy Zoo tendría que contratar a aproximadamente 10.000 veces más participantes. A pesar de que el número de voluntarios en Internet es grande, no es infinito. Por lo tanto, los investigadores se dieron cuenta de que si van a manejar cada vez mayores cantidades de datos, se necesitaba una nueva, aún más escalable, enfoque.

Por lo tanto, Manda Banerji-trabajar con Kevin Schawinski, Chris Lintott, y otros miembros de los equipos de enseñanza del equipo de arranque Galaxy Zoo para clasificar galaxias. Más específicamente, el uso de las clasificaciones humanos creados por Galaxy Zoo, Banerji et al. (2010) construyeron un modelo de aprendizaje de máquina que podría predecir la clasificación humana de una galaxia basado en las características de la imagen. Si este modelo de aprendizaje automático podría reproducir las clasificaciones humanos con una alta precisión, entonces podría ser utilizado por los investigadores Galaxy Zoo para clasificar un número esencialmente infinito de galaxias.

El núcleo del enfoque Banerji y sus colegas 'es en realidad muy similar a las técnicas utilizadas comúnmente en la investigación social, a pesar de que la similitud podría no ser clara a primera vista. En primer lugar, Banerji y sus colegas convierten cada imagen en un conjunto de características numéricas que resumen sus propiedades. Por ejemplo, para las imágenes de galaxias que podría haber tres características: la cantidad de azul en la imagen, la variación en el brillo de los píxeles, y la proporción de píxeles no blancos. La selección de las características correctas es una parte importante del problema, y ​​generalmente requiere experiencia-materia. Este primer paso, comúnmente llamada ingeniería característica, resulta en una matriz de datos con una fila por cada imagen y luego tres columnas que describen esa imagen. Dada la matriz de datos y la salida deseada (por ejemplo, si la imagen se clasificó por un ser humano como una galaxia elíptica), el investigador estima los parámetros de un modelo de de estadística ejemplo, algo así como una regresión que logística predice la clasificación humana basada en las características de la imagen. Por último, el investigador utiliza los parámetros de este modelo estadístico para producir clasificaciones estimado de nuevas galaxias (Figura 5.4). Para pensar en un análogo sociales, imaginar que tenías información demográfica sobre un millón de estudiantes, y saber si se graduaron de la universidad o no. Se podría ajustar una regresión logística para estos datos, y entonces se podría utilizar los parámetros resultantes para predecir si los nuevos estudiantes van a graduarse de la universidad. En el aprendizaje de máquina, este enfoque utilizando ejemplos etiquetados para crear un modelo estadístico que luego pueden etiquetar los nuevos datos que se llama-aprendizaje supervisado (Hastie, Tibshirani, and Friedman 2009) .

Figura 5.4: Descripción simplificada de cómo Banerji et al. (2010) utilizaron las clasificaciones Galaxy Zoo para entrenar un modelo de aprendizaje máquina para hacer de clasificación de galaxias. Las imágenes de las galaxias se convirtieron en una matriz de características. En este ejemplo simplificado, hay tres características (la cantidad de azul en la imagen, la variación en el brillo de los píxeles, y la proporción de píxeles no blancos). Entonces, para un subconjunto de las imágenes, las etiquetas de Galaxy Zoo se utilizan para entrenar un modelo de aprendizaje automático. Por último, el aprendizaje automático se utiliza para calcular las clasificaciones de las galaxias restantes. Yo llamo a este tipo de proyecto de un proyecto computacional humano de segunda generación, ya que, en lugar de tener los seres humanos resuelven un problema, que tienen los seres humanos construyen un conjunto de datos que se puede utilizar para entrenar a un equipo para resolver el problema. La ventaja de este enfoque es asistida por ordenador que le permite manejar cantidades esencialmente infinitas de datos utilizando sólo una cantidad finita de esfuerzo humano.

Figura 5.4: Descripción simplificada de cómo Banerji et al. (2010) utilizaron las clasificaciones Galaxy Zoo para entrenar un modelo de aprendizaje máquina para hacer de clasificación de galaxias. Las imágenes de las galaxias se convirtieron en una matriz de características. En este ejemplo simplificado, hay tres características (la cantidad de azul en la imagen, la variación en el brillo de los píxeles, y la proporción de píxeles no blancos). Entonces, para un subconjunto de las imágenes, las etiquetas de Galaxy Zoo se utilizan para entrenar un modelo de aprendizaje automático. Por último, el aprendizaje automático se utiliza para calcular las clasificaciones de las galaxias restantes. Yo llamo a este tipo de proyecto de un proyecto computacional humano de segunda generación, ya que, en lugar de tener los seres humanos resuelven un problema, que tienen los seres humanos construyen un conjunto de datos que se puede utilizar para entrenar a un equipo para resolver el problema. La ventaja de este enfoque es asistida por ordenador que le permite manejar cantidades esencialmente infinitas de datos utilizando sólo una cantidad finita de esfuerzo humano.

Las características en Banerji et al. (2010) de la máquina modelo de aprendizaje eran más complejos que los de mi juguete ejemplo-, por ejemplo, se utiliza características como "de Vaucouleurs encaja relación axial", y su modelo no era de regresión logística, que era una red neuronal artificial. Usando sus características, su modelo, y el consenso clasificaciones Galaxy Zoo, ella fue capaz de crear los pesos en cada función, y luego usar estos pesos para hacer predicciones sobre la clasificación de las galaxias. Por ejemplo, su análisis encontró que las imágenes de baja "de Vaucouleurs, aptos relación axial" eran más propensos a ser galaxias espirales. Teniendo en cuenta estos pesos, fue capaz de predecir la clasificación humana de una galaxia con una precisión razonable.

El trabajo de Banerji et al. (2010) se convirtió Galaxy Zoo en lo que yo llamaría un sistema de computación humana de segunda generación. La mejor manera de pensar acerca de estos sistemas de segunda generación es que los seres humanos que tienen lugar de resolver un problema, que tienen los seres humanos construyen un conjunto de datos que se puede utilizar para entrenar a un equipo para resolver el problema. La cantidad de datos necesarios para entrenar el equipo puede ser tan grande que requiere una colaboración masa humana para crear. En el caso de Galaxy Zoo, las redes neuronales utilizados por Banerji et al. (2010) requiere un número muy grande de ejemplos humana marcada con el fin de construir un modelo que fue capaz de reproducir de forma fiable la clasificación humano.

La ventaja de este enfoque es asistida por ordenador que le permite manejar cantidades esencialmente infinitas de datos utilizando sólo una cantidad finita de esfuerzo humano. Por ejemplo, un investigador con un millón de galaxias clasificadas humanos puede construir un modelo predictivo que luego pueden ser utilizados para clasificar un mil millones o incluso un billón de galaxias. Si hay un enorme número de galaxias, entonces este tipo de híbrido humano-computadora es realmente la única solución posible. Esta escalabilidad infinita no es libre, sin embargo. La construcción de un modelo de aprendizaje máquina que puede reproducir correctamente las clasificaciones humanos es en sí mismo un problema difícil, pero afortunadamente ya hay excelentes libros dedicados a este tema (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo muestra la evolución de muchos proyectos de computación humana. En primer lugar, un investigador intenta el proyecto por sí misma o con un pequeño equipo de asistentes de investigación (por ejemplo, el esfuerzo clasificación inicial de Schawinski). Si este enfoque no escala bien, el investigador puede pasar a un proyecto de computación humana donde muchas personas contribuyen clasificaciones. Pero, para un determinado volumen de datos, el esfuerzo humano puro no será suficiente. En ese momento, los investigadores necesitan para construir sistemas de segunda generación donde se utilizan las clasificaciones humanos para entrenar un modelo de aprendizaje automático que puede ser aplicado a cantidades prácticamente ilimitadas de datos.