5.2.1星系动物园

星系动物园结合了许多非专业志愿者的努力,一万个星系进行分类。

星系动物园的前身是于2007年简化了不少,Schawinski感兴趣的星系所面临的凯文Schawinski,研究生在​​牛津大学天文学的问题,和星系可以被归类它们的形态,椭圆形或螺旋和可以通过颜色蓝色或红色。当时,天文学家之间的传统智慧是螺旋星系,就像我们的银河系,是在颜色(表明青年)的蓝色和椭圆星系是在红色(表示老年)。 Schawinski怀疑这种传统智慧。他怀疑,尽管这种模式可能是一般真实的,大概有例外的一个相当大的数量,并通过研究大量的这些不寻常的星系,在那不适合的人的预期模式,他可以学到一些有关的程序,通过这种星系形成的。

因此,那些Schawinski必要的,以颠覆传统的智慧是一大套形态分类星系;即,已被分类为螺旋或椭圆星系。的问题,然而,是现有的分类算法的方法尚未足够好以用于科研;换句话说,分类星系是,在那个时候,这是很难的计算机中的问题。因此,需要的是大量的人力分类的星系。 Schawinski进行这种分类问题,研究生的积极性。在七,12个小时马拉松会议上,他能够到50000个星系进行分类。虽然50000的星系可能听起来很多,但实际上只有5%左右的近百万个星系先前她在斯隆数字巡天被拍到的。 Schawinski意识到他需要一个更加可扩展的方法。

幸运的是,事实证明,分类星系的任务不需要在天文学高级培训;你可以教别人很快做到这一点。换句话说,即使分类星系是很难计算机任务,这是很容易为人类。所以,虽然坐在牛津,Schawinski和同事天文学家克里斯·林托特一家酒吧想出了一个网站,志愿者们进行分类星系图像。几个月后,星系动物园诞生了。

在星系动物园网站,志愿者将接受培训几分钟;例如,学习和螺旋椭圆星系(图5.2)之间的差异。这次培训后,志愿者必须通过一个相对容易的竞猜正确分类11月15日的星系已知分类,然后将志愿者通过一个简单的基于Web的界面(如图5.3)开始的未知星系的真实分类。从志愿者天文学家的转变将发生在不到10分钟,只需要通过最低的障碍,一个简单的测验。

图5.2:螺旋和椭圆:两种主要类型的星系的例子。该星系动物园项目采用超过10万志愿者的类别超过90万的图像多。来源:www.galaxyzoo.org。

图5.2:螺旋和椭圆:两种主要类型的星系的例子。该星系动物园项目采用超过10万志愿者的类别超过90万的图像多。来源: www.galaxyzoo.org

图5.3:输入屏幕,选民被要求单个图像进行分类。来源:www.galaxyzoo.org。

图5.3:输入屏幕,选民被要求单个图像进行分类。来源: www.galaxyzoo.org

星系动物园吸引了其最初的志愿者项目是在新闻报道后特色,并在半年左右的项目发展到涉及超过10万公民科学家,人谁参加,因为他们享有的任务,他们想帮助推进天文学。总之,这些志愿者10万,共40多万元的分类作出了贡献,主要来自参与者相对较少,核心小组来的分类(Lintott et al. 2008)

谁有经验的招聘本科生科研助理研究人员可能会立即会怀疑数据的质量。虽然这种怀疑是合理的,星系动物园表明,当志愿人员的贡献完全清洁干净,debiased,并汇总,就可以生产出高品质的结果(Lintott et al. 2008)获取人群创建专业品质的数据的一个重要技巧是冗余 ;即,具有相同的任务由许多不同的人进行。在星系动物园,有每银河系约40分类;使用本科生研究助理可能永远买不起这个级别的冗余,因此研究人员需要更加关注每个分类的质量。什么是志愿者培训缺乏,他们提出了与冗余。

即使每星系多个分类,然而,组合所述一组志愿者分类,以产生一种共识分类是棘手的。由于非常相似的挑战,在大多数人的计算项目的出现,是有帮助的简要回顾了星系动物园的研究人员用来制作他们的共识分类的三个步骤。首先,研究人员通过删除虚假分类“干净”的数据。例如,谁一再归类同一星系的东西,如果他们试图操纵这会发生人的结果,有其所有分类丢弃。这个和其它类似的清洗除去所有分类的约4%。

二,清洗后,研究者需要删除分类系统偏差。通过一系列的嵌入式原来的项目,例如在偏差检测的研究,显示出一些志愿者单色,而不是星系的颜色,研究人员发现一些系统性偏差,如系统性偏差到很远的螺旋星系椭圆星系进行分类(Bamford et al. 2009)调整这些系统偏差,因为平均的许多贡献不排除系统性偏差是非常重要的;它不仅能消除随机误差。

最后,消除直流偏压之后,研究人员需要对个人分类相结合,产生了共识分类的方法。为每个星系结合分类的最简单的方法是将选择最常见的分类。但是,这种做法会给每个志愿者相同的权重,而研究人员怀疑,一些志愿者在分类比别人做得更好。因此,研究人员开发了尝试自动检测的最佳分类器和给予他们更多重量的更复杂的迭代加权程序。

因此,三个步骤 - 清洁​​,消除直流偏压和加权星系动物园的研究团队经过改装了4000万志愿者分类为一组的共识形态分类。当这些星系动物园的分类进行了比较,由专业天文学家前三次小规模的尝试,包括通过Schawinski分类,有助于激发星系动物园,有强烈的共识。因此,志愿者,合共能够提供高品质的分类,并在规模,研究人员无法比拟(Lintott et al. 2008)事实上,有这样一个大量星系的人分类,Schawinski,林托特,以及其他能够证明,只有约80%的星系按照预期模式蓝色螺旋和红色椭圆和多篇论文已被写入有关这一发现(Fortson et al. 2011)

在此背景下,我们现在可以看到星系动物园如何遵循拆分申请-结合的配方,即用于大多数人计算项目相同的配方。首先,一个很大的问题被分为组块。在这种情况下,进行分类的百万星系的问题被分成一个星系进行分类的一百万的问题。接着,操作被独立地施加到每个块。在这种情况下,一个志愿者将每个星系如任一螺旋或椭圆形进行分类。最后,结果被组合以产生一个共识的结果。在这种情况下,结合步骤包括清洁,消除直流偏压,和加权以产生用于每个星系共识分类。虽然大多数项目使用通用配方,每个步骤需要定制特定的问题正在解决。例如,在下面描述的人类计算项目,相同的配方将遵循,但适用的结合步骤将是相当不同的。

对于星系动物园队来说,这第一个项目是刚刚开始。很快他们意识到,即使他们能够区分接近一百万个星系,这个规模还不足以与新的数字化巡天观测,这将产生约10十亿个星系的图像工作(Kuminski et al. 2014) 。为了处理从100万到10增加了数十亿10,000星系动物园的因素就需要招聘约10000倍更多的参与者。即使志愿者在因特网上的数量大,这是不是无限的。因此,研究人员意识到,如果他们要处理不断增长的数据量,需要一个新的,更加可扩展,方法。

因此,曼达巴纳吉工作的凯文Schawinski,克里斯·林托特和星系动物园团队开始教学电脑中的其他成员进行分类的星系。更具体地说,利用星系动物园,创造了人类的分类Banerji et al. (2010)建立了一个机器学习模型,可以预测基于图像特征的星系的人分类。如果这个机器学习模型可以重现人类的分类具有精度高,那么它可能会被星系动物园的研究人员用来星系实质上无限数量分类。

巴纳吉的和他的同事'方法的核心实际上是相当类似的社会研究常用的技巧,虽然这种相似可能不会在第一次一目了然。首先,巴纳吉和同事转换每个图像转换为一组汇总它的属性数值的功能 。例如,对于星系图片可以有三个特点:蓝色的图像中的量,在各像素的亮度方差和非白色像素比例。正确特性的选择是问题的一个重要组成部分,它通常需要学科领域的专家。这第一步,通常被称为功能的工程 ,导致数据矩阵,每幅图像行,然后三列描述的形象。给出的数据矩阵和所需的输出(例如,图像是否由一个人作为一个椭圆星系分类),研究者估计统计模型 - 例如参数,像逻辑回归-该预测基于人类分类上的图像的特性。最后,研究人员使用的参数在这个统计模型来产生新的星系估计的分类(图5.4)。想想看一个社会的模拟,设想你有一百万学生人口统计信息,你知道他们是否从大学或没有毕业。你可以安装一个回归到这个数据,那么你可以使用生成的模型参数来预测新的学生是否会从大学毕业。在机器学习,这种方法,使用标记的例子来创建一个统计模型,然后可以标注新的数据被称为监督学习 (Hastie, Tibshirani, and Friedman 2009)

图5.4:如何巴纳吉等人的简化描述。 (2010年)所使用的星系动物园分类训练机器学习模型做星系分类。星系图像被转换在功能矩阵。在该简化示例中有三个特征(蓝色的图像中的量,在各像素的亮度的方差和非白色象素的比例)。然后,对于图像的一个子集,银河动物园的标签被用来训练机器学习模型。最后,该机器学习用于估计分类为剩余的星系。我把这种项目的第二代人计算项目,因为,而不是人类解决一个问题,他们有人类构建可用于训练计算机解决问题的数据集。这种电脑辅助方法的优点是,它使您能够处理只使用人的努力是有限的数据量基本上是无限量的。

图5.4:如何简化描述Banerji et al. (2010)使用的星系动物园分类训练机器学习模型做星系分类。星系图像被转换在功能矩阵。在该简化示例中有三个特征(蓝色的图像中的量,在各像素的亮度的方差和非白色象素的比例)。然后,对于图像的一个子集,银河动物园的标签被用来训练机器学习模型。最后,该机器学习用于估计分类为剩余的星系。我把这种项目的第二代人计算项目,因为,而不是人类解决一个问题,他们有人类构建可用于训练计算机解决问题的数据集。这种电脑辅助方法的优点是,它使您能够处理只使用人的努力是有限的数据量基本上是无限量的。

在功能Banerji et al. (2010)机器学习模型均低于我的玩具的例子,例如,她用类似的特征更为复杂的“德沃古勒适合轴比” -和她的模型并不Logistic回归,这是一个人工神经网络。用她的特点,她的模型,并达成共识星系动物园的分类,她能够在每个功能创建的权重,然后利用这些权重做出关于星系的分类预测。例如,她的分析发现,与低“德沃古勒适合轴比”图像更可能是螺旋星系。鉴于这些权重,她是能够预测一个星系的人分类的合理准确。

的工作Banerji et al. (2010)变成星系动物园为我所说的第二代人脑运算系统。想想这些第二代系统的最好方法是,而不是人类解决一个问题,他们有人类构建可用于训练计算机解决问题的数据集。训练计算机所需的数据量可以是如此之大,它需要一个人的大规模协作来创建。在星系动物园,由所使用的神经网络的情况下, Banerji et al. (2010)要求,以建立一个模型,能够可靠地再现人类的分类非常多的人标记的例子。

这种电脑辅助方法的优点是,它使您能够处理只使用人的努力是有限的数据量基本上是无限量的。例如,一百万人的分类星系研究员可以建立,然后可以用于一个十亿甚至万亿星系分类预测模型。如果有星系的巨大的数字,那么这种人机混合的真的是唯一可能的解决方案。这无限的可扩展性是不是免费的,但是。建立一个机器学习模型,可以正确地再现人类的分类本身是一个很难的问题,但幸运的是,已经有专门为这个主题的优秀著作(Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013)

星系动物园表明许多人类计算项目的发展。首先,研究人员通过自己或研究助理的一个小团队(例如,Schawinski的初步分类的努力)试图项目。如果这种方法不能很好地扩展,研究者可以移动到一个人的计算项目中,很多人贡献的分类。但是,对于数据一定体积,纯净的人的努力是不够的。在这一点上,研究人员需要建立,其中人类分类是用于训练,然后可以应用到几乎无限量的数据的机器学习模型的第二代系统。