5.2.1星系动物园

银河动物园结合了许多非专业志愿者的努力,对一百万个星系进行了分类。

银河动物园是2007年牛津大学天文学研究生Kevin Schawinski面临的一个问题.Schawinski对星系很感兴趣,星系可以根据它们的形态 - 椭圆形或螺旋形 - 进行分类。由他们的颜色 - 蓝色或红色。当时,天文学家的传统智慧是螺旋星系,就像我们的银河系一样,呈蓝色(表示年轻),椭圆星系呈红色(表示老年)。 Schawinski怀疑这种传统智慧。他怀疑虽然这种模式总的来说可能是正确的,但可能有相当多的例外情况,并且通过研究这些不寻常的星系 - 那些不符合预期模式的星系 - 他可以了解一些关于过程的信息。星系形成。

因此,Schawinski为了推翻传统智慧所需要的是一大堆形态分类的星系;也就是说,被分类为螺旋或椭圆的星系。然而,问题在于现有的分类算法尚不足以用于科学研究;换句话说,在那个时候,对星系进行分类是一个对计算机来说很难的问题。因此,需要的是大量的人类分类星系。 Schawinski以研究生的热情承担了这个分类问题。在7个12小时的马拉松比赛中,他能够对50,000个星系进行分类。虽然50,000个星系可能听起来很多,但实际上在斯隆数字巡天中拍摄的近百万个星系中只有约5%。 Schawinski意识到他需要一种更具可扩展性的方法。

幸运的是,事实证明,分类星系的任务不需要在天文学高级培训;你可以教别人很快做到这一点。换句话说,即使分类星系是很难计算机任务,这是很容易为人类。所以,虽然坐在牛津,Schawinski和同事天文学家克里斯·林托特一家酒吧想出了一个网站,志愿者们进行分类星系图像。几个月后,星系动物园诞生了。

在银河动物园网站上,志愿者将接受几分钟的培训;例如,了解螺旋星系和椭圆星系之间的差异(图5.2)。在这次训练之后,每个志愿者必须通过一个相对简单的测验 - 正确分类15个具有已知分类的星系中的11个 - 然后通过简单的基于网络的界面开始对未知星系的真实分类(图5.3)。从志愿者到天文学家的过渡将在不到10分钟的时间内完成,只需要通过最低的障碍,一个简单的测验。

图5.2:两种主要类型星系的例子:螺旋星系和椭圆星系。银河动物园项目使用超过100,000名志愿者对超过900,000张图像进行分类。经http://www.GalaxyZoo.org和Sloan Digital Sky Survey许可转载。

图5.2:两种主要类型星系的例子:螺旋星系和椭圆星系。 Galaxy Zoo项目使用超过100,000名志愿者对超过900,000张图像进行分类。经http://www.GalaxyZoo.orgSloan Digital Sky Survey许可转载。

图5.3:输入屏幕,要求志愿者对单个图像进行分类。根据斯隆数字巡天的图像,由Chris Lintott许可转载。

图5.3:输入屏幕,要求志愿者对单个图像进行分类。根据斯隆数字巡天的图像,由Chris Lintott许可转载。

该项目在一篇新闻文章中被介绍后,银河动物园吸引了最初的志愿者,大约六个月后,该项目涉及超过10万名公民科学家,他们参与的人因为喜欢这项任务而希望帮助推进天文学。这10万名志愿者共同贡献了超过4,000万个分类,其中大部分分类来自相对较小的核心参与者群体(Lintott et al. 2008)

有聘请本科研究助理经验的研究人员可能会立即对数据质量持怀疑态度。虽然这种怀疑是合理的,但银河动物园表明,当志愿者贡献得到正确清理,消除和聚合时,它们可以产生高质量的结果(Lintott et al. 2008) 。让人群创建专业质量数据的一个重要技巧是冗余 ,即由许多不同的人执行相同的任务。在银河动物园,每个星系大约有40个分类;使用本科研究助理的研究人员永远无法承担这种程度的冗余,因此需要更加关注每个单独分类的质量。志愿者缺乏培训,他们弥补了冗余。

然而,即使每个星系有多个分类,结合一组志愿者分类来产生共识分类也是棘手的。由于在大多数人类计算项目中出现了非常类似的挑战,因此简要回顾一下银河动物园研究人员用于产生共识分类的三个步骤是有帮助的。首先,研究人员通过删除伪造的分类来“清理”数据。例如,那些反复对同一个星系进行分类的人 - 如果他们试图操纵结果就会发生这种情况 - 他们的所有分类都被丢弃了。这种和其他类似的清洁消除了约4%的所有分类。

其次,清洁后,研究人员需要消除分类中的系统偏差。通过在原始项目中嵌入的一系列偏差检测研究 - 例如,向一些志愿者展示单色而不是彩色的星系 - 研究人员发现了一些系统偏差,例如将遥远的螺旋星系分类为椭圆星系的系统偏差(Bamford et al. 2009) 。调整这些系统偏差非常重要,因为冗余不会自动消除系统偏差;它只能帮助消除随机错误。

最后,在去除之后,研究人员需要一种方法来组合各个分类以产生共识分类。将每个星系的分类组合起来的最简单方法是选择最常见的分类。然而,这种方法会给每个志愿者同等重量,研究人员怀疑一些志愿者在分类方面比其他人更好。因此,研究人员开发了一种更复杂的迭代加权程序,试图检测最佳分类器并赋予它们更多的权重。

因此,经过三步处理 - 清理,去除和加权 - 银河动物园研究团队已将4000万志愿者分类转化为一组共识形态分类。当这些银河动物园分类与专业天文学家此前三次较小规模的尝试进行比较时,包括Schawinski的分类有助于激发银河动物园,有很强的一致意见。因此,志愿者总体上能够提供高质量的分类,并且研究人员无法比拟(Lintott et al. 2008) 。事实上,通过对如此众多的星系进行人类分类,Schawinski,Lintott和其他人能够证明只有大约80%的星系遵循预期的模式 - 蓝色螺旋和红色椭圆 - 并且已经写了很多关于这一发现(Fortson et al. 2011)

有了这样的背景,您现在可以看到Galaxy Zoo如何遵循split-apply-combine配方,这与大多数人类计算项目使用的配方相同。首先,一个大问题被分成几块。在这种情况下,对一百万个星系进行分类的问题被分成了一百万个分类一个星系的问题。接下来,独立对每个块应用操作。在这种情况下,志愿者将每个星系分为螺旋形或椭圆形。最后,将结果组合以产生共识结果。在这种情况下,组合步骤包括清洁,去除和加权,以产生每个星系的共识分类。尽管大多数项目都使用这种通用配方,但每个步骤都需要根据要解决的具体问题进行定制。例如,在下面描述的人工计算项目中,将遵循相同的配方,但是应用和组合步骤将是完全不同的。

对于Galaxy Zoo团队来说,这个第一个项目才刚刚开始。他们很快意识到即使他们能够对接近一百万个星系进行分类,这个尺度还不足以与更新的数字天空调查一起工作,这可以产生大约100亿个星系的图像(Kuminski et al. 2014) 。要处理从100万到100亿的增长 - 10,000倍 - 银河动物园需要招募大约10,000倍的参与者。尽管互联网上的志愿者人数很多,但并不是无限的。因此,研究人员意识到,如果他们要处理不断增长的数据量,则需要一种新的,更具可扩展性的方法。

因此,Manda Banerji与Schawinski,Lintott和银河动物园团队的其他成员(2010)合作 - 开始教授计算机来对星系进行分类。更具体地说,使用由Galaxy Zoo创建的人类分类,Banerji建立了一个机器学习模型,可以根据图像的特征预测星系的人类分类。如果这个模型可以高精度地再现人类分类,那么它可以被银河动物园的研究人员用来对基本上无限数量的星系进行分类。

Banerji及其同事的方法的核心实际上与社会研究中常用的技术非常相似,尽管乍一看这种相似性可能并不清楚。首先,Banerji及其同事将每个图像转换为一组数字特征 ,总结了它的属性。例如,对于星系图像,可能有三个特征:图像中的蓝色量,像素亮度的变化以及非白色像素的比例。选择正确的特征是问题的一个重要部分,它通常需要学科领域的专业知识。第一步,通常称为特征工程 ,产生一个数据矩阵,每个图像有一行,然后是描述该图像的三列。给定数据矩阵和期望的输出(例如,图像是否被人类分类为椭圆星系),研究人员创建统计或机器学习模型 - 例如,逻辑回归 - 基于特征预测人类分类图像。最后,研究人员使用该统计模型中的参数来产生新星系的估计分类(图5.4)。在机器学习中,这种方法 - 使用标记的示例来创建可以标记新数据的模型 - 称为监督学习

图5.4:Banerji等人的简要描述。 (2010)使用Galaxy Zoo分类训练机器学习模型进行星系分类。星系图像在特征矩阵中转换。在该简化示例中,存在三个特征(图像中的蓝色量,像素的亮度的变化以及非白色像素的比例)。然后,对于图像的子集,Galaxy Zoo标签用于训练机器学习模型。最后,机器学习用于估计剩余星系的分类。我称之为计算机辅助人类计算项目,因为它不是让人类解决问题,而是让人类构建一个可用于训练计算机解决问题的数据集。这种计算机辅助人工计算系统的优势在于它使您能够仅使用有限的人力来处理基本上无限量的数据。经斯隆数字巡天计划许可复制的星系图像。

图5.4: Banerji et al. (2010)简要描述Banerji et al. (2010)使用Galaxy Zoo分类训练机器学习模型进行星系分类。星系图像在特征矩阵中转换。在该简化示例中,存在三个特征(图像中的蓝色量,像素的亮度的变化以及非白色像素的比例)。然后,对于图像的子集,Galaxy Zoo标签用于训练机器学习模型。最后,机器学习用于估计剩余星系的分类。我称之为计算机辅助人类计算项目,因为它不是让人类解决问题,而是让人类构建一个可用于训练计算机解决问题的数据集。这种计算机辅助人工计算系统的优势在于它使您能够仅使用有限的人力来处理基本上无限量的数据。经斯隆数字巡天计划许可复制的星系图像。

Banerji及其同事的机器学习模型中的功能比我的玩具示例中的功能更复杂 - 例如,她使用了诸如“de Vaucouleurs fit axial ratio”之类的功能 - 她的模型不是逻辑回归,而是一个人工神经网络。利用她的特征,模型和共识的Galaxy Zoo分类,她能够在每个特征上创建权重,然后使用这些权重来预测星系的分类。例如,她的分析发现低“de Vaucouleurs拟合轴比”的图像更可能是螺旋星系。鉴于这些权重,她能够以合理的准确度预测星系的人类分类。

Banerji及其同事的工作将Galaxy Zoo变成了我称之为计算机辅助的人类计算系统 。考虑这些混合系统的最佳方式是,不是让人类解决问题,而是让人类建立一个可用于训练计算机解决问题的数据集。有时,培训计算机来解决问题可能需要大量的例子,而产生足够数量的例子的唯一方法是大规模协作。这种计算机辅助方法的优势在于它使您能够仅使用有限的人力来处理基本上无限量的数据。例如,拥有一百万个人类分类星系的研究人员可以建立一个预测模型,然后可以用来对十亿甚至一万亿个星系进行分类。如果有大量的星系,那么这种人机混合实际上是唯一可行的解​​决方案。然而,这种无限的可扩展性并不是免费的。建立一个能够正确再现人类分类的机器学习模型本身就是一个难题,但幸运的是,已经有很多专门讨论这个主题的书籍(Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013)

Galaxy Zoo可以很好地说明人类计算项目的演变程度。首先,研究人员单独或与一小组研究助理(例如,Schawinski的初始分类工作)一起尝试该项目。如果这种方法不能很好地扩展,研究人员可以转移到一个有许多参与者的人类计算项目。但是,对于一定数量的数据,人类的纯粹努力是不够的。此时,研究人员需要建立一个计算机辅助人类计算系统,其中人类分类用于训练机器学习模型,然后可以应用于几乎无限量的数据。