5.2.1星系動物園

銀河動物園結合了許多非專業志願者的努力,對一百萬個星系進行了分類。

銀河動物園是2007年牛津大學天文學研究生Kevin Schawinski面臨的一個問題.Schawinski對星系很感興趣,星係可以根據它們的形態 - 橢圓形或螺旋形 - 進行分類。由他們的顏色 - 藍色或紅色。當時,天文學家的傳統智慧是螺旋星系,就像我們的銀河系一樣,呈藍色(表示年輕),橢圓星系呈紅色(表示老年)。 Schawinski懷疑這種傳統智慧。他懷疑雖然這種模式總的來說可能是正確的,但可能有相當多的例外情況,並且通過研究這些不尋常的星系 - 那些不符合預期模式的星系 - 他可以了解一些關於過程的信息。星系形成。

因此,Schawinski為了推翻傳統智慧所需要的是一大堆形態分類的星系;也就是說,被分類為螺旋或橢圓的星系。然而,問題在於現有的分類算法尚不足以用於科學研究;換句話說,在那個時候,對星系進行分類是一個對計算機來說很難的問題。因此,需要的是大量的人類分類星系。 Schawinski以研究生的熱情承擔了這個分類問題。在7個12小時的馬拉鬆比賽中,他能夠對50,000個星系進行分類。雖然50,000個星係可能聽起來很多,但實際上在斯隆數字巡天中拍攝的近百萬個星系中只有約5%。 Schawinski意識到他需要一種更具可擴展性的方法。

幸運的是,事實證明,分類星系的任務不需要在天文學高級培訓;你可以教別人很快做到這一點。換句話說,即使分類星系是很難計算機任務,這是很容易為人類。所以,雖然坐在牛津,Schawinski和同事天文學家克里斯·林托特一家酒吧想出了一個網站,志願者們進行分類星系圖像。幾個月後,星系動物園誕生了。

在銀河動物園網站上,志願者將接受幾分鐘的培訓;例如,了解螺旋星系和橢圓星系之間的差異(圖5.2)。在這次訓練之後,每個志願者必須通過一個相對簡單的測驗 - 正確分類15個具有已知分類的星系中的11個 - 然後通過簡單的基於網絡的界面開始對未知星系的真實分類(圖5.3)。從志願者到天文學家的過渡將在不到10分鐘的時間內完成,只需要通過最低的障礙,一個簡單的測驗。

圖5.2:兩種主要類型星系的例子:螺旋星系和橢圓星系。 Galaxy Zoo項目使用超過100,000名志願者對超過900,000張圖像進行分類。經http://www.GalaxyZoo.org和Sloan Digital Sky Survey許可轉載。

圖5.2:兩種主要類型星系的例子:螺旋星系和橢圓星系。銀河動物園項目使用超過100,000名志願者對超過900,000張圖像進行分類。經http://www.GalaxyZoo.orgSloan Digital Sky Survey許可轉載。

圖5.3:輸入屏幕,要求志願者對單個圖像進行分類。根據斯隆數字巡天的圖像,由Chris Lintott許可轉載。

圖5.3:輸入屏幕,要求志願者對單個圖像進行分類。根據斯隆數字巡天的圖像,由Chris Lintott許可轉載。

該項目在一篇新聞文章中被介紹後,銀河動物園吸引了最初的志願者,大約六個月後,該項目涉及超過10萬名公民科學家,他們參與的人因為喜歡這項任務而希望幫助推進天文學。這10萬名志願者共同貢獻了超過4,000萬個分類,其中大部分分類來自相對較小的核心參與者群體(Lintott et al. 2008)

有聘請本科研究助理經驗的研究人員可能會立即對數據質量持懷疑態度。雖然這種懷疑是合理的,但銀河動物園表明,當志願者貢獻得到正確清理,消除和聚合時,它們可以產生高質量的結果(Lintott et al. 2008) 。讓人群創建專業質量數據的一個重要技巧是冗餘 ,即由許多不同的人執行相同的任務。在銀河動物園,每個星系大約有40個分類;使用本科研究助理的研究人員永遠無法承擔這種程度的冗餘,因此需要更加關注每個單獨分類的質量。志願者缺乏培訓,他們彌補了冗餘。

然而,即使每個星係有多個分類,結合一組志願者分類來產生共識分類也是棘手的。由於在大多數人類計算項目中出現了非常類似的挑戰,因此簡要回顧一下銀河動物園研究人員用於產生共識分類的三個步驟是有幫助的。首先,研究人員通過刪除偽造的分類來“清理”數據。例如,那些反復對同一個星系進行分類的人 - 如果他們試圖操縱結果就會發生這種情況 - 他們的所有分類都被丟棄了。這種和其他類似的清潔消除了約4%的所有分類。

其次,清潔後,研究人員需要消除分類中的系統偏差。通過在原始項目中嵌入的一系列偏差檢測研究 - 例如,向一些志願者展示單色而不是彩色的星系 - 研究人員發現了幾個系統偏差,例如將遙遠的螺旋星系分類為橢圓星系的系統偏差(Bamford et al. 2009) 。調整這些系統偏差非常重要,因為冗餘不會自動消除系統偏差;它只能幫助消除隨機錯誤。

最後,在去除之後,研究人員需要一種方法來組合各個分類以產生共識分類。將每個星系的分類組合起來的最簡單方法是選擇最常見的分類。然而,這種方法會給每個志願者同等重量,研究人員懷疑一些志願者在分類方面比其他人更好。因此,研究人員開發了一種更複雜的迭代加權程序,試圖檢測最佳分類器並賦予它們更多的權重。

因此,經過三步處理 - 清理,去除和加權 - 銀河動物園研究團隊已將4000萬志願者分類轉化為一組共識形態分類。當這些銀河動物園分類與專業天文學家此前三次較小規模的嘗試進行比較時,包括Schawinski的分類有助於激發銀河動物園,有很強的一致意見。因此,志願者總體上能夠提供高質量的分類,並且研究人員無法比擬(Lintott et al. 2008) 。事實上,通過對如此眾多的星系進行人類分類,Schawinski,Lintott和其他人能夠證明只有大約80%的星系遵循預期的模式 - 藍色螺旋和紅色橢圓 - 並且已經寫了很多關於這一發現(Fortson et al. 2011)

有了這樣的背景,您現在可以看到Galaxy Zoo如何遵循split-apply-combine配方,這與大多數人類計算項目使用的配方相同。首先,一個大問題被分成幾塊。在這種情況下,對一百萬個星系進行分類的問題被分成了一百萬個分類一個星系的​​問題。接下來,獨立對每個塊應用操作。在這種情況下,志願者將每個星系分為螺旋形或橢圓形。最後,將結果組合以產生共識結果。在這種情況下,組合步驟包括清潔,去除和加權,以產生每個星系的共識分類。儘管大多數項目都使用這種通用配方,但每個步驟都需要根據要解決的具體問題進行定制。例如,在下面描述的人工計算項目中,將遵循相同的配方,但是應用和組合步驟將是完全不同的。

對於Galaxy Zoo團隊來說,這個第一個項目才剛剛開始。他們很快意識到即使他們能夠對接近一百萬個星系進行分類,這個尺度還不足以與更新的數字天空調查一起工作,這可以產生大約100億個星系的圖像(Kuminski et al. 2014) 。要處理從100萬到100億的增長 - 10,000倍 - 銀河動物園需要招募大約10,000倍的參與者。儘管互聯網上的志願者人數很多,但並不是無限的。因此,研究人員意識到,如果他們要處理不斷增長的數據量,則需要一種新的,更具可擴展性的方法。

因此,Manda Banerji與Schawinski,Lintott和銀河動物園團隊的其他成員(2010)合作 - 開始教授計算機來對星系進行分類。更具體地說,使用由Galaxy Zoo創建的人類分類,Banerji建立了一個機器學習模型,可以根據圖像的特徵預測星系的人類分類。如果這個模型可以高精度地再現人類分類,那麼它可以被銀河動物園的研究人員用來對基本上無限數量的星系進行分類。

Banerji及其同事的方法的核心實際上與社會研究中常用的技術非常相似,儘管乍一看這種相似性可能並不清楚。首先,Banerji及其同事將每個圖像轉換為一組數字特徵 ,總結了它的屬性。例如,對於星系圖像,可能有三個特徵:圖像中的藍色量,像素亮度的變化以及非白色像素的比例。選擇正確的特徵是問題的一個重要部分,它通常需要學科領域的專業知識。第一步,通常稱為特徵工程 ,產生一個數據矩陣,每個圖像有一行,然後是描述該圖像的三列。給定數據矩陣和期望的輸出(例如,圖像是否被人類分類為橢圓星系),研究人員創建統計或機器學習模型 - 例如,邏輯回歸 - 基於特徵預測人類分類圖像。最後,研究人員使用該統計模型中的參數來產生新星系的估計分類(圖5.4)。在機器學習中,這種方法 - 使用標記的示例來創建可以標記新數據的模型 - 稱為監督學習

圖5.4:Banerji等人的簡要描述。 (2010)使用Galaxy Zoo分類訓練機器學習模型進行星系分類。星系圖像在特徵矩陣中轉換。在該簡化示例中,存在三個特徵(圖像中的藍色量,像素的亮度的變化以及非白色像素的比例)。然後,對於圖像的子集,Galaxy Zoo標籤用於訓練機器學習模型。最後,機器學習用於估計剩餘星系的分類。我稱之為計算機輔助人類計算項目,因為它不是讓人類解決問題,而是讓人類構建一個可用於訓練計算機解決問題的數據集。這種計算機輔助人工計算系統的優勢在於它使您能夠僅使用有限的人力來處理基本上無限量的數據。經斯隆數字巡天計劃許可複制的星系圖像。

圖5.4: Banerji et al. (2010)簡要描述Banerji et al. (2010)使用Galaxy Zoo分類訓練機器學習模型進行星系分類。星系圖像在特徵矩陣中轉換。在該簡化示例中,存在三個特徵(圖像中的藍色量,像素的亮度的變化以及非白色像素的比例)。然後,對於圖像的子集,Galaxy Zoo標籤用於訓練機器學習模型。最後,機器學習用於估計剩餘星系的分類。我稱之為計算機輔助人類計算項目,因為它不是讓人類解決問題,而是讓人類構建一個可用於訓練計算機解決問題的數據集。這種計算機輔助人工計算系統的優勢在於它使您能夠僅使用有限的人力來處理基本上無限量的數據。經斯隆數字巡天計劃許可複制的星系圖像。

Banerji及其同事的機器學習模型中的功能比我的玩具示例中的功能更複雜 - 例如,她使用了諸如“de Vaucouleurs fit axial ratio”之類的功能 - 她的模型不是邏輯回歸,而是一個人工神經網絡。利用她的特徵,模型和共識的Galaxy Zoo分類,她能夠在每個特徵上創建權重,然後使用這些權重來預測星系的分類。例如,她的分析發現低“de Vaucouleurs擬合軸比”的圖像更可能是螺旋星系。鑑於這些權重,她能夠以合理的準確度預測星系的人類分類。

Banerji及其同事的工作將Galaxy Zoo變成了我稱之為計算機輔助的人類計算系統 。考慮這些混合系統的最佳方式是,不是讓人類解決問題,而是讓人類建立一個可用於訓練計算機解決問題的數據集。有時,培訓計算機來解決問題可能需要大量的例子,而產生足夠數量的例子的唯一方法是大規模協作。這種計算機輔助方法的優勢在於它使您能夠僅使用有限的人力來處理基本上無限量的數據。例如,擁有一百萬個人類分類星系的研究人員可以建立一個預測模型,然後可以用來對十億甚至一萬億個星系進行分類。如果有大量的星系,那麼這種人機混合實際上是唯一可行的解​​決方案。然而,這種無限的可擴展性並不是免費的。建立一個能夠正確再現人類分類的機器學習模型本身就是一個難題,但幸運的是,已經有很多專門討論這個主題的書籍(Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013)

Galaxy Zoo可以很好地說明人類計算項目的演變程度。首先,研究人員單獨或與一小組研究助理(例如,Schawinski的初始分類工作)一起嘗試該項目。如果這種方法不能很好地擴展,研究人員可以轉移到一個有許多參與者的人類計算項目。但是,對於一定數量的數據,人類的純粹努力是不夠的。此時,研究人員需要建立一個計算機輔助人類計算系統,其中人類分類用於訓練機器學習模型,然後可以應用於幾乎無限量的數據。