5.2.1 Galaxy Zoo

Bu çeviri bir bilgisayar tarafından oluşturuldu. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

5.2.1 Galaxy Zoo

Galaxy Zoo milyon galaksiyi sınıflandırmak için birçok uzman olmayan gönüllülerin çabaları birleştirir.

Galaxy Zoo, Schawinski galaksilerin ilgi 2007. biraz Basitleştirme Kevin Schawinski, Oxford Üniversitesi'nde Astronomi lisans öğrencisi karşı karşıya kaldığı bir sorun ortaya çıkmıştır, ve galaksiler tarafından sınıflandırılabilir onların morfoloji-eliptik veya spiral ve renk-mavi veya kırmızı ile. zamanda, gökbilimciler arasında geleneksel bilgelik sarmal gökadalar, Samanyolu gibi, renk (belirten gençlik) mavi idi ve bu eliptik galaksiler (yaşlılık gösteren) kırmızı renkte idi. Schawinski bu geleneksel bilgelik şüpheliydi. O, bu model genel olarak doğru olabilir iken, muhtemelen orada istisnalar oldukça büyük bir dizi vardı, ve o şüphelenilen bu olağandışı galaksilerin-sığmadı olanları çok inceleyerek desen o süreci hakkında bir şeyler öğrenebilirler beklenen hangi aracılığıyla galaksiler kurdu.

Böylece ne Schawinski geleneksel bilgelik devirmek için gerekli morfolojik sınıflandırılmış galaksilerin büyük bir set vardı; Bu, spiral ya da eliptik olarak sınıflandırılır olmuştu galaksiler olduğunu. Sorun, ancak, sınıflandırma için mevcut algoritmik yöntemler henüz yeterince iyi bilimsel araştırmalar için kullanılmak üzere değil idi; Diğer bir deyişle, sınıflandırma gökadalar bilgisayarlar için sabit bir sorun, o zaman olmuştur. Bu nedenle, ne ihtiyaç vardı insan sınıflandırılmış galaksilerin çok sayıda oldu. Schawinski lisans öğrencisinin heyecanla bu sınıflandırma sorunu üstlenmiştir. Yedi, 12 saatlik gün maraton oturumunda, o 50,000 galaksileri sınıflandırmak mümkün oldu. 50.000 galaksiler çok gibi görünse de, bu Sloan Dijital Sky Survey fotoğraflandı olmuştu neredeyse bir milyon galaksilerin sadece yaklaşık% 5'i aslında. Schawinski o daha ölçeklenebilir bir yaklaşım ihtiyacı olduğunu fark etti.

Neyse ki, sınıflandırmak gökadaların görev astronomi ileri eğitim gerektirmez çıkıyor; oldukça hızlı bir şekilde bunu yapmak için birini öğretebilir. galaksileri sınıflandırmak bilgisayarlar için zor bir görev olsa da, diğer bir deyişle, bu insanlar için oldukça kolay oldu. Yani, Oxford, Schawinski ve diğer astronom Chris Lintott bir barda otururken gönüllüler galaksilerin görüntülerini sınıflandırmak bir web sitesi hayal. Birkaç ay sonra, Galaxy Zoo doğdu.

Galaxy Zoo web sitesinde, gönüllüler eğitim birkaç dakika geçmesi olacaktı; Örneğin, bir spiral ve eliptik galaksi (Şekil 5.2) arasındaki farkı öğrenme. Bu eğitimden sonra, gönüllüler bilinen nispeten kolay quiz-doğru sınıflandırılması 11 15 galaksileri geçmek zorunda sınıflandırmalara-ve sonra gönüllü basit bir web tabanlı bir arayüz (Şekil 5.3) aracılığıyla bilinmeyen galaksilerin gerçek sınıflandırma başlayacaktı. astronom gönüllü geçiş 10 dakikadan az gerçekleşecek ve sadece engelli, basit bir quiz düşük geçen gerekli olacaktır.

Şekil 5.2: spiral ve eliptik galaksilerin iki ana tip örnekler. Galaxy Zoo projesi 900.000 görüntü daha kategorilerine 100.000'den fazla gönüllü kullanılır. Kaynak: www.galaxyzoo.org .

Şekil 5.3: seçmenler tek bir görüntü sınıflandırmak istendi giriş ekranı. Kaynak: www.galaxyzoo.org .

Proje haber makalesinde özellikli ve yaklaşık altı ay içinde proje 100.000'den fazla vatandaş bilim adamları, bu görevi zevk ve onlar önceden astronomi yardım etmek istedim çünkü katılan insanları dahil etmek büyüdü sonra Galaxy Zoo ilk gönüllü çekti. Birlikte, bu 100.000 gönüllü katılımcıların nispeten küçük, çekirdek grup gelen sınıflandırmaların çoğunluğu, 40 milyondan fazla sınıflandırmaların toplam katkısı (Lintott et al. 2008) .

deneyim işe lisans araştırma görevlisi olan Araştırmacılar hemen veri kalitesi hakkında şüpheci olabilir. Bu şüphecilik makul olmakla birlikte, Galaxy Zoo gönüllü katkıları doğru, temizlenmiş debiased ve toplanır, onlar yüksek kaliteli sonuçlar üretebilir olduğunu gösterir (Lintott et al. 2008) . Profesyonel kalitede veri oluşturmak için kalabalık almak için önemli bir hüner fazlalık olduğu; yani, aynı görevi çok farklı insanlar tarafından gerçekleştirilen sahip. Galaxy Zoo, galaksinin başına yaklaşık 40 sınıflandırmalar vardı; Bu nedenle fazlalık bu seviyede göze ve asla lisans araştırma görevlisi kullanarak araştırmacılar her sınıflandırma kalitesi ile çok daha ilgili olması gerekir. Gönüllüler eğitim yoksun Ne, onlar fazlalık ile telafi etti.

Hatta galaksinin başına birden sınıflandırmaları ile, ancak, gönüllü sınıflandırmalar kümesi birleştiren bir konsensüs sınıflandırma zor üretmek. çok benzer zorluklar çoğu insan hesaplama projelerinde ortaya çünkü, kısaca Galaxy Zoo araştırmacılar uzlaşma sınıflandırmaları üretmek için kullanılan üç adım gözden geçirmek yararlı olacaktır. İlk olarak, araştırmacılar sahte sınıflandırmalar kaldırarak veri "temizlenmiş". Örneğin, defalarca onlar manipüle etmeye çalışıyorlardı ne olurdu aynı galaksi-şey sınıflandırılmış insanlar tüm sınıflandırılması atılan sonuçları-vardı. Bu ve diğer benzeri temizlik tüm sınıflandırmaların yaklaşık% 4 kaldırıldı.

İkinci olarak, temizlendikten sonra, araştırmacılar sınıflandırmalar sistematik önyargıları kaldırmak gerekiyordu. Orijinal proje örneğin içinde gömülü önyargı algılama çalışmaları, yerine tek renkli galaksi bazı gönüllü gösteren bir dizi renk-araştırmacılar gibi eliptik galaksiler gibi uzak spiral galaksiler sınıflandırmak için sistematik bir önyargı gibi birçok sistematik önyargıları keşfetti (Bamford et al. 2009) . Birçok katkıları ortalama sistematik önyargı kaldırmaz çünkü bu sistematik sapmaların uyarlanmasıyla son derece önemlidir; sadece rasgele hata kaldırır.

Son olarak, debiasing sonra, araştırmacılar bir uzlaşma sınıflandırma üretmek için bireysel sınıflandırmaları birleştirmek için bir yöntem gerekiyordu. Her galaksi için sınıflandırmaları birleştirmek için basit yolu en yaygın sınıflandırma seçmek olacaktır. Ancak, bu yaklaşım, her gönüllü, eşit ağırlık verecek ve araştırmacılar bazı gönüllüler diğerlerinden daha sınıflandırma daha iyi olduğunu şüpheli. Bu nedenle, araştırmacılar otomatik olarak en iyi sınıflandırıcılar algılar ve onlara daha fazla ağırlık vermek için çalışır daha karmaşık iteratif ağırlıklandırma işlemi geliştirdi.

Böylece, üç aşamalı bir süreçtir temizleme, debiasing ve ağırlık-Galaxy Zoo araştırma ekibinin sonra uzlaşma morfolojik sınıflandırmaların bir dizi içine 40 milyondan fazla gönüllü sınıflandırmaları dönüştürülür vardı. Bu Galaxy Zoo sınıflandırmalar Galaxy Zoo ilham yardımcı Schawinski tarafından sınıflandırma dahil olmak üzere profesyonel astronomlar tarafından önceki üç küçük ölçekli girişimleri ile karşılaştırıldığında, güçlü bir fikir birliği vardı. Böylece, gönüllüler, toplu olarak, yüksek kaliteli sınıflandırmaları sağlamak başardık ve araştırmacılar ulaşamasa bir ölçekte (Lintott et al. 2008) . Aslında, galaksilerin gibi çok sayıda insan sınıflandırmalar alarak, Schawinski, Lintott ve diğerleri galaksilerin sadece yaklaşık% 80'i hakkında yazılan pek çok beklenen desen mavi spiraller ve kırmızı eliptikler-ve sayısız makale takip ettiklerini göstermek başardık Bu keşif (Fortson et al. 2011) .

Bu arka plan göz önüne alındığında, biz şimdi Galaxy Zoo izler nasıl görebilirsiniz bölünmüş başvuruda-birleştirmek tarifi, en insani hesaplama projeleri için kullanılan aynı tarifi. İlk olarak, büyük bir sorun parçalar halinde bölünür. Bu durumda, bir milyon galaksileri sınıflandırma sorun bir galaksi sınıflandırarak bir milyon sorunlarına ayrılmıştır. Daha sonra, bir işlem her biri bağımsız yığın uygulanır. Bu durumda, bir gönüllü spiral veya eliptik her Galaksiyi sınıflandırmak. Son olarak, sonuçlar, bir konsensüs sonucu elde etmek için birleştirilir. Bu durumda, birleştirmek adım her galaksinin bir konsensüs sınıflandırma üretmek için temizlik, debiasing ve ağırlıklandırma dahil. Çoğu proje bu genel tarifi kullanabilirsiniz olsa da, adımların her spesifik problemi ele alınan özelleştirilmiş gerekiyor. Örneğin, aşağıda açıklanan insan hesaplama projesinde, aynı reçete takip edilecektir, ancak uygulamak ve birleştiren adımlar oldukça farklı olacaktır.

Galaxy Zoo takım için, bu ilk proje sadece bir başlangıçtı. Çok hızlı bir şekilde onlar bile bir milyon galaksilerin yakın sınıflandırmak mümkün olduğunu fark, bu ölçek yaklaşık 10 milyar gökada görüntülerini üretmek olabilir yeni dijital gökyüzü araştırmaları, çalışmak için yeterli değildir (Kuminski et al. 2014) . 1000000 10 arasında bir artış işlemek için milyar 10.000 Galaxy Zoo faktör yaklaşık 10.000 kat daha fazla katılımcı işe gerekir. Internet üzerinde gönüllü sayısı büyük olsa da, sonsuz değildir. Bu nedenle, araştırmacılar fark onlar bir yeni, daha ölçeklenebilir, yaklaşım gerekli verilerin, büyüyen miktarlarda ele gidiyoruz.

Bu nedenle, Manda Banerji çalışan Kevin Schawinski, Chris Lintott ve Galaxy Zoo takım başlayan öğretim bilgisayarların diğer üyeleri ile gökadaları sınıflandırmak. Daha özel olarak ise, Galaxy Zoo tarafından oluşturulan insan sınıflandırmaları kullanarak Banerji et al. (2010) görüntünün özelliklerine göre bir galaksinin insan sınıflandırma tahmin verebilecek bir makine öğrenme modelini inşa etti. Bu makine öğrenme modeli, yüksek doğruluk ile insan sınıflandırmaları yeniden olsaydı, o zaman galaksi esasen sonsuz sayıda sınıflandırmak için Galaxy Zoo araştırmacılar tarafından kullanılabilir.

Bu benzerlik, ilk bakışta net olmayabilir, ancak Banerji ve arkadaşları 'yaklaşımının temel, aslında yaygın sosyal araştırmalarda kullanılan tekniklerin oldukça benzer. Birincisi, Banerji ve arkadaşları bu özellikleri özetlemek sayısal özellikleri bir dizi içine her görüntüyü dönüştürdü. Görüntüdeki mavi miktarı, piksel parlaklık varyans ve beyaz olmayan piksellerin oranı: Örneğin, gökada görüntüler için üç özellik olabilir. Doğru özelliklerin seçimi sorununun önemli bir parçası olduğunu ve genellikle konu alan uzmanlık gerektirir. Yaygın özelliği mühendisliği olarak adlandırılan bu ilk adım, resim başına bir satır ve bu görüntüyü açıklayan daha sonra üç sütunlu bir karekod sonuçlanır. Bir lojistik regresyon temelli insan sınıflandırma tahmin gibi veri matrisi ve istenen çıkış (örneğin, görüntü eliptik galaksi olarak bir insan tarafından sınıflandırılmış olup olmadığını), araştırmacı bir istatistiksel model-örneğin parametrelerini tahmin şey göz önüne alındığında, görüntünün özelliklerine. Son olarak, araştırmacı yeni galaksilerin tahmini sınıflandırmaları (Şekil 5.4) üretmek için bu istatistiksel model parametrelerini kullanır. Bir sosyal analog düşünmek, bir milyon öğrencilerle ilgili demografik bilgiler olduğunu hayal ve onlar kolej ya da mezun olmadığını biliyoruz. Bu verilere bir lojistik regresyon uygun olabilir, ve sonra yeni öğrenciler üniversiteden mezun olacak olup olmadığını tahmin etmek Ortaya çıkan model parametreleri kullanabilirsiniz. Makine öğrenimi, bu yaklaşım kullanan etiketli örnekler ardından yeni etiket bir istatistiksel model oluşturmak için veri-öğreniyor denetimli olarak adlandırılan (Hastie, Tibshirani, and Friedman 2009) .

Şekil 5.4: nasıl Banerji ark basitleştirilmiş açıklaması. (2010) galaksi sınıflandırma yapmak için bir makine öğrenme modelini eğitmek için Galaxy Zoo sınıflandırmaları kullanılır. gökada görüntü özellikleri bir matris içinde dönüştürüldü. Bu basitleştirilmiş örnekte üç özellik (resimde mavi miktarı, piksellerin parlaklık varyans ve beyaz olmayan piksele oranı) vardır. Ardından, görüntülerin bir alt kümesi için, Galaxy Zoo etiketleri bir makine öğrenme modeli eğitmek için kullanılır. Son olarak, makine öğrenmesi kalan galaksiler için sınıflandırmaları tahmin etmek için kullanılır. Projenin bu tür çağrı sahip insanlar bir sorunu çözmek yerine, onlar insanların sorunu çözmek için bir bilgisayar eğitmek için kullanılabilecek bir veri kümesi oluşturmak var, çünkü ikinci kuşak insan hesaplama projesi. Bu bilgisayar destekli yaklaşımın avantajı insan çabasının sadece sonlu miktarda kullanarak veri esasen sonsuz miktarda işlemek için kılmasıdır.

Şekil 5.4: nasıl Basitleştirilmiş açıklaması Banerji et al. (2010) galaksi sınıflandırma yapmak için bir makine öğrenme modelini eğitmek için Galaxy Zoo sınıflandırmaları kullanılır. gökada görüntü özellikleri bir matris içinde dönüştürüldü. Bu basitleştirilmiş örnekte üç özellik (resimde mavi miktarı, piksellerin parlaklık varyans ve beyaz olmayan piksele oranı) vardır. Ardından, görüntülerin bir alt kümesi için, Galaxy Zoo etiketleri bir makine öğrenme modeli eğitmek için kullanılır. Son olarak, makine öğrenmesi kalan galaksiler için sınıflandırmaları tahmin etmek için kullanılır. Projenin bu tür çağrı sahip insanlar bir sorunu çözmek yerine, onlar insanların sorunu çözmek için bir bilgisayar eğitmek için kullanılabilecek bir veri kümesi oluşturmak var, çünkü ikinci kuşak insan hesaplama projesi. Bu bilgisayar destekli yaklaşımın avantajı insan çabasının sadece sonlu miktarda kullanarak veri esasen sonsuz miktarda işlemek için kılmasıdır.

Içinde özellikler Banerji et al. (2010) makine öğrenme modeli örneği örneğin, o gibi özellikler kullanılan benim oyuncak göre daha fazla karmaşık olduğunu "de Vaucouleurs eksenel oran uygun" -ve onun modeli lojistik regresyon değildi, bir yapay sinir ağı oldu. Onun özellikleri, onun modelini ve uzlaşma Galaxy Zoo sınıflandırmalar kullanılarak, o her özelliği ağırlıkları oluşturun ve sonra galaksilerin sınıflandırılması hakkında öngörülerde bulunmak için bu ağırlıkları kullanmak mümkün oldu. Örneğin, onun analiz "Vaucouleurs eksenel oran uygun de" düşük görüntüleri sarmal gökadalar olması daha olası olduğunu gördük. Bu ağırlıklar dikkate alındığında, o makul bir doğrulukla bir galaksi insan sınıflandırma tahmin etmek mümkün oldu.

Çalışmaları Banerji et al. (2010) ben ikinci kuşak insan hesaplama sistemi dediğimiz haline Galaxy Zoo döndü. Bu ikinci nesil sistemleri hakkında düşünmek için en iyi yolu olan insanlar bir sorunu çözmek yerine, onlar insanların sorunu çözmek için bir bilgisayar eğitmek için kullanılabilecek bir veri kümesi oluşturmak olması. Bilgisayarı yetiştirmek için gerekli veri miktarı o oluşturmak için insan kütlesi işbirliğini gerektirir kadar büyük olabilir. Galaxy Zoo, tarafından kullanılan sinir ağlarının durumunda Banerji et al. (2010) güvenilir bir insan sınıflandırma çoğaltmak mümkün olan bir model oluşturmak için insan etiketli örnekler çok sayıda gerekli.

Bu bilgisayar destekli yaklaşımın avantajı insan çabasının sadece sonlu miktarda kullanarak veri esasen sonsuz miktarda işlemek için kılmasıdır. Örneğin, bir milyon insan sınıflandırılmış galaksiler ile bir araştırmacı sonra bir milyar ya da trilyon galaksileri sınıflandırmak için kullanılabilecek bir tahmin modeli inşa edebilirsiniz. galaksilerin muazzam sayı varsa, o zaman insan-bilgisayar melezi bu tür gerçekten sadece olası bir çözümdür. Bu sonsuz ölçeklenebilirlik, ancak özgür değildir. Kendisi zor bir sorundur doğru insan sınıflandırmaları üretebileceği bir makine öğrenme modelini Bina ama neyse ki bu konuya adanmış mükemmel kitaplar zaten var (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo birçok insan hesaplama projeleri evrim gösterir. İlk olarak, bir araştırmacı başına veya araştırma görevlilerinin küçük bir ekip (örneğin, Schawinski başlangıçtaki sınıflandırma çabası) ile projeyi çalışır. Bu yaklaşım iyi ölçek etmezse, araştırmacı birçok kişi sınıflandırmaları katkıda insan hesaplama projeye taşıyabilirsiniz. Ancak, verilerin belirli bir hacim için, saf insan çaba yeterli olmayacaktır. Bu noktada, araştırmacılar insan sınıflandırmalar sonra verilerin neredeyse sınırsız miktarda uygulanabilir bir makine öğrenme modeli eğitmek için kullanılan ikinci kuşak sistemlerini inşa etmek gerekir.