5.2.1 Galaxy Smithsonian

Smithsonian Galaxy ngagabungkeun usaha loba sukarelawan non-ahli ka mengklasifikasikan sajuta galaksi.

Smithsonian Galaxy tumuwuh kaluar ti masalah Nyanghareupan ku Kevin Schawinski, hiji mahasiswa pascasarjana di Astronomi di Universitas Oxford dina 2007. ngajarkeun cukup bit a, Schawinski ieu kabetot dina galaksi, jeung galaksi bisa digolongkeun ku morfologi-elliptical atawa maranéhanana spiral-jeung ku maranéhanana warna-biru atawa beureum. Dina waktu, hikmah konvensional antara astronom ieu nu galaksi spiral, kawas susu Jalan urang, éta biru warna (nonoman nunjukkeun) jeung galaksi elliptical éta beureum dina warna (nunjukkeun umur kolot). Schawinski doubted hikmah konvensional ieu. Manéhna disangka bari pola ieu bisa jadi bener sacara umum, aya meureun jumlah sizable of iwal, sarta ku nalungtik kavling ieu galaksi-nu mahiwal leuwih nu teu cocog ekspektasi pola-manéhna bisa diajar hiji hal ngeunaan prosés ngaliwatan nu galaksi kabentuk.

Ku kituna, naon Schawinski diperlukeun dina raraga ngagulingkeun hikmah konvensional ieu susunan badag galaksi morphologically digolongkeun; nyaeta, galaksi nu geus digolongkeun kana boh spiral atawa elliptical. Masalahna, kumaha oge, ieu nu métode algorithmic aya keur klasifikasi éta tacan cukup alus pikeun dipaké pikeun panalungtikan ilmiah; dina basa sejen, Klasifikasi galaksi ieu, dina waktu éta, masalah anu teuas pikeun komputer. Ku alatan éta, naon ieu diperlukeun ieu angka nu gede ngarupakeun galaksi digolongkeun manusa. Schawinski undertook masalah klasifikasi ieu jeung minat hiji mahasiswa pascasarjana. Dina sési Marathon tujuh, 12-jam poé, manéhna bisa mengklasifikasikan 50.000 galaksi. Sedengkeun 50.000 galaksi bisa disada kawas pisan, eta sabenerna ngan kira 5% tina ampir hiji juta galaksi nu geus difoto di Langit Survey Sloan Digital. Schawinski sadar yén manéhna diperlukeun pendekatan leuwih scalable.

Untungna, tétéla yén tugas ti Klasifikasi galaksi teu merlukeun latihan maju dina astronomi; Anjeun bisa ngajarkeun batur ngalakukeun hal eta geulis gancang. Dina basa sejen, sanajan Klasifikasi galaksi mangrupa tugas nu teuas pikeun komputer, ieu geulis gampang pikeun manusa. Jadi, bari diuk dina pub di Oxford, Schawinski jeung sasama astronom Chris Lintott ngimpi nepi website mana sukarelawan bakal mengklasifikasikan Gambar galaksi. A sababaraha bulan saterusna, Smithsonian Galaxy lahir.

Dina website Smithsonian Galaxy, sukarelawan bakal ngalaman sababaraha menit latihan; contona, diajar beda antara spiral jeung galaksi elliptical (Gambar 5.2). Sanggeus latihan ieu, sukarelawan geus lulus nu kawilang gampang kuis-bener Klasifikasi 11 15 galaksi jeung dipikawanoh klasifikasi-terus volunteer bakal dimimitian klasifikasi nyata galaksi kanyahoan ngaliwatan basis web basajan interface (Gambar 5,3). Transisi ti volunteer ka astronom bakal lumangsung dina waktu kurang ti 10 menit jeung ngan diperlukeun ngaliwatan panghandapna tina hurdles, hiji kuis basajan.

Gambar 5.2: Conto nu dua tipe utama galaksi: spiral jeung elliptical. Proyék Smithsonian Galaxy dipaké leuwih ti 100.000 sukarelawan ka kategori leuwih ti 900.000 gambar. Sumber: www.galaxyzoo.org.

Gambar 5.2: Conto nu dua tipe utama galaksi: spiral jeung elliptical. Proyék Smithsonian Galaxy dipaké leuwih ti 100.000 sukarelawan ka kategori leuwih ti 900.000 gambar. Sumber: www.galaxyzoo.org .

Gambar 5,3: layar Input mana pamilih anu dipenta pikeun mengklasifikasikan gambar tunggal. Sumber: www.galaxyzoo.org.

Gambar 5,3: layar Input mana pamilih anu dipenta pikeun mengklasifikasikan gambar tunggal. Sumber: www.galaxyzoo.org .

Smithsonian Galaxy katarik sukarelawan awal anak sanggeus proyék ieu diulas dina artikel warta, sarta dina ngeunaan genep bulan proyék tumuwuh ka ngalibetkeun leuwih ti 100.000 élmuwan warga, jelema anu milu sabab ngarasakeun tugas jeung maranehna hayang mantuan astronomi sateuacanna. Babarengan, 100.000 sukarelawan ieu nyumbang jumlahna leuwih ti 40 juta klasifikasi, jeung mayoritas klasifikasi datang ti, grup inti relatif leutik pamilon (Lintott et al. 2008) .

Panalungtik nu gaduh pangalaman Ngiring asisten panalungtikan sarjana bisa geura-giru jadi skeptis ngeunaan kualitas data. Sedengkeun skepticism ieu akal, Smithsonian Galaxy nunjukeun yen lamun kontribusi volunteer anu bener cleaned, debiased, sarta aggregated, maranéhanana bisa ngahasilkeun hasil kualitas luhur (Lintott et al. 2008) . Hiji trik penting pikeun meunang balaréa nyieun data kualitas professional téh redundancy; nyéta, sanggeus tugas sarua dipigawé ku loba jelema beda. Dina Smithsonian Galaxy, aya kira 40 klasifikasi per galaksi; panalungtik ngagunakeun asisten panalungtikan sarjana kungsi bisa mampuh tingkat ieu redundancy sahingga kudu leuwih prihatin jeung kualitas unggal klasifikasi individu. Naon sukarelawan lacked di tangerang, maranéhanana dijieun up for jeung redundancy.

Komo jeung sababaraha klasifikasi per galaksi, kumaha oge, ngagabungkeun susunan klasifikasi volunteer ngahasilkeun klasifikasi musyawarah téh tricky. Sabab tantangan sarupa pisan timbul dina kalolobaan proyék ngitung manusa, nya éta mantuan pikeun nempoan sakeudeung tilu léngkah nu panalungtik Smithsonian Galaxy dipaké pikeun ngahasilkeun klasifikasi konsensus maranéhanana. Kahiji, panalungtik "cleaned" data ku nyoplokkeun klasifikasi bogus. Contona, jelema anu sababaraha kali digolongkeun sarua galaksi-hal nu bakal lumangsung lamun maranéhanana nyoba pikeun ngamanipulasi hasil-kungsi sadaya klasifikasi maranéhanana dipiceun. Ieu jeung beberesih sarua séjén dihapus kurang leuwih 4% tina kabeh klasifikasi.

Kadua, sanggeus diberesihkeun, panalungtik diperlukeun pikeun nyabut biases sistimatis dina klasifikasi. Ngaliwatan runtuyan studi deteksi bias study dina proyék-for aslina Contona, mintonkeun sababaraha sukarelawan nu galaksi di monochrome tinimbang warna-panalungtik kapanggih sababaraha biases sistematis, saperti bias sistimatis pikeun mengklasifikasikan galaksi jauh spiral salaku galaksi elliptical (Bamford et al. 2009) . Nyaluyukeun for ieu biases sistimatis pisan penting lantaran averaging loba kontribusi teu nyabut bias sistimatis; eta ngan ngaluarkeun kasalahan acak.

Ahirna, sanggeus debiasing, panalungtik diperlukeun metoda ka ngagabung klasifikasi individual pikeun ngahasilkeun klasifikasi musyawarah. Cara pangbasajanna ngagabungkeun klasifikasi keur unggal galaksi bakal milih klasifikasi paling umum. Tapi, pendekatan ieu bakal méré unggal volunteer beurat sarua, sarta panalungtik disangka yén sababaraha sukarelawan éta leuwih alus di klasifikasi ti batur. Ku alatan éta, panalungtik dimekarkeun prosedur weighting iterative leuwih kompleks nu nyoba ka otomatis ngadeteksi nu classifiers pangalusna jeung méré eta leuwih beurat.

Ku kituna, sanggeus tilu lengkah prosés-beberesih, debiasing, sarta weighting-tim panalungtikan Smithsonian Galaxy geus dirobah 40 juta klasifikasi volunteer kana susunan konsensus klasifikasi morfologis. Lamun klasifikasi Smithsonian Galaxy kasebut dibandingkeun tilu saméméhna usaha skala leutik ku astronom panarjamah, kaasup klasifikasi ku Schawinski nu mantuan ka mere ilham Smithsonian Galaxy, aya kasapukan kuat. Ku kituna, sukarelawan, dina agrégat, éta bisa nyadiakeun klasifikasi kualitasna alus sarta dina skala nu panalungtik teu bisa cocog (Lintott et al. 2008) . Dina kanyataan, ku ngabogaan klasifikasi manusa pikeun saperti angka nu gede ngarupakeun galaksi, Schawinski, Lintott, jeung sajabana éta bisa pikeun mintonkeun yen ngan ngeunaan 80% galaksi turutan spirals ekspektasi pola-biru jeung ellipticals-jeung beureum loba tulak geus ditulis ngeunaan kapanggihna ieu (Fortson et al. 2011) .

Dibikeun kasang tukang ieu, urang ayeuna bisa nempo kumaha Smithsonian Galaxy kieu pamisah-panawaran-ngagabung resep, resep sarua anu digunakeun pikeun paling proyék ngitung manusa. Kahiji, masalah badag dibagi jadi sakumpulan. Dina hal ieu, masalah Klasifikasi sajuta galaksi anu dibeulah jadi juta masalah Klasifikasi hiji galaksi. Next, hiji operasi diterapkeun ka unggal chunk mandiri. Dina hal ieu, volunteer a bakal mengklasifikasikan unggal galaksi salaku boh spiral atawa elliptical. Ahirna, hasil digabungkeun pikeun ngahasilkeun hasil musyawarah. Dina hal ieu, ngagabung lengkah kaasup nu beberesih, debiasing, sarta weighting ngahasilkeun klasifikasi konsensus keur unggal galaksi. Sanajan paling proyék make resep umum ieu, unggal léngkah perlu ngaropéa ka masalah husus keur kajawab. Contona, dina proyék ngitung manusa digambarkeun di handap, resep sarua bakal dituturkeun, tapi panawaran jeung ngagabung léngkah bakal cukup béda.

Pikeun tim Smithsonian Galaxy, proyék kahiji ieu ngan awal. Gancang pisan maranehna sadar yen sanajan maranéhanana éta bisa mengklasifikasikan deukeut ka juta galaksi, skala ieu téh teu cukup pikeun digawe sareng survey langit digital nu leuwih anyar, nu bisa ngahasilkeun gambar kira-kira 10 milyar galaksi (Kuminski et al. 2014) . Pikeun nanganan paningkatan ti 1 juta nepi ka 10 milyar-faktor 10.000-Galaxy Smithsonian bakal kudu recruit kasarna 10.000 kali leuwih pamilon. Sanajan jumlah sukarelawan di Internét badag, teu wates. Ku alatan éta, panalungtik sadar yen lamun maranehna bade nanganan jumlah kungsi ngembang data, hiji anyar, komo deui scalable, pendekatan ieu diperlukeun.

Ku alatan éta, Manda Banerji-gawé bareng Kevin Schawinski, Chris Lintott, sarta anggota séjén komputer pangajaran tim-dimimitian Smithsonian Galaxy ka mengklasifikasikan galaksi. Leuwih spésifikna, ngagunakeun klasifikasi manusa dijieun ku Smithsonian Galaxy, Banerji et al. (2010) diwangun model pembelajaran mesin anu bisa ngaduga klasifikasi manusa galaksi a dumasar kana karakteristik gambar. Lamun mesin model pembelajaran ieu bisa baranahan nu klasifikasi manusa jeung akurasi luhur, mangka bisa dipaké ku panalungtik Smithsonian Galaxy ka mengklasifikasikan nomer dasarna wates galaksi.

Inti pendekatan Banerji sareng kolega 'sabenerna geulis jiga téhnik dipaké dina panalungtikan sosial, sanajan nu kasaruaan bisa jadi teu jelas di glance kahiji. Kahiji, Banerji sareng kolega dirobah unggal gambar kana susunan fitur numerik nu nyimpulkeun éta sipat. Contona, pikeun Gambar galaksi aya bisa jadi tilu fitur: jumlah blue dina gambar, varian dina kacaangan piksel, sarta saimbang piksel non-bodas. Seleksi fitur bener mangrupakeun bagian penting tina masalah, sarta umumna merlukeun kaahlian subjék-wewengkon. Step Ieu kahiji, ilahar disebut rékayasa ciri, hasil dina matrix data sareng salah sahiji baris per gambar terus tilu kolom ngajéntrékeun gambar éta. Dibikeun matrix data jeung output nu dipikahoyong (misalna, naha gambar ieu digolongkeun ku manusa salaku galaksi elliptical), panalungtik ngira-ngira parameter tina model-keur statistical Contona, hiji hal kawas regression-nu logistik prédiksi klasifikasi manusa dumasar dina fitur gambar. Ahirna, panalungtik ngagunakeun parameter di model statistik ieu ngahasilkeun ditaksir klasifikasi galaksi anyar (Gambar 5,4). Mikir tina analog sosial, ngabayangkeun nu kungsi informasi demografi ngeunaan juta siswa, jeung nyaho naha maranéhanana lulus ti kuliah atawa henteu. Anjeun bisa cocog a régrési logistik ka data ieu, jeung mangka anjeun bisa make parameter model anu dihasilkeun pikeun ngaduga naha siswa anyar bade lulus ti kuliah. Dina learning mesin, pendekatan-ngagunakeun ieu conto dilabélan nyieun model statistik nu saterusna bisa Label anyar data-disebut diawasan diajar (Hastie, Tibshirani, and Friedman 2009) .

Gambar 5.4: gambaran Basajan kumaha Banerji et al. (2010) dipaké klasifikasi Smithsonian Galaxy ka ngalatih hiji model pembelajaran mesin pikeun ngalakukeun klasifikasi galaksi. Gambar galaksi anu dirobah dina matrix fitur. Dina conto saderhana ieu aya tilu fitur (jumlah blue dina gambar, varian dina kacaangan piksel, sarta saimbang piksel non-bodas). Saterusna, pikeun sawaréh ti gambar, nu labél Smithsonian Galaxy dipaké pikeun ngalatih hiji model mesin learning. Ahirna, nu learning mesin dipaké pikeun estimasi klasifikasi pikeun galaksi sésana. Kuring nelepon nanaon ieu proyek kadua generasi komputer manusa proyék sabab, tinimbang ngabogaan manusa ngajawab masalah, maranéhanana geus manusa ngawangun dataset anu bisa dipaké pikeun ngalatih komputer pikeun ngajawab masalah. Kauntungannana pendekatan komputer-ditulungan téh nya éta nyandak Anjeun pikeun nanganan jumlah dasarna wates data ngagunakeun ngan jumlah terhingga usaha manusa.

Gambar 5.4: gambaran Basajan kumaha Banerji et al. (2010) dipaké klasifikasi Smithsonian Galaxy ka ngalatih hiji model pembelajaran mesin pikeun ngalakukeun klasifikasi galaksi. Gambar galaksi anu dirobah dina matrix fitur. Dina conto saderhana ieu aya tilu fitur (jumlah blue dina gambar, varian dina kacaangan piksel, sarta saimbang piksel non-bodas). Saterusna, pikeun sawaréh ti gambar, nu labél Smithsonian Galaxy dipaké pikeun ngalatih hiji model mesin learning. Ahirna, nu learning mesin dipaké pikeun estimasi klasifikasi pikeun galaksi sésana. Kuring nelepon nanaon ieu proyek kadua generasi komputer manusa proyék sabab, tinimbang ngabogaan manusa ngajawab masalah, maranéhanana geus manusa ngawangun dataset anu bisa dipaké pikeun ngalatih komputer pikeun ngajawab masalah. Kauntungannana pendekatan komputer-ditulungan téh nya éta nyandak Anjeun pikeun nanganan jumlah dasarna wates data ngagunakeun ngan jumlah terhingga usaha manusa.

Fitur di Banerji et al. (2010) mesin model pembelajaran éta nu leuwih kompleks tinimbang jelema di kaulinan mah conto-contona, manéhna dipaké fitur kawas "de Vaucouleurs cocog ratio axial" -and model nya teu régrési logistik, ieu hiji jaringan neural jieunan. Nganggo fitur nya, model nya, jeung konsensus klasifikasi Smithsonian Galaxy, manéhna bisa nyieun beurat dina unggal ciri, terus make beurat ieu nyieun prediksi ngeunaan klasifikasi galaksi. Contona, analisis nya manggihan yén Gambar jeung low "de Vaucouleurs cocog ratio axial" éta leuwih gampang jadi galaksi spiral. Dibikeun beurat ieu, manéhna bisa ngaduga klasifikasi manusa galaksi kalayan akurasi akal.

Karya Banerji et al. (2010) tos Smithsonian Galaxy kana naon atuh bakal nelepon kadua generasi sistim ngitung manusa. Cara pangalusna pikeun mikir ngeunaan sistem kadua generasi ieu nyaeta tinimbang ngabogaan manusa ngajawab masalah, maranéhanana geus manusa ngawangun dataset anu bisa dipaké pikeun ngalatih komputer pikeun ngajawab masalah. Jumlah data diperlukeun pikeun ngalatih komputer bisa jadi badag anu merlukeun kolaborasi massa manusa pikeun nyieun. Dina kasus Smithsonian Galaxy, nu jaringan neural dipaké ku Banerji et al. (2010) diperlukeun sajumlah pohara badag conto manusa-dilabélan dina raraga ngawangun model nu ieu bisa reliably baranahan klasifikasi manusa.

Kauntungannana pendekatan komputer-ditulungan téh nya éta nyandak Anjeun pikeun nanganan jumlah dasarna wates data ngagunakeun ngan jumlah terhingga usaha manusa. Contona, panalungtik jeung juta galaksi digolongkeun manusa bisa ngawangun model prediksi anu bisa terus dipaké pikeun mengklasifikasikan hiji milyar atawa komo triliun galaksi. Lamun aya nomer pisan galaksi, mangka jenis ieu hibrid manusa-komputer bener ngan leyuran mungkin. scalability wates ieu téh teu leupas, kumaha. Ngawangun model pembelajaran mesin nu bener bisa baranahan nu klasifikasi manusa sorangan masalah teuas, tapi untungna geus aya buku alus teuing dedicated ka topik ieu (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Smithsonian Galaxy mintonkeun évolusi loba proyék ngitung manusa. Kahiji, panalungtik a nyoba proyék ku sorangan atawa jeung tim leutik asisten panalungtikan (misalna Schawinski sacara usaha klasifikasi awal). Lamun pendekatan ieu teu skala well, panalungtik bisa pindah ka proyék ngitung manusa mana loba jelema nyumbang klasifikasi. Tapi, keur volume tangtu data, usaha manusa murni moal cukup. Dina titik eta, panalungtik kudu ngawangun sistem kadua generasi mana klasifikasi manusa dipaké pikeun ngalatih hiji model pembelajaran mesin anu bisa terus dilarapkeun ka jumlah ampir taya data.