5.2.1 Galaxy Smithsonian

Smithsonian Galaxy digabungkeun usaha tina loba sukarelawan non-ahli kana mengklasifikasikan sajuta galaksi.

Smithsonian Galaxy tumuwuh kaluar tina masalah Nyanghareupan ku Kevin Schawinski, hiji murid lulusan dina Astronomi di Universitas Oxford dina 2007. ngajarkeun rada bit, Schawinski éta kabetot dina galaksi, jeung galaksi bisa digolongkeun dumasar morfologi-elliptical atawa maranéhanana spiral-na ku maranéhna warna-biru atawa beureum. Wanoh, hikmah konvensional diantara astronom éta yén galaksi spiral, kawas susu Jalan urang, éta biru di warna (nu nunjukkeun nonoman) jeung galaksi elliptical éta beureum (nu nunjukkeun umur heubeul). Schawinski doubted hikmah konvensional ieu. Anjeunna disangka yén bari pola ieu bisa jadi leres sacara umum, aya meureun jumlah sizable sahiji éntitas, sarta yén ku diajar kavling ieu galaksi-nu ilahar leuwih nu teu cocog ekspektasi pola-anjeunna bisa neuleuman hal ngeunaan prosés nu liwat mana galaksi kabentuk.

Ku kituna, naon Schawinski diperlukeun guna digulingkeun hikmah konvensional éta susunan badag galaksi morphologically digolongkeun; nyaeta, galaksi nu kungsi digolongkeun kana boh spiral atanapi elliptical. masalah, kumaha oge, éta nu métode algorithmic aya pikeun klasifikasi éta henteu acan cukup alus pikeun dipaké pikeun panalungtikan ilmiah; dina basa sejen, Klasifikasi galaksi éta, dina waktu éta, masalah anu teuas pikeun komputer. Kituna, naon ieu diperlukeun éta angka nu gede ngarupakeun galaksi -classified manusa. Schawinski undertook masalah klasifikasi ieu jeung minat hiji murid lulusan. Dina sési Marathon tujuh poé 12-jam, anjeunna tiasa mengklasifikasikan 50,000 galaksi. Bari 50,000 galaksi bisa disada kawas pisan, éta sabenerna ukur ngeunaan 5% tina ampir hiji juta galaksi nu kungsi difoto di Langit Survey Sloan Digital. Schawinski sadar yén anjeunna diperlukeun pendekatan langkung scalable.

Untungna, tétéla yén tugas ti Klasifikasi galaksi teu merlukeun latihan maju dina astronomi; Anjeun bisa ngajarkeun batur ngalakukeun hal eta geulis gancang. Dina basa sejen, sanajan Klasifikasi galaksi mangrupa tugas nu teuas pikeun komputer, ieu geulis gampang pikeun manusa. Jadi, bari diuk dina pub di Oxford, Schawinski jeung sasama astronom Chris Lintott ngimpi nepi website mana sukarelawan bakal mengklasifikasikan Gambar galaksi. A sababaraha bulan saterusna, Smithsonian Galaxy lahir.

Di ramatloka Smithsonian Galaxy, sukarelawan bakal ngalaman sababaraha menit latihan; contona, diajar beda antara hiji spiral jeung galaksi elliptical (inohong 5.2). Sanggeus latihan ieu, unggal volunteer kapaksa lulus kawilang gampang kuis-neuleu Klasifikasi 11 of 15 galaksi jeung klasifikasi-na dipikawanoh lajeng bakal dimimitian klasifikasi nyata galaksi kanyahoan ngaliwatan antarmuka basis web basajan (inohong 5,3). Transisi tina volunteer mun astronom bakal lumangsung dina waktu kurang ti 10 menit jeung ngan diperlukeun ngaliwatan panghandapna tina hurdles, kuis basajan.

Gambar 5.2: Conto nu dua tipe utama galaksi: spiral jeung elliptical. Proyek Smithsonian Galaxy dipaké leuwih ti 100.000 sukarelawan ka ngararangkay leuwih ti 900.000 gambar. Dihasilkeun ku idin ti http://www.GalaxyZoo.org na Sloan Digital Langit Survey.

Gambar 5.2: Conto nu dua tipe utama galaksi: spiral jeung elliptical. Proyek Smithsonian Galaxy dipaké leuwih ti 100.000 sukarelawan ka ngararangkay leuwih ti 900.000 gambar. Dihasilkeun ku idin ti http://www.GalaxyZoo.org na Sloan Digital Langit Survey .

Gambar 5.3: layar Input mana sukarelawan anu dipenta pikeun mengklasifikasikan hiji gambar tunggal. Dihasilkeun ku idin ti Chris Lintott dumasar kana hiji gambar tina Langit Survey Sloan Digital.

Gambar 5.3: layar Input mana sukarelawan anu dipenta pikeun mengklasifikasikan hiji gambar tunggal. Dihasilkeun ku idin ti Chris Lintott dumasar kana hiji gambar tina Langit Survey Sloan Digital .

Smithsonian Galaxy katarik sukarelawan awal na sanggeus proyék ieu diulas dina artikel warta, sarta di kira genep bulan proyék tumuwuh nepi ngalibetkeun leuwih ti 100.000 élmuwan warga, jalma anu milu lantaran ngarasakeun tugas jeung maranéhna hayang mantuan astronomi sateuacanna. Kalawan babarengan, 100.000 sukarelawan ieu nyumbang jumlahna leuwih ti 40 juta klasifikasi, jeung mayoritas klasifikasi datang ti, grup core relatif leutik pamilon (Lintott et al. 2008) .

Peneliti nu gaduh pangalaman Ngiring asisten panalungtikan sarjana bisa langsung jadi skeptis ngeunaan kualitas data. Bari skepticism ieu lumrah, Smithsonian Galaxy nunjukeun yen lamun kontribusi volunteer anu neuleu cleaned, debiased, sarta aggregated, aranjeunna bisa ngahasilkeun hasil kualitas luhur (Lintott et al. 2008) . Hiji trik penting pikeun lalaki riungan pikeun nyieun data-kualitas profésional nyaéta redundancy, nyaeta, ngabogaan tugas sarua dipigawé ku loba jalma béda. Dina Smithsonian Galaxy, aya kira 40 klasifikasi per galaksi; peneliti maké asisten panalungtikan sarjana pernah bisa mampuh tingkat ieu redundancy sahingga bakal perlu jadi leuwih prihatin kalayan kualitas unggal klasifikasi individu. Naon nu sukarelawan lacked di tangerang, aranjeunna diwangun pikeun mibanda redundancy.

Malah ku sababaraha klasifikasi per galaksi kasebut, ngagabungkeun susunan klasifikasi volunteer ngahasilkeun klasifikasi konsensus éta tricky. Kusabab tantangan pisan sarupa timbul di paling proyék ngitung manusa, éta mantuan pikeun marios sakeudeung tilu léngkah yén peneliti Smithsonian Galaxy dipaké pikeun ngahasilkeun klasifikasi konsensus maranéhanana. Kahiji, peneliti "cleaned" data ku nyoplokkeun klasifikasi bogus. Contona, urang anu sababaraha kali digolongkeun sami galaksi-hal nu bakal lumangsung lamun maranéhanana nyobian pikeun ngamanipulasi hasil-kapaksa kabeh klasifikasi maranéhanana dipiceun. Ieu sareng beberesih sarupa séjénna dihapus kurang leuwih 4% tina kabeh klasifikasi.

Kadua, sanggeus beberesih, anu peneliti diperlukeun jang ngaleupaskeun biases sistimatis dina klasifikasi. Ngaliwatan runtuyan studi deteksi bias study dina proyék-pikeun aslina Contona, némbongkeun sababaraha sukarelawan di galaksi di monochrome tinimbang warna-peneliti manggihan sababaraha biases sistimatis, kayaning a bias sistimatis pikeun mengklasifikasikan galaksi spiral faraway sakumaha galaksi elliptical (Bamford et al. 2009) . Nyaluyukeun pikeun ieu biases sistimatis téh penting pisan lantaran redundancy henteu otomatis dipiceun bias sistimatis; eta wungkul pitulung ngaluarkeun kasalahan acak.

Tungtungna, sanggeus debiasing, panalungtik diperlukeun metoda pikeun ngagabungkeun nu klasifikasi individual pikeun ngahasilkeun klasifikasi konsensus. Cara pangbasajanna ngagabungkeun klasifikasi pikeun tiap galaksi bakal geus milih klasifikasi paling umum. Sanajan kitu, pendekatan ieu bakal geus dibikeun unggal volunteer beurat sarua, sarta peneliti disangka yén sababaraha sukarelawan éta hadé dina klasifikasi ti batur. Ku alatan éta, peneliti dimekarkeun prosedur weighting iterative leuwih kompleks nu nyoba ngadetéksi classifiers pangalusna sarta masihan aranjeunna langkung beurat.

Ku kituna, sanggeus tilu-hambalan prosés-beberesih, debiasing, sarta weighting-tim panalungtikan Smithsonian Galaxy sempet dirobah 40 juta klasifikasi volunteer kana susunan konsensus klasifikasi morfologis. Nalika klasifikasi Smithsonian Galaxy kasebut dibandingkeun kalawan tilu saméméhna usaha skala leutik ku astronom profésional, kaasup klasifikasi ku Schawinski nu mantuan mun mere ilham Smithsonian Galaxy, aya perjangjian kuat. Ku kituna, sukarelawan, dina agrégat, éta bisa nyadiakeun klasifikasi kualitas luhur sarta dina skala yén peneliti teu bisa cocog (Lintott et al. 2008) . Kanyataanna, ku ngabogaan klasifikasi manusa pikeun sapertos angka nu gede ngarupakeun galaksi, Schawinski, Lintott, jeung nu lianna éta bisa némbongkeun yén ngan ngeunaan 80% galaksi turutan spirals ekspektasi pola-biru jeung ellipticals-na beureum sababaraha tulak geus ditulis ngeunaan kapanggihna ieu (Fortson et al. 2011) .

Dibikeun tukang ieu, anjeun kiwari bisa ningali kumaha Smithsonian Galaxy nuturkeun pamisah-nerapkeun-ngagabungkeun resep, resep sarua anu digunakeun pikeun paling proyék ngitung manusa. Kahiji, masalah badag dibagi jadi sakumpulan. Dina hal ieu, masalah Klasifikasi sajuta galaksi ieu dibeulah kana juta masalah Klasifikasi hiji galaksi. Hareup, hiji operasi anu dilarapkeun ka unggal chunk mandiri. Dina hal ieu, sukarelawan digolongkeun tiap galaksi sakumaha boh spiral atanapi elliptical. Tungtungna, hasil digabungkeun sahingga ngahasil hasil konsensus. Dina hal ieu, anu ngagabungkeun hambalan kaasup nu beberesih, debiasing, sarta weighting ngahasilkeun klasifikasi musyawarah pikeun tiap galaksi. Sanajan paling proyék make resep umum ieu, tiap hambalan perlu ngaropéa kana masalah husus keur kajawab. Contona, dina proyék ngitung manusa didadarkeun di handap, resep sarua bakal dituturkeun, tapi nu nerapkeun sarta ngagabungkeun léngkah bakal rada béda.

Keur tim Smithsonian Galaxy, proyék munggaran ieu ngan awal. Pisan gancang maranéhna sadar yen sanajan maranéhanana éta bisa mengklasifikasikan nutup ka juta galaksi, skala ieu teu cukup pikeun digawe sareng survey langit digital nu leuwih anyar, nu bisa ngahasilkeun gambar ngeunaan 10 milyar galaksi (Kuminski et al. 2014) . Pikeun nanganan paningkatan ti 1 juta nepi ka 10 miliar-faktor 10.000-Galaxy Smithsonian bakal perlu recruit kasarna 10.000 kali leuwih pamilon. Sanajan jumlah sukarelawan di Internet nyaeta badag, teu wates. Ku alatan éta, peneliti sadar yén lamun maranéhna anu bade nanganan jumlahna kantos-tumuwuh data, a anyar, malah leuwih lengkep scalable, pendekatan ieu diperlukeun.

Ku alatan éta, Manda Banerji-gawé bareng Schawinski, Lintott, sarta anggota lianna ti tim Smithsonian Galaxy (2010) -started ngajarkeun komputer ka mengklasifikasikan galaksi. Leuwih husus, ngagunakeun klasifikasi manusa dijieun ku Smithsonian Galaxy, Banerji diwangun modél pembelajaran mesin anu bisa ngaramalkeun klasifikasi manusa tina galaksi mangrupa dumasar kana karakteristik gambar. Lamun model kieu bisa baranahan dina klasifikasi manusa kalawan akurasi tinggi, mangka bisa dipaké ku panalungtik Smithsonian Galaxy ka mengklasifikasikan hiji angka dasarna wates galaksi.

Inti pendekatan Banerji sareng kolega Anjeun 'sabenerna geulis sarupa téhnik ilahar dipaké dina ieu panalungtikan sosial, sanajan nu kasaruaan bisa jadi teu jelas dina glance kahiji. Kahiji, Banerji sareng kolega Anjeun dirobah unggal gambar kana set fitur numeris anu diringkeskeun sipat anak. Contona, pikeun Gambar galaksi, aya bisa jadi tilu fitur: jumlah bulao dina gambar, varian dina kacaangan sahiji piksel, sarta proporsi piksel non-bodas. Seleksi fitur bener mangrupakeun bagian penting tina masalah, sarta eta umumna merlukeun kaahlian poko-wewengkon. Hambalan ieu heula, ilahar disebut rékayasa fitur, ngakibatkeun matriks data kalayan salah sakaligus per gambar lajeng tilu kolom ngajéntrékeun gambar éta. Dibikeun matrix data sarta output nu dipikahoyong (misalna naha gambar ieu digolongkeun ku manusa salaku hiji galaksi elliptical), panalungtik nyieun model-contona statistik atawa learning mesin, logistik regression-éta prédiksi klasifikasi manusa dumasar kana fitur gambar. Tungtungna, panalungtik ngagunakeun parameter di Model statistik ieu ngahasilkeun ditaksir klasifikasi galaksi anyar (inohong 5,4). Dina pembelajaran mesin, pendekatan-ngagunakeun ieu conto dilabélan mun nyieun model nu lajeng bisa labél anyar data-disebutna learning diawasan.

Gambar 5.4: pedaran Basajan kumaha Banerji et al. (2010) dipaké dina klasifikasi Smithsonian Galaxy ka ngalatih modél pembelajaran mesin keur ngalakukeun klasifikasi galaksi. Gambar galaksi anu dirobah dina matrix fitur. Dina conto saderhana kieu, aya tilu ciri (jumlah bulao dina gambar, varian dina kacaangan sahiji piksel, sarta proporsi piksel nonwhite). Lajeng, pikeun sawaréh ti gambar, anu labél Smithsonian Galaxy anu dipaké pikeun ngalatih model mesin learning. Tungtungna, anu learning mesin anu dipaké pikeun estimasi klasifikasi keur galaksi sésana. Kuring nelepon ieu proyék ngitung manusa komputer-ditulungan lantaran, tinimbang ngabogaan manusa ngajawab masalah, eta boga manusa ngawangun hiji dataset nu bisa dipaké pikeun ngalatih komputer pikeun ngajawab masalah. Kauntungannana komputer-ditulungan sistem ngitung manusa téh nya éta nyandak Anjeun pikeun nanganan jumlahna dasarna wates data ngagunakeun ukur jumlah terhingga usaha manusa. Gambar galaksi dihasilkeun ku idin ti Sloan Digital Langit Survey.

Gambar 5.4: pedaran Basajan kumaha Banerji et al. (2010) dipaké dina klasifikasi Smithsonian Galaxy ka ngalatih modél pembelajaran mesin keur ngalakukeun klasifikasi galaksi. Gambar galaksi anu dirobah dina matrix fitur. Dina conto saderhana kieu, aya tilu ciri (jumlah bulao dina gambar, varian dina kacaangan sahiji piksel, sarta proporsi piksel nonwhite). Lajeng, pikeun sawaréh ti gambar, anu labél Smithsonian Galaxy anu dipaké pikeun ngalatih model mesin learning. Tungtungna, anu learning mesin anu dipaké pikeun estimasi klasifikasi keur galaksi sésana. Kuring nelepon ieu proyék ngitung manusa komputer-ditulungan lantaran, tinimbang ngabogaan manusa ngajawab masalah, eta boga manusa ngawangun hiji dataset nu bisa dipaké pikeun ngalatih komputer pikeun ngajawab masalah. Kauntungannana komputer-ditulungan sistem ngitung manusa téh nya éta nyandak Anjeun pikeun nanganan jumlahna dasarna wates data ngagunakeun ukur jumlah terhingga usaha manusa. Gambar galaksi dihasilkeun ku idin ti Sloan Digital Langit Survey .

Fitur di Banerji sareng kolega Anjeun 'model mesin learning éta nu leuwih kompleks tinimbang jelema di kaulinan kuring conto-contona, manehna dipake fitur kawas "de Vaucouleurs cocog ratio axial" -and modél nya éta moal régrési logistik, ieu hiji jaringan neural jieunan. Ngagunakeun fitur nya, modél dirina, jeung konsensus klasifikasi Smithsonian Galaxy, manéhna bisa nyieun beurat dina unggal fitur, lajeng nganggo timbangan ieu nyieun prediksi ngeunaan klasifikasi galaksi. Contona, analisis nya kapanggih yén gambar kalawan low "de Vaucouleurs cocog ratio axial" éta leuwih gampang jadi galaksi spiral. Dibikeun beurat ieu, manéhna bisa ngaduga klasifikasi manusa tina galaksi kalayan akurasi lumrah.

Karya Banerji sareng kolega Anjeun ngancik Smithsonian Galaxy kana naon Abdi nelepon sistem ngitung manusa komputer-ditulungan. Cara pangalusna pikeun mikir ngeunaan ieu sistem hibrida éta tinimbang ngabogaan manusa ngajawab masalah, maranéhna boga manusa ngawangun hiji dataset nu bisa dipaké pikeun ngalatih komputer pikeun ngajawab masalah. Sakapeung, latihan komputer pikeun ngajawab masalah tiasa merlukeun kavling conto, sarta hiji-hijina jalan pikeun ngahasilkeun sababaraha cukup conto nyaéta kolaborasi massa. Kauntungannana pendekatan komputer-ditulungan téh nya éta nyandak Anjeun pikeun nanganan jumlahna dasarna wates data ngagunakeun ukur jumlah terhingga usaha manusa. Contona, hiji panalungtik ku juta galaksi digolongkeun manusa bisa ngawangun modél duga nu bisa lajeng dipaké pikeun mengklasifikasikan hiji miliar atawa malah hiji triliun galaksi. Mun aya angka pisan galaksi, teras jenis ieu hibrid manusa-komputer estu hijina solusi mungkin. scalability wates ieu teu bébas, kumaha. Ngawangun modél pembelajaran mesin nu neuleu bisa baranahan dina klasifikasi manusa téh sorangan masalah teuas, tapi untungna geus aya buku alus teuing dedicated ka topik ieu (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Smithsonian Galaxy nyaéta ilustrasi alus tina sabaraha proyék ngitung manusa mekar. Mimiti, panalungtik a nyoba proyék nu ku sorangan atawa ku tim leutik asisten panalungtikan (misalna, Schawinski urang usaha klasifikasi awal). Mun pendekatan ieu teu skala ogé, panalungtik bisa mindahkeun ka proyék ngitung manusa kalawan loba pamilon. Tapi, pikeun volume tangtu data, usaha manusa murni moal cukup. Dina titik anu, peneliti kudu ngawangun sistem ngitung manusa komputer-ditulungan nu klasifikasi manusa anu dipaké pikeun ngalatih modél pembelajaran mesin nu bisa lajeng jadi dilarapkeun ka jumlahna ampir taya data.