5.2.1 Galaxy Zoo

Zoo Galaxy nggabungke efforts akeh sukarelawan non-pakar golongan yuta galaksi.

Zoo Galaxy ageng saking masalah kang diadhepi Kevin Schawinski, salah satunggaling mahasiswa sarjana ing bidhang astronomi ing Universitas Oxford ing 2007. simplifying cukup sing dicokot, Schawinski kasengsem ing galaksi, lan galaksi bisa diklasifikasikaké dening morfologi-elips utawa sing spiral-lan dening sing werna-biru utawa abang. Ing wektu, kawicaksanan conventional para astronom ana sing galaksi spiral, kaya Bima Sakti kita, padha biru ing werna (muda nuduhake) lan sing galaksi elips padha abang ing werna (nuduhake umur). Schawinski mangu-mangu kawicaksanan conventional iki. Panjenenganipun seng di tuduh sing nalika pola iki bisa dadi bener ing umum, ana mbokmenawa sawetara sizable seng, lan sing sinau persil saka iki galaksi-ing mboten umum gedhe-gedhe sing ora pas karo samesthine pola-bisa sinau soko bab proses liwat kang galaksi kawangun.

Mangkono, apa Schawinski diperlokaké kanggo overturn kawicaksanan conventional ana pesawat gedhe galaksi morphologically klasifikasi; sing, galaksi sing wis diklasifikasikaké minangka salah siji spiral utawa bentuké bunder dawa. Masalah, Nanging, ana sing cara algoritma ana kanggo klasifikasi durung cukup apik kanggo dipigunakaké kanggo penelitian ilmiah; ing tembung liyane, kelas galaksi iki, ing wektu sing, masalah sing ana hard kanggo komputer. Mulane, apa iki perlu ana nomer akeh galaksi diklasifikasikaké manungsa. Schawinski mundur masalah klasifikasi iki karo semangat saka mahasiswa sarjana. Ing sesi marathon saka pitu, 12 jam dina, kang bisa kanggo golongan 50,000 galaksi. Nalika 50,000 galaksi uga muni kaya akèh, iku bener mung bab 5% saka meh siji yuta galaksi sing wis foto ing Sky Survey Sloan Digital. Schawinski temen maujud sing perlu pendekatan liyane keukur.

Begjanipun, iku dadi metu sing tugas saka kelas galaksi ora perlu latihan majeng ing astronomi; sampeyan bisa mulang wong apa iku cantik cepet. Ing tembung liyane, malah sanadyan kelas galaksi punika tugas sing hard kanggo komputer, iku cantik gampang kanggo manungsa. Dadi, nalika lungguh ing pub in Oxford, Schawinski lan fellow astronom Chris Lintott ngimpi munggah website ngendi sukarelawan golongan images of galaksi. A sawetara sasi mengko, Zoo Galaxy lair.

Ing website Zoo Galaxy, sukarelawan bakal ngalami sawetara menit saka latihan; contone, learning minayang spiral lan galaksi elips (Figure 5.2). Sawise latihan iki, sukarelawan wis pass relatif gampang ANTV-bener kelas 11 of 15 galaksi karo dikenal klasifikasi-lan banjur volunteer bakal miwiti Klasifikasi nyata saka galaksi dingerteni liwat basis prasaja antarmuka (Figure 5.3). Transisi saka volunteer kanggo astronom bakal njupuk Panggonan ing kurang saka 10 menit lan mung dibutuhake maringaken paling hurdles, ANTV prasaja.

Figure 5.2: Conto saka rong jinis utama galaksi: spiral lan bentuké bunder dawa. Proyèk Zoo Galaxy digunakake luwih saka 100,000 sukarelawan kanggo kategori luwih saka 900,000 gambar. Source: www.galaxyzoo.org.

Figure 5.2: Conto saka rong jinis utama galaksi: spiral lan bentuké bunder dawa. Proyèk Zoo Galaxy digunakake luwih saka 100,000 sukarelawan kanggo kategori luwih saka 900,000 gambar. Source: www.galaxyzoo.org .

Figure 5.3: Layar Input ngendi Pamilih padha takon kanggo golongan gambar siji. Source: www.galaxyzoo.org.

Figure 5.3: Layar Input ngendi Pamilih padha takon kanggo golongan gambar siji. Source: www.galaxyzoo.org .

Zoo Galaxy kesengsem sukarelawan dhisikan sawise project tampil ing artikel warta, lan ing enem sasi project ageng kanggo ndherek luwih saka 100,000 ilmuwan warga, wong sing melu amarga padha sante tugas lan padha wanted kanggo astronomi advance. Bareng, 100.000 sukarelawan iki nyumbang total luwih saka 40 yuta klasifikasi, karo mayoritas saka klasifikasi teka saka, klompok inti cilik peserta (Lintott et al. 2008) .

Peneliti sing duwe pengalaman hiring asisten riset lulus bisa langsung dadi mamang babagan kualitas data. Nalika skepticism iki cukup, Zoo Galaxy nuduhake yen panganggo volunteer sing bener di resiki, debiased, lan dikumpulke, padha bisa ngasilaké asil kualitas (Lintott et al. 2008) . Lan trick penting kanggo njupuk akeh kanggo nggawe data kualitas profesional redundansi; sing, Duwe tugas padha dileksanakake dening akeh wong beda. Ing Zoo Galaxy wonten 40 klasifikasi per galaxy; peneliti nggunakake asisten riset lulus tau saged tingkat saka redundansi lan Mulane kudu luwih bab kualitas saben Klasifikasi individu. Apa sukarelawan kurang ing latihan, padha digawe munggah kanggo karo redundansi.

Malah karo macem-macem klasifikasi per galaxy, Nanging, kanthi pesawat saka klasifikasi volunteer kanggo gawé Klasifikasi Kesepakatan iku angel. Amarga tantangan banget padha njedhul ing paling proyèk etungan manungsa, iku mbiyantu maneh sedhela telung langkah sing peneliti Zoo Galaxy digunakake kanggo gawé klasifikasi Kesepakatan sing. First, peneliti "resiki" ing data dening njabut klasifikasi bogus. Contone, wong sing bola-bali diklasifikasikaké padha galaxy-soko sing bakal kelakon yen padha nyoba kanggo ngapusi asil-wis kabeh klasifikasi sing dibuwak. Iki lan reresik liyane padha dibusak 4% kabeh klasifikasi.

Kapindho, sawise reresik, peneliti needed kanggo mbusak biases rapi ing klasifikasi. Liwat seri pasinaon deteksi Bias ditempelake ing project-kanggo asli Contone, nuduhake sawetara sukarelawan galaksi ing monochrome tinimbang werna-peneliti ditemokaké sawetara biases rapi, kayata Bias rapi kanggo golongan galaksi adoh spiral minangka galaksi elips (Bamford et al. 2009) . Nyetel kangge biases rapi iku arang banget penting amarga roto akeh panganggo ora mbusak Bias rapi; iku mung mbusak kesalahan acak.

Akhire, sawise debiasing, peneliti needed cara kanggo gabungke klasifikasi individu kanggo gawé Klasifikasi Kesepakatan. Cara paling prasaja kanggo gabungke klasifikasi kanggo saben galaxy bakal kanggo milih klasifikasi paling umum. Nanging, iki pendekatan bakal menehi saben volunteer bobot witjaksono, lan peneliti seng di tuduh sing sawetara sukarelawan padha luwih ing klasifikasi saka liyane. Mulane, peneliti dikembangaké prosedur nimbang iteratif liyane Komplek sing usaha kanggo otomatis ndeteksi Klasifikasi paling apik lan menehi wong liyane bobot.

Mangkono, sawise telung langkah proses-cleaning, debiasing, lan boboté-tim riset Zoo Galaxy wis diowahi 40 yuta klasifikasi volunteer menyang pesawat saka Kesepakatan klasifikasi morfologi. Nalika klasifikasi Zoo Galaxy padha dibandhingake telung sadurungé usaha-ukuran cilik dening astronom profesional, kalebu klasifikasi dening Schawinski sing mbantu kanggo inspirasi Zoo Galaxy, ana persetujuan kuwat. Mangkono, sukarelawan, ing kanthi jumlah ongko, padha bisa kanggo nyedhiyani klasifikasi kualitas dhuwur lan ing ukuran sing peneliti ora cocog (Lintott et al. 2008) . Ing kasunyatan, dening gadhah klasifikasi manungsa kanggo kuwi nomer akeh galaksi, Schawinski, Lintott, lan liya-liyane padha bisa kanggo nuduhake mung udakara 80% saka galaksi tindakake spirals samesthine pola-biru lan ellipticals-lan abang akeh makalah wis ditulis bab panemon iki (Fortson et al. 2011) .

Given latar mburi, kita saiki bisa ndeleng carane Zoo Galaxy nderek pamisah-aplikasi-gabungan resep, resep sing padha digunakake kanggo paling proyèk etungan manungsa. First, masalah amba dipérang dadi tulisan. Ing kasus iki, ing masalah kelas yuta galaksi dipérang dadi yuta masalah kelas siji galaksi. Sabanjure, operasi wis Applied kanggo saben cuwilan independen. Ing kasus iki, volunteer a golongan saben galaxy minangka salah siji spiral utawa bentuké bunder dawa. Akhire, asil sing digabung gawé asil konsènsus. Ing kasus iki, ing gabungan langkah klebu reresik, debiasing, lan boboté kanggo gawé Klasifikasi Kesepakatan kanggo saben galaxy. Malah sanadyan paling proyèk nggunakake resep umum, saben langkah perlu selaras kanggo masalah tartamtu kang ono. Contone, ing project etungan manungsa diterangake ing ngisor iki, resep padha bakal ngiring, nanging aplikasi lan gabungke langkah bakal cukup beda.

Kanggo tim Zoo Galaxy, project pisanan iki ana mung awal. Cepet banget padha sumurup, manawa sanadyan padha bisa kanggo golongan cedhak yuta galaksi, ukuran iki ora cukup kanggo bisa karo survey langit digital anyar, kang bisa gawé gambar 10 milyar galaksi (Kuminski et al. 2014) . Kanggo nangani Tambah saka 1 yuta kanggo 10 milyar-faktor 10,000-Galaxy Zoo bakal kudu nganakake panambahan kurang luwih 10.000 kaping peserta liyane. Malah sanadyan nomer sukarelawan ing Internet gedhe, iku ora tanpa wates. Mulane, peneliti temen maujud sing yen lagi arep kanggo nangani jumlah tau akeh saka data, anyar, malah luwih keukur, pendekatan iki perlu.

Mulane, Manda Banerjee-apa karo Kevin Schawinski, Chris Lintott, lan anggota liyané saka komputer wulangan tim-miwiti Zoo Galaxy kanggo golongan galaksi. More khusus, nggunakake klasifikasi manungsa digawe dening Zoo Galaxy, Banerji et al. (2010) dibangun model learning mesin sing bisa prédhiksi klasifikasi manungsa saka galaksi puniki adhedhasar karakteristik gambar. Yen mesin model learning iki bisa ngasilaken klasifikasi manungsa karo akurasi dhuwur, banjur bisa dipigunakaké déning peneliti Zoo Galaxy kanggo golongan lan nomer ateges tanpa wates lan galaksi.

Inti saka pendekatan Banerjee lan kolega 'iku bener cantik padha Techniques umum digunakake ing panaliten sosial, senadyan sing mirip bisa uga ora cetha ing kawitan marketing. First, Banerjee lan kolega diowahi saben gambar menyang pesawat fitur numerik sing ngringkes iku sifat. Contone, kanggo gambar saka galaksi bisa uga ana telung fitur: jumlah biru ing gambar, bedo ing padhange piksel, lan babagan piksel non-putih. Pilihan saka fitur bener minangka bagéyan penting saka masalah, lan umum mbutuhake expertise subyek-wilayah. Langkah iki pisanan, umum diarani rékayasa fitur, nyebabake matrik data karo saben siji per gambar lan ing telung kolom njlentrehke gambar sing. Given matrik data lan output dikarepake (eg, apa gambar iki klasifikasi manungsa minangka galaksi elips), peneliti ing prakiraan paramèter saka model-kanggo statistik conto, kaya kemunduran-sing logistik prediksi klasifikasi manungsa adhedhasar ing fitur saka gambar. Akhire, peneliti ing migunakake paramèter ing model statistik iki kanggo gawé kira-kira klasifikasi galaksi anyar (Figure 5.4). Mikir saka analog sosial, mbayangno sing wis informasi demografi babagan yuta mahasiswa, lan ngerti apa padha lulus saka College utawa ora. Sampeyan bisa pas logistik kemunduran kanggo data iki, lan sampeyan bisa nggunakake paramèter model asil kanggo mrédhiksi apa mahasiswa anyar sing arep lulus saka College. Ing learning machine, pendekatan-Nganggo conto cap kanggo nggawe model statistik sing banjur bisa Label anyar data-disebut ngawasi learning (Hastie, Tibshirani, and Friedman 2009) .

Figure 5.4: gambaran Japanese saka carane Banerjee et al. (2010) digunakake ing klasifikasi Zoo Galaxy kanggo olahraga model learning machine apa Klasifikasi galaxy. Images of galaksi padha diowahi ing matrik fitur. Ing conto prasaja iki ana telung fitur (jumlah biru ing gambar, bedo ing padhange piksel, lan babagan piksel non-putih). Banjur, kanggo seng luwih gedhe saka gambar, label Zoo Galaxy digunakake kanggo olahraga model machine learning. Akhire, ing learning machine digunakake kanggo ngira klasifikasi kanggo galaksi isih. Aku nelpon iki jenis project liya-generasi komputasional manungsa project amarga, tinimbang gadhah manungsa ngatasi masalah, padha duwe manungsa mbangun perlengkapan data sing bisa digunakake kanggo olahraga komputer kanggo ngatasi masalah. Ing kauntungan saka pendekatan bantuan-komputer iki sing ngijini sampeyan kanggo nangani jumlah ateges tanpa wates data nggunakake mung jumlah ono wates gaweyan manungsa.

Figure 5.4: gambaran Japanese saka carane Banerji et al. (2010) digunakake ing klasifikasi Zoo Galaxy kanggo olahraga model learning machine apa Klasifikasi galaxy. Images of galaksi padha diowahi ing matrik fitur. Ing conto prasaja iki ana telung fitur (jumlah biru ing gambar, bedo ing padhange piksel, lan babagan piksel non-putih). Banjur, kanggo seng luwih gedhe saka gambar, label Zoo Galaxy digunakake kanggo olahraga model machine learning. Akhire, ing learning machine digunakake kanggo ngira klasifikasi kanggo galaksi isih. Aku nelpon iki jenis project liya-generasi komputasional manungsa project amarga, tinimbang gadhah manungsa ngatasi masalah, padha duwe manungsa mbangun perlengkapan data sing bisa digunakake kanggo olahraga komputer kanggo ngatasi masalah. Ing kauntungan saka pendekatan bantuan-komputer iki sing ngijini sampeyan kanggo nangani jumlah ateges tanpa wates data nggunakake mung jumlah ono wates gaweyan manungsa.

Fitur ing Banerji et al. (2010) mesin model learning padha luwih Komplek saka iku ing dolanan sandi conto-contone, dheweke digunakake fitur kaya "de Vaucouleurs pas aspek sumbu" -Lan model iki ora logistik kemunduran, iku jaringan saraf Ponggawa. Nggunakake fitur dheweke, model, lan Kesepakatan klasifikasi Zoo Galaxy, dheweke bisa nggawe bobot ing saben fitur, lan banjur nggunakake bobot iki kanggo nggawe ramalan bab klasifikasi galaksi. Contone, analisis dheweke ketemu sing gambar karo kurang "de Vaucouleurs pas aspek sumbu" padha luwih kamungkinan kanggo dadi galaksi spiral. Given bobot iki, dheweke bisa ngramal klasifikasi manungsa galaksi karo akurasi cukup.

Karya Banerji et al. (2010) nguripake Zoo Galaxy menyang apa aku nelpon liya-generasi sistem komputasi manungsa. Cara paling apik kanggo mikir bab sistem liya-generasi iki sing tinimbang gadhah manungsa ngatasi masalah, padha duwe manungsa mbangun perlengkapan data sing bisa digunakake kanggo olahraga komputer kanggo ngatasi masalah. Jumlah data needed kanggo olahraga komputer bisa dadi gedhe iku mbutuhake collaboration massa manungsa kanggo nggawe. Ing cilik saka Zoo Galaxy, ing jaringan saraf digunakake dening Banerji et al. (2010) sing nomer akeh banget conto manungsa-cap supaya mbangun model sing bisa kanggo andal ngasilaken klasifikasi manungsa.

Ing kauntungan saka pendekatan bantuan-komputer iki sing ngijini sampeyan kanggo nangani jumlah ateges tanpa wates data nggunakake mung jumlah ono wates gaweyan manungsa. Contone, panliti karo yuta galaksi diklasifikasikaké manungsa bisa mbangun model prediktif sing bisa digunakake kanggo golongan milyar utawa malah triliun galaksi. Yen ana nomer gedhe tenan saka galaksi, banjur iki jenis Sato manungsa-komputer punika saestu mung solusi bisa. kaukur tanpa wates iki ora free, Nanging. Bangunan model learning mesin sing bener bisa ngasilaken klasifikasi manungsa iku dhewe masalah hard, nanging bok manawa ana wis buku banget darmabakti kanggo topik iki (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Zoo Galaxy nuduhake évolusi saka akeh proyèk etungan manungsa. First, peneliti usaha proyek dening dhéwé utawa karo tim cilik asisten peneliti (eg, Schawinski kang gaweyan Klasifikasi dhisikan). Yen pendekatan iki ora ukuran uga, peneliti bisa ngalih menyang project etungan manungsa ngendi akeh wong kontribusi klasifikasi. Nanging, kanggo volume tartamtu saka data, gaweyan manungsa murni bakal ora cukup. Ing titik, peneliti kudu mbangun sistem liya-generasi ngendi klasifikasi manungsa sing digunakake kanggo olahraga model learning mesin sing bisa Applied kanggo jumlah sakbenere Unlimited data.