5.2.1 Galaxy Zoo

Ang Galaxy Zoo naghiusa sa mga paningkamot sa daghang mga dili eksperto nga mga boluntaryo sa pagklasipikar sa usa ka milyon nga mga galaksiya.

Ang Galaxy Zoo mitubo gikan sa usa ka problema nga giatubang ni Kevin Schawinski, usa ka estudyante sa pagtuon sa Astronomiya sa Unibersidad sa Oxford sa 2007. Sa pagpayano sa usa ka gamay, si Schawinski interesado sa mga galaksiya, ug ang mga galaksiya mahimong gigamit sa ilang morphology-elliptical o spiral-ug pinaagi sa ilang kolor nga asul o pula. Niadtong panahona, ang conventional wisdom sa mga astronomo mao ang spiral galaxies, sama sa atong Milky Way, asul ang kolor (nagpaila sa mga kabatan-onan) ug ang mga elliptical galaxies pula (nagpakita nga katigulang). Si Schawinski nagduhaduha niining conventional nga kaalam. Nagduda siya nga samtang kini nga sumbanan mahimong tinuod sa kinatibuk-an, tingali usa ka dakong gidaghanon sa mga eksepsyon, ug nga pinaagi sa pagtuon sa daghang mga talagsaon nga mga galaksiya-ang mga butang nga dili mohaum sa gipaabut nga sumbanan-siya makakat-on og usa ka butang mahitungod sa proseso nga pinaagi niini galaksiya nga giumol.

Busa, unsa ang gikinahanglan ni Schawinski aron mapukan ang conventional nga kaalam mao ang usa ka dako nga hut-ong sa mga galaxy nga gikutlo nga morphologically; nga mao, ang mga galaksiya nga gikutlo isip spiral o elliptical. Ang problema, hinoon, nga ang naglungtad nga mga pamaagi sa algorithm alang sa klasipikasyon dili pa igo aron magamit alang sa siyentipikong pagsiksik; sa laing pagkasulti, ang pagklasipikar sa mga galaksiya, niadtong panahona, usa ka problema nga lisud alang sa mga kompyuter. Busa, ang gikinahanglan mao ang daghang gidaghanon sa mga galaksiya sa tawo . Gisunod ni Schawinski kining problema sa klasipikasyon uban ang kadasig sa usa ka estudyante sa graduate. Sa sesyon sa marathon sa pito ka 12-oras nga mga adlaw, nakahimo siya sa pag-classify sa 50,000 nga mga galaksiya. Samtang ang 50,000 nga mga galaksiya sama ka daghan, kini sa pagkatinuod mga 5% lamang sa halos usa ka milyon nga mga galaksiya nga gikuha sa Sloan Digital Sky Survey. Naamgohan ni Schawinski nga siya nagkinahanglan og usa ka mas mausab nga paagi.

Maayo na lang, kini turns nga ang tahas sa nagklasipikar galaksiya wala magkinahanglan og abante nga training sa astronomiya; nga imong mahimo sa pagtudlo sa usa ka tawo sa pagbuhat niini pretty sa madali. Sa laing mga pulong, bisan pa nga nagklasipikar galaksiya mao ang usa ka buluhaton nga lisud alang sa mga computer, kini pretty sayon ​​alang sa mga tawo. Busa, samtang naglingkod sa usa ka pub sa Oxford, Schawinski ug mga kauban sa astronomo Chris Lintott nagdamgo sa usa ka website diin ang mga boluntaryo nga pagklasipikar larawan sa galaksiya. Pipila ka bulan sa ulahi, Galaxy Zoo natawo.

Sa website sa Galaxy Zoo, ang mga boluntaryo moagi sa pipila ka mga minuto sa pagbansay; pananglitan, pagkat-on sa kalainan tali sa usa ka spiral ug elliptical galaxy (numero 5.2). Human niini nga pagbansay, ang matag boluntaryo kinahanglang mopasa sa usa ka sayon ​​nga quiz-husto nga pagklasipikar sa 11 sa 15 ka mga galaksiya nga adunay nailhan nga klasipikasyon-ug unya magsugod sa tinuod nga klasipikasyon sa wala mailhi nga mga galaksiya pinaagi sa usa ka simple nga web-based interface (Figure 5.3). Ang pagbag-o gikan sa boluntaryo ngadto sa astronomo mahitabo sulod sa wala'y 10 minutos ug gikinahanglan lamang nga moagi sa labing ubos nga mga babag, usa ka simple nga quiz.

Figure 5.2: Mga pananglitan sa duha ka nag-unang matang sa mga galaksiya: spiral ug elliptical. Gigamit sa proyekto sa Galaxy Zoo ang kapin sa 100,000 nga mga boluntaryo aron ma-categorize ang labaw sa 900,000 nga mga hulagway. Gikompirmar pinaagi sa pagtugot gikan sa http://www.GalaxyZoo.org ug Sloan Digital Sky Survey.

Figure 5.2: Mga pananglitan sa duha ka nag-unang matang sa mga galaksiya: spiral ug elliptical. Gigamit sa proyekto sa Galaxy Zoo ang kapin sa 100,000 nga mga boluntaryo aron ma-categorize ang labaw sa 900,000 nga mga hulagway. Gikompirmar pinaagi sa pagtugot gikan sa http://www.GalaxyZoo.org ug Sloan Digital Sky Survey .

Figure 5.3: Input screen diin ang mga boluntaryo gihangyo sa pagklasipikar sa usa ka imahe. Gipamatuud pinaagi sa pagtugot gikan ni Chris Lintott nga gibase sa usa ka imahe gikan sa Sloan Digital Sky Survey.

Figure 5.3: Input screen diin ang mga boluntaryo gihangyo sa pagklasipikar sa usa ka imahe. Gipamatuud pinaagi sa pagtugot gikan ni Chris Lintott nga gibase sa usa ka imahe gikan sa Sloan Digital Sky Survey .

Ang Galaxy Zoo nakadani sa mga inisyal nga boluntaryo human ang proyekto gipakita sa usa ka artikulo sa balita, ug sa mga unom ka bulan ang proyekto mitubo nga naglangkob sa kapin sa 100,000 ka lumulupyo nga mga siyentipiko, mga tawo nga miapil tungod kay nalingaw sila sa buluhaton ug gusto nila nga maabagan ang astronomiya. Kini nga mga 100,000 nga mga boluntaryo nag-amot sa kinatibuk-an nga kapin sa 40 ka milyon nga klasipikasyon, ug ang kadaghanan sa mga klasipikasyon gikan sa gamay nga grupo sa mga partisipante (Lintott et al. 2008) .

Ang mga tigdukiduki nga adunay kasinatian nga pag-hire sa undergraduate nga mga tigtabang sa pagtuon mahimo nga maduhaduhaon dayon mahitungod sa kalidad sa datos. Samtang kini nga pagduhaduha makatarunganon, ang Galaxy Zoo nagpakita nga kon ang mga kontribusyon sa mga boluntaryo husto nga malimpyohan, mapakyas, ug magkahiusa, makahimo sila og taas nga kalidad nga mga resulta (Lintott et al. 2008) . Ang usa ka importante nga lansis sa paghimo sa panon sa katawhan aron sa paghimo sa mga propesyonal nga kalidad nga datos mao ang kalapdon , nga mao, nga adunay sama nga buluhaton nga gipahigayon sa daghan nga mga tawo. Sa Galaxy Zoo, dihay mga 40 ka klasipikasyon matag galaksiya; ang mga tigdukiduki nga naggamit sa mga undergraduate nga mga tigtabang sa pagtuon dili makahimo niini nga lebel sa pagluwad ug busa kinahanglan nga labaw nga mabalaka sa kalidad sa matag usa nga klasipikasyon. Unsa ang kulang sa mga boluntaryo sa pagbansaybansay, nga gihimo nila nga adunay kalabutan.

Bisan pa sa daghang klasipikasyon sa matag galaksiya, bisan pa niana, ang pagkombinar sa hugpong sa mga boluntaryong klasipikasyon aron makamugna ang usa ka pagklasipikar nga klasipikasyon malisod. Tungod sa susama nga mga hagit nga mitungha sa kadaghanan sa mga proyekto sa pag-compute sa mga tawo, makatabang ang pagbalik-balik sa pagbalik sa tulo ka mga lakang nga gigamit sa mga tigdukiduki sa Galaxy Zoo aron makahimo sa ilang mga consensus classification. Una, ang mga tigdukiduki "naglimpyo" sa datos pinaagi sa pagwagtang sa mini nga klasipikasyon. Pananglitan, ang mga tawo nga balikbalik nga nag-classified sa sama nga galaksiya-usa ka butang nga mahitabo kon sila maningkamot sa pagmaniobra sa mga resulta-nahunong na ang tanan nilang mga klasipikasyon. Kini ug uban pang susama nga pagpanglimpyo nakuha mga 4% sa tanan nga klasipikasyon.

Ikaduha, human sa pagpanglimpyo, gikinahanglan sa mga tigdukiduki nga kuhaon ang sistematiko nga pagpihig sa klasipikasyon. Pinaagi sa usa ka sunod-sunod nga mga pag-estudyo sa pag-ila nga gipakita sa sulod sa orihinal nga proyekto-pananglitan, nagpakita sa pipila ka mga boluntaryo nga ang galaksiya sa monochrome imbis nga kolor-ang mga tigdukiduki nakadiskobre sa daghang sistematiko nga pagpihig, sama sa usa ka sistematiko nga pagpugong sa pagklasipikar sa lagyong mga galaksiya nga mga spiral nga mga eliptiko nga galaksiya (Bamford et al. 2009) . Ang pagpahiangay alang niining sistematiko nga pagpihig hinungdanon kaayo tungod kay ang kalapasan dili awtomatiko nga kuhaon ang sistematiko nga pagpihig; kini makatabang lamang sa pagwagtang sa random nga kasaypanan.

Sa kataposan, pagkahuman sa pagbag-o, ang mga tigdukiduki nagkinahanglan og usa ka pamaagi sa pagsagol sa indibidwal nga mga klasipikasyon aron makahimo og pagkonsidera sa konsensus. Ang pinakasimple nga paagi sa pagsagol sa klasipikasyon sa matag galaksiya mao ang pagpili sa labing komon nga klasipikasyon. Bisan pa, kini nga paagi nakahatag sa matag volunteer og managsama nga gibug-aton, ug ang mga tigdukiduki nagduda nga ang ubang mga boluntaryo mas maayo sa klasipikasyon kay sa uban. Busa, ang mga tigdukiduki nakahimo og mas komplikado nga pamaagi sa weighting nga misulay sa pag-ila sa pinakamaayo nga mga tigklasipikar ug paghatag kanila og dugang nga timbang.

Busa, human sa tulo-ka-lakang nga proseso-paghinlo, pagpaubos, ug pagtimbang-timbang-ang team sa paniksik sa Galaxy Zoo nakabig na sa 40 milyon nga boluntaryo nga klasipikasyon ngadto sa usa ka hugpong sa mga konsensus nga morphological classification. Sa diha nga kining mga pag-classify sa Galaxy Zoo gitandi sa tulo ka nang daan nga ginagmay nga pagsulay sa mga propesyonal nga astronomo, lakip ang klasipikasyon ni Schawinski nga nakatabang sa pagdasig sa Galaxy Zoo, adunay kusganong kasabutan. Busa, ang mga boluntaryo, sa kinatibuk-an, nakahimo sa paghatag og taas nga kalidad nga mga klasipikasyon ug sa sukdanan nga dili matugkad sa mga tigdukiduki (Lintott et al. 2008) . Sa pagkatinuod, pinaagi sa pag-klasipikasyon sa mga tawo alang sa daghan kaayong galaksiya, si Schawinski, Lintott, ug uban pa nagpakita nga mga 80% lamang sa mga galaksiya ang nagsunod sa gipaabot nga sumbanan-asul nga mga spiral ug pula nga ellipticals-ug daghang mga papel ang gisulat mahitungod kini nga pagkadiskobre (Fortson et al. 2011) .

Tungod sa kini nga background, mahimo nimong makita karon kung giunsa sa Galaxy Zoo ang pagsunod sa split-apply-combine recipe, ang susama nga resipe nga gigamit alang sa kadaghanan nga mga proyekto sa pagpa-compute sa tawo. Una, ang usa ka dakong problema nabahin ngadto sa mga tipak. Niini nga kaso, ang problema sa pag-classify sa usa ka milyon nga mga galaxy gibahin ngadto sa usa ka milyon nga mga problema sa pagklasipikar sa usa ka galaksiya. Sunod, ang usa ka operasyon gigamit sa matag bahin nga independente. Niini nga kaso, ang mga boluntaryo nag-classified sa matag galaksiya sama sa spiral o elliptical. Sa katapusan, ang mga resulta gihiusa aron makahatag og usa ka konsensus nga resulta. Niini nga kaso, ang paglakip nga lakang naglakip sa pagpanglimpyo, pagbaligya, ug pagtimbang aron makahimo og usa ka konsensus nga klasipikasyon sa matag galaksiya. Bisan tuod ang kadaghanan nga mga proyekto naggamit niining pangkinatibuk-ang resipe, ang matag lakang gikinahanglan nga ipahaum ngadto sa piho nga suliran nga gisulbad. Pananglitan, diha sa proyekto sa human computation nga gihulagway sa ubos, ang susama nga resipe pagasundon, apan ang paggamit ug paghiusa sa mga lakang magkalahi.

Alang sa tim sa Galaxy Zoo, kining una nga proyekto mao lang ang sinugdanan. Sa dali nga nahibal-an nila nga bisan pa nga nakahimo sila sa pagklasipikar duol sa usa ka milyon nga mga galaksiya, kini nga sukdanan dili igo nga magtrabaho uban sa mas bag-ong digital nga mga survey sa kalangitan, nga makahimo og mga hulagway nga mga 10 ka bilyon nga galaksiya (Kuminski et al. 2014) . Aron madumala ang pagtaas gikan sa usa ka milyon ngadto sa 10 bilyon-usa ka hinungdan sa 10,000-Galaxy Zoo kinahanglan nga mag-recruit halos 10,000 ka pilo nga mga partisipante. Bisan pa ang gidaghanon sa mga boluntaryo sa Internet dako, kini dili walay kinutuban. Busa, nahibal-an sa mga tigdukiduki nga kon kini magdumala sa padayon nga pagdaghan sa mga datos, gikinahanglan ang usa ka bag-o, labi pa nga mausab.

Busa, si Manda Banerji-nagtrabaho uban sa Schawinski, Lintott, ug uban pang mga sakop sa team sa Galaxy Zoo (2010) -nga gitudlo nga mga kompyuter sa pagtudlo sa pagklasipikar sa mga galaksiya. Labaw ilabi na, ginamit ang mga klasipikasyon sa tawo nga gimugna sa Galaxy Zoo, ang Banerji nagtukod og usa ka modelo sa pagkat-on sa makina nga makatagna sa pagklasipikar sa tawo nga usa ka galaksiya base sa mga kinaiya sa imahe. Kung kini nga modelo makahimo sa paghimo sa tawhanong klasipikasyon uban ang taas nga katukma, nan mahimo kini nga gamiton sa mga tigdukiduki sa Galaxy Zoo sa pagklasipikar sa usa ka walay katapusan nga gidaghanon sa mga galaksiya.

Ang kinauyokan sa pamaagi sa Banerji ug mga kauban usa ka tinuod nga susama sa mga pamaagi nga sagad gigamit sa paniksik sa katilingban, bisan pa nga ang kaamgiran dili klaro sa unang pagtan-aw. Una, ang Banerji ug mga kaubanan nakombertir sa matag hulagway ngadto sa usa ka hugpong sa mga hiyas sa numero nga nagsumada sa mga kabtangan niini. Pananglitan, alang sa mga hulagway sa mga galaksiya, adunay tulo ka bahin: ang gidaghanon sa asul nga larawan, ang kalainan sa kahayag sa mga pixel, ug ang gidaghanon sa dili puti nga mga pixel. Ang pagpili sa husto nga mga bahin usa ka importante nga bahin sa problema, ug sa kinatibuk-an kini nagkinahanglan sa hilisgutan nga bahin sa lugar. Kini nga unang lakang, kasagaran gitawag nga feature engineering , moresulta sa usa ka data matrix nga adunay usa ka laray matag usa ka imahen ug dayon tulo ka kolum nga naghulagway sa maong larawan. Tungod sa data matrix ug sa gitinguhang output (pananglitan, kon ang imahe gi-classify sa usa ka tawo nga usa ka elliptical galaxy), ang tigdukiduki nagmugna sa usa ka modelo sa estudyante sa estadistika o machine-pananglitan, logistic regression-nga nagtagna sa klasipikasyon sa tawo base sa mga bahin sa hulagway. Sa katapusan, gigamit sa tigdukiduki ang mga lagda niining estatistika nga modelo aron makamugna ang gibana-bana nga klasipikasyon sa bag-ong mga galaksiya (numero 5.4). Sa pagkat-on sa makina, kini nga paagi-nga naggamit sa gimarka nga mga pananglitan aron paghimo og usa ka modelo nga mahimo unya nga mag-label sa bag-ong datos-gitawag nga pinanan-aw nga pagkat-on .

Figure 5.4: Gihubad nga paghulagway kung giunsa Banerji et al. (2010) gigamit ang mga klasipikasyon sa Galaxy Zoo aron sa pagbansay sa usa ka modelo sa pagkat-on sa makina aron mahimo ang pagklasipikar sa galaksiya. Ang mga hulagway sa mga galaksiya nakabig sa usa ka matrix sa mga bahin. Niining gipasayon ​​nga pananglitan, adunay tulo ka bahin (ang gidaghanon sa asul sa imahe, ang kalainan sa kahayag sa mga pixel, ug ang gidaghanon sa mga nonwhite nga pixel). Dayon, alang sa usa ka tipik sa mga hulagway, ang mga label sa Galaxy Zoo gigamit sa pagbansay sa modelo sa pagkat-on sa makina. Sa katapusan, ang pagkat-on sa makina ginagamit sa pagtantiya sa klasipikasyon alang sa nahibilin nga mga galaksiya. Gitawag ko kini nga usa ka computer-assisted human computation project tungod kay, imbis nga masulbad ang mga tawo sa usa ka problema, kini adunay mga tawo nga magtukod og usa ka dataset nga magamit sa pagbansay sa computer aron masulbad ang problema. Ang bentaha niining computer-assisted human computation system mao nga kini makapaarang kanimo sa pagdumala sa dili maihap nga gidaghanon sa datos nga gamit lamang ang limitadong gidaghanon sa pagpaningkamot sa tawo. Mga hulagway sa mga galaksi nga gipakita pinaagi sa pagtugot gikan sa Sloan Digital Sky Survey.

Figure 5.4: Gihubad nga paghulagway kung giunsa Banerji et al. (2010) gigamit ang mga klasipikasyon sa Galaxy Zoo aron sa pagbansay sa usa ka modelo sa pagkat-on sa makina aron mahimo ang pagklasipikar sa galaksiya. Ang mga hulagway sa mga galaksiya nakabig sa usa ka matrix sa mga bahin. Niining gipasayon ​​nga pananglitan, adunay tulo ka bahin (ang gidaghanon sa asul sa imahe, ang kalainan sa kahayag sa mga pixel, ug ang gidaghanon sa mga nonwhite nga pixel). Dayon, alang sa usa ka tipik sa mga hulagway, ang mga label sa Galaxy Zoo gigamit sa pagbansay sa modelo sa pagkat-on sa makina. Sa katapusan, ang pagkat-on sa makina ginagamit sa pagtantiya sa klasipikasyon alang sa nahibilin nga mga galaksiya. Gitawag ko kini nga usa ka computer-assisted human computation project tungod kay, imbis nga masulbad ang mga tawo sa usa ka problema, kini adunay mga tawo nga magtukod og usa ka dataset nga magamit sa pagbansay sa computer aron masulbad ang problema. Ang bentaha niining computer-assisted human computation system mao nga kini makapaarang kanimo sa pagdumala sa dili maihap nga gidaghanon sa datos nga gamit lamang ang limitadong gidaghanon sa pagpaningkamot sa tawo. Mga hulagway sa mga galaksi nga gipakita pinaagi sa pagtugot gikan sa Sloan Digital Sky Survey .

Ang mga bahin sa modelo sa pag-estudyo sa machine sa Banerji ug kompaniya mas komplikado kaysa sa akong dulaan nga pananglitan-pananglitan, migamit siya og mga kinaiyahan sama sa "de Vaucouleurs nga adunay kalahian sa axial ratio" -ug ang iyang modelo dili logistic regression, kini usa ka artipisyal nga neural network. Gigamit niya ang iyang mga bahin, ang iyang modelo, ug ang pag-uyon sa mga Galaxy Zoo nga mga klasipikasyon, nakahimo siya sa pagmugna og mga gibug-aton sa matag bahin, ug unya gamiton kini nga mga gibug-aton aron paghimo sa mga panagna mahitungod sa klasipikasyon sa mga galaksiya. Pananglitan, ang iyang pag-analisa nakit-an nga ang mga hulagway nga adunay ubos nga "de Vaucouleurs nga angayan sa axial ratio" mas lagmit nga mga spiral galaxies. Tungod sa mga gibug-aton, siya nakatagna sa pagklasipikar sa tawo sa usa ka galaksiya nga adunay tukma nga katukma.

Ang buhat sa Banerji ug mga kaubanan mibalik sa Galaxy Zoo ngadto sa akong gitawag nga computer-assisted human computation system . Ang pinakamaayong paagi sa paghunahuna mahitungod niining hybrid nga mga sistema mao nga imbis nga masulbad sa mga tawo ang usa ka suliran, sila adunay mga tawo nga magtukod og usa ka dataset nga magamit sa pagbansay sa usa ka computer aron masulbad ang problema. Usahay, ang pagbansay sa usa ka computer aron masulbad ang problema mahimong magkinahanglan og daghan nga mga pananglitan, ug ang bugtong paagi aron makahimo og igo nga gidaghanon sa mga panig-ingnan mao ang usa ka masa nga kolaborasyon. Ang kaayohan niining paagi sa pagtabang sa kompyuter mao nga kini makapaarang kanimo sa pagdumala nga walay kinutuban nga gidaghanon sa datos gamit ang usa ka limitadong gidaghanon sa paningkamot sa tawo. Pananglitan, ang usa ka tigdukiduki nga adunay usa ka milyon nga galaksiya nga gi-classified sa tawo ang makahimo sa usa ka predictive model nga mahimong gamiton sa pagklasipikar sa usa ka bilyon o bisan usa ka trilyong galaksiya. Kon adunay daghan kaayong mga galaksiya, nan kini nga matang sa hybrid nga human-computer mao gayud ang bugtong posible nga solusyon. Kini nga walay kinutuban nga pagkadako dili libre, bisan pa. Ang pagtukod sa usa ka model sa pagkat-on sa makina nga makahimo sa husto nga paghimo sa tawo nga mga klasipikasyon mismo usa ka lisud nga problema, apan maayo na nga adunay maayo kaayong libro nga gipahinungod niini nga hilisgutan (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Ang Galaxy Zoo usa ka maayong ilustrasyon kon pila ka mga proyekto sa pagpa-us aka mga tawo ang nag-uswag. Una, usa ka tigdukiduki misulay sa proyekto sa iyang kaugalingon o uban sa usa ka gamay nga pundok sa mga tigtabang nga tigdukiduki (pananglitan, ang unang paningkamot sa pag-classify ni Schawinski). Kon kini nga pamaagi dili maayo, ang tigdukiduki mahimong mobalhin ngadto sa usa ka proyekto sa pag-compute sa tawo nga adunay daghan nga mga partisipante. Apan, alang sa usa ka gikusgon nga datos, ang tawhanong paningkamot dili igo. Niini nga punto, ang mga tigdukiduki kinahanglan nga magtukod og usa ka computer-assisted human computation system diin ang mga klasipikasyon sa tawo gigamit sa pagbansay sa usa ka modelo sa pagkat-on sa makina nga mahimo dayon nga magamit sa halos walay kutub nga gidaghanon sa datos.