5.2.1 Galaxy Zoo

tafsiri hii iliundwa na kompyuta. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

5.2.1 Galaxy Zoo

Galaxy Zoo inaunganisha juhudi za wengi wa kujitolea zisizo mtaalam wa kuainisha milioni galaxies.

Galaxy Zoo ilikua nje ya tatizo wanakabiliwa na Kevin Schawinski, mwanafunzi kuhitimu katika Astronomy katika Chuo Kikuu cha Oxford mwaka 2007. Kurahisisha kidogo kabisa, Schawinski ilikuwa nia ya galaxies, na galaxies inaweza kuwa classified na wao morphology-elliptical au ond-na na wao rangi-bluu au nyekundu. Wakati huo, hekima ya kawaida miongoni mwa wataalamu wa nyota ni kwamba galaxies ond, kama yetu Milky Way, walikuwa bluu katika Michezo (vijana ikionyesha) na kwamba galaxies elliptical walikuwa nyekundu katika Michezo (ikionyesha umri wa miaka). Schawinski mashaka hekima hii ya kawaida. Yeye watuhumiwa kwamba wakati muundo huu inaweza kuwa kweli kwa ujumla, kulikuwa na pengine sizable idadi ya kipekee, na kwamba kwa kusoma kura ya galaxies-hawa kawaida wale ambao hawakuwa fit inatarajiwa muundo-aweze kujifunza kitu kuhusu mchakato wa kupitia ambayo galaxies sumu.

Hivyo, nini Schawinski zinahitajika ili kugeuza hekima ya kawaida ilikuwa kuweka kubwa ya galaxies morphologically za siri; yaani, galaxies ambayo yamekuwa aidha katika ond au mviringo. Hata hivyo, tatizo ni kwamba njia zilizopo algorithmic kwa ajili ya uainishaji walikuwa bado nzuri ya kutosha kutumika kwa ajili ya utafiti wa kisayansi; kwa maneno mengine, kuainisha galaxies ilikuwa, wakati huo, tatizo kwamba ilikuwa ngumu kwa ajili ya kompyuta. Kwa hivyo, kilichokuwa kinahitajika ilikuwa idadi kubwa ya binadamu kundi la galaxies. Schawinski ilichukua tatizo hili uainishaji na shauku ya mwanafunzi kuhitimu. Katika marathon kikao cha saba, masaa 12 siku, aliweza kuainisha galaxies 50,000. Wakati galaxies 50,000 inaweza kuonekana kama mengi, ni kweli tu kuhusu 5% ya karibu milioni moja galaxies ambayo yamekuwa picha katika Sloan Digital Sky Survey. Schawinski alitambua kwamba alihitaji mbinu zaidi scalable.

Kwa bahati nzuri, zinageuka kuwa kazi ya kuainisha galaxies hauhitaji mafunzo ya juu katika elimu ya nyota; unaweza kufundisha mtu wa kufanya hivyo pretty haraka. Kwa maneno mengine, ingawa kuainisha galaxies ni kazi ambayo ilikuwa ngumu kwa ajili ya kompyuta, ilikuwa pretty rahisi kwa wanadamu. Hivyo, wakati wamekaa katika baa katika Oxford, Schawinski na wenzake falaki Chris Lintott ndoto ya juu tovuti ambapo kujitolea itakuwa kuainisha picha ya galaxies. Miezi michache baadaye, Galaxy Zoo alizaliwa.

Katika tovuti Galaxy Zoo, kujitolea bila kufanyiwa dakika chache za mafunzo; kwa mfano, kujifunza tofauti kati ya ond na elliptical galaxy (Kielelezo 5.2). Baada ya mafunzo haya, kujitolea alikuwa kupita kiasi rahisi Jaribio-usahihi kuainisha 11 ya 15 galaxies na kujulikana Classifications-na kisha kujitolea itaanza uainishaji halisi ya galaxies haijulikani kupitia rahisi mtandao msingi interface (Kielelezo 5.3). mpito kutoka kujitolea kwa falaki lingetokea katika chini ya dakika 10 na required tu kupita chini ya vikwazo, jaribio rahisi.

Kielelezo 5.2: Mifano ya aina kuu mbili za galaxies: ond na mviringo. mradi Galaxy Zoo kutumika zaidi ya 100,000 kujitolea kwa makundi zaidi ya 900,000 images. Chanzo: www.galaxyzoo.org .

Kielelezo 5.3: Input screen ambapo wapiga kura walitakiwa kuainisha picha moja. Chanzo: www.galaxyzoo.org .

Galaxy Zoo kuwavutia kujitolea yake ya awali baada ya mradi huo featured katika makala habari, na katika miezi sita mradi ilikua kwa kuhusisha zaidi ya 100,000 raia wanasayansi, watu walioshiriki kwa sababu wao walifurahia kazi na wao alitaka kuwasaidia mapema elimu ya nyota. Pamoja, hizi kujitolea 100,000 imechangia jumla ya Classifications zaidi ya milioni 40, na idadi kubwa ya uainishaji kuja kutoka kiasi kidogo, kundi la msingi wa washiriki (Lintott et al. 2008) .

Watafiti ambao wana uzoefu kukodisha watafiti wasaidizi shahada ya kwanza inaweza mara moja kuwa na wasiwasi kuhusu ubora data. Ingawa kutia shaka hii ni ya kuridhisha, Galaxy Zoo inaonyesha kuwa wakati michango kujitolea ni usahihi kusafishwa, debiased, na totala, wanaweza kutoa matokeo ya ubora wa (Lintott et al. 2008) . Hila muhimu kwa ajili ya kupata umati wa watu ili kujenga mtaalamu data ubora ni redundancy; yaani, baada kazi hiyo iliyofanywa na watu mbalimbali. Katika Galaxy Zoo, kulikuwa na 40 Classifications per galaxy; watafiti kutumia watafiti wasaidizi shahada ya kwanza kamwe kumudu ngazi hii ya redundancy na hivyo haja ya kuwa zaidi na wasiwasi na ubora wa kila uainishaji binafsi. Nini kujitolea walikosa katika mafunzo, walifanya juu kwa ajili na redundancy.

Hata kwa uainishaji nyingi kwa galaxy, hata hivyo, kuchanganya seti ya uainishaji wa kujitolea wa kuzalisha makubaliano uainishaji ni gumu. Kwa sababu na changamoto zinazofanana sana kutokea katika miradi mingi hesabu binadamu, ni muhimu kwa ufupi hatua tatu kwamba watafiti Galaxy Zoo kutumika kuzalisha makubaliano Classifications yao. Kwanza, watafiti "kusafishwa" data kwa kuondoa Classifications bogus. Kwa mfano, watu ambao mara kwa mara katika kundi moja galaxy-kitu ambacho kingetokea kama walikuwa wakijaribu kuendesha matokeo-alikuwa Classifications yao yote kuondolewa. Hii na mengine yanayofanana kusafisha kuondolewa kuhusu 4% ya uainishaji wote.

Pili, baada ya kusafisha, watafiti zinahitajika ili kuondoa biases utaratibu katika Classifications. Kupitia mfululizo wa masomo upendeleo kugundua iliyoingia ndani ya awali mfano mradi kwa, kuonyesha baadhi kujitolea galaxy katika monochrome badala ya rangi-watafiti waligundua biases kadhaa utaratibu, kama vile upendeleo utaratibu wa kuainisha galaxies mbali mbali ond kama galaxies elliptical (Bamford et al. 2009) . Kurekebisha kwa biases hizi utaratibu ni muhimu sana kwa sababu wastani michango mingi haina kuondoa upendeleo utaratibu; ni tu kuondosha makosa random.

Hatimaye, baada ya debiasing, watafiti inahitajika mbinu kuchanganya uainishaji binafsi kuzalisha makubaliano uainishaji. njia rahisi ya kuchanganya uainishaji kwa kila galaxy itakuwa kuchagua uainishaji ya kawaida. Hata hivyo, mbinu hii bila kutoa kila kujitolea sawa uzito, na watafiti watuhumiwa kwamba baadhi kujitolea walikuwa bora katika uainishaji kuliko wengine. Kwa hiyo, watafiti maendeleo ngumu zaidi iterative Viktning utaratibu kwamba majaribio ya moja kwa moja kuchunguza classifiers bora na kuwapa uzito zaidi.

Hivyo, baada ya hatua tatu mchakato kusafisha, debiasing, na Viktning-Galaxy Zoo timu ya utafiti alikuwa kubadilishwa milioni 40 wa kujitolea Classifications katika seti ya makubaliano Classifications maumbile. Wakati hayo Classifications Galaxy Zoo walikuwa ikilinganishwa na majaribio ya tatu uliopita wadogo wadogo na wataalamu wa astronomia, ikiwa ni pamoja uainishaji na Schawinski kwamba alisaidia kuhamasisha Galaxy Zoo, kulikuwa na nguvu makubaliano. Hivyo, kujitolea, katika jumla ya mabao, walikuwa na uwezo wa kutoa Classifications ubora wa juu na katika kiwango kwamba watafiti hakuweza mechi (Lintott et al. 2008) . Kwa kweli, kwa kuwa Classifications binadamu kwa idadi kubwa ya galaxies, Schawinski, Lintott, na wengine walikuwa na uwezo wa kuonyesha kwamba tu kuhusu 80% ya galaxies kufuata inatarajiwa muundo-bluu spirals na ellipticals-na nyekundu magazeti mbalimbali vimeandikwa kuhusu ugunduzi huu (Fortson et al. 2011) .

Kutokana na hali hii, sasa tunaweza kuona jinsi Galaxy Zoo ifuatavyo kupasuliwa-kuomba-kuchanganya kichocheo, kichocheo sawa kwamba ni kutumika kwa ajili ya miradi zaidi hesabu ya kibinadamu. Kwanza, tatizo kubwa ni umegawanyika katika chunks. Katika kesi hiyo, tatizo la kuainisha milioni galaxies umegawanyika katika matatizo milioni ya kuainisha galaxy moja. Next, operesheni ni kutumika kwa kila chunk kujitegemea. Katika kesi hiyo, kujitolea itakuwa kuainisha kila galaxy kama ama ond au mviringo. Hatimaye, matokeo ni pamoja na kuzalisha matokeo makubaliano. Katika kesi hiyo, kuchanganya hatua ni pamoja na kusafisha, debiasing, na Viktning kuzalisha makubaliano uainishaji kwa kila galaxy. Japokuwa miradi mingi kutumia mapishi ujumla, kila hatua inahitaji umeboreshwa na tatizo maalum zinafanyiwa kazi. Kwa mfano, katika binadamu hesabu mradi ilivyoelezwa hapo chini, kichocheo hicho itakuwa na kufuatiwa, lakini kuomba na kuchanganya hatua itakuwa tofauti kabisa.

Kwa ajili ya timu Galaxy Zoo, mradi huu wa kwanza ulikuwa mwanzo tu. Haraka sana waligundua kwamba ingawa waliweza kuainisha karibu na galaxies milioni, wadogo hii haitoshi kufanya kazi na tafiti karibu zaidi digital anga, ambayo inaweza kuzalisha picha za zipatazo bilioni 10 galaxies (Kuminski et al. 2014) . Kushughulikia kuongezeka kutoka milioni 1-10000000000-sababu ya 10,000-Galaxy Zoo bila haja ya kuajiri takribani mara 10,000 zaidi washiriki. Japokuwa idadi ya kujitolea kwenye mtandao ni kubwa, ni si usio. Kwa hiyo, watafiti waligundua kuwa kama wao ni kwenda kushughulikia milele kuongezeka kiasi cha data, mpya, hata zaidi scalable, mbinu hiyo, inahitajika.

Kwa hivyo, Manda Banerji-kazi na Kevin Schawinski, Chris Lintott, na wanachama wengine wa Galaxy Zoo timu kuanzia kompyuta mafundisho kuainisha galaxies. Zaidi hasa, kwa kutumia Classifications binadamu kuundwa kwa Galaxy Zoo, Banerji et al. (2010) kujengwa mashine kujifunza mfano kwamba inaweza kutabiri uainishaji binadamu wa galaxy kulingana na tabia ya picha. Kama hii mashine kujifunza mfano inaweza kuzaliana Classifications binadamu kwa usahihi juu, basi inaweza kutumiwa na watafiti Galaxy Zoo kuainisha idadi kimsingi usio wa galaxies.

msingi wa mbinu Banerji na wenzake 'ni kweli pretty sawa na mbinu ya kawaida kutumika katika utafiti wa kijamii, pamoja na kwamba kufanana wanaweza kuwa wazi katika mtazamo wa kwanza. Kwanza, Banerji na wenzake kubadilishwa kila picha katika seti ya makala numeric kuwa muhtasari wa ni mali. Kwa mfano, kwa ajili ya picha ya galaxies kuna inaweza kuwa makala tatu: kiasi cha bluu katika picha, ugomvi katika mwangaza ya saizi, na uwiano wa saizi zisizo nyeupe. uteuzi wa makala sahihi ni sehemu muhimu ya tatizo, na kwa ujumla inahitaji somo-eneo utaalamu. Hii hatua ya kwanza, inayoitwa kwa kawaida kipengele uhandisi, matokeo katika tumbo data na safu moja kwa picha na kisha tatu nguzo kuelezea kwamba picha. Kutokana na tumbo data na pato taka (kwa mfano, kama picha katika kundi kwa binadamu kama galaxy elliptical), mtafiti inakadiria vigezo ya takwimu mfano-kwa mfano, kitu kama vifaa regression-kwamba anahisi uainishaji binadamu makao juu ya makala ya picha. Hatimaye, mtafiti anatumia vigezo katika mtindo huu wa takwimu kuzalisha makadirio Classifications ya galaxies mpya (Kielelezo 5.4). Kufikiria Analog kijamii, kufikiria kwamba alikuwa na idadi ya watu habari kuhusu wanafunzi milioni, na wewe kujua kama wao wamemaliza chuo au la. Unaweza fit regression vifaa na takwimu hii, na kisha unaweza kutumia kusababisha vigezo mfano kutabiri kama wanafunzi wapya ni kwenda kuhitimu kutoka chuo. Katika kujifunza mashine, hii mbinu-kwa kutumia kinachoitwa mifano kujenga takwimu mfano kwamba unaweza kisha studio mpya data-inaitwa inasimamiwa kujifunza (Hastie, Tibshirani, and Friedman 2009) .

Kielelezo 5.4: Kilichorahisishwa maelezo ya jinsi Banerji et al. (2010) kutumika Galaxy Zoo Classifications kutoa mafunzo kwa mashine kujifunza mfano kufanya uainishaji Galaxy. Picha za galaxies walikuwa waongofu katika tumbo ya makala. Katika mfano huu rahisi kuna makala tatu (kiasi cha bluu katika picha, ugomvi katika mwangaza ya saizi, na uwiano wa saizi zisizo nyeupe). Kisha, kwa subset ya picha, maandiko Galaxy Zoo hutumiwa kutoa mafunzo kwa mfano kujifunza mashine. Hatimaye, kujifunza mashine ni kutumika kukadiria Classifications kwa galaxies iliyobaki. Natoa wito aina hii ya mradi kizazi cha pili computational binadamu mradi kwa sababu, kuliko kuwa binadamu kutatua tatizo, wana binadamu kujenga CCD ambayo inaweza kutumika kutoa mafunzo kwa kompyuta ili kutatua tatizo. faida ya mbinu hii kompyuta-kusaidiwa ni kwamba itawezesha wewe kushughulikia kiasi kimsingi usio wa data kwa kutumia tu kiasi kidogo cha juhudi za kibinadamu.

Makala katika Banerji et al. (2010) kujifunza mashine mfano zilikuwa ngumu zaidi kuliko wale wa toy yangu mfano-kwa mfano, alitumia makala kama "de Vaucouleurs fit axial uwiano" -na mtindo wake haukuwa vifaa regression, ilikuwa bandia neural mtandao. Kutumia makala yake, mfano wake, na makubaliano Galaxy Zoo Classifications, yeye alikuwa na uwezo wa kujenga uzito kila kipengele, na kisha kutumia uzito hizi kufanya utabiri kuhusu uainishaji wa galaxies. Kwa mfano, uchambuzi wake iligundua kuwa picha na Asili "de Vaucouleurs fit axial uwiano" walikuwa zaidi uwezekano wa kuwa na ond galaxies. Kutokana na uzito hizi, yeye alikuwa na uwezo wa kutabiri uainishaji binadamu wa galaxy na usahihi wa kutosha.

Kazi ya Banerji et al. (2010) akageuka Galaxy Zoo katika kile ambacho linaweza kujulikana kizazi cha pili hesabu binadamu mfumo. njia bora ya kufikiria kuhusu mifumo hii kizazi cha pili ni kwamba badala ya kuwa binadamu kutatua tatizo, wana binadamu kujenga CCD ambayo inaweza kutumika kutoa mafunzo kwa kompyuta ili kutatua tatizo. kiasi cha data zinahitajika kutoa mafunzo ya kompyuta inaweza kuwa hivyo kubwa kwamba inahitaji binadamu wingi kushirikiana kujenga. Katika kesi ya Galaxy Zoo, mitandao neural kutumiwa na Banerji et al. (2010) required idadi kubwa sana ya mifano binadamu-kinachoitwa ili kujenga mfano kwamba alikuwa na uwezo wa reliably kuzaliana uainishaji binadamu.

faida ya mbinu hii kompyuta-kusaidiwa ni kwamba itawezesha wewe kushughulikia kiasi kimsingi usio wa data kwa kutumia tu kiasi kidogo cha juhudi za kibinadamu. Kwa mfano, mtafiti na milioni binadamu kundi la galaxies unaweza kujenga uingizaji mfano kwamba basi zinaweza kutumika kuainisha bilioni au hata galaxies trilioni. Kama kuna idadi kubwa ya galaxies, basi aina hii ya binadamu-kompyuta mseto ni kweli tu inawezekana ufumbuzi. Hii scalability usio si bure, hata hivyo. Kujenga mashine kujifunza mfano kwamba inaweza kwa usahihi kuzaliana Classifications binadamu ni yenyewe tatizo ngumu, lakini kwa bahati nzuri tayari kuna vitabu bora wakfu kwa mada hii (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo inaonyesha mageuzi ya miradi mingi hesabu ya kibinadamu. Kwanza, mtafiti majaribio mradi na yeye mwenyewe au na timu ndogo ya watafiti wasaidizi (kwa mfano, Schawinski ya awali uainishaji juhudi). Kama mbinu hii haina wadogo vizuri, mtafiti unaweza hoja kwa hesabu mradi binadamu ambapo watu wengi kuchangia Classifications. Lakini, kwa kiasi fulani cha data, juhudi safi binadamu hautakuwa wa kutosha. Katika hatua hiyo, watafiti haja ya kujenga mifumo ya kizazi cha pili ambapo Classifications binadamu hutumiwa kutoa mafunzo kwa mashine kujifunza mfano kwamba basi zinaweza kutumika kwa kiasi karibu ukomo wa data.