5.2.1 Galaxy Zoo

Galaxy Zoo għaqqad l-isforzi ta 'ħafna voluntiera mhux esperti biex jikklassifikaw miljun galaxija.

Galaxy Zoo kiber minn problema ffaċċjata minn Kevin Schawinski, student gradwat fl-Astronomija fl-Università ta 'Oxford fl-2007. Semplifikat pjuttost ftit, Schawinski kien interessat fil-galaxies, u l-galaxies jistgħu jiġu kklassifikati skond il-morfoloġija ellittika jew spirali tagħhom u bil-kulur tagħhom blu jew aħmar. Fiż-żmien, l-għerf konvenzjonali fost l-astronomiċi kien li l-galaxies spirali, bħall-Ħalib tal-Ħalib tagħna, kienu ta 'kulur blu (li tindika ż-żgħażagħ) u galaxies ellittiċi kienu ħomor (li jindikaw ix-xjuħija). Schawinski iddubita din l-għerf konvenzjonali. Huwa ssuspettat li filwaqt li dan il-mudell jista 'jkun minnu b'mod ġenerali, probabbilment kien hemm numru kbir ta' eċċezzjonijiet, u li billi studja ħafna minn dawn il-galaxies mhux tas-soltu - dawk li ma kinux adattati għall-mudell mistenni - jista 'jitgħallem xi ħaġa dwar il- galaxies iffurmati.

Għalhekk, dak li Schawinski kellha bżonn sabiex tinqered l-għerf konvenzjonali kien sett kbir ta 'galaxies ikklassifikati morfoloġikament; jiġifieri, galaxies li kienu kklassifikati bħala spirali jew ellittiċi. Madankollu, il-problema kienet li l-metodi algoritmiċi eżistenti għall-klassifikazzjoni għadhom mhumiex tajbin biżżejjed biex jintużaw għar-riċerka xjentifika; fi kliem ieħor, il-klassifikazzjoni tal-galaxies kienet, dak iż-żmien, problema li kienet diffiċli għall-kompjuters. Għalhekk, dak li kien meħtieġ kien numru kbir ta 'galaxies klassifikati mill- bniedem . Schawinski wettqet din il-problema ta 'klassifikazzjoni bl-entużjażmu ta' student gradwat. F'sessjoni maratona ta 'sebat ijiem ta' 12-il siegħa, huwa seta 'jikklassifika 50,000 galaxija. Filwaqt li 50,000 galaxija jistgħu ħoss bħal ħafna, fil-fatt huwa biss madwar 5% tal-kważi miljun galaxija li kienu ġew fotografati fl-Istħarriġ Sloan Digital Sky. Schawinski induna li kellu bżonn ta 'approċċ aktar skalabbli.

Fortunatament, jirriżulta li l-kompitu ta 'galaxies klassifikazzjoni ma jeħtieġu taħriġ avvanzat fl-astronomija; inti tista jgħallmu xi ħadd li jagħmel dan pretty malajr. Fi kliem ieħor, anki jekk klassifikazzjoni galaxies huwa kompitu li kien diffiċli għall-kompjuters, kien pjuttost faċli għall-bnedmin. Allura, waqt seduta fi pub fil Oxford, Schawinski u sħabi astronomu Chris Lintott ħolmu ta 'websajt fejn il-voluntiera jikklassifikaw stampi ta' galaxies. Ftit xhur wara, Galaxy Zoo twieled.

Fil-websajt tal-Galaxy Zoo, il-voluntieri jgħaddu minn ftit minuti ta 'taħriġ; per eżempju, it-tagħlim tad-differenza bejn spirali u galaxie ellittika (figura 5.2). Wara dan it-taħriġ, kull voluntier kellu jgħaddi kwizz relattivament faċli li jikklassifika b'mod korrett 11 minn 15-il galażi b'klassifikazzjonijiet magħrufa - u mbagħad jibda klassifikazzjoni reali ta 'galaxji mhux magħrufa permezz ta' interface sempliċi fuq il-web (figura 5.3). It-transizzjoni minn voluntier għal astronomu ssir f'inqas minn 10 minuti u tkun meħtieġa biss li tgħaddi l-aktar livelli baxxi ta 'ostakli, kwizz sempliċi.

Figura 5.2: Eżempji taż-żewġ tipi ewlenin ta 'galaxies: spirali u ellittika. Il-proġett Zoo Galaxy uża aktar minn 100,000 voluntier biex jikkategorizza aktar minn 900,000 immaġini. Riprodotta bil-permess minn http://www.GalaxyZoo.org u Sloan Digital Sky Survey.

Figura 5.2: Eżempji taż-żewġ tipi ewlenin ta 'galaxies: spirali u ellittika. Il-proġett Zoo Galaxy uża aktar minn 100,000 voluntier biex jikkategorizza aktar minn 900,000 immaġini. Riprodotta bil-permess minn http://www.GalaxyZoo.org u Sloan Digital Sky Survey .

Figura 5.3: Skrin tal-input fejn il-voluntiera ntalbu jikklassifikaw immaġni waħda. Riprodotta bil-permess minn Chris Lintott ibbażata fuq dehra mill-Istħarriġ Sloan Digital Sky.

Figura 5.3: Skrin tal-input fejn il-voluntiera ntalbu jikklassifikaw immaġni waħda. Riprodotta bil-permess minn Chris Lintott ibbażata fuq dehra mill- Istħarriġ Sloan Digital Sky .

Galaxy Zoo ġibed il-voluntiera inizjali tiegħu wara li l-proġett kien jidher f'artiklu ta 'aħbarijiet, u f'xi sitt xhur il-proġett kiber biex jinvolvi aktar minn 100,000 xjentist ċittadin, nies li pparteċipaw minħabba li jgawdu l-kompitu u riedu jgħinu fl-astronomija bil-quddiem. Flimkien, dawn il-100,000 voluntier ikkontribwew total ta 'aktar minn 40 miljun klassifikazzjoni, bil-maġġoranza tal-klassifikazzjonijiet li ġejjin minn grupp ċentrali ta' parteċipanti relattivament żgħir (Lintott et al. 2008) .

Ir-riċerkaturi li għandhom esperjenza li jikru assistenti ta 'riċerka li għadhom ma ggradwawx jistgħu immedjatament ikunu xettiċi dwar il-kwalità tad-dejta. Filwaqt li dan ix-xettiċiżmu huwa raġonevoli, Galaxy Zoo juri li meta l-kontribuzzjonijiet tal-voluntiera huma mnaddfa sew, imnaqqsa u aggregati, jistgħu jipproduċu riżultati ta 'kwalità għolja (Lintott et al. 2008) . Tifel importanti biex il-folla tinħoloq data ta 'kwalità professjonali huwa redundancy , jiġifieri, li jkollu l-istess kompitu mwettaq minn ħafna nies differenti. Fil-Galaxy Zoo, kien hemm madwar 40 klassifikazzjoni għal kull galaxie; riċerkaturi li jużaw assistenti ta 'riċerka li għadhom ma ggradwawx qatt ma jistgħu jħallu dan il-livell ta' sensja u għalhekk għandhom ikunu ferm aktar imħassba dwar il-kwalità ta 'kull klassifikazzjoni individwali. X'inhuma l-voluntieri nieqsa mit-taħriġ, huma kkumpensati b'xejra żejda.

Anke bi klassifikazzjonijiet multipli għal kull galaxie, madankollu, il-kombinazzjoni tas-sett ta 'klassifikazzjonijiet tal-voluntiera biex jipproduċu klassifikazzjoni ta' kunsens kienet delikata. Minħabba li jseħħu sfidi simili ħafna fil-biċċa l-kbira tal-proġetti ta 'komputazzjoni umana, huwa utli li jiġu riveduti fil-qosor it-tliet passi li r-riċerkaturi taż-Zoo tal-Galaxy wżaw biex jipproduċu l-klassifikazzjonijiet tal-konsensus tagħhom. L-ewwelnett, ir-riċerkaturi "mnaddfa" id-data billi ineħħu klassifikazzjonijiet foloz. Pereżempju, nies li kklassifikaw ripetutament l-istess galaxie-xi ħaġa li kienet se sseħħ jekk kienu qed jippruvaw jimmanipulaw ir-riżultati - kellhom il-klassifikazzjonijiet kollha mwarrba tagħhom. Dan u tindif ieħor simili neħħa madwar 4% tal-klassifikazzjonijiet kollha.

It-tieni, wara t-tindif, ir-riċerkaturi meħtieġa biex ineħħu l-preġudizzji sistematiċi fil-klassifikazzjonijiet. Permezz ta 'sensiela ta' studji ta 'skoperta ta' preġudizzju inkorporati fi ħdan il-proġett oriġinali-pereżempju, li turi xi voluntiera l-galaxie f'monokroma minflok kulur, ir-riċerkaturi skoprew bosta preġudizzji sistematiċi, bħal preġudizzju sistematiku biex jikklassifikaw galaxies spirali 'l bogħod bħala galaxies ellittiċi (Bamford et al. 2009) . L-aġġustament għal dawn il-preġudizzji sistematiċi huwa estremament importanti minħabba li t-tkeċċija ma tneħħix awtomatikament il-preġudizzju sistematiku; hija tgħin biss biex tneħħi żball każwali.

Fl-aħħarnett, wara d-debiasing, ir-riċerkaturi kellhom bżonn metodu biex jikkombinaw il-klassifikazzjonijiet individwali biex jipproduċu klassifikazzjoni ta 'kunsens. L-aktar mod sempliċi biex jikkombinaw il-klassifikazzjonijiet għal kull galaxie kien li jagħżel l-iktar klassifikazzjoni komuni. Madankollu, dan l-approċċ kien jagħti lil kull voluntier piż indaqs, u r-riċerkaturi suspettaw li xi voluntiera kienu aħjar fil-klassifikazzjoni milli f'oħrajn. Għalhekk, ir-riċerkaturi żviluppaw proċedura iżjed kumplessa ta 'peżatura iterattiva li ppruvat tiskopri l-aħjar klassifikaturi u tagħtihom aktar piż.

Għalhekk, wara proċess ta 'tindif bi tliet stadji, debiasing u piżijiet, it-tim ta' riċerka tal-Galaxy Zoo kien ikkonverti 40 miljun klassifikazzjoni volontarja f'sensiela ta 'klassifikazzjonijiet konsensus morfoloġiċi. Meta dawn il-klassifikazzjonijiet ta 'Galaxy Zoo tqabblu ma' tliet tentattivi ta 'skala iżgħar preċedenti minn astronomi professjonali, inkluża l-klassifikazzjoni minn Schawinski li għenet biex tispira lil Galaxy Zoo, kien hemm qbil qawwi. Għalhekk, il-voluntiera, flimkien, setgħu jipprovdu klassifikazzjonijiet ta 'kwalità għolja u fuq skala li r-riċerkaturi ma setgħux jaqblu (Lintott et al. 2008) . Fil-fatt, billi kellhom klassifikazzjonijiet umani għal tali numru kbir ta 'galaxies, Schawinski, Lintott u oħrajn setgħu juru li madwar 80% tal-galaxies biss isegwu l-spirali blu-mudell mistenni u ellittiċi ħomor-u saru bosta karti dwar din l-iskoperta (Fortson et al. 2011) .

Fid-dawl ta 'dan l-isfond, issa tista' tara kif Galaxy Zoo isegwi r-riċetta kkombinata maqsuma, l-istess riċetta li tintuża għal bosta proġetti ta 'komputazzjoni umana. L-ewwel, problema kbira hija maqsuma f'biċċiet. F'dan il-każ, il-problema tal-klassifikazzjoni ta 'miljun galaxija ġiet maqsuma f'miljun problema ta' klassifikazzjoni ta 'galaxie waħda. Sussegwentement, operazzjoni hija applikata għal kull blokka b'mod indipendenti. F'dan il-każ, il-voluntiera kklassifikaw kull galaxie bħala spirali jew ellittika. Fl-aħħarnett, ir-riżultati huma kkombinati biex jipproduċu riżultat ta 'konsensus. F'dan il-każ, il-pass ikkombinat jinkludi t-tindif, it-tneħħija tal-piż u l-ippeżar biex jipproduċu klassifikazzjoni ta 'kunsens għal kull galaxie. Għalkemm il-biċċa l-kbira tal-proġetti jużaw din ir-riċetta ġenerali, kull pass għandu jkun adattat għall-problema speċifika li tkun indirizzata. Pereżempju, fil-proġett ta 'komputazzjoni umana deskritt hawn taħt, l-istess riċetta tiġi segwita, iżda l-passi li japplikaw u jikkombinaw se jkunu pjuttost differenti.

Għat-tim tal-Galaxy Zoo, dan l-ewwel proġett kien biss il-bidu. Ħafna drabi dehru li anke jekk setgħu jikklassifikaw qrib ta 'miljun galaxija, din l-iskala mhix biżżejjed biex taħdem ma' sondaji diġitali ġodda li jistgħu jipproduċu immaġni ta 'madwar 10 biljun galaxies (Kuminski et al. 2014) . Biex timmaniġġa żieda minn 1 miljun għal 10 biljun-fattur ta '10,000-Galaxy Zoo għandu jirrekluta madwar 10,000 darba aktar parteċipanti. Anki jekk in-numru ta 'voluntiera fuq l-Internet huwa kbir, mhuwiex infinit. Għalhekk, ir-riċerkaturi rrealizzaw li kieku kienu se jimmaniġġjaw ammonti dejjem jikbru ta 'dejta, kien meħtieġ approċċ ġdid u anke aktar skalabbli.

Għalhekk, Manda Banerji-ħidma ma 'Schawinski, Lintott, u membri oħra tat-tim Zoo Galaxy (2010) -started kompjuters tat-tagħlim biex jikklassifikaw galaxies. B'mod aktar speċifiku, bl-użu tal-klassifikazzjonijiet tal-bniedem maħluqa minn Galaxy Zoo, Banerji bena mudell ta 'tagħlim mekkaniku li jista' jbassar il-klassifikazzjoni umana ta 'galaxie bbażata fuq il-karatteristiċi tal-immaġini. Jekk dan il-mudell jista 'jirriproduċi l-klassifikazzjonijiet tal-bniedem b'eżattezza għolja, allura jista' jintuża minn riċerkaturi tal-Galaxy Zoo biex jikklassifikaw numru essenzjalment infinit ta 'galaxies.

Il-qofol tal-approċċ ta 'Banerji u l-kollegi huwa pjuttost simili ħafna għal tekniki użati b'mod komuni fir-riċerka soċjali, għalkemm dik ix-xebh tista' ma tkunx ċara għall-ewwel daqqa t'għajn. L-ewwel, Banerji u l-kollegi kkonvertew kull immaġini f'sett ta ' karatteristiċi numeriċi li qassru l-proprjetajiet tiegħu. Pereżempju, għal stampi ta 'galaxies, jista' jkun hemm tliet karatteristiċi: l-ammont ta 'blu fl-immaġni, il-varjanza fid-dawl tal-pixels u l-proporzjon ta' pixels mhux bojod. L-għażla tal-karatteristiċi korretti hija parti importanti tal-problema, u ġeneralment teħtieġ għarfien espert dwar is-suġġett. Dan l-ewwel pass, komunement imsejjaħ inġinerija tal-karatteristika , jirriżulta f'matriċi tad-data b'ringiela waħda għal kull immaġini u mbagħad tliet kolonni li jiddeskrivu dik l-immaġni. Minħabba l-matriċi tad-dejta u l-produzzjoni mixtieqa (eż., Jekk l-immaġni ġietx ikklassifikata minn bniedem bħala galaxie ellittika), ir-riċerkatur joħloq mudell statistiku jew ta 'tagħlim awtomatiku, per eżempju, regressjoni loġistika- li tbassar il-klassifikazzjoni umana bbażata fuq il- ta 'l-immaġni. Fl-aħħarnett, ir-riċerkatur juża l-parametri f'dan il-mudell statistiku biex jipproduċi klassifikazzjonijiet stmati ta 'galaxies ġodda (figura 5.4). Fit-tagħlim tal-magni, dan l-approċċ bl-użu ta 'eżempji ttikkettati biex jinħoloq mudell li mbagħad jista' jittikketta data ġdida - tissejjaħ tagħlim sorveljat .

Figura 5.4: Deskrizzjoni simplifikata ta 'kif Banerji et al. (2010) użat il-klassifikazzjonijiet tal-Galaxy Zoo biex iħarreġ mudell ta 'tagħlim bil-magna biex jagħmel il-klassifikazzjoni tal-galaxie. L-immaġini tal-galaxies ġew ikkonvertiti f'matriċi ta 'karatteristiċi. F'dan l-eżempju simplifikat, hemm tliet karatteristiċi (l-ammont ta 'blu fl-immaġni, il-varjanza fid-dawl tal-pixels u l-proporzjon ta' pixels nonwhite). Imbagħad, għal subsett ta 'l-immaġni, it-tikketti Zoo Galaxy jintużaw biex iħarrġu mudell ta' tagħlim bil-magna. Fl-aħħarnett, it-tagħlim tal-magni jintuża biex jiġu stmati l-klassifikazzjonijiet għall-bqija tal-galaxies. Nitlob lil dan il-proġett ta 'komputazzjoni tal-bniedem assistit bil-kompjuter minħabba li, minflok ma bnedmin isolvu problema, għandu bnedmin jibnu ġabra ta' dejta li tista 'tintuża biex tħarreġ kompjuter biex issolvi l-problema. Il-vantaġġ ta 'din is-sistema ta' komputazzjoni umana assistita mill-kompjuter huwa li jgħinuk timmaniġġja ammonti essenzjalment infiniti ta 'data billi tuża biss ammont finit ta' sforz uman. Stampi ta 'galaxies riprodotti bil-permess minn Sloan Digital Sky Survey.

Figura 5.4: Deskrizzjoni simplifikata ta 'kif Banerji et al. (2010) użat il-klassifikazzjonijiet tal-Galaxy Zoo biex iħarreġ mudell ta 'tagħlim bil-magna biex jagħmel il-klassifikazzjoni tal-galaxie. L-immaġini tal-galaxies ġew ikkonvertiti f'matriċi ta 'karatteristiċi. F'dan l-eżempju simplifikat, hemm tliet karatteristiċi (l-ammont ta 'blu fl-immaġni, il-varjanza fid-dawl tal-pixels u l-proporzjon ta' pixels nonwhite). Imbagħad, għal subsett ta 'l-immaġni, it-tikketti Zoo Galaxy jintużaw biex iħarrġu mudell ta' tagħlim bil-magna. Fl-aħħarnett, it-tagħlim tal-magni jintuża biex jiġu stmati l-klassifikazzjonijiet għall-bqija tal-galaxies. Nitlob lil dan il-proġett ta 'komputazzjoni tal-bniedem assistit bil-kompjuter minħabba li, minflok ma bnedmin isolvu problema, għandu bnedmin jibnu ġabra ta' dejta li tista 'tintuża biex tħarreġ kompjuter biex issolvi l-problema. Il-vantaġġ ta 'din is-sistema ta' komputazzjoni umana assistita mill-kompjuter huwa li jgħinuk timmaniġġja ammonti essenzjalment infiniti ta 'data billi tuża biss ammont finit ta' sforz uman. Stampi ta 'galaxies riprodotti bil-permess minn Sloan Digital Sky Survey .

Il-karatteristiċi tal-mudell ta 'tagħlim bil-magni ta' Banerji u tal-kollegi kienu iktar kumplessi minn dawk fl-eżempju tal-ġugarelli tiegħi. Pereżempju, hija użat karatteristiċi bħal "de Vaucouleurs fit-axial ratio" u l-mudell tagħha ma kienx rigressjoni loġistika, kien netwerk newrali artifiċjali. Bl-użu tal-karatteristiċi tagħha, il-mudell tagħha u l-klassifikazzjoni tal-consensus Galaxy Zoo, hija setgħet toħloq piżijiet fuq kull karatteristika, u mbagħad tuża dawn il-piżijiet biex tagħmel previżjonijiet dwar il-klassifikazzjoni tal-galaxies. Pereżempju, l-analiżi tagħha sabet li xbihat b'rata baxxa ta '"Vaucouleurs fit axial axial" kienu aktar probabbli li jkunu galaxies spirali. Minħabba dawn il-piżijiet, hija setgħet tbassar il-klassifikazzjoni umana ta 'galaxie b'eżattezza raġonevoli.

Il-ħidma ta 'Banerji u l-kollegi għamlu lill-Galaxy Zoo f'liema kieku nsejjaħ sistema ta' komputazzjoni umana assistita mill-kompjuter . L-aħjar mod biex wieħed jaħseb dwar dawn is-sistemi ibridi huwa li minflok ma bnedmin isolvu problema, għandhom bnedmin jibnu ġabra ta 'dejta li tista' tintuża biex tħarreġ kompjuter biex issolvi l-problema. Xi drabi, it-taħriġ ta 'kompjuter biex issolvi l-problema jista' jeħtieġ ħafna eżempji, u l-uniku mod biex jipproduċi numru suffiċjenti ta 'eżempji huwa kollaborazzjoni tal-massa. Il-vantaġġ ta 'dan l-approċċ assistit mill-kompjuter huwa li jgħinuk timmaniġġja ammonti essenzjalment infiniti ta' data billi tuża biss ammont finit ta 'sforz uman. Pereżempju, riċerkatur b'miljuni ta 'galaxies ikklassifikati mill-bniedem jista' jibni mudell ta 'tbassir li mbagħad jista' jintuża biex jikklassifika biljun jew saħansitra triljun galaxies. Jekk hemm numri enormi ta 'galaxies, allura dan it-tip ta' ibridi tal-bniedem-kompjuter huwa verament l-unika soluzzjoni possibbli. Din l-iskalabbiltà infinita mhix ħielsa, madankollu. Il-bini ta 'mudell ta' tagħlim tal-magni li jista 'jirriproduċi b'mod korrett il-klassifikazzjonijiet tal-bniedem huwa minnu nnifsu problema diffiċli, imma fortunatament diġà hemm kotba eċċellenti ddedikati għal dan is-suġġett (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo huwa eżempju tajjeb ta 'kemm jevolvu l-proġetti tal-komputazzjoni tal-bniedem. L-ewwelnett, riċerkatur jipprova l-proġett waħdu jew ma 'tim żgħir ta' assistenti tar-riċerka (eż., L-isforz inizjali ta 'klassifikazzjoni ta' Schawinski). Jekk dan l-approċċ ma jiskalax tajjeb, ir-riċerkatur jista 'jimxi għal proġett ta' komputazzjoni tal-bniedem b'bosta parteċipanti. Iżda, għal ċertu volum ta 'dejta, l-isforz pur tal-bniedem mhux se jkun biżżejjed. F'dak il-punt, ir-riċerkaturi jeħtieġu jibnu sistema ta 'komputazzjoni umana assistita bil-kompjuter li fiha l-klassifikazzjonijiet tal-bniedem jintużaw biex iħarrġu mudell ta' tagħlim tal-magni li mbagħad jista 'jiġi applikat għal ammonti ta' dejta virtwalment illimitati.