5.2.1 Galaxy Zoo

Tiu traduko estis kreitaj de komputilo. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

5.2.1 Galaxy Zoo

Galaxy Zoo kombinas la penadoj de multaj ne-sperta volontuloj klasifiki miliono galaksioj.

Galaksio zoo kreskis ekstere de problemo alfrontita de Kevin Schawinski, gradstudanto en astronomio en la Universitato de Oksfordo en 2007. Simplificando sufiĉe, Schawinski interesata en galaksioj, kaj galaksioj eblas klasifikitaj de lia morfologio-elipsaj aŭ espirales-kaj per sia koloro-blua aŭ ruĝa. Tiutempe, konvencia saĝeco inter astronomoj estis ke spiralaj galaksioj, kiel nia Vojo Láctea, estis bluaj en koloro (indikante juneco) kaj ke elipsaj galaksioj estis ruĝkolora (indikante maljuneco). Schawinski dubis tiu konvencia saĝeco. Li suspektis, ke dum tiu padrono povas esti vera en ĝenerala, estis probable konsiderinda nombro de esceptoj, kaj ke per studo multa tiuj nekutimaj galaksioj-tiuj kiuj ne konvenis la atendata padrono-li povus lerni ion pri la procezo per kiu galaksioj formitaj.

Tiel, kio Schawinski bezonis por renversi konvencia saĝeco estis granda aro de morfologie klasifikitaj galaksioj; te galaksioj kiuj estis klasifikitaj kiel aŭ spiralaj aŭ elipsaj. La problemo, tamen, estis ke ekzistantaj algoritma metodoj por klasifiko ankoraux ne estis sufiĉe bona por esti uzata por sciencaj esploroj; alivorte, klasifikante galaksioj estis, tiutempe, problemo kiu estis malfacila por komputiloj. Tial, kion necesis granda nombro de homaj klasifikitaj galaksioj. Schawinski entreprenis tiu klasifiko problemo kun la entuziasmo de gradstudanto. En maratono kunsido de sep, 12-horajn tagojn, li povis klasifiki 50.000 galaksioj. Dum 50.000 galaksioj povas soni kiel multe, ĝi estas fakte nur ĉirkaŭ 5% de la preskaŭ miliono galaksioj kiu estis fotita en la Sloan Cifereca Sky Survey. Schawinski ekkomprenis ke li bezonis pli skalebla alproksimiĝo.

Feliĉe, ĝi rezultas ke la tasko de klasifiki galaksiojn ne postulas capacitación en astronomio; vi povas instrui iun por fari ĝin bela rapide. Alivorte, kvankam klasifiki galaksiojn estas tasko kiu estis malfacila por komputiloj, ĝi estis sufiĉe facila por homoj. Tiel, sidante en drinkejo en Oksfordo, Schawinski kaj samranga astronomo Chris Lintott forĝis retejo kie volontuloj klasifikus bildoj de galaksioj. Kelkajn monatojn poste, Galaxy Zoo naskiĝis.

Ĉe la Galaxy Zoo retejo, volontuloj suferus kelkaj minutoj da trejnado; ekzemple, lerni la diferencon inter spirala kaj elipsa galaksio (Figuro 5.2). Post tiu trejnado, la volontuloj devis pasi relative facila kvizo-korekte klasifiki 11 de 15 galaksioj kun konata klasifikoj-kaj tiam la volontulo devus komenci realan klasifiko de nekonata galaksioj tra simpla reta interfaco (Figuro 5.3). La transiro de volontulo por astronomo okazus en malpli ol 10 minutoj kaj nur postulis pasante la plej malalta de hurdoj, simpla kvizo.

Figuro 5.2: Ekzemploj de la du ĉefaj tipoj de galaksioj: espirales kaj elipsaj. La Galaxy Zoo projekto uzis pli ol 100,000 volontuloj al kategorioj pli ol 900,000 bildoj. Fonto: www.galaxyzoo.org .

Figuro 5.3: Eniro ekrano kie balotantoj estis petitaj klasifiki ununura bildo. Fonto: www.galaxyzoo.org .

Galaksio zoo altiris lian komencan volontuloj post la projekto estis prezentita en raportaĵo, kaj en ĉirkaŭ ses monatoj la projekto kreskis impliki pli ol 100.000 civitanoj sciencistoj, homoj kiuj partoprenis ĉar ili ĝuis la taskon kaj ili volis helpi antaŭas astronomio. Kune, tiuj 100.000 volontuloj kontribuis totalon de pli ol 40 milionoj klasifikoj, kun la plimulto de la klasifikoj venas de relative malgrandaj, kerngrupo de partoprenantoj (Lintott et al. 2008) .

Esploristoj kiuj havas sperton dunganta studentajn esploro asistantoj povu tuj esti skeptika pri datumoj kvalito. Dum tiu skeptiko estas racia, Galaxy Zoo montras ke kiam volontulo kontribuoj estas korekte purigis, debiased kaj agregita, ili povas produkti altkvalitan rezultoj (Lintott et al. 2008) . Grava lertaĵo por atingi la amaso por krei profesian kvaliton data redundo; te, esti la sama tasko plenumita per multaj malsamaj homoj. En Galaxy Zoo, ekzistis proksimume 40 klasifikoj po galaksio; esploristoj uzante bakalaŭra esploro asistantoj povis neniam pagi tiun nivelon de redundo kaj tial devas esti multe pli koncernita kun la kvalito de ĉiu individua klasifiko. Kion la volontuloj mankis en trejnado, ili faris ĉe kun redundo.

Eĉ kun multnombraj klasifikoj po galaksio Tamen, kombinante la aro de volontuloj klasifikoj produkti konsento klasifiko estas malfacila. Ĉar tre similaj defioj ekesti en plej homa kalkulado projektoj, ĝi estas utila al brevemente revizii la tri paŝojn kiuj la Galaxy Zoo esploristoj uzita produkti ilian konsenton klasifikoj. Unue, la esploristoj "purigis" la datumoj forigante falsaj klasifikoj. Ekzemple, la homo kiu multfoje klasifikis la sama galaksio-iu kiu okazus se ili provas manipuli la rezultojn-havis cxiuj iliaj klasifikoj forĵetita. Ĉi tiu kaj aliaj similaj pureco forigita ĉirkaŭ 4% de ĉiuj klasifikoj.

Dua, post purigi la esploristoj bezonis forigi sistemajn antaŭjuĝoj en klasifikoj. Tra serio de emo detekto studoj enigita ene de la originala projekto-ekzemple, montrante iun volontuloj galaksio en monocromática anstataŭ koloro-la esploristoj malkovris pluraj sistemaj antaŭjuĝoj, kiel sistema emo klasifiki malproksime spiralaj galaksioj kiel elipsaj galaksioj (Bamford et al. 2009) . Ĝustigante por tiuj sistemaj antaŭjuĝoj estas ekstreme grava ĉar averaĝante multaj kontribuoj ne forigi sistemajn emo; ĝi nur forigas hazarda eraro.

Fine, post debiasing, la esploristoj bezonis metodo kombini la individuaj klasifikoj produkti konsento klasifiko. La plej simpla maniero kombini klasifikoj por ĉiu galaksio estus elekti la plej ofta klasifiko. Tamen, tiu aliro donus ĉiu volontulo egala pezo, kaj la esploristoj suspektis ke iuj volontuloj estis pli bonaj ĉe klasado ol aliaj. Sekve, la esploristoj evoluigis pli kompleksan ripeta ponderación proceduro kiu provas aŭtomate detekti la plej classifiers kaj doni ilin pli pezo.

Tiel, post tri paŝo procezo-pureco, debiasing kaj ponderación-la Galaxy Zoo esplorteamo konvertis 40 milionoj volontulo klasifikoj en aron de konsento morfologiaj klasifikoj. Kiam tiuj Galaxy Zoo klasifikoj estis komparitaj al tri antaŭaj malgrandaj skalo provoj de profesiaj astronomoj, inkluzive de la klasifiko de Schawinski kiu helpis inspiri Galaxy Zoo, ekzistis forta interkonsento. Tiel, la volontuloj, en agregaĵo, povis havigi alta kvalito klasifikoj kaj je skalo ke la esploristoj ne povis egali (Lintott et al. 2008) . Fakte, havante homan klasifikoj por tia granda nombro de galaksioj, Schawinski, Lintott, kaj aliaj povis montri ke nur ĉirkaŭ 80% de galaksioj sekvas la atendata padrono-blua espirales kaj ruĝa elipsaj-kaj multnombraj paperoj estis skribita pri tiu malkovro (Fortson et al. 2011) .

Donita ĉi fono, ni nun povas vidi kiel Galaxy Zoo sekvas la disigon-apliki-kombini recepto, la sama recepto kiu uzas por la plej homan komputadon projektoj. Unue, estas granda problemo estas dividita en blokoj. En tiu kazo, la problemo de klasifiki miliono galaksioj estas fendita en miliono problemoj de klasifiki unu galaksio. Sekva, operacio estas aplikita al ĉiu bloko sendepende. Tiukaze, volontulo klasifikus ĉiu galaksio kiel ĉu spiralo aŭ elipsaj. Fine, la rezultoj estas kombinitaj por produkti konsento rezulto. En tiu kazo, la kombini paŝo inkludas la pureco, debiasing kaj ponderación produkti konsento klasifiko por ĉiu galaksio. Kvankam plej projektoj uzas ĉi ĝenerala recepto, ĉiu de la paŝoj necesas adaptitajn al la specifa problemo estanta direktita. Ekzemple, en la homa kalkulada projekto priskribita sube, la sama recepto estos sekvita, sed la apliki kaj kombini paŝoj estos tute malsama.

Por la Galaxy Zoo teamo, tiu unua projekto estis nur la komenco. Tre rapide rimarkis, ke eĉ kvankam ili povis klasifiki proksime al miliono galaksioj, tiu skalo ne sufiĉas labori kun nova diĝita ĉielo enketoj, kiuj povis produkti bildojn de proksimume 10 miliardoj galaksioj (Kuminski et al. 2014) . Manipuli kreskon de 1 miliono al 10 miliardoj-faktoro de 10.000-Galaxy Zoo devus varbi malglate 10,000 fojojn pli partoprenantoj. Kvankam la nombro de volontuloj en Interreto estas granda, ne estas senfina. Sekve, la esploristoj rimarkis ke se tuj pritrakti iam kreskantaj kvantoj de datumoj, nova, eĉ pli skalebla, aliro estis necesa.

Sekve, Ordonas Banerji-laboranta kun Kevin Schawinski, Chris Lintott, kaj aliaj membroj de la Galaxy Zoo teamo-startanta instruado komputiloj klasifiki galaksiojn. Pli specife, uzante la homa klasifikoj kreita de Galaxy Zoo, Banerji et al. (2010) konstruis maŝinon lerna modelo kiu povus aŭguri la homa klasifiko de galaksio bazita sur la karakterizaĵoj de la bildo. Se tiu maŝino lernado modelo povus reprodukti la homan klasifikoj kun alta precizeco, tiam povus esti uzita de Galaxy Zoo esploristoj klasifiki esence senfina nombro da galaksioj.

La kerno de Banerji kaj kolegoj 'alproksimiĝo estas efektive sufiĉe simila al teknikoj kutime uzita en sociaj esploroj, kvankam tiu simileco povus ne esti klara unuavide. Unua, Banerji kaj kolegoj konvertita ĉiu bildo en aron de nombraj karakterizaĵoj kiuj resumo estas propraĵoj. Ekzemple, por bildoj de galaksioj povus esti tri trajtoj: la kvanto de bluo en la bildo, la varianco en la brilo de la píxeles, kaj la proporcio de neblankajn rastrumeroj. La elekto de la ĝusta trajtoj estas grava parto de la problemo, kaj ĝi ĝenerale postulas subjekto-spaco kompetenteco. Tiu unua paŝo, komune nomita trajto inĝenierio, rezultigas datumoj matrico kun unu vico po bildo kaj tiam tri kolumnoj priskribante tiun bildon. Donita la datumoj matrico kaj la eligotan (ekz, ĉu la bildo estis klasifikita de homa kiel elipsa galaksio), la esploristo taksas la parametroj de statistika modelo-ekzemple, iu kiel logistika malprogreso-kiu antaŭdiras la homan klasifiko bazita sur la karakterizaĵoj de la bildo. Fine, la esploristo uzas parametrojn en tiu statistika modelo produkti estimita klasifikoj de novaj galaksioj (Figuro 5.4). Pensi de socia analoga, imagu ke vi havis demografian informon pri miliono studentoj, kaj vi scias ĉu ili diplomiĝis kolegio aŭ ne. Vi povus persvadi loĝistiko malprogreso por ĉi datumoj, kaj tiam vi povus uzi la rezultanta modelo parametroj antaŭdiri ĉu novaj studentoj iras studentiĝanta ĉe kolegio. En maŝina lernado, tiu aliro-uzanta etikeditaj ekzemploj krei statistika modelo kiu povas tiam etikedi novaj datumoj nomiĝas supervisó lernanta (Hastie, Tibshirani, and Friedman 2009) .

Figuro 5.4: Simplified priskribon de kiel Banerji et al. (2010) uzis la Galaxy Zoo klasifikoj trejni maŝinon lerna modelo fari galaksio klasifiko. Bildoj de galaksioj estis konvertita en matricon de karakterizaĵoj. En tiu simpligita ekzemplo estas tri karakterizaĵoj (la kvanto de bluo en la bildo, la varianco en la brilo de la píxeles, kaj la proporcio de ne-blankaj pikseloj). Tiam, por subaro de la bildoj, la Galaxy Zoo etiketoj kutimas trejni maŝinon lerna modelo. Fine, la maŝino lernado estas uzata por taksi klasifikoj por la ceteraj galaksioj. Mi nomas tian projekton dua generacio homaj komputa projekto ĉar, anstataŭ devi homoj solvi problemon, estas homoj konstrui dataset kiu povas esti uzita por trejni komputilo por solvi la problemon. La avantaĝo de ĉi tiu komputilo ĉeestita alproksimiĝo estas ke ĝi ebligas vin manipuli esence senfina kvantojn de datumoj uzante nur finia kvanto de homa penado.

La trajtoj en Banerji et al. (2010) maŝina lerno modelo estis pli kompleksaj ol tiuj en mia ludilo ekzemplo-ekzemple, ŝi kutimis karakterizaĵoj kiel "de Vaucouleurs persvadi aksa rilatumo" -Kaj ŝia modelo estis logistika malprogreso, estis artefarita neŭra reto. Uzante ŝiaj trajtoj, lia modelo, kaj la konsento Galaxy Zoo klasifikoj, ŝi povis krei peziloj sur ĉiu trajto, kaj tiam uzi tiujn pezoj fari prognozojn pri la klasifiko de galaksioj. Ekzemple, ŝia analizo trovis ke bildoj kun malalta "de Vaucouleurs persvadi aksa rilatumo" estis pli verŝajna al esti galaksioj espirales. Donita tiuj peziloj, ŝi povis antaŭdiri la homan klasifiko de galaksio kun racia precizeco.

La laboro de Banerji et al. (2010) turnis Galaxy Zoo en kion mi nomus duageneraciaj homa kalkulado sistemo. La plej bona maniero pensi pri tiuj duageneraciaj sistemoj estas ke anstataŭ devi homoj solvi problemon, estas homoj konstrui dataset kiu povas esti uzita por trejni komputilo por solvi la problemon. La kvanto de necesaj datumoj por trejni la komputilo povas esti tiel granda, ke ĝi postulas homan mason kunlaborado krei. En la kazo de Galaxy Zoo, la neŭronaj retoj uzas Banerji et al. (2010) postulis tre granda nombro de homaj-etikeditaj ekzemploj por konstrui modelon kiu povis fidinde reprodukti la homa klasifiko.

La avantaĝo de ĉi tiu komputilo ĉeestita alproksimiĝo estas ke ĝi ebligas vin manipuli esence senfina kvantojn de datumoj uzante nur finia kvanto de homa penado. Ekzemple, esploristo kun miliono homa klasifikitaj galaksioj povas konstrui prognoza modelo kiu povas tiam esti uzata por klasifiki miliardo aŭ eĉ biliono galaksioj. Se ekzistas enorma nombro de galaksioj, tiam ĉi speco de homa-komputila híbrido estas vere la sola ebla solvo. Tiu senfina escalabilidad ne liberaj, tamen. Konstrui maŝinon lerna modelo kiu povas korekte reprodukti la homan klasifikoj estas sin peza problemo, sed feliĉe jam ekzistas bonega libroj dediĉitaj al tiu temo (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo montras la evoluon de multaj homaj kalkulado projektoj. Unua, esploristo provas la projekto memstare aŭ kun malgranda teamo de esploro helpantoj (ekz Schawinski komenca klasifiko penado). Se tiu alproksimiĝo ne grimpi bone, la esploristo povas movi al homa kalkulada projekto kie multaj homoj kontribuu klasifikoj. Sed, por certa volumeno de datumoj, pura homa penado ne estos sufiĉa. En tiu punkto, esploristoj devas konstrui duageneraciaj sistemoj kie homa klasifikoj estas uzataj por trejni maŝinon lerna modelo kiu povas tiam esti aplikita al praktike senlimajn kvantojn de datumoj.