5.2.1 Galaxy Zoo

See tõlge loodi arvuti. ×

5.2.1 Galaxy Zoo

Galaktika loomaaed ühendas mitmete ekspertide vabatahtlike jõupingutused miljonite galaktikate klassifitseerimiseks.

Galaktika loomaaed kasvas välja probleemist, mille 2007. aastal oli Oxfordi ülikooli astronoomia kraadiõppe üliõpilane Kevin Schawinski. Schawinski huvitatud galaktikatest on üsna lihtne, ja galaktikaid saab klassifitseerida nende morfoloogia-elliptiliste või spiraal-ja nende värvi-sinine või punane. Sel ajal oli astronoomide hulgas tavaline tarkus, et spiraalgalaktikad, nagu meie Linnutee, olid sinise värviga (näidates noori) ja elliptilised galaktikad olid punased (näitavad vananemist). Schawinski kahtles selles tavapärases tarkuses. Ta kahtlustas, et kuigi see muster võib üldse tõsi olla, oli arvatavasti palju erandeid ja uurides neid ebatavalisi galaktikaid - neid, mis ei sobinud oodatud mustriga - ta võiks midagi õppida protsessi kohta, mille kaudu moodustatud galaktikad.

Seega, mida Schawinski vajab tavapärase tarkuse ümbersuunamiseks, oli suur morfoloogiliselt salastatud galaktikate kogum; st galaktikad, mis olid liigitatud spiraalselt või elliptiliselt. Probleem oli siiski selles, et olemasolevad klassifitseerimise algoritmilised meetodid ei olnud veel piisavalt head selleks, et neid saaks kasutada teadusuuringute jaoks; Teisisõnu, galaktikate klassifitseerimine oli sel ajal probleem, mis oli arvuti jaoks raske. Seetõttu oli vaja palju inimeselt klassifitseeritud galaktikaid. Schawinski võttis selle klassifikatsiooniprobleemi välja üliõpilase entusiasmiga. Seitsme 12-tunnise päeva maratoni seansil suutis ta klassifitseerida 50 000 galaktikat. Kuigi 50 000 galaktikat võib tunduda palju, on see tegelikult umbes 5% peaaegu miljonist galaktikast, mida Sloani digitaalse taeva uuringus pildistati. Schawinski mõistis, et ta vajab rohkem skaalautuvat lähenemist.

Õnneks selgub, et ülesanne klassifitseerimisel galaktikad ei vaja täiendõpet astronoomia; saab õpetada keegi seda päris kiiresti. Teisisõnu, kuigi klassifitseerimisel galaktikad on ülesanne, mis oli raske arvutit, see oli üsna lihtne inimesele. Niisiis, istudes pubis Oxford, Schawinski kolleegidelt astronoom Chris Lintott unistanud veebileht, kus vabatahtlikud oleks liigitada pilte galaktikad. Mõni kuu hiljem, Galaxy Zoo sündinud.

Galaxy Zoo veebisaidil saavad vabatahtlikud mõne minutiga koolitust; näiteks õppides vahet spiraali ja elliptiliste galaktikate vahel (joonis 5.2). Pärast seda treeningut pidid kõik vabatahtlikud läbima suhteliselt lihtsa viktoriiniga õigesti klassifitseerima 11-st 15 galaktikast koos tuntud klassifikatsioonidega ja seejärel alustama tundmatute galaktikate tegelikku klassifitseerimist lihtsa veebipõhise liidese kaudu (joonis 5.3). Üleminek vabatahtlikust astronöörini toimuks vähem kui 10 minutiga ja see hõlmas ainult väikseid takistusi, lihtne viktoriin.

Joonis 5.2: Galaktikate kahe peamise tüübi näited: spiraal ja elliptilised. Galaktika loomaaia projektis kasutati rohkem kui 100 000 vabatahtlikku, et liigitada enam kui 900 000 pilti. Taasesitatud loal http://www.GalaxyZoo.org ja Sloan Digital Sky Survey .

Joonis 5.3: sisestuskraan, kus vabatahtlikel paluti ühe pildi liigitada. Reprodutseeritakse Chris Lintotti loal, mis põhineb Sloani digitaalse taeva uuringu pildil.

Galaktika loomaaed meelitas oma esialgseid vabatahtlikke pärast projekti tutvustamist uudistekirjas ja umbes kuus kuud kerkis projekt hõlmama enam kui 100 000 kodanike teadlast, kes osalesid, kuna nad said ülesandeid ja soovisid edendada astronoomiat. Üheskoos andsid need 100 000 vabatahtlikku kokku üle 40 miljoni klassifikatsiooni, enamik klassifikatsioone pärineb suhteliselt väikestest põhirühmadest (Lintott et al. 2008) .

Teadlased, kellel on kogemusi bakalaureuseõppe lektorite palkamiseks, võivad kohe andmete kvaliteedi suhtes skeptilised olla. Kuigi see skeptitsism on mõistlik, näitab galaktika loomaaed, et kui vabatahtlike sissemaksed on korrektselt puhastatud, debiatsed ja koondatud, saavad nad kvaliteetseid tulemusi (Lintott et al. 2008) . Tähtsaks trikkiks rahvahulga saamiseks professionaalse kvaliteediga andmete loomiseks on koondamine , see tähendab, et erinevatel inimestel on sama ülesanne. Galaktika loomaaias oli galaktikaga umbes 40 klassifikatsiooni; teadlased, kes kasutavad bakalaureuseõppega seotud teadlasi, ei saa kunagi endale lubada sellist koondamise taset ja seetõttu peaks iga üksiku klassifikatsiooni kvaliteet olema palju rohkem mures. Mis vabatahtlikel polnud koolitustel, on nad koondatud.

Isegi mitmete klassifikatsioonide korral galaktika järgi oli aga vabatahtlike klassifikatsioonide komplekti ühendamine konsensusjärjepidevuse saavutamiseks keeruline. Kuna enamikes inimeste arvutusprojektides ilmnevad väga sarnased väljakutsed, on kasulik lühidalt läbi vaadata kolm sammu, mida galaktika loomaaedade teadlased kasutasid oma konsensuse klassifitseerimiseks. Esiteks, teadlased "puhastavad" andmed, eemaldades võltsitud klassifikatsioonid. Näiteks inimesed, kes klassifitseerisid korduvalt sama galaktikat - midagi, mis juhtuks, kui nad prooviksid tulemusi manipuleerida, oleksid kõik oma klassifikatsioonid kõrvale jäetud. See ja muu sarnane puhastus eemaldati ligikaudu 4% kõigist liigitustest.

Teiseks, pärast puhastamist pidid teadlased kõrvaldama süstemaatilised eelarvamused klassifikatsioonidesse. Esialgse projektiga varustatud eelarvamuste avastamise uuringute seeria abil, näiteks mõned vabatahtlikud, kes näitasid värvuste asemel mustvalge galaktikat, avastati teadlastel mitmeid süstemaatilisi suundumusi, nagu süstemaatiline eelarvamus, et klassifitseerida kaugemate spiraalgalaktikate elliptilised galaktikad (Bamford et al. 2009) . Nende süstemaatiliste eelarvamuste kohandamine on äärmiselt oluline, sest koondamine ei kõrvalda automaatselt süstemaatilist eelarvamusi; see aitab eemaldada ainult juhuslikku viga.

Lõpuks, pärast debüneeringut pidid teadlased kasutama meetodit üksikute klassifikaatorite ühendamiseks konsensuse järgi liigitamiseks. Kõige lihtsam viis klassifikatsioonide kombineerimiseks iga galaktika jaoks oleks olnud kõige tavalisema klassifikatsiooni valimine. Kuid see lähenemisviis oleks andnud iga vabatahtliku võrdsuse ja teadlased kahtlustasid, et mõned vabatahtlikud olid paremini klassifitseeritud kui teised. Seetõttu töötavad teadlased keerukama iteratiivse kaalumisprotseduuri, mis püüdis leida parimad klassifikaatorid ja anda neile rohkem kaalukust.

Seega, pärast kolmeastmelist protsessi puhastamist, debiatsioone ja kaalumist - Galaxy Zoo teadusrühm oli konverteerinud 40 miljonit vabatahtliku klassifikatsiooni konsensuse morfoloogiliste klassifikatsioonide komplektiks. Kui neid galaktika loomaaedade klassifikatsioone võrreldi professionaalsete astronoomide kolme eelmise väiksema astme katsega, sh Schawinski klassifikatsioon, mis aitasid Galaxy loomaaiale inspireerida, oli tugev kokkulepe. Seega said vabatahtlikud kokku kvalitatiivsed klassifikatsioonid ja ulatuses, mida teadlased ei suutnud ühitada (Lintott et al. 2008) . Tegelikult suutsid sellised arvukad galaktikad inimese klassifikatsioonid näidata, et Schawinski, Lintott ja teised suutsid näidata, et ainult umbes 80% galaktikatest järgib oodatud muster-siniseid spiraale ja punaseid elliptilisi - ja on kirjutatud palju pabereid see avastus (Fortson et al. 2011) .

Selle tausta põhjal saate nüüd näha, kuidas Galaxy Zoo järgib split-apply-combine retsept - sama retsepti, mida kasutatakse enamiku inimeste arvutusprojektide jaoks. Esiteks on suur probleem jaotatud tükkideks. Sellisel juhul jagunes miljon galaktikate liigitamise probleemiks ühe miljoni galaktika klassifitseerimise probleemi. Seejärel rakendatakse iga rida ükshaaval operatsiooni. Sellisel juhul liigitasid vabatahtlikud iga galaktika kas spiraalseks või elliptiliseks. Lõpuks ühendatakse tulemused konsensuse saavutamiseks. Sellisel juhul hõlmas kombineerimisetapp puhastamist, debiatsioone ja kaalumist, et saavutada iga galaktika konsensusjärjestus. Kuigi enamus projektidest kasutavad seda üldist retsepti, tuleb iga sammu kohandada vastavalt konkreetsele probleemile. Näiteks allpool kirjeldatud inimese arvutusprojektis järgitakse sama retsepti, kuid kohaldatavad ja ühendatud etapid on üsna erinevad.

Galaktika loomaaedade meeskond oli esimene projekt just algus. Nad mõistsid väga kiiresti, et isegi kui nad suudavad klassifitseerida miljonile galaktikale, ei piisa sellest skaalast uuemate digitaalavaadete uuringute tegemiseks, mis võib saada umbes 10 miljardi galaktikaga pilte (Kuminski et al. 2014) . Et suurendada kasvu 1 miljonilt 10 miljardile - 10 000 Galaxy loomaaias peaks tegema ligikaudu 10 000 korda rohkem osalejaid. Kuigi vabatahtlike arv Internetis on suur, ei ole see lõpmatu. Seetõttu teadsid teadlased, et kui nad hakkavad hakkama saama pidevalt kasvavaid andmemahtusid, on vaja uut, veelgi enam skaleeritavat lähenemisviisi.

Seepärast alustasid Manda Banerji koos Schawinski, Lintott ja teiste Galaktika loomaaedade meeskonna liikmetega (2010) arvutite õpetamist galaktikate klassifitseerimiseks. Täpsemalt, kasutades Galaxy loomaaiast loodud inimeste klassifikatsioone, lõi Banerji masin õppe mudeli, mis võiks prognoosida galaktika inimese klassifikatsiooni vastavalt kuju omadustele. Kui see mudel võiks reprodutseerida inimese klassifikatsioone suure täpsusega, siis võiks seda kasutada galaktika loomaaia teadlased, et liigitada peaaegu lõpmatu arv galaktikat.

Banerji ja kolleegide lähenemine on tegelikult päris sarnane sotsiaalteadustes sageli kasutatavatele meetoditele, kuigi see sarnasus ei pruugi esmapilgul olla selge. Esiteks konverteerivad Banerji ja tema kolleegid iga kujutise arvuliste funktsioonide komplektiga, mis on kokku võtnud selle omadused. Näiteks galaktikate piltide jaoks võib olla kolm funktsiooni: pildi sinine summa, pikslite heleduse dispersioon ja mittevalgete pikslite osakaal. Õigete funktsioonide valimine on probleemi oluline osa ja see eeldab tavaliselt valdkonnapõhiseid teadmisi. See esimene samm, mida tavaliselt nimetatakse funktsiooni kujundamiseks , toob kaasa andmete maatriksi, milles on üks rida kujutisel ja seejärel kolm pildi kirjeldavat veergu. Arvestades andmete maatriksit ja soovitud väljundit (nt seda, kas inimene on liigitanud pildi elliptiliste galaktikatena), loob statistikanalüüs või masin õppe mudel, näiteks logistiline regressioon, mis ennustab inimese klassifikatsiooni, mis põhineb omadustel pildist. Lõpuks kasutab uurija selle statistilise mudeli parameetreid uute galaktikate hinnanguliste klassifikatsioonide saamiseks (joonis 5.4). Masina õppimisel nimetatakse sellist lähenemisviisi kasutades märgistatud näiteid mudeli loomiseks, mis saab siis märgistada uusi andmeid - nn juhendatud õppimine .

Joonis 5.4: Lihtsustatud kirjeldus, kuidas Banerji et al. (2010) kasutas Galaktika loomaaedade klassifikatsioone, et koolitada maskeerimisõpetuse mudelit galaktikate klassifitseerimiseks. Galaktikate pildid teisendati funktsioonide maatriksiks. Selles lihtsustatud näites on kolm funktsiooni (pildi sinine summa, pikslite heleduse dispersioon ja mittesisaldavate pikslite osakaal). Siis, piltide alamhulga puhul kasutatakse masina õppemooduli koolitamiseks Galaxy Zoo etikette. Lõpuks kasutatakse masinõpetust, et hinnata ülejäänud galaktikate klassifikatsioone. Ma nimetan seda arvutiga arvutatud inimeste arvutusprojektiks, sest selle asemel, et inimestel probleemi lahendada, on inimestel ehitatud andmekogum, mida saab arvuti rentimiseks probleemi lahendamiseks kasutada. Arvutiga seotud inimeste arvutussüsteemi eeliseks on see, et see võimaldab teil tegeleda sisuliselt peaaegu piiramatu hulga andmetega, kasutades ainult piiratud hulgal inimese jõupingutusi. Sloan Digital Sky Survey loal reprodutseeritud galaktikate pildid.

Banerji ja kolleegide masinõppemudelid olid keerulisemad kui minu mänguasja näitel - näiteks kasutasid ta selliseid funktsioone nagu "de Vaucouleurs sobivad aksiaalsuhtega" ja tema mudel ei olnud logistiline regressioon, vaid see oli kunstlik neuronvõrk. Kasutades oma funktsioone, tema mudelit ja konsensuslikku galaktika loomaaedade klassifikatsiooni, suutis ta iga elemendi kaalusid luua ja seejärel kasutada neid kaalusid, et prognoosida galaktikate klassifitseerimist. Näiteks leidis tema analüüs, et kujutised madala "de Vaucouleuri telje suhtega" sobivad tõenäoliselt spiraalgalaktikateks. Arvestades neid kaalusid, suutis ta prognoosida galaktika inimese klassifikatsiooni mõistliku täpsusega.

Banerji ja kolleegide töö muutus Galaxy Zoo'iks selliseks, mida nimetaksin arvutisüsteemiks arvutatud inimeste arvutussüsteemiks . Parim viis nende hübriidsüsteemide mõtlemiseks on see, et inimesed ei suuda probleemi lahendada, vaid loovad inimese jaoks andmekogumi, mida saab arvuti probleemide lahendamiseks koolitada. Mõnikord võib probleemi lahendamiseks vajaliku arvuti koolitamine vajada palju näiteid ja ainus võimalus piisava hulga näidete saamiseks on massiline koostöö. Selle arvutipõhise lähenemise eeliseks on see, et see võimaldab teil tegeleda sisuliselt lõpmata andmetega, kasutades ainult piiratud hulgal inimese jõupingutusi. Näiteks võib miljon inimlikus klassifitseeritud galaktikaga teadlane luua prognoositava mudeli, mida saab seejärel kasutada miljardi või isegi triljoni galaktikate liigitamiseks. Kui seal on tohutult hulk galaktikaid, siis on selline inimese-arvuti hübriid tõesti ainus võimalik lahendus. Kuid see lõpmatu mastaapsuse võimalus ei ole vaba. (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) on probleemiks ka masina õppe mudeli loomine, mis võimaldab (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) õigesti reprodutseerida, kuid õnneks on sellel teemal juba suurepäraseid raamatuid (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaktika loomaaed on hea näide sellest, kui palju inimeste arvutusprojekte areneb. Esiteks üritab teadlane projekti enda või väikese uurimisassistendi meeskonnaga (nt Schawinski algse klassifitseerimise jõupingutus). Kui see lähenemine ei ulatu hästi, võib teadlane liikuda arvukate inimeste arvutusprojekti. Kuid teatud andmemahtude puhul ei piisa üksnes inimeste jõupingutustest. Sellel hetkel peavad teadlased üles ehitama arvutisüsteemiga inimese arvutussüsteemi, milles inimeste klassifikatsioone kasutatakse masin õppe mudeli koolitamiseks, mida saab seejärel rakendada peaaegu piiramatute andmete kogumiseks.