5.2.1 Galaxy Zoo

Galaxy Zoo ühendab jõupingutusi paljud mitte-ekspert vabatahtlike klassifitseerida miljonit galaktikat.

Galaxy Zoo kasvas välja probleemi, Kevin Schawinski, aspirandina Astronoomia Oxfordi ülikoolis 2007. aastal lihtsustamine üsna vähe, Schawinski oli huvitatud galaktikad ja galaktikate saab liigitada nende morfoloogia-elliptilised või spiraal-ja nende värvi sinine või punane. Ajal, tavasuhtumise hulgast astronoomid oli, et spiraal galaktikad, nagu meie Linnutee olid sinine (näitab noorte) ja et elliptilised galaktikad olid punast värvi (mis näitab, vanadus). Schawinski kahtles selles tavasuhtumise. Ta kahtlustas, et kuigi see muster võib olla tõsi, et üldiselt oli ilmselt suurt arvu erandeid, ja et uurides palju neid ebatavalisi galaktikad-need, mis ei sobinud eeldatava-ta võiks õppida midagi protsess, mille kaudu galaktikatest moodustunud.

Seega, mida Schawinski vaja ümber lükata tavasuhtumise oli suur hulk morfoloogiliselt salastatud galaktikad; see tähendab, et galaktikad, mis on liigitatud kas spiraal või elliptilised. Probleem on aga see, et olemasolevad algoritmilise meetodid klassifikatsioon ei ole veel piisavalt hea, et saab kasutada teaduslikel eesmärkidel; Teisisõnu, liigitamine galaktikad oli sel ajal probleem, et oli raske arvutid. Seega, mida vajati oli suur hulk inimese klassifitseeritud galaktikad. Schawinski endale selle klassifikatsiooni probleem entusiasm aspirandina. Ühes maratoni istungil seitse, 12-tunniseid tööpäevi, suutis liigitada 50000 galaktikad. Kuigi 50.000 galaktikad võivad tunduda palju, see on tegelikult ainult umbes 5% ligi miljon galaktikad, mis oli pildistatud Sloani digitaalse Sky Survey. Schawinski aru, et tal on vaja rohkem skaalautuvia lähenemist.

Õnneks selgub, et ülesanne klassifitseerimisel galaktikad ei vaja täiendõpet astronoomia; saab õpetada keegi seda päris kiiresti. Teisisõnu, kuigi klassifitseerimisel galaktikad on ülesanne, mis oli raske arvutit, see oli üsna lihtne inimesele. Niisiis, istudes pubis Oxford, Schawinski kolleegidelt astronoom Chris Lintott unistanud veebileht, kus vabatahtlikud oleks liigitada pilte galaktikad. Mõni kuu hiljem, Galaxy Zoo sündinud.

Kell Galaxy Zoo veebilehel, vabatahtlikele oleks läbida paar minutit koolitust; näiteks õppimise vahe spiraal ja elliptilise galaktika (joonis 5.2). Pärast seda koolitust, vabatahtlikud pidid suhteliselt lihtne viktoriini õigesti klassifitseerimise 11 15 galaktikate tuntud klassifikatsioonid-ja siis vabatahtlike algab tõeline liigitus teadmata galaktikad läbi lihtsa veebipõhine liides (joonis 5.3). Üleminek vabatahtliku astronoom toimuks vähem kui 10 minutit ja vaja ainult möödaminnes madalaim tõkkejooksus, lihtne viktoriin.

Joonis 5.2: Näiteid kaks peamist tüüpi galaktikate: spiraal ja elliptilised. Galaxy Zoo projektis kasutatud enam kui 100.000 vabatahtlikku liikide üle 900.000 pilte. Allikas: www.galaxyzoo.org.

Joonis 5.2: Näiteid kaks peamist tüüpi galaktikate: spiraal ja elliptilised. Galaxy Zoo projektis kasutatud enam kui 100.000 vabatahtlikku liikide üle 900.000 pilte. Allikas: www.galaxyzoo.org .

Joonis 5.3: sisend ekraan, kus valijad paluti klassifitseerida ühe pildi. Allikas: www.galaxyzoo.org.

Joonis 5.3: sisend ekraan, kus valijad paluti klassifitseerida ühe pildi. Allikas: www.galaxyzoo.org .

Galaxy Zoo meelitas oma esialgse vabatahtlikele pärast projekti ajalehes artikkel, ja umbes kuus kuud projekti kasvas kaasata rohkem kui 100000 kodanik teadlased, kes osalesid, sest neil oli ülesanne ja nad tahtsid, et aidata ette astronoomia. Üheskoos on need 100.000 vabatahtlikud aidanud kokku üle 40 miljoni klassifikatsioonid, enamus klassifikatsioonide pärit suhteliselt väike, tuumik osalejad (Lintott et al. 2008) .

Teadlased, kes on kogemusi rentides bakalaureuse teadustöö assistendid võiks kohe olla skeptiline andmete kvaliteeti. Kuigi see skeptitsism on mõistlik, Galaxy Zoo näitavad, et kui vabatahtlikest õigesti puhastada, debiased ja liidetakse kokku, nad suudavad toota kvaliteetset tulemusi (Lintott et al. 2008) . Oluline trikk saada rahvahulga luua professionaalse kvaliteediga andmed on koondamine; see tähendab, et olles samal tööülesannete paljude erinevate inimestega. Galaxy Zoo, oli umbes 40 klassifikatsioonide kohta galaktika; Teadlased kasutavad bakalaureuseõppe teadustöö assistendid ei saa kunagi endale sellist taset koondamise ning seetõttu on vaja palju rohkem mures kvaliteeti iga liigitus. Mis vabatahtlike puudus koolituse, nad moodustasid eest koondamine.

Isegi mitu klassifikaatorite kohta galaktika siiski ühendab rea vabatahtlike klassifikatsioonid toota konsensuse klassifikatsioon on keeruline. Kuna väga sarnased probleemid tekivad ka kõige inimese arvutusvõimsus projekte, on kasulik korraks läbi kolmes etapis, et Galaxy Zoo teadlased tootmiseks kasutatud üksmeelt klassifikatsioone. Esiteks, teadlased "puhastada" andmeid, eemaldades võlts klassifikatsioone. Näiteks inimesed, kes korduvalt klassifitseeritud sama galaktika-midagi, mis juhtuks, kui nad üritasid manipuleerida tulemustele oli kõik oma liigituse kõrvale. See ja teised sarnased puhastamiseks eemaldada umbes 4% kõigist klassifikatsioone.

Teiseks, pärast puhastamist, teadlased vaja eemaldada süstemaatiliste nihete liigitatud. Läbi seeria diagonaal avastamise uuringud kinnistatud esialgse projektiga, sest näiteks näitavad mõned vabatahtlikud galaktika mustvalge asemel värvi teadlased avastasid mitu süstemaatiliste nihete, nagu süstemaatiline diagonaal liigitada kaugel spiraal galaktikaid elliptilised galaktikad (Bamford et al. 2009) . Reguleerimine nende süstemaatiliste nihete on äärmiselt oluline, sest keskmiselt palju toetust ei eemalda süstemaatiline eelarvamusi; vaid eemaldab juhuslik viga.

Lõpuks, pärast debiasing teadlased vaja meetodit, mis ühendavad üksikute klassifikatsioonid toota konsensuse klassifikatsioon. Lihtsaim viis ühendada klassifikatsioonid iga galaktika oleks valida kõige levinum klassifitseerimine. Kuid selline lähenemine annaks igale vabatahtlikule võrdne kaal ning teadlased kahtlus, et mõned vabatahtlikud olid paremad liigitus kui teised. Seega teadlased välja töötanud keerulisem iteratiivne kaalumine protseduur, mis üritab automaatselt tuvastada parim klassifikaatorite ja annab neile suurema kaalu.

Seega, pärast kolmeastmeline puhastus, debiasing ja kaalumine-Galaxy Zoo uurimisrühm oli ümber 40 miljonit vabatahtlikku klassifikatsioonid hulgaks konsensuse morfoloogilised klassifikatsioonid. Kui need Galaxy Zoo klassifikatsioonid võrreldi kolme eelneva väiksematesse katsed professionaalsed astronoomid, sealhulgas klassifikatsiooni Schawinski mis aitas inspireerida Galaxy Zoo oli tugev kokkuleppele. Seega vabatahtlike peale kokku suutsid pakkuda kvaliteetset klassifikatsioonid ja ulatuses, et teadlased ei sobi (Lintott et al. 2008) . Tegelikult, võttes inimese klassifikatsioonid selline suur hulk galaktikate Schawinski, Lintott ja teised suutsid näidata, et ainult umbes 80% galaktikate järgida eeldatava-sinine spiraalid ja punane ellipsid-ja arvukad raamatud on kirjutatud see avastus (Fortson et al. 2011) .

Seda tausta arvestades võime nüüd näha, kuidas Galaxy Zoo järgib jagatud kohaldatakse kombineeri retsept, sama retsepti, mida kasutatakse kõige inimese arvutusvõimsus projekte. Esiteks, suur probleem on jagatud tükkideks. Sellisel juhul probleemi liigitada miljonit galaktikad on jagatud miljonit probleeme klassifitseerimisel üks galaktika. Järgmine operatsioon rakendatakse iga tüki iseseisvalt. Sel juhul vabatahtlike liigitavad iga galaktika kas spiraal või elliptilised. Lõpuks tulemused kombineeritakse konsensuse tulemus. Sel juhul ühendada samm sisaldas puhastamine, debiasing ja kaaluga konsensuse klassifikatsiooni iga galaktika. Kuigi enamik projekte kasutavad seda põhiretsepti, iga sammu tuleb kohandada konkreetse probleemi tegeletakse. Näiteks inimese arvutusvõimsus projekti allpool kirjeldatud sama retsepti järgneb, kuid kohaldada ja kombineerida sammud olla üsna erinevad.

Galaxy Zoo meeskond, see esimene projekt oli alles algus. Väga kiiresti nad mõistsid, et kuigi nad suutsid liigitada lähedale miljonit galaktikat, sellel skaalal ei piisa tööta uuemate digitaalne taevas uuringud, mis võivad toota pilte umbes 10 miljardit galaktikat (Kuminski et al. 2014) . Selleks et tulla toime suurenenud 1.000.000-10000000000-teguri 10000 Galaxy Zoo oleks vaja värvata umbes 10000 korda rohkem osalejaid. Kuigi vabatahtlike arv internetis on suur, siis ei ole lõputu. Seega teadlased aru, et kui nad hakkavad tegelema üha kasvav andmemahtude, uus, veelgi skaleeritav lähenemine oli vaja.

Seetõttu Manda Banerji-töötamise Kevin Schawinski, Chris Lintott ja teiste liikmete Galaxy Zoo meeskonna algab õppetöö arvutid liigitada galaktikaid. Täpsemalt kasutades inimese klassifikatsioonide loodud Galaxy Zoo, Banerji et al. (2010) ehitatud masin õppimise mudel, mis võiks ennustada inimese klassifitseerimine galaktika põhineb omadused pilti. Kui see masin õppimise mudel võiks paljundada inimese klassifikatsioonid suure täpsusega, siis võiks kasutada Galaxy Zoo teadlased liigitada põhimõtteliselt lõpmatu arv galaktikad.

Tuum Banerji ja kolleegide lähenemisviis on tegelikult üsna sarnane tehnikat kasutatakse tavaliselt sotsiaalsed uuringud, kuigi see sarnasus ei pruugi olla selge esmapilgul. Esiteks Banerji ja kolleegide ümber iga pildi hulgaks numbriline funktsioone, mis kokku on omadused. Näiteks pildid galaktikate võiks olla kolm funktsioone: summa sinine pilt, dispersioon heledust pikslit, ja osa mitte-valge pikslit. Valik õige funktsioone on oluline osa probleemist, ja see eeldab tavaliselt teema-ala teadmisi. Esimene samm, mida tavaliselt nimetatakse funktsiooni insener, tulemuseks on andmed maatriksi üks rida pilt ja siis kolm veergu kirjeldavad, et pilti. Arvestades andmete maatriks ja soovitud väljundi (näiteks kas pilt oli jaotatud inimese poolt elliptilise galaktika), uurija hinnangul parameetrite statistiline mudel, sest näiteks midagi logistiline regressioon-, mis ennustab inimese klassifitseerimine põhineb omaduste kohta pilt. Lõpuks teadlane kasutab parameetreid selles statistiline mudel toota hinnanguliselt klassifikatsioonid uusi galaktikaid (joonis 5.4). Mõelda sotsiaalse analoog, kujutan ette, et sul oli demograafilise informatsiooni miljonit üliõpilast, ja sa tead, kas nad on lõpetanud kolledži või mitte. Sa võiks mahtuda logistilise regressiooni andmete ja siis võiks kasutada tulemusena mudeli parameetreid ennustada, kas uus õpilased hakkavad lõpetab ülikooli. Masin õppe selline lähenemine tarbivate märgistatud näiteid luua statistiline mudel, mis saab siis märgistada uusi andmeid, nimetatakse järelevalve õppimine (Hastie, Tibshirani, and Friedman 2009) .

Joonis 5.4: Lihtsustatud kirjeldus, kuidas Banerji et al. (2010) kasutasid Galaxy Zoo klassifikatsioonid õpetada masin õppe mudeli teha galaktika klassifikatsioon. Pildid galaktikad teisendatakse maatriksit funktsioone. Selles lihtsustatud näide on kolm funktsioone (summa sinine pilt, dispersioon heledust pikslit, ja osa mitte-valge pikslit). Siis alagrupis pilte, Galaxy Zoo siltide kasutatakse õpetada masin õppe mudel. Lõpuks masin õppe hindamiseks kasutatud klassifikatsioonid ülejäänud galaktikad. Kutsun sedalaadi projekti teise põlvkonna inimese arvutuslikke projekti, kuna selle asemel võttes inimestel lahendada probleemi, neil inimestel ehitada andmestiku, mida saab kasutada treenida arvuti probleemi lahendada. Eelis on see arvuti abil lähenemine on, et see võimaldab teil hallata sisuliselt lõpmatu hulk andmeid kasutades ainult piiratud kogus, mida inimene teha.

Joonis 5.4: Lihtsustatud kirjeldus, kuidas Banerji et al. (2010) kasutasid Galaxy Zoo klassifikatsioonid õpetada masin õppe mudeli teha galaktika klassifikatsioon. Pildid galaktikad teisendatakse maatriksit funktsioone. Selles lihtsustatud näide on kolm funktsioone (summa sinine pilt, dispersioon heledust pikslit, ja osa mitte-valge pikslit). Siis alagrupis pilte, Galaxy Zoo siltide kasutatakse õpetada masin õppe mudel. Lõpuks masin õppe hindamiseks kasutatud klassifikatsioonid ülejäänud galaktikad. Kutsun sedalaadi projekti teise põlvkonna inimese arvutuslikke projekti, kuna selle asemel võttes inimestel lahendada probleemi, neil inimestel ehitada andmestiku, mida saab kasutada treenida arvuti probleemi lahendada. Eelis on see arvuti abil lähenemine on, et see võimaldab teil hallata sisuliselt lõpmatu hulk andmeid kasutades ainult piiratud kogus, mida inimene teha.

Funktsioonide Banerji et al. (2010) masin õppe mudeli olid keerukamad kui minu mänguasi näiteks-näiteks ta kasutas funktsioone, nagu "de Vaucouleurs sobi aksiaalne suhe" -ja tema mudel ei olnud logistilist regressiooni, see oli tehisnärvivõrk. Kasutades oma tunnuseid, tema mudel ja konsensuse Galaxy Zoo klassifikatsioonid, ta suutis luua kaalu iga funktsioon ja seejärel kasutada neid kaalusid prognooside tegemiseks klassifitseerimise galaktikad. Näiteks tema analüüs leidis, et pildid väikese "de Vaucouleurs sobi aksiaalne suhe" olid suurema tõenäosusega Spiraalgalaktikad. Arvestades need kaalud, ta suutis ennustada inimese klassifitseerimine galaktika piisava täpsusega.

Töö Banerji et al. (2010) välja Galaxy Zoo sellest, mida ma kutsuksin teise põlvkonna inimese arvutamise süsteemi. Parim viis mõelda need teise põlvkonna süsteemide puhul on see asemel inimestel lahendada probleemi, neil inimestel ehitada andmestiku, mida saab kasutada treenida arvuti probleemi lahendada. Andmemaht vaja koolitada arvuti võib olla nii suur, et see nõuab inimese mass koostöö loomiseks. Juhul Galaxy Zoo, närvivõrkudega kasutavad Banerji et al. (2010) vajalik väga suur hulk inimese märgistatud näiteid, et ehitada mudel, mis oli võimeline usaldusväärselt reprodutseerida inimese klassifitseerimine.

Eelis on see arvuti abil lähenemine on, et see võimaldab teil hallata sisuliselt lõpmatu hulk andmeid kasutades ainult piiratud kogus, mida inimene teha. Näiteks teadlane miljoni inimese liigitada galaktikaid saab ehitada ennustav mudel, mis saab siis kasutada klassifitseerimiseks miljardit või isegi triljonit galaktikad. Kui on tohutu hulk galaktikaid, siis selline inimese-arvuti hübriid on tõesti ainus võimalik lahendus. See lõputu mastaapsuse ei ole vaba, aga. Ehitus masin õppe mudeli, mis saab õigesti reprodutseerida inimese klassifikatsioone on iseenesest raske probleem, kuid õnneks on juba väga hea raamatud pühendatud sellele teemale (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo näitab arengut paljudes inimese arvutusvõimsus projekte. Esiteks, teadlane üritab projekti üksi või koos väikese meeskonnaga teadustöö assistendid (nt Schawinski esialgne liigitus pingutust). Kui selline lähenemine ei ole skaala hästi uurija saab käia inimene arvutusvõimsus projekti, kus paljud inimesed kaasa klassifikatsioone. Aga teatud hulk andmeid, puhas inimene teha ei piisa. Sel hetkel tuleb teadlastel luua teise põlvkonna süsteemid, kus inimese klassifikatsioone kasutatakse õpetada masin õppe mudeli, mis saab seejärel rakendada praktiliselt piiramatus koguses andmeid.