5.2.1 "Galaxy Zoo

"Galaxy Zoo apjungia daugelį ne ekspertų savanorių pastangas klasifikuoti milijonų galaktikų.

"Galaxy Zoo išaugo iš problemų, su kuria susiduria Kevin Schawinski, magistrantas astronomija Oksfordo universitete 2007 supaprastinimas gana nemažai, Schawinski domino galaktikų ir galaktikų gali būti klasifikuojami pagal jų morfologiją elipsės formos arba spiralės ir jų spalvų-mėlyna arba raudona. Tuo metu, konvencinė išmintis tarp astronomų buvo, kad spiralinės galaktikos, kaip mūsų Paukščių Tako, buvo mėlynos spalvos (nurodant jaunimo), ir kad Elipsinė galaktika buvo raudonos spalvos (nurodant senatvės). Schawinski abejojo ​​šios tradicinės išminties. Jis įtarė, kad nors šis modelis gali būti tiesa apskritai, ten tikriausiai buvo didokas skaičius išimtis, ir kad studijuojant daug šių neįprastų galaktikų-tie, kurie netelpa tikimasi modelio, jis gali sužinoti ką nors apie procesą, per kurį galaktikos susiformavo.

Taigi, ką Schawinski reikalingas siekiant nuversti tradicinės išminties buvo didelis rinkinys morfologiškai įslaptintų galaktikų; tai yra, galaktikos, kurios buvo skirstomas į spiralę ar elipsės formos. Tačiau problema buvo ta, kad esamos Algoritminiai klasifikavimo dar nebuvo pakankamai gera būti naudojami moksliniams tyrimams; Kitaip tariant, klasifikavimas galaktikos buvo tuo metu, problema, kad buvo sunku kompiuterius. Todėl tai, ką reikėjo, buvo daug žmonių, klasifikuojamų galaktikų. Schawinski įsipareigojo šią klasifikaciją problemą su magistrantas entuziazmu. Be maratono sesijos septyni, 12 valandą dienos, jis galėjo klasifikuoti 50000 galaktikas. Nors 50000 galaktikos gali skambėti kaip daug, tai iš tikrųjų tik apie 5% beveik vienas milijonas galaktikų, kurios buvo fotografuotas į Sloan dangaus apžvalga. Schawinski suprato, kad jam reikia daugiau keičiamo dydžio metodą.

Laimei, it turns out, kad klasifikuojant galaktikų užduotis nereikalauja aukštesnįjį mokymą astronomija; jūs galite išmokyti ką nors padaryti ją gana greitai. Kitaip tariant, nors klasifikuoti galaktikas yra užduotis, buvo sunku kompiuterius, tai buvo gana lengva žmonėms. Taigi, nors sėdi Oksforde, Schawinski ir kolegos astronomas Chrisas Lintott pub svajojo sukurti svetainę, kur savanoriai būtų klasifikuoti vaizdus galaktikų. Po kelių mėnesių, "Galaxy Zoo gimė.

Tuo "Galaxy Zoo svetainėje, savanoriai būtų atlikti keletą minučių mokymą; Pavyzdžiui, mokymosi tarp spiralės ir elipsinė galaktika (5.2 pav) skirtumą. Po šio mokymo, savanoriai turėjo praeiti gana lengva viktorina-teisingai klasifikuoti 11 15 galaktikas su žinomais klasifikacijų-ir tada savanoris būtų pradėti tikrą klasifikaciją nežinomų galaktikų per paprastą interneto sąsają (5.3 pav). Perėjimas nuo Pasisiūlykite astronomas įvyks per mažiau nei 10 minučių ir reikalinga tik artimųjų mažiausia iš kliūčių, paprasta viktorina.

5.2 pav pavyzdžiai dviejų pagrindinių tipų galaktikų: spirale ir elipsės formos. Galaxy Zoo projektas naudojama daugiau nei 100.000 savanorius daugiau nei 900.000 vaizdų kategorijų. Šaltinis: www.galaxyzoo.org.

5.2 pav pavyzdžiai dviejų pagrindinių tipų galaktikų: spirale ir elipsės formos. Galaxy Zoo projektas naudojama daugiau nei 100.000 savanorius daugiau nei 900.000 vaizdų kategorijų. Šaltinis: www.galaxyzoo.org .

5.3 pav įvesties ekrane, kur rinkėjai klausė klasifikuoti vieną vaizdą. Šaltinis: www.galaxyzoo.org.

5.3 pav įvesties ekrane, kur rinkėjai klausė klasifikuoti vieną vaizdą. Šaltinis: www.galaxyzoo.org .

"Galaxy Zoo traukia savo pradinius savanorius po projekto buvo pasirodžiusi naujienų straipsnyje, ir maždaug šešių mėnesių projektas išaugo įtraukti daugiau nei 100.000 pilietį mokslininkus, kurie dalyvavo, nes jie patiko užduotis ir jie norėjo padėti anksto astronomija žmonių. Kartu šie 100.000 savanoriai prisidėjo daugiau nei 40 milijonų klasifikacijų viso, su klasifikatoriais iš santykinai mažas, pagrindinės grupės dalyvių balsų dauguma (Lintott et al. 2008) .

Mokslininkai, kurie turi patirties samdant bakalauro mokslinių tyrimų asistentai gali iš karto būti skeptiškai duomenų kokybę. Nors šis skepticizmas yra pagrįsta, "Galaxy Zoo rodo, kad kai savanoriai įmokos teisingai valyti, debiased ir apibendrinti, jie gali gaminti aukštos kokybės rezultatus (Lintott et al. 2008) . Svarbus triukas gauti minios sukurti profesionalios kokybės duomenys yra atleidimo iš darbo; tai yra, turintys tą patį užduotis atlieka daug įvairių žmonių. Be Galaxy Zoo, ten buvo apie 40 Klasifikacija per galaktikos; Mokslininkai, naudojantys bakalauro mokslinių tyrimų asistentai niekada negalėjo sau leisti šį atleidimo iš darbo lygį, todėl reikia būti daug labiau susiję su kiekvieno atskiro klasifikavimo kokybę. Kas savanoriai trūko mokymo, jie sudarė už atleidimas iš darbo.

Net su keliais klasifikacijų per galaktika, tačiau derinant savanorių klasifikacijų rinkinį, kad gaminti sutarimas klasifikacija yra sudėtinga. Nes labai panašios problemos kyla ir daugelyje žmogaus skaičiavimo projektus, tai naudinga trumpai apžvelgti tris žingsnius, kad "Galaxy Zoo mokslininkai naudojamos gaminti savo konsensuso klasifikacijas. Pirma, mokslininkai "išvalyti" duomenis, panaikinant netikrą klasifikacijas. Pavyzdžiui, žmonės, kurie pakartotinai priskirti tą patį Galaxy kažką, kad nutiktų, jei jie bando manipuliuoti rezultatais turėjo visi jų klasifikacijos išmesti. Šis ir kiti panašūs valymas pašalinta apie 4% visų klasifikacijų.

Antra, po valymo, mokslininkai reikia pašalinti sistemines paklaidas pagal klasifikacijas. Per šališkumo aptikimo tyrimų įterptųjų per pradinį projekto-pavyzdžiui, nurodant kai savanoriams vienspalviu vietoj Galaxy serija spalva-mokslininkai atrado keletą sisteminių paklaidų, pavyzdžiui, sisteminiu šališkumo klasifikuoti toli spiralinių galaktikų, kaip Elipsinė galaktika (Bamford et al. 2009) . Reguliavimas šių sisteminių paklaidų yra labai svarbu, nes vidutiniškai daug įmokas nepašalina sistemingai šališkumo; jis pašalina tik atsitiktinę paklaidą.

Galiausiai, po debiasing, mokslininkai reikalingi metodą derinti atskirus klasifikacijos gaminti sutarimo klasifikacija. Paprasčiausias būdas sujungti klasifikacijas kiekvieną galaktikos būtų pasirinkti labiausiai bendrą klasifikaciją. Tačiau šis metodas duotų Kiekvienas savanoris vienodą svorį, o mokslininkai įtarė, kad kai kurie ligoniai geriau klasifikavimo nei kiti. Todėl mokslininkai sukūrė sudėtingesnę pakartoti svorių procedūrą, kuri bando automatiškai aptikti geriausius klasifikatorius ir suteikti jiems daugiau svorio.

Taigi, po trijų etapų procesas-valymas, debiasing ir svorių-Galaxy Zoo tyrėjų komanda buvo konvertuota 40 milijonų savanorių klasifikacijas į konsensuso morfologinių klasifikacijų rinkinį. Kai šie "Galaxy Zoo klasifikacijos buvo palyginti su ankstesniais trimis mažesnio masto bandymų profesionaliems astronomams, įskaitant pagal Schawinski klasifikaciją, kuri padėjo įkvėpti Galaxy Zoo, ten buvo stiprus sutartis. Taigi, savanoriai, iš viso, galėjo teikti aukštos kokybės klasifikacijas ir masto, kad mokslininkai negalėjo prilygti (Lintott et al. 2008) . Tiesą sakant, turėdami žmogaus klasifikacijas tokio didelio skaičiaus galaktikų, Schawinski, Lintott ir kiti galėjo parodyti, kad tik apie 80% galaktikų sekti numatomą ilgalaikio mėlyna spirale ir raudonos elipsės formos-ir daug straipsnių buvo parašyta apie šis atradimas (Fortson et al. 2011) .

Atsižvelgiant į šią informaciją, mes galime pamatyti, kaip "Galaxy Zoo taip padalinti kreiptis-sujungti receptą, tą patį receptą, kuris naudojamas daugeliu žmogaus skaičiavimo projektus. Pirma, didelė problema yra padalyta į gabaliukus. Šiuo atveju klasifikuojant milijonų galaktikų problema yra padalyta į milijono problemų klasifikuojant vieną galaktiką. Be to, operacija yra taikoma kiekvienam riekė savarankiškai. Šiuo atveju, savanoris būtų klasifikuoti kiekvieną galaktiką kaip arba spirale ar elipsės formos. Pagaliau, rezultatai yra derinamos siekiant pagaminti konsensuso rezultatą. Šiuo atveju kombaino žingsnis įtraukti valymas, debiasing ir koeficiento ir gaunama sutarimo klasifikaciją kiekvienos galaktikos. Nors dauguma projektų naudoja šį bendrą receptą, kiekvienas iš žingsnių reikia pritaikyti prie konkrečių problemų yra sprendžiamas. Pavyzdžiui, žemiau aprašyto žmogaus skaičiavimo projektą, tas pats receptas bus laikomasi, tačiau taikomos ir derinti veiksmus bus gana skirtingi.

Dėl "Galaxy Zoo komanda, tai pirmasis projektas buvo tik pradžia. Labai greitai jie suprato, kad nors jie galėjo klasifikuoti arti milijono galaktikų, tai skalė yra ne pakankamai, kad dirbti su naujesnių skaitmeninių dangaus tyrimų, kurie galėtų gaminti vaizdus apie 10 milijardų galaktikų (Kuminski et al. 2014) . Dirbti nuo 1 milijono iki 10 padidinti milijardų iš 10000 Galaxy Zoo veiksnys turėtų įdarbinti maždaug 10.000 kartų daugiau dalyvių. Nors savanorių skaičius internete yra didelis, ji yra nėra begalinė. Todėl, mokslininkai suprato, kad jei jie ketina dirbti nuolat augančius duomenų kiekiai, už naują, dar labiau plečiasi, požiūris buvo reikalingi.

Todėl Siųsti Banerji-dirbant su Kevin Schawinski, Chris Lintott ir kitus narius Galaxy Zoo komandos-pradedant mokymo kompiuteriai klasifikuoti galaktikas. Tiksliau, naudojant žmogaus klasifikacijas sukurtus Galaxy Zoo, Banerji et al. (2010) pastatyta mašina mokymosi modelį, kuris galėtų prognozuoti žmogaus galaktikos klasifikacija remiantis iš paveikslėlio savybes. Jei ši mašina mokymosi modelis galėtų daugintis žmogaus klasifikacijas su didelio tikslumo, tai gali būti naudojama "Galaxy Zoo mokslininkų klasifikuoti iš esmės begalinį skaičių galaktikų.

Iš Banerji ir kolegos "metodo esmė iš tiesų yra gana panašus į metodus dažniausiai naudojamų socialinių tyrimų, nors tai panašumas gali būti neaišku iš pirmo žvilgsnio. Pirma, Banerji ir kolegos konvertuoti kiekvieną vaizdą į keletą skaičių savybių, ją apibendrinti savybių rinkinys. Pavyzdžiui, vaizdų galaktikų galėtų būti trys požymiai: Blue suma paveikslėlyje, į iš pikselių ryškumą variacijos, o ne baltų taškų santykį. Iš teisingų funkcijų pasirinkimas yra svarbi problema, ir ji paprastai reikalauja dalyko srities patirties. Tai pirmasis žingsnis, paprastai vadinama funkcija inžinerijos, sukelia duomenų matricos su vienu eilės per vaizdą ir trijų stulpelių, apibūdinančių tą vaizdą. Atsižvelgiant į duomenų matrica ir norimą produkciją (pvz, ar vaizdas buvo klasifikuojami pagal žmogaus kaip elipsinė galaktika), tyrėjas Įvertinimai statistiniu modeliu pvz parametrus, kažką panašaus į logistinę regresiją-numatymo žmogaus klasifikacija, pagrįsta dėl atvaizdo funkcijų. Galiausiai mokslininkas naudoja parametrus šioje statistikos modelį gaminti Apskaičiuota klasifikatorius naujų galaktikų (5.4 pav). Galvoti apie socialinės analogas, įsivaizduokite, kad jūs turėjote demografinę informaciją apie milijonas studentų, ir jūs žinote, ar jie baigė koledžą, ar ne. Galite tilptų logistinę regresiją šiais duomenimis, o tada galite naudoti gautus modelio parametrus prognozuoti, ar naujiems studentams ketinate pereiti iš koledžo. Be mašina mokymo, šis požiūris vartojantiems paženklinti pavyzdžiai sukurti statistinį modelį, kuris vėliau gali ženklinti naują duomenų apdorojimo vadinamas prižiūri mokymosi (Hastie, Tibshirani, and Friedman 2009) .

5.4 pav Supaprastintas aprašymas, kaip Banerji et al., (2010), naudojamas galaktikos zoologijos sodas klasifikacijas mokyti mašina mokymosi modelį daryti galaktika klasifikacija. Vaizdai iš galaktikų buvo konvertuotos į funkcijų matrica. Šiuo supaprastintas pavyzdys yra trys požymiai (Blue suma paveikslėlyje, į iš pikselių ryškumą variacijos, o ne baltų pikselių proporcija). Tada už vaizdų pogrupyje, Galaxy Zoo etiketės naudojamos mokyti mašina mokymosi modelį. Pagaliau, mašina mokymosi yra naudojamas įvertinti klasifikacijas likusių galaktikų. Aš vadinu tokį pat projektą antros kartos žmogaus skaičiavimo projektą, nes, užuot žmonėms išspręsti problemą, jie turi žmonės sukurti rinkinį, kuris gali būti naudojamas mokyti kompiuterį išspręsti problemą. Šio kompiuteriu padeda požiūrio privalumas yra tai, kad ji leidžia jums tvarkyti iš esmės begalinius kiekius duomenų, naudojant tik baigtinį kiekį žmogaus pastangų.

5.4 pav Supaprastintas aprašymas, kaip Banerji et al. (2010) naudojo "Galaxy Zoo klasifikacijas mokyti mašina mokymosi modelį daryti galaktika klasifikacija. Vaizdai iš galaktikų buvo konvertuotos į funkcijų matrica. Šiuo supaprastintas pavyzdys yra trys požymiai (Blue suma paveikslėlyje, į iš pikselių ryškumą variacijos, o ne baltų pikselių proporcija). Tada už vaizdų pogrupyje, Galaxy Zoo etiketės naudojamos mokyti mašina mokymosi modelį. Pagaliau, mašina mokymosi yra naudojamas įvertinti klasifikacijas likusių galaktikų. Aš vadinu tokį pat projektą antros kartos žmogaus skaičiavimo projektą, nes, užuot žmonėms išspręsti problemą, jie turi žmonės sukurti rinkinį, kuris gali būti naudojamas mokyti kompiuterį išspręsti problemą. Šio kompiuteriu padeda požiūrio privalumas yra tai, kad ji leidžia jums tvarkyti iš esmės begalinius kiekius duomenų, naudojant tik baigtinį kiekį žmogaus pastangų.

Į Įranga Banerji et al. (2010) mašina mokymosi modelis buvo sudėtingesnis nei mano žaislas pavyzdys-Pavyzdžiui, ji naudojama funkcijų, pavyzdžiui, de Vaucouleurs tilptų ašinis santykis "-ir jos modelis nebuvo logistinė regresija, tai buvo dirbtinis neuroninis tinklas. Naudojant savo funkcijas, jos modelį, o konsensuso "Galaxy Zoo klasifikacijas, ji galėjo sukurti svorius ant kiekvieno funkcija, tada naudoti šiuos koeficientus daryti prognozes apie galaktikų klasifikacijos. Pavyzdžiui, jos analizė parodė, kad vaizdai su maža "de Vaucouleurs tilptų ašinis santykis" buvo labiau tikėtina, kad spiralinės galaktikos. Atsižvelgiant į šias svoriai, ji galėjo nuspėti žmogaus klasifikaciją galaktika pakankamai tiksliai.

Darbo Banerji et al. (2010) Paaiškėjo "Galaxy Zoo į ką aš vadinčiau antrosios kartos žmogaus skaičiavimo sistemą. Geriausias būdas galvoti apie šiuos antros kartos sistemų yra tai, kad užuot žmonės išspręsti problemą, jie turi žmonės sukurti rinkinį, kuris gali būti naudojamas mokyti kompiuterį išspręsti problemą. Duomenų, reikalingų mokyti kompiuterį suma gali būti toks didelis, kad jis reikalauja žmogaus masės bendradarbiavimą siekiant sukurti. Be Galaxy Zoo, nervų tinklų, naudojamų atveju Banerji et al. (2010) reikia labai daug žmogaus žymėto pavyzdžiais siekiant sukurti modelį, kuris galėjo patikimai atkurti žmogaus klasifikacija.

Šio kompiuteriu padeda požiūrio privalumas yra tai, kad ji leidžia jums tvarkyti iš esmės begalinius kiekius duomenų, naudojant tik baigtinį kiekį žmogaus pastangų. Pavyzdžiui, tyrėjas milijono žmonių klasifikuojamos galaktikų gali sukurti prognozavimo modelį, kuris vėliau gali būti naudojami klasifikuoti milijardą ar net trilijono galaktikas. Jei yra milžiniški skaičiai galaktikų, tai Žmogaus-kompiuterio hibridas natūra yra tikrai vienintelis galimas sprendimas. Tai begalinis mastelio nėra nemokama, tačiau. Statybos mašinos mokymosi modelį, kuris galėtų tinkamai atkurti žmogaus klasifikacijas pati sunkiai problema, bet, laimei, jau yra puikios knygos skirti šią temą (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

"Galaxy Zoo rodo daugelio žmogaus skaičiavimo projektų raidą. Pirma, mokslininkas bando projektą pagal save arba su maža komanda, mokslinių tyrimų padėjėjų (pvz Schawinski pradinis klasifikacija pastangų). Jei šis metodas nėra masto gerai, tyrėjas gali pereiti į žmonių skaičiavimo projektą, kur daug žmonių prisidėti klasifikacijas. Bet, tam tikrą kiekį duomenų,, grynas žmonių pastangos nebus pakankamai. Tuo metu mokslininkai reikia sukurti antrosios kartos sistemas, kuriose žmogaus klasifikatoriai naudojami mokyti mašina mokymosi modelį, kuris vėliau gali būti taikoma praktiškai neribotą kiekį duomenų.