5.2.1 Galaxy Zoo

Ta prevod je bil ustvarjen s pomočjo računalnika. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

5.2.1 Galaxy Zoo

Galaxy Zoo združuje prizadevanja mnogih laičnemu prostovoljcev za razvrstitev milijon galaksij.

Galaxy Zoo je zrasla iz problema, ki ga Kevin Schawinski, podiplomski študent v astronomije na Univerzi v Oxfordu srečujejo v letu 2007. Poenostavitev zelo malo, je Schawinski zanima galaksije in galaksije je mogoče razvrstiti njen morfologija-eliptične ali spiralne in po barvi modra in rdeča. V tem času je bila konvencionalna modrost med astronomi, ki spiralne galaksije, kot je naša Rimska cesta, so modre barve (ki kaže mladih) in da so eliptične galaksije so rdeče barve (z navedbo starosti). Schawinski dvomil te modrosti. Je sum, da medtem ko bi ta vzorec res na splošno, je bilo verjetno precejšen število izjem, in da s študijem veliko teh nenavadnih galaksij-tiste, ki ne ustrezajo pričakovani vzorec, ki bi ga lahko naučijo nekaj o procesu, skozi katerega galaksije oblikujejo.

Tako, kaj Schawinski potrebna za prevrniti modrosti je bila velika množica morfološko razvrščenih galaksij; da je, galaksije, ki so bili razvrščeni bodisi kot spiralo ali eliptična. Problem pa je, da obstoječe algoritmično metode za razvrščanje še niso dovolj dobra, da se uporabljajo za znanstvene raziskave; z drugimi besedami, ki razvršča galaksije, v tistem času, je problem, da je bilo težko za računalnike. Zato, kar je bilo potrebno je bilo veliko število ljudi, razvrščenih galaksij. Schawinski zavezala ta problem razvrščanja z navdušenjem podiplomski študent. Na seji maratona sedmih, 12-urni dni, mu je uspelo uvrstiti 50.000 galaksij. Medtem ko se lahko 50.000 galaksij sliši veliko, je v resnici le okoli 5% od skoraj milijon galaksij, ki so bili fotografirani v raziskavi Sloan Digital Sky. Schawinski spoznal, da je potrebno bolj prilagodljivo pristop.

Na srečo, se izkaže, da je naloga razvrščanje galaksij ne zahteva višjo stopnjo izobraževanja v astronomijo; lahko naučiti nekoga, da naredi precej hitro. Z drugimi besedami, čeprav je razvrstitev galaksij naloga, ki jo je bilo težko za računalnike, je bilo zelo enostavno za ljudi. Torej, medtem ko je sedel v nekem pubu v Oxfordu, Schawinski in kolegi astronom Chris Lintott sanjal spletno stran, kjer bi prostovoljci razvrstijo slike galaksij. Nekaj mesecev kasneje, je Galaxy Zoo rodil.

Na spletni strani Galaxy Zoo, bi prostovoljci opravijo nekaj minut usposabljanja; na primer učenje razlike med spiralo in eliptične galaksije (slika 5.2). Po tem usposabljanju, so morali prostovoljci opraviti relativno enostavno kviz-pravilno uvrščanje 11 od 15 galaksije z znanimi razvrstitev, in potem bi prostovoljec začeli realno razvrstitev neznanih galaksij preko enostavnega spletnega vmesnika (slika 5.3). Prehod od prostovoljca, da astronom bi potekala v manj kot 10 minutah, in zahteva le mimogrede najnižji od ovir, preprost kviz.

Slika 5.2: Primeri dveh glavnih vrst galaksij: spiralo in eliptični. Projekt Galaxy Zoo uporablja več kot 100.000 prostovoljcev za skupine več kot 900.000 slik. Vir: www.galaxyzoo.org .

Slika 5.3: Vhodni zaslon, kjer so volivci morali razvrstiti eno sliko. Vir: www.galaxyzoo.org .

Galaxy Zoo privabil svoje prvotne prostovoljcev potem ko je bil projekt predstavljeno v časopisnem članku, in v približno šestih mesecih je projekt zrasel, da so več kot 100.000 državljane znanstvenike, ljudi, ki so sodelovali, ker so imeli nalogo, in so hoteli, da bi vnaprej astronomijo. Skupaj ti 100.000 prostovoljci prispevali skupno več kot 40 milijonov razvrstitev, z večino razvrstitev, ki prihajajo iz relativno majhnega, osrednjo skupino udeležencev (Lintott et al. 2008) .

Raziskovalci, ki imajo izkušnje najem dodiplomski raziskovalca lahko takoj skeptičen glede kakovosti podatkov. Medtem ko je ta skepticizem je smiselno, Galaxy Zoo je razvidno, da če so prispevki prostovoljne pravilno očistiti, debiased in združijo, lahko proizvajajo visoko kakovostne rezultate (Lintott et al. 2008) . Pomemben trik za pridobivanje množice, da ustvarite strokovne kakovosti podatkov, je odpust; da je, ko je ista naloga opravlja veliko različnih ljudi. V Galaxy Zoo, je bilo približno 40 klasifikacije na galaksije; raziskovalci uporabljajo dodiplomski raziskovalca nikoli ne bi mogla privoščiti raven redundance in zato je treba, da je veliko bolj ukvarjajo s kakovostjo posamezne razvrstitve. Kaj prostovoljci niso imeli v usposabljanje, so naredili za z redundance.

Tudi s številnimi razvrstitev na galaksije, pa združuje nabor razvrstitev prostovoljnih pripraviti razvrstitev soglasje je zapleteno. Ker zelo podobni izzivi se pojavljajo v večini projektov s področja človekovih računanje, je koristno na kratko pregledali tri korake, ki so raziskovalci Galaxy Zoo, ki se uporabljajo za izdelavo svojih soglasju klasifikacije. Najprej so raziskovalci "očistiti" s podatki, ki jih odstranite lažne klasifikacije. Na primer, ljudje, ki večkrat razvrščeni enako galaksije-nekaj, kar bi se zgodilo, če bi skušali vplivati na rezultate, ki so imeli vse njihove razvrstitve zavreči. Ta in drugi podobni čiščenje odstranimo približno 4% vseh klasifikacij.

Drugič, po čiščenju, raziskovalci potrebno odstraniti sistematične predsodke v klasifikacijah. Skozi vrsto študij za odkrivanje pristranskost vgrajenih v prvotnem projektu, na primer, ki kaže nekaj prostovoljcev galaksija v črno-beli namesto barve, so raziskovalci odkrili več sistematične pristranskosti, kot so sistematično pristranskost za razvrščanje daleč spiralnih galaksij, kot eliptične galaksije (Bamford et al. 2009) . Prilagajanje teh sistematičnih odstopanj, je zelo pomembno, saj v povprečju veliko prispevkov ne odstrani sistematične pristranskosti; odstrani le naključno napako.

Končno, po debiasing, so raziskovalci potrebovali način združiti posamezne razvrstitve za izdelavo razvrstitev soglasja. Najenostavnejši način za združevanje razvrstitve za vsako galaksiji bi bilo izbrati najbolj skupni razvrstitvi. Vendar pa bi ta pristop vsakemu prostovoljcev enake teže in raziskovalci sum, da so bili nekateri prostovoljci bolje razvrstitev kot drugi. Zato so raziskovalci razvili bolj zapleten iterativni postopek tehtanja, ki poskuša samodejno zazna najboljše klasifikatorjev in jim dati večjo težo.

Tako je po treh korakih procesno čiščenje, debiasing, in korekcijskih-raziskovalne skupine Galaxy Zoo je pretvori 40 milijonov prostovoljcev razvrstitve v niz soglasja morfološke klasifikacije. Ko so te klasifikacije Galaxy Zoo v primerjavi s prejšnjih treh poskusih manjših s strani poklicnih astronomov, vključno s klasifikacijo, ki ga Schawinski, ki je pomagala spodbuditi Galaxy Zoo, je bil močan dogovor. Tako so prostovoljci, v seštevku, so lahko za zagotavljanje visoko kakovostne klasifikacije in v obsegu, da raziskovalci niso mogli ujema (Lintott et al. 2008) . V resnici, ki jo ima človeški klasifikacije za tako veliko število galaksij, Schawinski so Lintott in drugi sposobni pokazati, da le okoli 80% galaksij sledi pričakovani vzorec modro spiralo in rdeče eliptičnih-in številnih člankov je bilo napisanih o to odkritje (Fortson et al. 2011) .

Glede na to ozadje, lahko sedaj vidimo, kako Galaxy Zoo sledi split-velja-združujejo recept, enak recept, ki se uporablja za večino projektov s področja človekovih računanja. Prvič, velik problem je razdeljen na kose. V tem primeru je problem razvrščanja milijon galaksij razdeljen na milijon problemov razvrščanja eno galaksijo. Nato se operacija uporablja za vsak kos posebej. V tem primeru bi prostovoljec razvrstiti vsako galaksijo, bodisi kot spiralo ali eliptična. Končno so rezultati združimo, da dobimo rezultat konsenza. V tem primeru se združujejo korak vključeno čiščenje, debiasing in utež za proizvodnjo razvrstitev konsenza za vsako galaksijo. Čeprav je večina projektov uporabljajo to splošno recept, vsak korak je potrebno prilagoditi za poseben problem, ki se obravnavajo. Na primer, v računski projektu človeškega opisan spodaj, enako recept bodo sledili, vendar se uporabljajo in združujejo koraki bo precej drugačna.

Za Galaxy Zoo ekipe, je bil to prvi projekt je šele začetek. Zelo hitro so ugotovili, da so kljub temu lahko razvrsti blizu milijon galaksij, ta lestvica ni dovolj za delo z novejšimi raziskav digitalni neba, ki lahko proizvajajo slike približno 10 milijard galaksij (Kuminski et al. 2014) . Obvladovati povečanje od 1000000-10000000000-faktor 10.000 Galaxy Zoo bi morali zaposliti približno 10.000-krat več udeležencev. Čeprav je število prostovoljcev na internetu je velika, da ni neskončna. Tako so raziskovalci ugotovili, da če se bo ročaj vse večje količine podatkov, je potreben nov, še bolj prilagodljiva, pristop.

Zato, Manda Banerji-delo z Kevin Schawinski, Chris Lintott in drugih članov Galaxy Zoo-team začetkom poučevanja računalnikov za razvrstitev galaksij. Natančneje, z uporabo človeških klasifikacije Galaxy Zoo, ustvarjene Banerji et al. (2010) zgradili učni model računalnika, da bi lahko napovedali človeško razvrstitev galaksije, ki temelji na značilnosti slike. Če bi ta stroj učenje modela reprodukcijo človeške klasifikacije z visoko natančnostjo, potem bi se lahko s Galaxy Zoo raziskovalci uporabljajo za razvrstitev v bistvu neskončno število galaksij.

Jedro Banerji in kolegi "pristop je pravzaprav zelo podobna tehnike, ki se običajno uporabljajo v socialnih raziskav, čeprav je ta podobnost ne bi bilo jasno že na prvi pogled. Prvič, Banerji in kolegi pretvori vsako sliko v niz numeričnih funkcij, ki povzemajo njene lastnosti. Na primer, za slike galaksij bi lahko bilo tri funkcije: Znesek modro na sliki je variance v svetlosti slikovnih pik, in je delež ne-belih pik. Izbor pravilnih značilnosti je pomemben del problema, in to na splošno zahteva predmet območje znanje. Ta prvi korak, običajno imenujemo funkcija inženiring, kaže v matriko podatkov z eno vrstico na sliki in nato v treh stolpcih, ki opisujejo to sliko. Glede na matriko podatkov in želeni izhod (na primer, ali je bila slika razvrščeni po človeku kot eliptične galaksije), raziskovalec ocenjuje parametrov statističnega modela, na primer, nekaj podobnega logistične regresije-, ki napoveduje človeško razvrstitev, ki temelji na značilnosti slike. Končno, raziskovalec uporablja parametre v tem statističnega modela za izdelavo ocenjeni klasifikacije novih galaksij (Slika 5.4). Če samo pomislim, socialne analogni, si predstavljajte, da ste imeli demografske podatke o milijon študentov, in ne veste, ali jih je diplomiral na univerzi ali ne. Lahko fit logistične regresije za te podatke, nato pa lahko uporabite nastale parametre modela napovedati, ali novi študenti bodo diplomiral na fakulteti. V strojnega učenja, ta pristop, ki rabijo označeni primeri ustvariti statistični model, ki lahko nato označite novih podatkov, se imenuje učenje pod nadzorom (Hastie, Tibshirani, and Friedman 2009) .

Slika 5.4: Poenostavljen opis, kako Banerji et al. (2010) uporablja razvrstitve Galaxy Zoo usposobiti učni model računalnika storiti galaksije uvrstitev. Slike galaksij smo pretvorili v matrici funkcij. V tem poenostavljenem primeru obstajajo tri lastnosti (količina modre barve na sliki je variance v svetlosti slikovnih pik, in je delež ne-belih pik). Nato za podsklop slik so oznake Galaxy Zoo uporablja za usposabljanje modela strojnega učenja. Nazadnje je strojno učenje, uporabljena za oceno razvrstitve za preostale galaksij. Kličem te vrste projekta druge generacije človek računalniška projekt, saj namesto, da ljudje rešujejo težave, ki jih imajo ljudje gradijo nabor podatkov, ki se lahko uporablja za vlak računalnik za rešitev problema. Prednost tega računalniško podprtega pristopa je, da omogoča, da ročaj bistvu neskončne količine podatkov z uporabo le končno količino človeškega truda.

Funkcije v Banerji et al. (2010) učenje Model stroja so bolj zapletena, kot tistih, ki v svojem igrače primer, na primer, je nekoč funkcije, kot so "de Vaucouleurs fit osno razmerje" -in njen model ni bil logistično regresijo, da je umetna nevronska mreža. Uporaba svoje funkcije, njen model, in o soglasju Galaxy Zoo klasifikacije, je bila sposobna ustvariti uteži za vsako funkcijo, nato pa te uteži, da se napovedi o klasifikaciji galaksij. Na primer, njena analiza je pokazala, da so slike z nizko "de Vaucouleurs fit osno razmerje" bolj verjetno, da bo spiralne galaksije. Glede na te uteži, tako da je lahko napovedati človeško razvrstitev galaksije z razumno natančnostjo.

Delo Banerji et al. (2010) obrnil Galaxy Zoo v kaj bi klic druge generacije človek računanja sistem. Najboljši način, da razmišljajo o teh sistemov druge generacije je, da namesto da imajo ljudje rešujejo težave, ki jih imajo ljudje gradijo nabor podatkov, ki se lahko uporablja za vlak računalnik za rešitev problema. Količina podatkov, ki so potrebni za usposabljanje računalnik lahko tako velika, da zahteva množično sodelovanje ljudi za ustvarjanje. V primeru Galaxy živalskem vrtu, so nevronske mreže, ki jih uporabljajo Banerji et al. (2010) zahteva zelo veliko število primerov človeka označijo za izgradnjo modela, ki je bil sposoben zanesljivo reprodukcijo človeškega uvrstitev.

Prednost tega računalniško podprtega pristopa je, da omogoča, da ročaj bistvu neskončne količine podatkov z uporabo le končno količino človeškega truda. Na primer, lahko raziskovalec milijon ljudi, razvrščenih galaksij zgraditi napovedni model, ki se potem lahko uporabi za razvrstitev milijardo ali celo bilijon galaksije. Če obstajajo ogromne številke galaksij, potem je to neke vrste človek-računalnik hibrid je res edina možna rešitev. Ta neskončna razširljivost ni zastonj, vendar. Gradnja učni model računalnika, da lahko pravilno reprodukcijo človeške razvrstitve je sama težko problem, vendar na srečo obstajajo že odlične knjige, posvečene tej temi (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo prikazuje razvoj številnih projektov s področja človekovih računanja. Najprej raziskovalec poskuša projekt, ki ga sama ali z majhno ekipo raziskovalnih pomočnikov (npr Schawinski je začetna razvrstitev napora). Če ta pristop ne obsega dobro, lahko raziskovalec premakniti na računanja projekt prehrano, kjer mnogi ljudje prispevajo klasifikacije. Ampak, za določeno količino podatkov, čisto človeško prizadevanje ne bo dovolj. Na tej točki, raziskovalci potrebujejo za izgradnjo sistemov druge generacije, kjer so človekove klasifikacije, ki se uporabljajo za usposabljanje učnega model računalnika, ki se potem lahko uporablja za praktično neomejene količine podatkov.