5.2.1 Galaxy Zoo

Galaxy Zoo je združil prizadevanja mnogih neprofesionalnih prostovoljcev, da bi razvrstili milijon galaksij.

Galaxy Zoo je izšel iz problema, s katerim se je leta 2007 srečal Kevin Schawinski, diplomant iz astronomije na Univerzi v Oxfordu. Poenostavil se je, da je bil Schawinski zanima galaksije, galaksije pa se lahko razvrstijo po morfološko-eliptičnih ali spiralnih in po barvi modre ali rdeče. Konvencionalna modrost med astronomi je bila takrat, da so bile spiralne galaksije, kot je naša Mlečna pot, modre barve (označuje mladost) in eliptične galaksije rdeče (kar označuje starost). Schawinski je dvomil v to konvencionalno modrost. Sumil je, da bi lahko ta vzorec sploh veljal na splošno, verjetno bi bilo precejšnje število izjem, in če bi preučili veliko teh nenavadnih galaksij - tistih, ki niso ustrezali pričakovanemu vzorcu - se je lahko naučil nekaj o procesu, skozi katerega nastale galaksije.

Torej, kar je Schawinski potreben za preobrat konvencionalne modrosti, je bil velik sklop morfološko razvrščenih galaksij; to je galaksije, ki so bile razvrščene kot spiralne ali eliptične. Problem pa je bil, da obstoječe algoritemske metode za razvrstitev še niso dovolj dobre, da bi jih lahko uporabili za znanstvene raziskave; z drugimi besedami, razvrstitev galaksij je bila takrat problem, ki je bil težko za računalnike. Zato, kar je bilo potrebno je bilo veliko število človeških -classified galaksij. Schawinski je prevzel ta problem razvrstitve z navdušenjem diplomanta. V maratonski seji sedmih 12-urnih dni je lahko klasificiral 50.000 galaksij. Medtem ko lahko 50.000 galaksij zveni kot veliko, je pravzaprav le približno 5% skoraj milijon galaksij, ki so bile fotografirane v raziskavi Sloan Digital Sky. Schawinski je spoznal, da potrebuje bolj prilagodljiv pristop.

Na srečo, se izkaže, da je naloga razvrščanje galaksij ne zahteva višjo stopnjo izobraževanja v astronomijo; lahko naučiti nekoga, da naredi precej hitro. Z drugimi besedami, čeprav je razvrstitev galaksij naloga, ki jo je bilo težko za računalnike, je bilo zelo enostavno za ljudi. Torej, medtem ko je sedel v nekem pubu v Oxfordu, Schawinski in kolegi astronom Chris Lintott sanjal spletno stran, kjer bi prostovoljci razvrstijo slike galaksij. Nekaj ​​mesecev kasneje, je Galaxy Zoo rodil.

Na spletni strani galerije Zoo bi prostovoljci opravili nekaj minut usposabljanja; na primer učenje razlike med spiralno in eliptično galaksijo (slika 5.2). Po tem treningu je vsak prostovoljec moral opraviti sorazmerno enostavno kviz, ki pravilno razvrsti 11 od 15 galaksij z znanimi klasifikacijami, nato pa bi s preprostim spletnim vmesnikom začeli realno klasifikacijo neznanih galaksij (slika 5.3). Prehod od prostovoljca do astronoma bi potekal v manj kot 10 minutah in zahteval samo najmanjše ovire, preprosto kviz.

Slika 5.2: Primeri dveh glavnih vrst galaksij: spiralni in eliptični. Projekt Galaxy Zoo je uporabil več kot 100.000 prostovoljcev za kategorizacijo več kot 900.000 slik. Razstavljeno z dovoljenjem iz http://www.GalaxyZoo.org in Sloan Digital Sky Survey.

Slika 5.2: Primeri dveh glavnih vrst galaksij: spiralni in eliptični. Projekt Galaxy Zoo je uporabil več kot 100.000 prostovoljcev za kategorizacijo več kot 900.000 slik. Razstavljeno z dovoljenjem iz http://www.GalaxyZoo.org in Sloan Digital Sky Survey .

Slika 5.3: Vhodni zaslon, kjer so prostovoljci zahtevali, da razvrstijo eno samo sliko. Ponovljeno z dovoljenjem Chrisa Lintota na podlagi slike iz Sloan Digital Sky Survey.

Slika 5.3: Vhodni zaslon, kjer so prostovoljci zahtevali, da razvrstijo eno samo sliko. Ponovljeno z dovoljenjem Chrisa Lintota na podlagi slike iz Sloan Digital Sky Survey .

Galaxy Zoo je svoje prvotne prostovoljce privabil, ko je bil projekt predstavljen v novicarskem članku, v približno šestih mesecih pa je projekt zrasel na več kot 100.000 znanstvenikov, ljudi, ki so sodelovali, ker so uživali v tej nalogi in želeli pomagati pri napredovanju astronomije. Skupaj je teh 100.000 prostovoljcev prispevalo skupno več kot 40 milijonov klasifikacij, pri čemer večina klasifikacij prihaja iz relativno majhne, ​​ključne skupine udeležencev (Lintott et al. 2008) .

Raziskovalci, ki imajo izkušnje z zaposlovanjem dodiplomskih raziskovalnih asistentov, so lahko takoj skeptični glede kakovosti podatkov. Čeprav je ta skepticizem razumen, Zoo galaksija kaže, da lahko, kadar so prispevki prostovoljcev pravilno očiščeni, debirirani in združeni, lahko proizvajajo kakovostne rezultate (Lintott et al. 2008) . Pomemben trik za pridobivanje množice, da ustvarijo podatke o strokovni kakovosti, je odpuščanje , to je, da ima enako nalogo, ki jo opravljajo številni različni ljudje. V galaksijskem živalskem vrtu je bilo na galaksiji okoli 40 klasifikacij; raziskovalci, ki uporabljajo dodiplomske raziskovalne asistente, nikoli ne bi mogli privoščiti te stopnje odpuščanja, zato bi se morali bolj posvetiti kakovosti vsake posamezne klasifikacije. Kaj prostovoljci niso imeli pri usposabljanju, so jih nadomestili z odpuščanjem.

Tudi z več klasifikacijami v galaksiji pa je združevanje množice prostovoljnih klasifikacij za doseganje soglasja razvrstitev bilo težavno. Ker se v večini projektov človeških računov pojavljajo zelo podobni izzivi, je koristno, da na kratko pregledamo tri korake, ki so jih raziskovalci Galaxy Zoo uporabili za doseganje soglasnih klasifikacij. Prvič, raziskovalci so "očistili" podatke z odstranitvijo lažnih klasifikacij. Na primer, ljudje, ki so večkrat razvrstili isto galaksijo - nekaj, kar bi se zgodilo, če bi poskušali manipulirati z rezultati - so bile vse njihove klasifikacije zavržene. To in drugo podobno čiščenje je odstranilo približno 4% vseh klasifikacij.

Drugič, po čiščenju so morali raziskovalci odstraniti sistematične pristranskosti v razvrstitvah. Z vrsto študij odkrivanja pristranskosti, vključenih v prvotni projekt, na primer, da so nekateri prostovoljci galaksijo v enobarvni barvi namesto barve - raziskovalci so odkrili več sistematičnih pristranskosti, kot je sistematično pristranskost, da bi razvrstili oddaljene spiralne galaksije kot eliptične galaksije (Bamford et al. 2009) . Prilagoditev teh sistematičnih pristranskosti je izredno pomembna, ker odpuščanje samodejno ne odstrani sistematičnega pristranskosti; pomaga le pri odpravi naključne napake.

Nazadnje, po razširitvi, so raziskovalci potrebovali metodo za združitev posameznih klasifikacij za izdelavo soglasne razvrstitve. Najenostavnejši način združevanja klasifikacij za vsako galaksijo bi bil izbrati najpogostejšo klasifikacijo. Vendar bi ta pristop vsakemu prostovoljcu zagotovil enako težo, raziskovalci pa so sumili, da so bili nekateri prostovoljci boljši pri razvrstitvi kot drugi. Zato so raziskovalci razvili bolj zapleten postopek iterativnega ponderiranja, ki je poskušal zaznati najboljše klasifikatorje in jim dati večje teže.

Tako je raziskovalna skupina Galaxy Zoo po treh korakih čiščenja, debiiranja in uteževanja pretvorila 40 milijonov prostovoljskih klasifikacij v niz soglasnih morfoloških klasifikacij. Ko so bile te klasifikacije galaksijskega zoo primerjane s tremi predhodnimi poskusi manjših mer profesionalnih astronomov, vključno s klasifikacijo Schawinskega, ki je pripomogla k navdihu Galaxy Zoo, se je močno strinjal. Tako so prostovoljci v skupnem obsegu lahko zagotavljali kakovostne klasifikacije in v obsegu, ki ga raziskovalci niso mogli ujemati (Lintott et al. 2008) . Dejstvo je, da so s človeškimi klasifikacijami za tako veliko število galaksij lahko Schawinski, Lintott in drugi pokazali, da le približno 80% galaksij sledi pričakovanim modrim spiralom in rdečim eliptikam - in o številnih dokumentih so pisali o to odkritje (Fortson et al. 2011) .

Glede na to ozadje si lahko sedaj ogledate, kako Galaxy Zoo sledi receptu split-apply-combine, isti recept, ki se uporablja za večino človeških projektov računanja. Prvič, velik problem je razdeljen na koščke. V tem primeru je problem klasifikacije milijon galaksij razdeljen na milijon problemov razvrščanja ene galaksije. Nato se za vsak kos neodvisno uporabi operacija. V tem primeru so prostovoljci razvrščali vsako galaksijo kot spiralno ali eliptično. Nazadnje, rezultati so združeni, da bi dosegli konsenzni rezultat. V tem primeru je kombinacijski korak vključeval čiščenje, debiasing in uteževanje, da bi dosegel soglasno razvrstitev za vsako galaksijo. Čeprav večina projektov uporablja ta splošni recept, je treba vsak korak prilagoditi specifičnemu problemu, ki ga obravnavamo. Na primer, v projektu človeškega izračuna, opisanem spodaj, bo sledil isti recept, vendar se bodo koraki nanašanja in združevanja precej razlikovali.

Za ekipo Galaxy Zoo je bil ta prvi projekt šele začetek. Zelo hitro so spoznali, da ta obseg ni dovolj za delo z novimi raziskavami digitalnega neba, čeprav so uspeli klasificirati blizu milijon galaksij, kar lahko ustvari slike okoli 10 milijard galaksij (Kuminski et al. 2014) . Za povečanje od 1 milijona do 10 milijard, kar bi moral biti faktor 10,000-galvanskega živalskega vrta, bi moral zaposlovati približno 10 000-krat več udeležencev. Čeprav je število prostovoljcev na internetu veliko, ni neskončno. Zato so raziskovalci spoznali, da bi morali, če bi se ukvarjali z vedno večjimi količinami podatkov, potrebovali nov, bolj razširjen pristop.

Zato Manda Banerji, ki dela s Schawinskim, Lintotom in drugimi člani galerije Zoo (2010) začela poučevati računalnike za klasifikacijo galaksij. Natančneje, z uporabo človeških klasifikacij, ki jih je ustvaril Galaxy Zoo, je Banerji zgradil model strojnega učenja, ki bi lahko napovedal človeško klasifikacijo galaksije, ki temelji na značilnostih slike. Če bi ta model lahko reproduciral človeške klasifikacije z visoko natančnostjo, bi ga lahko uporabili raziskovalci Galaxy Zoo, da bi razvrstili v bistvu neskončno število galaksij.

Bistvo pristopa Banerji in sodelavcev je pravzaprav precej podobno tehnikam, ki se pogosto uporabljajo v družbenih raziskavah, čeprav ta podobnost na prvi pogled morda ni jasna. Prvič, Banerji in sodelavci sta vsako sliko pretvorili v niz numeričnih funkcij, ki so povzele njegove lastnosti. Na primer, za slike galaksij lahko pride do treh funkcij: količine modrega v sliki, variance svetlosti slikovnih pik in deleža nebele pik. Izbira pravilnih funkcij je pomemben del problema in običajno zahteva strokovno znanje s področja področja. Ta prvi korak, ki se običajno imenuje funkcionalni inženiring , ima matrično podatkovno podatkovno enoto z eno vrstico na sliko in nato tri stolpce, ki opisujejo to sliko. Glede na podatkovno matriko in želeni rezultat (npr. Ali je bila slika razvrščena kot človeška kot eliptična galaksija), raziskovalec ustvari statistični ali strojni učni model, na primer logistično regresijo, ki napoveduje človeško klasifikacijo, ki temelji na značilnostih slike. Na koncu raziskovalec uporablja parametre v tem statističnem modelu za izdelavo ocenjenih klasifikacij novih galaksij (slika 5.4). Pri strojnem učenju se ta pristop, ki uporablja označene primere za ustvarjanje modela, ki lahko nato označuje nove podatke, imenuje nadzorovano učenje .

Slika 5.4: Poenostavljen opis, kako Banerji et al. (2010) je uporabil klasifikacijo Galaxy Zoo za usposabljanje strojnega učnega modela za klasifikacijo galaksije. Slike galaksij so bile pretvorjene v matriko značilnosti. V tem poenostavljenem primeru so na voljo tri funkcije (količina modrega v sliki, razlika v svetlosti slikovnih pik in delež nebelih pikslov). Nato se za podskupino slik oznake Galaxy Zoo uporabljajo za usposabljanje strojnega učnega modela. Na koncu se strojno učenje uporablja za oceno klasifikacij za preostale galaksije. To imenujem računalniško podprt projekt človeškega izračuna, ker ljudje namesto da bi rešili problem, ljudje zgradijo podatkovni niz, ki se lahko uporablja za usposabljanje računalnika za rešitev problema. Prednost tega računalniško podprtega človeškega računskega sistema je, da vam omogoča, da v bistvu uporabljate neskončne količine podatkov, ki uporabljajo zgolj končno količino človeških naporov. Slike galaksij reprodukovane z dovoljenjem Sloan Digital Sky Survey.

Slika 5.4: Poenostavljen opis, kako Banerji et al. (2010) uporabil klasifikacijo Galaxy Zoo za usposabljanje strojnega učnega modela za klasifikacijo galaksije. Slike galaksij so bile pretvorjene v matriko značilnosti. V tem poenostavljenem primeru so na voljo tri funkcije (količina modrega v sliki, razlika v svetlosti slikovnih pik in delež nebelih pikslov). Nato se za podskupino slik oznake Galaxy Zoo uporabljajo za usposabljanje strojnega učnega modela. Na koncu se strojno učenje uporablja za oceno klasifikacij za preostale galaksije. To imenujem računalniško podprt projekt človeškega izračuna, ker ljudje namesto da bi rešili problem, ljudje zgradijo podatkovni niz, ki se lahko uporablja za usposabljanje računalnika za rešitev problema. Prednost tega računalniško podprtega človeškega računskega sistema je, da vam omogoča, da v bistvu uporabljate neskončne količine podatkov, ki uporabljajo zgolj končno količino človeških naporov. Slike galaksij reprodukovane z dovoljenjem Sloan Digital Sky Survey .

Funkcije v računalniškem modelu Banerji in kolegi so bile bolj zapletene od tistih iz mojega primera igrač - na primer, uporabila je funkcije, kot je "de Vaucouleurs fit axial ratio" - in njen model ni bil logistična regresija, temveč umetna nevronska mreža. Z uporabo svojih funkcij, njenega modela in konsenzualnih klasifikacij galaksijskega zoo, je uspela ustvariti uteži na vsaki funkciji, nato pa te teže uporabiti za napovedi o klasifikaciji galaksij. Na primer, njena analiza je pokazala, da so slike z nizko "de Vaucouleurs fit osno razmerje" bolj verjetno spiralne galaksije. Glede na te uteži je lahko z natančno natančnostjo napovedala človeško klasifikacijo galaksije.

Delo Banerja in sodelavcev je postalo Galaxy Zoo v tem, kar bi rad poklical računalniško podprt sistem človeških računov . Najboljši način razmišljanja o teh hibridnih sistemih je, da namesto da bi ljudje rešili problem, ljudje zgradijo podatkovni niz, ki ga lahko uporabimo za usposabljanje računalnika za rešitev problema. Včasih je za usposabljanje računalnika za reševanje problema mogoče veliko primerov, edini način za pripravo zadostnega števila primerov pa je množično sodelovanje. Prednost tega računalniško podprtega pristopa je, da vam omogoča, da obdelujete v bistvu neskončne količine podatkov, ki uporabljajo zgolj končno količino človeških naporov. Na primer, raziskovalec z milijonom človeških razvrščenih galaksij lahko zgradi napovedni model, ki ga lahko nato uporabimo za razvrstitev milijarde ali celo bilijonov galaksij. Če obstaja ogromno število galaksij, je taka vrsta človeško-računalniškega hibrida res edina možna rešitev. Ta neskončna razširljivost ni brezplačna. Gradnja modela strojnega učenja, ki lahko pravilno reproducira človeške klasifikacije, je sama težavna težava, na srečo pa že obstajajo odlične knjige, namenjene tej temi (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo je dobra ilustracija o tem, koliko evolucijskih projektov človeštva se razvija. Prvič, raziskovalec poskuša projekt sama ali z majhno skupino raziskovalnih asistentov (npr. Začetno klasifikacijsko delo Schawinskega). Če se ta pristop ne izboljša dobro, se lahko raziskovalec s številnimi udeleženci premakne na projekt človeškega izračuna. Toda za določeno količino podatkov čisti človeški napori ne bodo dovolj. Na tej točki morajo raziskovalci zgraditi sistem računalniško podprtega človeškega računskega sistema, v katerem se uporabljajo človeške klasifikacije za izobraževanje o modelu strojnega učenja, ki ga je mogoče uporabiti za praktično neomejeno količino podatkov.