5.2.1 Galaxy Zoo

Galaxy Zoo objedinjuje napore mnogih ne-stručnjak volontera za klasifikaciju milijuna galaksija.

Galaxy Zoo rastao od problema s kojima se suočavaju Kevin Schawinski, diplomirani student iz astronomije na Univerzitetu u Oksfordu 2007. Pojednostavljivanje dosta, Schawinski bio zainteresovan u galaksijama, i galaksija mogu se svrstati po njihovim morfologiju-eliptične ili spirala-i po svojoj boji-plave ili crvene boje. U to vrijeme, konvencionalna mudrost među astronomima je da spiralne galaksije, poput naše galaksije, bili plave boje (sa naznakom za mlade) i da eliptične galaksije su crvene boje (što ukazuje starost). Schawinski sumnjao ove konvencionalne mudrosti. Sumnjao je da, iako ovaj obrazac može biti istina u cjelini, bilo je vjerojatno znatan broj izuzetaka, i to proučavanjem puno ovih neobičnih galaksija-one koje se nisu uklapale očekivani obrazac-mogao naučiti nešto o procesu kroz koji galaksije formiraju.

Dakle, ono što Schawinski potrebno da bi se poništi konvencionalne mudrosti bio veliki skup morfološki tajnih galaksija; da je, galaksija koje su klasifikovani ili kao spirala ili eliptične. Problem je, međutim, bio je da postojeći algoritamske metode za klasifikaciju nisu još dovoljno dobro da se koristi za naučno-istraživački rad; drugim riječima, razvrstavanje galaksija je, u to vrijeme, što je problem koji je teško za računala. Dakle, ono što je bilo potrebno bio je veliki broj ljudskih klasifikovani galaksija. Schawinski preuzela ove klasifikacije problem sa entuzijazmom apsolvent. U maratonu sjednici sedam, 12-satni dana, bio je u stanju da klasifikuje 50.000 galaksija. Iako 50.000 galaksija možda zvuči kao mnogo, to je zapravo samo oko 5% od skoro milion galaksija koje su fotografisana u Sky Survey Sloan Digital. Schawinski je shvatio da mu je potrebno više skalabilan pristup.

Srećom, ispostavilo se da je zadatak razvrstavanja galaksija ne zahtijeva usavršavanje u astronomiji; možete naučiti nekoga da to učiniti vrlo brzo. Drugim riječima, iako klasifikacije galaksija je zadatak da je teško za računala, to je prilično lako za ljude. Dakle, dok je sjedio u kafani u Oxford, Schawinski i kolega astronom Chris Lintott osmislio je web stranicu na kojoj će volonteri klasificirati slike galaksija. Nekoliko mjeseci kasnije, Galaxy Zoo je rođen.

Na web stranici Galaxy Zoo, volonteri će proći nekoliko minuta treninga; na primjer, učenje razlika između spirala i eliptične galaksije (Slika 5.2). Nakon ovog treninga, volonteri su morali da prođu relativno lako kviz-ispravno klasificiranje 11 od 15 galaksija sa poznatim klasifikacijama-a onda je volonter će početi pravi klasifikacije nepoznatih galaksija putem jednostavnog web sučelja (Slika 5.3). Tranzicija od volontera do astronoma će se održati u manje od 10 minuta, a samo je potrebno donošenje najniži od prepreka, jednostavan kviz.

Slika 5.2: Primjeri dva glavna tipa galaksija: spirale i eliptične. Projekt Galaxy Zoo koristi više od 100.000 volontera kategorijama više od 900.000 slika. Izvor: www.galaxyzoo.org.

Slika 5.2: Primjeri dva glavna tipa galaksija: spirale i eliptične. Projekt Galaxy Zoo koristi više od 100.000 volontera kategorijama više od 900.000 slika. Izvor: www.galaxyzoo.org .

Slika 5.3: Ulazni ekran na kojem se tražilo birača za klasifikaciju jednu sliku. Izvor: www.galaxyzoo.org.

Slika 5.3: Ulazni ekran na kojem se tražilo birača za klasifikaciju jednu sliku. Izvor: www.galaxyzoo.org .

Galaxy Zoo privukao svoju prvobitnu volontera nakon završetka projekta je predstavljena u novinski članak, a za oko šest mjeseci projektu porastao za uključivanje više od 100.000 građana naučnici, ljudi koji su sudjelovali, jer su uživali u zadatak i žele da pomognu unaprijed astronomije. Zajedno, ovi 100.000 volontera doprinijela ukupno više od 40 miliona klasifikacije, sa većinom klasifikacije iz relativno male, glavna grupa učesnika (Lintott et al. 2008) .

Istraživači koji imaju iskustva zapošljavanje osnovnih istraživanja asistenata može odmah biti skeptični o kvalitetu podataka. Iako je ovo skepticizam je razuman, Galaxy Zoo pokazuje da kada doprinosi volonter pravilno očistiti, debiased, i agregiraju, oni mogu proizvesti rezultate visoke kvalitete (Lintott et al. 2008) . Važan trik za dobivanje masu za stvaranje podataka profesionalnog kvaliteta je viška zaposlenih; to jest, nakon što je isti zadatak obavlja mnogo različitih ljudi. U Galaxy Zoo, bilo je oko 40 klasifikacije po galaksiji; Istraživači su pomoću osnovnih istraživanja pomoćnici nikada ne bi mogao priuštiti ovaj nivo tehnološkog viška i stoga je potrebno da bude mnogo više zabrinuti kvalitetom svakog pojedinca klasifikacije. Ono što volonteri nedostajalo u obuci, oni su se za sa viška zaposlenih.

Čak i sa više klasifikacije po galaksiji, međutim, kombinirajući skup volontera klasifikacije za proizvodnju klasifikacije konsenzus je lukav. Zbog vrlo slične izazove javljaju u većini projekata ljudskih proračun, korisno je ukratko razmotriti tri koraka da Galaxy Zoo istraživača koristi za proizvodnju njihov konsenzus klasifikacije. Prvo, istraživači su "očistili" podatke uklanjanjem lažnih klasifikacije. Na primjer, ljudi koji su u više navrata klasifikovani isti Galaxy-nešto što će se dogoditi ako su pokušavali da manipulira rezultatima-im sva klasifikacije odbačene. Ta i druge slične čišćenje ukloniti oko 4% svih klasifikacije.

Drugo, nakon čišćenja, istraživači su potrebne za uklanjanje sistematski predrasude u klasifikacijama. Kroz niz studija otkrivanja predrasuda ugrađena u originalnom projektu, na primer, pokazuje neki volonteri galaksiju u crno-bele umjesto boje-istraživači su otkrili nekoliko sistematski predrasude, kao što je sistematski bias za klasifikaciju daleko spiralne galaksije kao eliptične galaksije (Bamford et al. 2009) . Podešavanje za ove sistematske predrasuda je izuzetno važno, jer u prosjeku mnogo doprinosi ne uklanja sistematski bias; uklanja samo slučajna greška.

Konačno, nakon debiasing, istraživači su potrebne metode kombinirati pojedinačne klasifikacije za proizvodnju klasifikacije konsenzusa. Najjednostavniji način da se kombinuju klasifikacije za svaku galaksija bi da izaberu najčešće klasifikacije. Međutim, ovaj pristup će dati svaki volonter jednaku težinu, a istraživači se sumnja da su neki volonteri su bili bolji u klasifikaciji od drugih. Stoga, istraživači su razvili složeniji iterativni postupak pondera koji pokušava da automatski otkrije najbolje klasifikatora i dati im veću težinu.

Tako je, nakon što je u tri koraka procesa čišćenja, debiasing, i ponderiranje-istraživačkog tima Galaxy Zoo je pretvorena 40 miliona volontera klasifikacije u skup konsenzusa morfoloških klasifikacije. Kada su ovi Galaxy Zoo klasifikacije u odnosu na prethodna tri pokušaja manjih profesionalnih astronoma, uključujući klasifikaciju po Schawinski koji je pomogao da inspiriše Galaxy Zoo, postojala je jaka dogovor. Stoga, volonteri, u ukupnom, bili su u mogućnosti pružiti kvalitetne klasifikacije i na skali da istraživači nisu mogli odgovarati (Lintott et al. 2008) . U stvari, tako što ljudski klasifikacije za tako veliki broj galaksija, Schawinski, Lintott, a drugi su bili u stanju pokazati da je samo oko 80% od galaksija pratite očekuje obrazac-plave spirale i crveno ellipticals-i brojni radovi su pisali o ovo otkriće (Fortson et al. 2011) .

S obzirom na ovu pozadinu, sada možemo da vidimo kako Galaxy Zoo slijedi Splitsko-primijeniti-kombinuju recept, isti recept koji se koristi za većinu projekata ljudskih računanja. Prvo, veliki problem je podijeljen u komade. U ovom slučaju, problem razvrstavanja miliona galaksija je podijeljen u milion problema klasifikacije jedne galaksije. Zatim, operacija se primjenjuje na svaki komad zasebno. U ovom slučaju, volonter će klasificirati svaka galaksija ili kao spirala ili eliptične. Konačno, rezultati su u kombinaciji za proizvodnju rezultat konsenzusa. U ovom slučaju, kombinuju korak uključuju čišćenje, debiasing, a ponder proizvede klasifikaciju konsenzus za svaki galaksije. Iako je većina projekata koristiti ovaj opšti recept, svaki od koraka treba prilagoditi na određeni problem koji se obratio. Na primjer, u projektu ljudskog proračun je opisano u nastavku, po istom receptu će se pratiti, ali primjenjuju i kombinirati koraci će biti sasvim drugačija.

Za Galaxy Zoo tim, ovaj prvi projekat je bio samo početak. Vrlo brzo su shvatili da iako su bili u mogućnosti da klasifikuje blizu milion galaksija, ova skala nije dovoljno da radi sa novijim istraživanjima Digital Sky, što bi moglo proizvesti slike od oko 10 milijardi galaksija (Kuminski et al. 2014) . Za rukovanje porast 1.000.000-10000000000-faktor 10.000 Galaxy Zoo bi trebalo da zaposli oko 10.000 puta više učesnika. Iako je broj volontera na internetu je velika, to nije beskonačno. Stoga, istraživači su shvatili da ako oni će nositi sve veće količine podataka, je potrebna nova, još skalabilan, pristup.

Stoga, Manda Banerji-rad sa Kevin Schawinski, Chris Lintott, i ostali članovi Galaxy Zoo tim pokretanje nastave kompjutera klasificirati galaksije. Konkretnije, koristeći ljudski klasifikacije stvorio Galaxy Zoo, Banerji et al. (2010) izgrađen model učenja mašinu koja može predvidjeti ljudsko klasifikaciju galaksije na osnovu karakteristika slike. Ako ovaj model učenja mašina može reproducirati ljudski klasifikacije sa visokom preciznošću, onda se može koristiti od strane Galaxy Zoo istraživača za klasifikaciju suštinski beskonačan broj galaksija.

Jezgra Banerji i kolega "pristup je zapravo prilično slični tehnikama najčešće koristi u društvenim istraživanjima, iako to sličnost možda neće biti jasno na prvi pogled. Prvo, Banerji i kolege pretvara svaku sliku u niz numeričkih funkcija koje sumiraju je svojstva. Na primjer, za slike galaksija ne može biti tri funkcije: iznos od plave na slici, varijance osvjetljenje piksela, a udio ne-bijele piksela. Izbor ispravnog karakteristika je važan dio problema, a to obično zahtijeva stručnost predmet oblasti. Ovaj prvi korak, obično naziva funkcija inženjering, rezultira u matrici podataka sa jednim redom po sliku, a zatim tri kolone opisuje tu sliku. S obzirom na matricu podataka i željeni izlaz (npr, da li je slika razvrstane po ljudsko kao eliptične galaksije), istraživač procjenjuje parametara statističkog modela-na primjer, nešto kao logistička regresija-koji predviđa ljudsko klasifikaciju na osnovu o karakteristikama slike. Konačno, istraživač koristi parametre u ovom statistički model za proizvodnju procijenjene klasifikacije novih galaksija (Slika 5.4). Da mislim socijalne analogne, zamislite da ste imali demografske informacije oko milion studenata, a vi znate da li su završio fakultet ili ne. Ti bi mogao stati logistička regresija na ove podatke, a zatim možete koristiti kao rezultat parametara modela predvidjeti da li novi studenti će diplomirati na fakultetu. U mašinsko učenje, ovaj pristup koji koriste oznaku primjera da se stvori statistički model koji tada može označiti novi podaci-zove nadzorom učenje (Hastie, Tibshirani, and Friedman 2009) .

Slika 5.4: Pojednostavljena opis kako Banerji i dr. (2010) koji se koriste u Galaxy Zoo klasifikacije trenirati model mašinsko učenje učiniti Galaxy klasifikaciji. Slike galaksija je pretvoriti u matricu mogućnosti. U ovom pojednostavljenom primjer postoje tri mogućnosti (iznos od plave na slici, varijance osvjetljenje piksela, a udio ne-bijele piksela). Zatim, za podskup slike, Galaxy Zoo oznake se koriste za obuku model mašinsko učenje. Konačno, mašinsko učenje se koristi za procjenu klasifikacije za preostale galaksija. Ja to zovem vrstu projekta druga generacija ljudskih računarski projekat, jer, umjesto da ljudima riješiti problem, oni imaju ljude izgraditi skup koji se može koristiti za obuku računar za rješavanje problema. Prednost ovog računara uz pomoć pristupa je u tome što vam omogućuje da nositi u suštini beskonačne količine podataka koristeći samo konačan iznos od ljudskog napora.

Slika 5.4: Pojednostavljena opis kako Banerji et al. (2010) koji se koriste u Galaxy Zoo klasifikacije trenirati model mašinsko učenje učiniti Galaxy klasifikaciji. Slike galaksija je pretvoriti u matricu mogućnosti. U ovom pojednostavljenom primjer postoje tri mogućnosti (iznos od plave na slici, varijance osvjetljenje piksela, a udio ne-bijele piksela). Zatim, za podskup slike, Galaxy Zoo oznake se koriste za obuku model mašinsko učenje. Konačno, mašinsko učenje se koristi za procjenu klasifikacije za preostale galaksija. Ja to zovem vrstu projekta druga generacija ljudskih računarski projekat, jer, umjesto da ljudima riješiti problem, oni imaju ljude izgraditi skup koji se može koristiti za obuku računar za rješavanje problema. Prednost ovog računara uz pomoć pristupa je u tome što vam omogućuje da nositi u suštini beskonačne količine podataka koristeći samo konačan iznos od ljudskog napora.

Funkcije u Banerji et al. (2010) machine model učenja su složeniji od onih u mojoj igračka primjer-na primjer, ona se koriste funkcije kao što su "de Vaucouleurs fit aksijalni odnos" -i njen model nije bio logistička regresija, to je bila veštačka neuronske mreže. Pomoću nje funkcija, njen model, a konsenzus Galaxy Zoo klasifikacije, ona je bila u stanju da stvori težine na svakom funkciju, a zatim koristiti te težine da bi predviđanja o klasifikaciji galaksija. Na primjer, svojoj analizi otkrili da slika sa niskim "de Vaucouleurs fit aksijalni odnos" su veće šanse da se spiralne galaksije. S obzirom na ove težine, ona je bila u stanju da predvidi ljudski klasifikaciju galaksije sa razumnom preciznošću.

Rad Banerji et al. (2010) pretvorio Galaxy Zoo u ono što bih nazvao druga generacija ljudskih proračun sistema. Najbolji način da razmišljaju o tim druge generacije sistema je da umesto ljudi riješiti problem, oni imaju ljude izgraditi skup koji se može koristiti za obuku računar za rješavanje problema. Količina podataka potrebnih za obuku računar može biti toliko velika da je potreban ljudski masovne suradnje za stvaranje. U slučaju Galaxy Zoo, neuralne mreže koje koriste Banerji et al. (2010) potreban veliki broj ljudskih oznakom primjera kako bi se izgraditi model koji je bio u stanju da pouzdano reproducirati ljudski klasifikacije.

Prednost ovog računara uz pomoć pristupa je u tome što vam omogućuje da nositi u suštini beskonačne količine podataka koristeći samo konačan iznos od ljudskog napora. Na primjer, istraživač sa milion ljudskih klasifikuju galaksija može graditi prediktivni model koji se zatim može koristiti za klasifikaciju milijardu ili čak milijardi galaksija. Ako postoje ogromne broj galaksija, onda ova vrsta ljudskih-računar hibrid je zapravo jedino moguće rješenje. Ovo beskonačno skalabilnost nije besplatno, međutim. Izgradnja modela učenja mašinu koja može ispravno reproducirati ljudski klasifikacije je sam po sebi težak problem, ali srećom već postoje odlične knjige posvećen ovoj temi (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo prikazuje evoluciju mnogih projekata ljudskih računanja. Prvo, istraživač pokušava projekta sama ili sa malim timom istraživanja asistenata (npr Schawinski je inicijalni klasifikaciji napor). Ako ovaj pristup ne radi dobro, skaliranje, istraživač može preseliti u projektu ljudskog proračun, gdje mnogi ljudi doprinose klasifikacije. Ali, za određenu količinu podataka, čisto ljudski napor neće biti dovoljno. U tom trenutku, istraživači trebaju izgraditi sistema druge generacije, gdje ljudski klasifikacije se koriste za obuku model učenja mašinu koja se potom može primijeniti na gotovo neograničene količine podataka.