5.2.1 Galaxy Zoo

Galaxy Zoo kombinira napore mnogih ne-stručnih dobrovoljaca klasificirati milijun galaksija.

Galaxy Zoo izrastao iz problema s kojima se susreću Kevin Schawinski, apsolvent na astronomiju na Sveučilištu u Oxfordu u 2007. Pojednostavljivanje vrlo malo, Schawinski bio zainteresiran galaksije, a galaksije može se razvrstati po morfologija-eliptični ili spiralni-a po svojoj boji-plavoj ili crvenoj boji. U to vrijeme, uvriježeno među astronomima je da Spiralne galaksije, poput našeg Mliječnog puta, bili su plave boje (označava mlade) i da su eliptične galaksije su crvene boje (što ukazuje starost). Schawinski sumnjao ovu konvencionalne mudrosti. On je osumnjičen da je, dok je ovaj uzorak može biti istina u cjelini, bilo je vjerojatno znatan broj iznimaka, i to proučavanjem puno tih neobičnih galaksija-one koji se nisu podudarali očekivani uzorak-on mogao nešto naučiti o procesu kroz koji galaksije.

Dakle, ono što Schawinski potrebno kako bi se ukine konvencionalne mudrosti bio veliki skup morfološki klasificirani galaksija; to jest, galaksije koje su klasificirani ili kao spirala ili eliptičan. Problem je, međutim, bio je da se postojeći algoritamski postupci za klasifikaciju nisu bili dovoljno dobri da će se koristiti za znanstvena istraživanja; drugim riječima, klasificiranja galaksija je, u to vrijeme, što je problem koji je teško za računala. Dakle, ono što je bilo potrebno bio je veliki broj ljudskih klasificiranih galaksija. Schawinski poduzeo Ova klasifikacija problema s entuzijazmom apsolvent. U maratonskoj sjednici sedam, 12-satnog dana, on je bio u mogućnosti klasificirati 50.000 galaksija. Dok 50.000 galaksija možda zvuči kao mnogo, to je zapravo samo oko 5% od gotovo milijun galaksija koji je bio snimljen u Sloan Digital Sky Survey. Schawinski shvatio da mu je potrebno više skalabilan pristup.

Srećom, ispostavilo se da je zadatak klasificiranja galaksija ne zahtijeva usavršavanje u astronomiji; možete naučiti nekoga da to učiniti vrlo brzo. Drugim riječima, iako klasificiranja galaksija je zadatak koji je teško za računala, bilo je vrlo lako za ljude. Dakle, dok je sjedio u gostionici u Oxfordu, Schawinski i kolega astronom Chris Lintott izmislio web stranicu na kojoj volonteri će klasificirati slike galaksija. Nekoliko mjeseci kasnije, Galaxy Zoo rođen.

Na web stranicama Galaxy Zoo, volonteri će proći nekoliko minuta treninga; na primjer, učenje razliku između spiralnih i eliptičnih galaksija (Slika 5.2). Nakon ovog treninga, volonteri su morali proći relativno jednostavan kviz-ispravno klasificiranje 11 od 15 galaksija sa poznatim klasifikacijama-a onda je volonter će početi pravi klasifikaciju nepoznatih galaksija putem jednostavnog web-temeljen sučelje (Slika 5.3). Prijelaz iz volonter astronom će se održati za manje od 10 minuta, i to samo zahtijeva donošenje najniži od prepreka, jednostavnog kviza.

Slika 5.2: Primjeri dvije glavne vrste galaksije: spirale i eliptičan. Projekt Galaxy Zoo koristi više od 100.000 volontera na kategorije više od 900.000 slika. Izvor: www.galaxyzoo.org.

Slika 5.2: Primjeri dvije glavne vrste galaksije: spirale i eliptičan. Projekt Galaxy Zoo koristi više od 100.000 volontera na kategorije više od 900.000 slika. Izvor: www.galaxyzoo.org .

Slika 5.3: Ulazni ekran na kojem su glasači su upitani klasificirati jednu sliku. Izvor: www.galaxyzoo.org.

Slika 5.3: Ulazni ekran na kojem su glasači su upitani klasificirati jednu sliku. Izvor: www.galaxyzoo.org .

Galaxy Zoo privukla početne volontere nakon što je projekt bio novinski članak, a oko šest mjeseci projekt je rastao uključiti više od 100.000 znanstvenika građana, ljudi koji su sudjelovali, jer su uživali u zadatak i oni su htjeli pomoći unaprijed astronomiju. Zajedno, ovi 100.000 volontera doprinijela je ukupno više od 40 milijuna klasifikacije, s većinom klasifikacijama koje dolaze iz relativno male, skupinom sudionika (Lintott et al. 2008) .

Istraživači koji imaju iskustva zapošljavanje preddiplomski znanstvenih novaka može odmah biti skeptični kvalitete podataka. Iako je to skepticizam je razuman, Galaxy Zoo pokazuje da kad volonter doprinosi pravilno čistiti, debiased i agregirani, oni mogu proizvesti kvalitetne rezultate (Lintott et al. 2008) . Važan trik za dobivanje gužve za stvaranje profesionalne kvalitete podataka je redundancija; to jest, nakon što je isti zadatak obavljaju mnogo različitih ljudi. U Galaxy Zoo, bilo je oko 40 klasifikacije po galaksiji; Istraživači koriste preddiplomski znanstvenih novaka nikada ne bi mogao priuštiti ovu razinu redundantnosti i stoga je potrebno da se puno više bave kvalitetom svake pojedine klasifikacije. Ono što su volonteri nedostajalo u treningu, oni su se za s otpremnine.

Čak i uz više klasifikacijama po galaksiji, međutim, kombinirajući niz volonterskih klasifikacija za proizvodnju klasifikacija konsenzus je lukav. Zbog vrlo slični izazovi javljaju se u većini računskim projekte ljudskih, to je korisno da ukratko pregledati tri koraka da Galaxy Zoo istraživača koji se koriste za proizvodnju svojih konsenzus klasifikacije. Prvo, istraživači su "čisti" podatke uklanjanjem lažno klasifikacije. Na primjer, ljudi koji više puta svrstana istu galaktički nešto što bi se dogodilo da su pokušali manipulirati rezultate-imala sve njihove klasifikacije odbačena. Ova i druge slične čišćenje ukloniti oko 4% svih klasifikacija.

Drugo, nakon čišćenja, istraživači su potrebne za uklanjanje sustavnu pristranost u klasifikacijama. Kroz niz istraživanja za otkrivanje pristranosti ugrađenih u originalnom projektu, na primjer, pokazuju neke volontere galaksija jednobojnih umjesto boje-istraživači su otkrili nekoliko sustavnu pristranost, kao što su sustavno pristranosti klasificiranja daleko spiralne galaksije kao eliptičnih galaksija (Bamford et al. 2009) . Podešavanje za ove sustavne pristranosti je izuzetno važno, jer u prosjeku mnogo doprinosa ne uklanja sustavnu pristranost; to samo uklanja slučajna pogreška.

Konačno, nakon debiasing, istraživači su potrebne metode da se kombiniraju pojedine klasifikacije za izradu klasifikacije konsenzusa. Najjednostavniji način da se kombiniraju klasifikacija za svaku galaksiju da bi se odabrati najčešće klasifikaciju. Međutim, ovaj pristup će dati svaki dobrovoljac jednaku težinu, a znanstvenici su sumnjali da su neki volonteri bili bolji u klasifikaciji od drugih. Stoga su istraživači razvili složeniji iterativnim postupkom rangiranja koja pokušava automatski otkriti najbolje klasifikatora i dati im veću težinu.

Dakle, nakon što je u tri koraka procesa čistionica, debiasing i ponderiranja-Galaxy Zoo istraživačkog tima pretvorio 40 milijuna volonterskih klasifikacije u skup konsenzus morfoloških klasifikacije. Kada se ovi Galaxy Zoo Klasifikacija u odnosu na prethodna tri pokušaja manjeg opsega od strane profesionalnih astronoma, uključujući razvrstavanja Schawinski koji je pomogao potaknuti Galaxy Zoo, postoji jaka sporazum. Dakle, volonteri, u cjelini, bili su u mogućnosti pružiti visoko kvalitetne klasifikacije i na skali da znanstvenici ne mogu odgovarati (Lintott et al. 2008) . U stvari, tako da ljudska klasifikacija za tako velikog broja galaksija, Schawinski, Lintott, i drugi su mogli pokazati da je samo oko 80% galaksija slijedi očekivane uzorak-plave spirale i crvenih ellipticals-i brojne radove su pisani o ovo otkriće (Fortson et al. 2011) .

S obzirom na ovu pozadinu, sada možemo vidjeti kako Galaxy Zoo slijedi Splitsko-vrijede-kombinirati recept, isti recept koji se koristi za većinu računanja projekte ljudskih. Prvo, veliki problem je podijeljen u komade. U tom slučaju, problem razvrstavanja milijun galaksija je podijeljen u milijun problema klasificiranja jednu galaksiju. Dalje, operacija se primjenjuje na svaki komad samostalno. U tom slučaju, volonter će klasificirati svaku galaksiju bilo kao spirala ili eliptičan. Konačno, rezultati su kombinirani proizvesti rezultat konsenzus. U tom slučaju, kombinirati korak uključivao čišćenje, debiasing i težinu za izradu klasifikacije konsenzus za svaku galaksije. Iako je većina projekata koristiti ovaj opći recept, svaki od koraka treba prilagoditi tako da je problem rješava. Na primjer, u ljudskom projektu izračunavanje opisan u nastavku, isti recept će se pratiti, ali se primjenjuju i kombiniraju koraci će biti sasvim drugačiji.

Za Galaxy Zoo tim, ovaj prvi projekt bio samo početak. Vrlo brzo su shvatili da, iako su bili u stanju klasificirati blizu milijun galaksija, ova vaga nije dovoljno za rad s novijim digitalnim neba istraživanja koja bi mogla proizvesti slike oko 10 milijardi galaksija (Kuminski et al. 2014) . Za ručkom je povećanje od 1.000.000 do 10 milijarde-faktor 10.000 Galaxy Zoo bi trebao zaposliti oko 10.000 puta više sudionika. Iako je broj volontera na internetu je velika, to nije beskonačan. Stoga, istraživači su shvatili da ako će oni nositi sve veće količine podataka, novi, još skalabilan, pristup je potrebno.

Dakle, Manda Banerji-rad s Kevinom Schawinski, Chris Lintott i drugih pripadnika Galaxy Zoo tima-počevši nastavnih računala klasificirati galaksije. Točnije, korištenje ljudskih klasifikacije stvorio Galaxy Zoo, Banerji et al. (2010) izgradili modela strojnog učenja koji bi mogao predvidjeti ljudsko klasifikaciju galaksije se temelji na karakteristikama slike. Ako ovaj model stroja za učenje može reproducirati ljudski klasifikacije s visokom točnošću, onda bi to moglo biti korišten od strane Galaxy Zoo istraživača klasificirati u biti beskonačan broj galaksija.

Jezgra Banerji i kolege 'pristup je zapravo prilično slična tehnika koje se uobičajeno koriste u društvenim istraživanjima, iako je to sličnost ne može biti jasno na prvi pogled. Prvo, Banerji i kolege pretvara svaku sliku u niz numeričkih značajki koje sažeto se njezina svojstva. Na primjer, za slike galaksija da bi moglo biti tri obilježja: iznos plave na slici, to je razlika u svjetlini piksela, a udio ne-bijelih piksela. Izbor ispravne mogućnosti je važan dio problema, a to obično zahtijeva stručnost subjekt-područje. To je prvi korak, obično naziva značajka inženjering, rezultira u matrici podataka s jednim redom po sliku, a zatim tri stupca koji opisuju tu sliku. S obzirom na matricu podataka i željeni izlaz (npr, da li je slika klasificiran od strane čovjeka kao eliptične galaksije), istraživač procjenjuje parametre statističkog modela, na primjer, nešto poput logističke regresije-koji predviđa ljudski klasifikaciju na temelju o značajkama slike. Konačno, istraživač koristi parametre u ovoj statistički model za proizvodnju procijenjene klasifikacije novih galaksija (Slika 5.4). Razmišljati o socijalnoj analognih, zamislite da ste imali demografske podatke o milijun studenata, a vi znate da li završio fakultet ili ne. Ti bi mogao stati logističke regresije za te podatke, a onda ste mogli koristiti dobivene parametre modela predvidjeti hoće li se novi učenici će se diplomski iz koledža. U strojnom učenju, ovaj pristup-using označen primjere kako bi stvorili statistički model koji se zatim mogu označiti novih podataka-zove se nadzire learning (Hastie, Tibshirani, and Friedman 2009) .

Slika 5.4: Pojednostavljeni opis kako Banerji et al. (2010) koristili Galaxy Zoo klasifikacije trenirati model strojnog učenja učiniti galaksija klasifikaciju. Slike galaksija su prevedeni u matrici od značajki. U ovom pojednostavljenom primjeru postoje tri mogućnosti (količina plave na slici, to je razlika u svjetlini piksela, a udio ne-bijelih piksela). Zatim, za podskup slike, Galaxy Zoo oznake se koriste za obuku modela strojnog učenja. Konačno, strojno učenje se koristi za procjenu klasifikacija za preostale galaksija. Pozivam ovakav projekt druge generacije ljudskog računalna projekt jer je, umjesto da ljudi riješiti problem, oni su ljudi graditi skup podataka koji se može koristiti za vlak računalo da se riješi problem. Prednost ovog kompjutorski pristupa je u tome što omogućuje da obrađuju uglavnom beskonačne količine podataka koristeći samo konačnu količinu ljudskog napora.

Slika 5.4: Pojednostavljeni opis kako Banerji et al. (2010) koristili Galaxy Zoo klasifikacije trenirati model strojnog učenja učiniti galaksija klasifikaciju. Slike galaksija su prevedeni u matrici od značajki. U ovom pojednostavljenom primjeru postoje tri mogućnosti (količina plave na slici, to je razlika u svjetlini piksela, a udio ne-bijelih piksela). Zatim, za podskup slike, Galaxy Zoo oznake se koriste za obuku modela strojnog učenja. Konačno, strojno učenje se koristi za procjenu klasifikacija za preostale galaksija. Pozivam ovakav projekt druge generacije ljudskog računalna projekt jer je, umjesto da ljudi riješiti problem, oni su ljudi graditi skup podataka koji se može koristiti za vlak računalo da se riješi problem. Prednost ovog kompjutorski pristupa je u tome što omogućuje da obrađuju uglavnom beskonačne količine podataka koristeći samo konačnu količinu ljudskog napora.

Značajke u Banerji et al. (2010) model stroja za učenje su složeniji od onih u mojoj igračku primjer, na primjer, ona se koristi značajke kao što su "de Vaucouleurs stane aksijalni odnos«, a njen model nije bio logistička regresija, to je umjetna neuronska mreža. Koristeći svoje mogućnosti, njezin model, i konsenzus Galaxy Zoo klasifikacije, ona je u stanju stvoriti utezi na svaku značajku, a zatim koristiti te utege da bi predviđanja o klasifikaciji galaksija. Na primjer, njezina analiza pokazala da su slike s niske "de Vaucouleurs stane aksijalni odnos" bili su više vjerojatno da će biti spiralne galaksije. S obzirom na ove tegove, ona je u stanju predvidjeti ljudsko klasifikaciju galaxy s prihvatljivom točnošću.

Rad Banerji et al. (2010) pretvorio Galaxy Zoo u ono što bih nazvao drugu generaciju ljudski računanja sustav. Najbolji način da razmišljaju o tim drugom generacijom sustava je u tome što umjesto da ljudi riješiti problem, oni su ljudi graditi skup podataka koji se može koristiti za vlak računalo da se riješi problem. Količina podataka potrebnih za vlak računalo može biti toliko velika da zahtijeva ljudsku masovne suradnje za stvaranje. U slučaju Galaxy Zoo, neuronske mreže koriste Banerji et al. (2010) zahtijevao je vrlo veliki broj primjera ljudskih obilježenih kako bi se izgraditi model koji je bio u mogućnosti pouzdano reproducirati ljudski klasifikaciju.

Prednost ovog kompjutorski pristupa je u tome što omogućuje da obrađuju uglavnom beskonačne količine podataka koristeći samo konačnu količinu ljudskog napora. Na primjer, istraživač s milijun ljudi klasificiranih galaksija može graditi prediktivni model koji se onda može koristiti za klasifikaciju milijardu ili čak bilijuna galaksija. Ako postoji ogroman broj galaksija, onda ta vrsta čovjeka i računala hibrid je zapravo jedino moguće rješenje. Ovaj beskrajni skalabilnost nije besplatno, međutim. Izgradnja modela strojnog učenja koji može ispravno reproducirati ljudska klasifikacija je sam po sebi težak problem, ali na sreću postoje već izvrsne knjige posvećene ovoj temi (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo prikazuje evoluciju mnogo računanja projekata ljudskih. Prvo, istraživač pokušava projekt sama ili s malim timom asistenata (npr Schawinski početni klasifikacija truda). Ako se ovaj pristup ne razmjera dobro, istraživač može premjestiti na ljudsko proračunom projekta, gdje mnogi ljudi doprinose klasifikacije. No, za određenu količinu podataka, čisto ljudski napor neće biti dovoljno. U tom trenutku, istraživači trebaju izgraditi druge generacije sustava u kojem su ljudska klasifikacije koriste za obuku model strojnog učenja koje se tada može primijeniti na gotovo neograničenim količinama podataka.