5.2.1 Galaxy Zoo

Zoo galaksija kombinirala je napore mnogih nevoljnih dobrovoljaca da klasifikuju milion galaksija.

Galaxy Zoo je izrasla iz problema sa kojim se suočio Kevin Schawinski, diplomirani student astronomije na Oksfordskom univerzitetu 2007. godine. Prilično pojednostavljujući, Schawinski je bio zainteresovan za galaksije, a galaksije se mogu klasifikovati prema njihovom morfološkom-eliptičnom ili spiralnom i po bojama plave ili crvene boje. U to vreme, konvencionalna mudrost među astronomima bila je da su spiralne galaksije, poput našeg Mlečnog puta, bile plave boje (ukazujući na omladinu), a eliptične galaksije bile crvene (što ukazuje na starost). Schawinski je sumnjao u ovu konvencionalnu mudrost. On je sumnjao da, iako ovaj obrazac može biti istinit uopšte, verovatno je bio veliki broj izuzetaka, i da proučavanjem puno ovih neobičnih galaksija - onih koji nisu odgovarali očekivanom obrascu - mogao je saznati nešto o procesu kroz koji formirane galaksije.

Stoga, ono što je Švinski potreban da bi prevario konvencionalnu mudrost bio je veliki skup morfološki klasifikovanih galaksija; odnosno galaksije koje su klasifikovane kao spiralne ili eliptične. Problem je, međutim, bio da postojeće algoritamske metode za klasifikaciju još nisu dovoljno dobre da se koriste za naučna istraživanja; Drugim riječima, klasifikacija galaksija je u to vrijeme bila problem koji je bio teško za računare. Zbog toga je potreban veliki broj humanih klasifikovanih galaksija. Schawinski je ovaj problem klasifikacije preuzeo sa entuzijazmom diplomiranog studenta. Na maratonskoj sednici od sedam dvanaestodnevnih dana, on je bio u stanju da klasifikuje 50.000 galaksija. Iako 50.000 galaksija možda zvuči kao puno, to je zapravo samo oko 5% gotovo milion galaksija koje su fotografisane u Sloan Digital Sky Surveyu. Schawinski shvati da mu je potreban skalabilniji pristup.

Srećom, ispostavilo se da je zadatak razvrstavanja galaksija ne zahtijeva usavršavanje u astronomiji; možete naučiti nekoga da to učiniti vrlo brzo. Drugim riječima, iako klasifikacije galaksija je zadatak da je teško za računala, to je prilično lako za ljude. Dakle, dok je sjedio u kafani u Oxford, Schawinski i kolega astronom Chris Lintott osmislio je web stranicu na kojoj će volonteri klasificirati slike galaksija. Nekoliko mjeseci kasnije, Galaxy Zoo je rođen.

Na sajtu Galaxy Zoo, volonteri bi prošli nekoliko minuta obuke; na primer, učenje razlike između spiralne i eliptične galaksije (slika 5.2). Nakon ovog treninga, svaki dobrovoljac je morao da prođe relativno jednostavan kviz - ispravno klasifikuje 11 od 15 galaksija sa poznatim klasifikacijama - a zatim bi počelo stvarnu klasifikaciju nepoznatih galaksija kroz jednostavan web-bazirani interfejs (slika 5.3). Prelazak sa volontera na astronom bi se odvijao za manje od 10 minuta i trebalo bi samo da prođe najnižu prepreku, jednostavan kviz.

Slika 5.2: Primeri dva glavna tipa galaksija: spiralna i eliptična. Projekat Galaxy Zoo je koristio više od 100.000 dobrovoljaca za kategorizaciju više od 900.000 slika. Reprodukovano uz dozvolu od http://www.GalaxyZoo.org i Sloan Digital Sky Survey.

Slika 5.2: Primeri dva glavna tipa galaksija: spiralna i eliptična. Projekat Galaxy Zoo koristi više od 100.000 dobrovoljaca za kategorizaciju više od 900.000 slika. Reprodukovano uz dozvolu od http://www.GalaxyZoo.org i Sloan Digital Sky Survey .

Slika 5.3: Input ekran gde su dobrovoljci zatražili da klasifikuju jednu sliku. Reprodukovano odobrenjem Chrisa Lintota na osnovu slike iz Sloan Digital Sky Survey.

Slika 5.3: Input ekran gde su dobrovoljci zatražili da klasifikuju jednu sliku. Reprodukovano odobrenjem Chrisa Lintota na osnovu slike iz Sloan Digital Sky Survey .

Galaxy Zoo je privukao svoje inicijalne volontere nakon što je projekat objavljen u članku vijesti, a za približno šest mjeseci projekat je uključivao više od 100.000 naučnika građana, ljudi koji su učestvovali jer su uživali u zadatku i željeli su pomoći unapređenju astronomije. Zajedno, ovih 100.000 dobrovoljaca doprinelo je ukupno više od 40 miliona klasifikacija, pri čemu većina klasifikacija dolazi iz relativno male, osnovne grupe učesnika (Lintott et al. 2008) .

Istraživači koji imaju iskustvo angažovanja dodiplomskih istraživača mogu odmah biti skeptični u pogledu kvaliteta podataka. Iako je taj skepticizam razumno, Galaxy Zoo pokazuje da kada se dobrovoljni doprinosi pravilno očiste, debiluju i sabiraju, oni mogu proizvesti kvalitetne rezultate (Lintott et al. 2008) . Važan trik za podizanje gomile za stvaranje podataka o profesionalnom kvalitetu je redundantnost , odnosno, imaju isti zadatak koji obavljaju različiti ljudi. U Zoo galaksiji bilo je oko 40 klasifikacija po galaksiji; istraživači koji koriste dodiplomske istraživačke asistente nikada ne bi mogli priuštiti ovakav nivo redundantnosti i stoga bi se trebali mnogo više baviti kvalitetom svake pojedinačne klasifikacije. Ono što volonteri nisu imali na obuci, oni su se nadoknadili sa viškom.

Međutim, čak i sa višestrukom klasifikacijom po galaksiji, kombinujući niz klasifikacija dobrovoljaca kako bi se postigla konsenzusna klasifikacija, bilo je teško. Zbog vrlo sličnih izazova koji se javljaju u većini projekata za izračunavanje ljudskih vrijednosti, korisno je kratko pregledati tri koraka koje su istraživači galaktičkog zoo-a koristili za izradu konsenzusnih klasifikacija. Prvo, istraživači su "očistili" podatke uklanjanjem lažnih klasifikacija. Na primjer, ljudi koji su više puta klasifikovali istu galaksiju - nešto što bi se dogodilo ako bi pokušali manipulirati rezultatima - sve svoje klasifikacije su odbačene. Ovo i drugo slično čišćenje uklonilo je oko 4% svih klasifikacija.

Drugo, nakon čišćenja, istraživači su morali ukloniti sistematske pristrasnosti u klasifikaciji. Kroz seriju studija detekcije pristrasnosti ugrađenih u okviru prvobitnog projekta - na primer, pokazujući neke volontere galaksiju monohromom umesto boje - istraživači su otkrili nekoliko sistematskih predrasuda, kao što je sistematska predrasuda za klasifikaciju dalekih spiralnih galaksija kao eliptičkih galaksija (Bamford et al. 2009) . Prilagođavanje ovih sistematskih predrasuda je izuzetno važno jer redundantnost ne uklanja sistematsko pristrasnost automatski; to pomaže samo u uklanjanju nasumične greške.

Na kraju, nakon debiiranja, istraživačima je bio potreban metod za kombinovanje pojedinačnih klasifikacija kako bi se postigla konsenzusna klasifikacija. Najjednostavniji način kombinovanja klasifikacija za svaku galaksiju bi bio odabir najčešće klasifikacije. Međutim, ovakav pristup bi svakom volonteru davao jednaku težinu, a istraživači su sumnjali da su neki dobrovoljci bili bolji u klasifikaciji nego drugi. Zbog toga su istraživači razvili složenije postupke iterativnog pondera koji su pokušali da otkriju najbolje klasifikatore i daju im veću težinu.

Tako je, nakon tri čekanja u procesu čišćenja, debiiranja i težine - istraživački tim Galaxy Zoo-a pretvorio je 40 miliona klasifikacija dobrovoljaca u set konsenzusnih morfoloških klasifikacija. Kada su ove klasifikacije Galaxy Zoo upoređene sa tri prethodna pokušaja manjeg obima od strane profesionalnih astronoma, uključujući i klasifikaciju od strane Schawinskog, koja je pomogla inspirišu Galaxy Zoo, postojala je snažna saglasnost. Stoga, volonteri, u celini, bili su u mogućnosti pružiti visokokvalitetne klasifikacije i u skali koju istraživači nisu mogli podudarati (Lintott et al. 2008) . Zapravo, postojanjem ljudskih klasifikacija za ovako veliki broj galaksija, Schawinski, Lintott i drugi su mogli pokazati da samo oko 80% galaksija prati očekivane šablone plave boje i crvene eliptike - a brojni radovi su napisani o ovo otkriće (Fortson et al. 2011) .

Uzimajući u obzir ovu pozadinu, sada možete videti kako Galaxy Zoo prati recept recepti split-apply-combine, isti recept koji se koristi za većinu ljudskih projekata računanja. Prvo, veliki problem se deli na delove. U ovom slučaju problem klasifikacije milion galaksija podeljen je na milion problema klasifikacije jedne galaksije. Dalje, operacija se primjenjuje na svaki dio nezavisno. U ovom slučaju, dobrovoljci su klasifikovali svaku galaksiju kao spiralnu ili eliptičnu. Konačno, rezultati se kombinuju kako bi se postigao konsenzusni rezultat. U ovom slučaju, kombinovani korak uključuje čišćenje, debiasing i težinu kako bi se proizveo konsenzusna klasifikacija za svaku galaksiju. Iako većina projekata koristi ovaj opšti recept, svaki korak treba prilagoditi specifičnom problemu koji se rešava. Na primjer, u projektu ljudskog izračunavanja koji je opisan u nastavku, isti recept će biti poštovan, ali primjenjeni i kombinirani koraci će biti sasvim različiti.

Za Galaxy Zoo tim, ovaj prvi projekat je bio samo početak. Vrlo brzo su shvatili da iako su uspeli da klasifikuju blizu milion galaksija, ova skala nije dovoljna za rad sa novijim istraživanjima digitalnog neba, što može proizvesti slike od oko 10 milijardi galaksija (Kuminski et al. 2014) . Da bi se nosio sa povećanjem od 1 miliona do 10 milijardi, faktor 10,000 Zoo galaksije bi trebao regrutovati otprilike 10 000 puta više učesnika. Iako je broj dobrovoljaca na Internetu veliki, to nije beskonačno. Zbog toga su istraživači shvatili da će, ukoliko će se baviti sve većim količinama podataka, potreban novi, još prilično skalabilan pristup.

Zbog toga, Manda Banerji-saradnja sa Schawinskim, Lintott-om i drugim članovima Galaxy Zoo tima (2010) pokrenula je kompjutere za klasifikaciju galaksija. Konkretnije, koristeći ljudske klasifikacije koje je stvorio Galaxy Zoo, Banerji je napravio model za učenje mašina koji bi mogao predvidjeti ljudsku klasifikaciju galaksije zasnovanu na karakteristikama slike. Ako bi ovaj model mogao reprodukovati humanu klasifikaciju sa visokom preciznošću, onda bi ga istraživači Galaxy Zoo mogli koristiti da klasifikuju u suštini beskonačan broj galaksija.

Jezgro pristupa Banerji i kolega je u stvari prilično slično tehnikama koje se obično koriste u društvenim istraživanjima, mada ta sličnost možda nije na prvi pogled jasna. Prvo, Banerji i kolege pretvorili su svaku sliku u niz numeričkih karakteristika koje su rezimirale njegove osobine. Na primer, za slike galaksija, mogle bi se naći tri funkcije: visina plave slike, varijanse osvetljenosti piksela i procenat nebelih piksela. Izbor ispravnih funkcija je važan dio problema i obično zahteva stručnost u oblasti predmeta. Ovaj prvi korak, obično nazvan funkcionalni inženjering , rezultira u matrici podataka sa jednim redom po slici, a zatim tri kolone koje opisuju tu sliku. S obzirom na matricu podataka i željeni rezultat (npr. Da li je slika klasifikovala od strane čoveka kao eliptičke galaksije), istraživač kreira statistički model ili model za učenje mašina - na primer, logistička regresija - koja predviđa ljudsku klasifikaciju zasnovanu na karakteristikama slike. Konačno, istraživač koristi parametre u ovom statističkom modelu za proizvodnju procijenjenih klasifikacija novih galaksija (slika 5.4). U mašinskom učenju, ovaj pristup - koristeći označene primere za kreiranje modela koji može potom označiti nove podatke - naziva se nadgledano učenje .

Slika 5.4: Pojednostavljeni opis načina na koji Banerji i sar. (2010) je koristio Galaxy Zoo klasifikacije kako bi obučio model za učenje mašina kako bi klasifikovao galaksiju. Slike galaksija pretvorene su u matricu karakteristika. U ovom pojednostavljenom primeru postoje tri funkcije (količina plave slike, varijanse osvetljenosti piksela i procenat nebelih piksela). Zatim, za podskup slike, oznake Galaxy Zoo se koriste za obuku modela za učenje mašina. Konačno, mašinsko učenje se koristi za procjenu klasifikacija za preostale galaksije. Ja to zovem projektom računarskog humanog računarstva, jer ljudima, a ne ljudima da rešavaju problem, ljudi izgrađuju skup podataka koji se mogu koristiti za obuku računara kako bi riješili problem. Prednost ovog računarskog humanog računskog sistema jeste da vam omogućava da u suštini podnesete beskonačne količine podataka koristeći samo ograničenu količinu ljudskog napora. Slike galaksija reprodukovane dozvolom Sloan Digital Sky Survey.

Slika 5.4: Pojednostavljeni opis načina na koji Banerji et al. (2010) koristio Galaxy Zoo klasifikacije kako bi obučio model za učenje mašina kako bi klasifikovao galaksiju. Slike galaksija pretvorene su u matricu karakteristika. U ovom pojednostavljenom primeru postoje tri funkcije (količina plave slike, varijanse osvetljenosti piksela i procenat nebelih piksela). Zatim, za podskup slike, oznake Galaxy Zoo se koriste za obuku modela za učenje mašina. Konačno, mašinsko učenje se koristi za procjenu klasifikacija za preostale galaksije. Ja to zovem projektom računarskog humanog računarstva, jer ljudima, a ne ljudima da rešavaju problem, ljudi izgrađuju skup podataka koji se mogu koristiti za obuku računara kako bi riješili problem. Prednost ovog računarskog humanog računskog sistema jeste da vam omogućava da u suštini podnesete beskonačne količine podataka koristeći samo ograničenu količinu ljudskog napora. Slike galaksija reprodukovane dozvolom Sloan Digital Sky Survey .

Karakteristike u modelu automatskog učenja Banera i kolega bili su složeniji od onih u mom igračkom primjeru - na primjer, ona je koristila funkcije kao što su "de Vaucouleurs fit axial ratio" - a njen model nije bio logistička regresija, već je bila veštačka neuronska mreža. Koristeći njene karakteristike, njen model i konsenzus klasifikacije Galaxy Zoo, uspjela je stvoriti težine na svakoj osobini, a zatim koristiti te težine kako bi napravila predviđanja o klasifikaciji galaksija. Na primer, njena analiza pokazala je da su slike sa niskim "de Vaucouleurs fit aksijalnim odnosom" verovatnije spiralne galaksije. S obzirom na te težine, ona je bila u stanju da predvidi ljudsku klasifikaciju galaksije sa razumnom tačnošću.

Rad Baneraja i kolega pretvorio je Galaxy Zoo u ono što bih nazvao računarskim ljudskim računarskim sistemom . Najbolji način da razmišljate o ovim hibridnim sistemima je da umesto da ljudi reše problem, oni čine ljude da izgrade skup podataka koji se mogu koristiti za obučavanje računara da bi rešio problem. Ponekad, obuka računara za rešavanje problema može zahtevati mnogo primera, a jedini način da se proizvede dovoljan broj primera je masovna saradnja. Prednost ovog kompjuterskog pristupa je da vam omogućava da u suštini smanjite neograničene količine podataka koristeći samo ograničenu količinu ljudskog napora. Na primer, istraživač sa milionom klasifikovanom galaksijom čoveka može da izgradi prediktivni model koji se onda može koristiti za klasifikaciju milijarde ili čak milijarde galaksija. Ako postoji ogroman broj galaksija, onda je ovakav tip hibrida ljudskog računara zaista jedino moguće rješenje. Međutim, ova beskonačna skalabilnost nije besplatna. Izgradnja modela mašinskog učenja koja može ispravno reprodukovati klasu ljudi je sama težak problem, ali na sreću već postoje odlične knjige posvećene ovoj temi (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo je dobra ilustracija koliko se ljudi razvijaju. Prvo, istraživač pokušava projekat sama ili sa malim timom istraživačkih saradnika (npr., Početni napor Schwinski-a). Ako ovaj pristup ne bude dobro sagledan, istraživač može preći na projekat ljudskog računanja sa mnogim učesnicima. Ali, za određeni obim podataka, čisti ljudski napor neće biti dovoljan. Istraživači u tom trenutku trebaju izgraditi kompjuterski pomoćni računarski sistem u kojem se koriste ljudske klasifikacije za obuku modela računarskog učenja koji se onda može primijeniti na praktično neograničene količine podataka.