5.2.1 Galaxia Zoo

Galaxy Zoo asko ez-aditua boluntario ahaleginari milioi bat galaxia sailkatzeko uztartzen.

Galaxy Zoo Kevin Schawinski, graduondoko Oxford Unibertsitateko Astronomia ikaslea aurrean 2007. nahiko pixka bat sinplifikatuz, Schawinski zen galaxia interesatzen arazo bat hazi, eta galaxia den moduan sailka daitezke beren morfologia-eliptikoa edo espiral-eta euren kolore-urdin edo gorri arabera. Garai hartan, astronomoek artean ohiko jakituria zela espiral galaxia, Esne Bidea bezala, kolorea (adieraziz gazteria) in blue ziren eta galaxia eliptiko hori kolore gorri zeuden (zahartzarora adieraziz). Schawinski doubted ohiko jakituria hau. Eredu hau orokorrean egia izan duten bitartean, ez ziren ziurrenik salbuespenak kopurua sizable bat, eta hori susmatzen zuen ezohiko galaxia-etorri direnak ez egokitzeko horietako asko ikasten du espero prozesuari buruzko zerbait patroi-zuen ikasi izan horren bidez galaxiak osatzen dute.

Horrela, zer Schawinski ordena ohiko jakituria overturn beharrezko galaxia morfologikoki sailkatuaren multzo handi bat izan zen; Hori da, hori izan dira bai espiral edo eliptikoak bezala sailkatzen galaxia. Arazoa, ordea, ez zen existitzen diren sailkapenerako metodo algoritmikoak ez ziren oraindik nahikoa ikerketa zientifikoa erabiltzeko; beste era batera esanda, sailkatzeko galaxia zen, garai hartan, arazo bat izan zen, gogor ordenagailuak. Beraz, zer behar zen giza sailkatu galaxia kopuru handi bat izan zen. Schawinski konprometitu sailkapen arazo hau graduondoko ikasle baten ilusioa batera. maratoia zazpi, 12 orduko eguneko saio batean, 50.000 galaxia sailkatzeko gai izan zen. Bitartean 50.000 galaxia daiteke asko bezala soinua, benetan da ia milioi bat galaxia izan dira Sloan Digital Sky Survey en argazkiak soilik% 5 inguru. Schawinski konturatu gehiago eskalagarria hurbilketa bat behar zuela.

Zorionez, bihurtzen da galaxia sailkatzeko zeregina ez du astronomia prestakuntza aurreratua eskatzen; norbaitek egin nahiko azkar irakasteko dezakezu. Beste era batera esanda, nahiz eta galaxiak sailkatuz zeregin bat gogorra izan da ordenagailuak da, nahiko da gizakientzat erraza izan da. Beraz, Oxford, Schawinski eta Chris Lintott ikaskide astronomo pub batean eserita amestu webgune bat non boluntario galaxia irudiak sailkatzea litzateke. Hilabete batzuk beranduago, Galaxy Zoo jaio zen.

Galaxy Zoo webgunean hartan, boluntario prestakuntza minutu batzuk jasan litzateke; adibidez, espiral bat eta galaxia eliptiko (5.2 irudia) arteko aldea ikasteko. prestakuntza honen ondoren, boluntarioek ezaguna nahiko erraza galdetegi-era egokian sailkatzeko 11ko 15 galaxia gainditu behar izan sailkapen-eta, gero, boluntario benetako galaxia ezezagun sailkapena hasiko litzateke web-oinarritutako interfaze sinple bat (5.3 irudia) bidez. boluntario trantsizioa astronomo to ospatuko litzateke 10 minutu baino gutxiago eta bakarrik beharrezkoa hurdles, galdetegi erraz bat txikiena pasatuz.

5.2 irudia: espiral eta eliptikoa: bi galaxia mota nagusiak adibideak. Galaxy Zoo Proiektua erabiliko 100.000 boluntarioen kategoriak 900.000 irudi baino gehiago. Iturria: www.galaxyzoo.org.

5.2 irudia: espiral eta eliptikoa: bi galaxia mota nagusiak adibideak. Galaxy Zoo Proiektua erabiliko 100.000 boluntarioen kategoriak 900.000 irudi baino gehiago. Iturria: www.galaxyzoo.org .

5.3 irudia: Input pantailan non hautesleen irudi bakar batean sailkatzeko eskatu zitzaien. Iturria: www.galaxyzoo.org.

5.3 irudia: Input pantailan non hautesleen irudi bakar batean sailkatzeko eskatu zitzaien. Iturria: www.galaxyzoo.org .

Galaxy Zoo erakarri bere hasierako boluntarioen proiektuaren albiste artikulu bat nabarmendu zen ondoren, eta sei hilabete inguru proiektua hazi 100.000 herritarren zientzialari, nork parte hartu izan dute zeregin delako eta aldez astronomia lagundu nahi dute jendea inplikatzeko. Guztion artean, 100.000 boluntario hauen ekarpena 40 milioi baino gehiago sailkapen guztira, sailkapen parte-hartzaile nahiko txikiak, talde core bat datozen gehienak (Lintott et al. 2008) .

Ikertzaileak duten esperientzia kontratatzeko graduko ikerketa-laguntzaileak izan liteke berehala izango datuen kalitatea eszeptikoa. Eszeptizismoa hau arrazoizkoa bitartean, Galaxy Zoo erakusten denean boluntario ekarpenak behar bezala garbitu, debiased, eta agrega dela, kalitate handiko emaitzak eman ahal izango dute (Lintott et al. 2008) . Epaileak lortzean kalitate profesionala datuak sortzeko trikimailu garrantzitsu bat erredundantzia da; hau da, haber zeregin bera egin, hainbat pertsonak arabera. Galaxy Zoo, ez zegoen sailkapen buruz 40 galaxia bakoitzeko; graduko ikerketa laguntzaileak erabiliz ezin da inoiz ordaindu erredundantzia-maila hori eta, beraz, ikertzaileek askoz gehiago banakako sailkapen bakoitzaren kalitatea kezkatuta egon behar. Zer boluntarioek prestakuntza ere ez zuten, ireki egin dute erredundantzia batera.

Nahiz galaxia bakoitzeko sailkapen anitz batera, ordea, boluntario sailkapen multzoa konbinatuz ekoizteko adostasun sailkapen bat delikatua da. Oso antzeko erronkei giza konputazioaren proiektu gehienetan sortzen delako, lagungarria labur berrikusi hiru urrats Galaxy Zoo ikertzaileek beren adostasuna sailkapen ekoizteko erabiltzen da. Lehenik eta behin, ikertzaileek "garbitu" datu akastunak sailkapen kenduz. Esate baterako, behin eta berriz sailkatu nor bera galaxia-zerbait dutela manipulatzen saiatzen ari gertatuko litzateke jende emaitzetara izan beren sailkapen guztiak baztertzea. antzeko beste garbiketa hau eta sailkapen guztien% 4 inguru kendu.

Bigarren, garbitu ondoren, ikertzaileek lodirik sistematikoa kentzeko sailkapen beharrezko. Proiektu-jatorrizko adibidez enbotatuta bias detektatzeko ikasketak, boluntario batzuk ordez monokromoa galaxia erakutsiz sorta baten bidez kolore-the ikertzaileek aurkitu hainbat lodirik sistematikoa, hala nola bias sistematikoa urrun espiral galaxiak galaxia eliptiko gisa sailkatzeko gisa (Bamford et al. 2009) . lodirik sistematiko hauek doitzea oso garrantzitsua da ekarpen asko bestekoa ez delako kendu biasa sistematikoa; ausazko error bakarrik kentzen.

Azkenik, debiasing ondoren, ikertzaileek metodo bat banakako sailkapen konbinatu adostasun sailkapen bat ekoizteko behar. Modurik errazena sailkapen konbinatu galaxia bakoitzeko sailkapen ohikoena aukeratu ahal izango litzateke. Hala ere, planteamendu hau boluntario pisu berdina bakoitzari emango luke, eta ikertzaileek susmatzen duten boluntario batzuk sailkapenerako beste batzuk baino hobeak izan ziren. Hori dela eta, ikertzaile etorriko ponderazio prozedura konplexuagoa dela automatikoki detektatzen du sailkatzaileak onena eta pisu gehiago eman horien saiatzen garatu.

Horrela, hiru urrats prozesu-garbiketa bat, debiasing, eta ponderazio-the Galaxy Zoo ikerketa-taldeak ondoren bihurtu zuten 40 milioi boluntario sailkapen adostasun morfologikoa sailkapen multzo bat sartu. Noiz horietako Galaxy Zoo sailkapen alderatu zituzten aurreko hiru formatu txikiko astronomoek profesionala by saiakerak, Schawinski taldeko sailkapen hau Galaxy Zoo inspiratzen lagundu barne, ez zen akordioa sendoa. Horrela, boluntarioek, agregatua, kalitate handiko sailkapen emateko gai izan ziren eta eskala bat ikertzaileek ezin etor hartan (Lintott et al. 2008) . Izan ere, giza sailkapen edukitzerik galaxia kopuru handi bat egiteko moduan, Schawinski, Lintott, eta beste batzuk galaxien% 80 inguru baino ez dela espero patroi-urdina espiralak eta ellipticals-eta gorria paperak ugari jarraitu dute buruz idatzi erakutsi nahi izan aurkikuntza honek (Fortson et al. 2011) .

hondo horren aurrean, orain ikusiko dugu nola Galaxy Zoo jarraitzen du split-apply-konbinatu errezeta, errezeta bera hori giza konputazioaren proiektu gehien erabiltzen. Lehenik eta behin, arazo handi bat da zatitan zatitu. Kasu honetan, milioi bat galaxia sailkatzeko arazoa da milioi galaxia bat sailkatzeko arazo bat zatitu. Hurrengoa, eragiketa bat da pusketa bakoitza modu independentean aplikatzen. Kasu honetan, boluntario galaxia bakoitzak bai espiral edo eliptikoa sailkatuko litzateke. Azkenik, emaitzak konbinatzen dira adostasun emaitza bat sortzeko. Kasu honetan, konbinatu urrats barne garbiketa, debiasing, eta haztapen adostasun galaxia bakoitzeko sailkapen bat sortzeko. proiektu errezeta orokor hau erabili arren, urrats bakoitzari, arazo zehatzak ari jorratzen pertsonalizatu beharra. Adibidez, behean azaltzen den giza konputazioaren proiektua ere, errezeta bera jarraitu ahal izango da, baina aplikatu eta konbinatu urratsak oso ezberdina izango da.

Galaxy Zoo taldea, lehen proiektu hau hasiera besterik ez zen. Oso azkar, milioi bat galaxia hurbil sailkatzeko gai izan ziren, nahiz eta konturatu dira, eskala hau ez da nahikoa berriagoak zerua digital inkestetan, eta galaxia 10 milioi irudiak ekoizteko izan dituzten lan (Kuminski et al. 2014) . 1 milioi 10era gehikuntza kudeatzeko milioi-10.000-Galaxy Zoo-faktore gutxi gorabehera 10.000 aldiz gehiago, parte-hartzaile bildu behar luke. boluntario kopurua Interneten handiak izan arren, ez da infinitua. Hori dela eta, ikertzaileak konturatu dira inoiz hazten datuak, berria, are gehiago eskalagarria, planteamendu behar zen kantitate kudeatu nahi bada.

Beraz, Manda Banerji-lan Kevin Schawinski, Chris Lintott, eta beste Galaxy Zoo taldea-hasierako irakaskuntza ordenagailuak kideekin batera galaxia sailkatzeko. Zehatzago, Galaxy Zoo, sortutako giza sailkapen erabiliz Banerji et al. (2010) eraiki makinen ikasketa eredu bat giza galaxia baten sailkapena oinarritutako irudiaren ezaugarrien iragartzeko. makinen ikasketa eredu hau bada giza sailkapen erreproduzitu ezin zehaztasun handiko, gero galaxia kopurua funtsean, infinitua sailkatzeko Galaxy Zoo ikertzaileek erabil daiteke.

Banerji eta lankideek 'planteamendu muina da benetan nahiko normalean gizarte ikerketan erabilitako teknika antzekoa, nahiz eta antzekotasun hori agian ez da lehen begiratuan argi. Lehenengoa, Banerji eta lankideek irudi bakoitza bihurtutako laburbiltzen duten propietate da zenbakizko ezaugarri multzo bat sartu. blue zenbatekoa irudian, pixel distira in bariantza, eta pixel ez-zuriak proportzioa: Adibidez, galaxien irudiak han hiru ezaugarri izan daiteke. Ezaugarri zuzena hautaketa arazoaren zati garrantzitsu bat da, eta, oro har, gai-eremua ezagutu behar da. Lehen urrats hori, normalean izeneko ezaugarri ingeniaritza, datuen matrize baten emaitzak irudi bakoitzeko lerro bat eta, ondoren, hiru zutabe irudi hori deskribatzeko. Emandako datuen matrizea eta nahi duzun irteera (adibidez, irudia zen giza bat galaxia eliptiko bat bezala sailkatzen den), ikertzaileak eredua-estatistika adibide bat parametro neurtzen, zerbait logistika erregresio-oinarritutako giza sailkapen iragartzen bat bezala irudiaren ezaugarri on. Azkenik, ikertzaileak parametroak erabiltzen ditu estatistika eredu honetan galaxia berrien sailkapen zenbatetsi (5.4 irudia) ekoizteko. Gizarte analogiko bat pentsatzea, imajinatu milioi bat ikasle informazio demografikoa izan duten, eta unibertsitatetik edo ez graduatu ala ez badakizu. erregresio logistiko bat doitzeko duzu liteke datu horri, eta, ondoren, ondoriozko eredua parametro erabili izan dituzun ala ikasle berriak dira unibertsitateko graduondoko joan iragartzeko. Makinen ikasketa, hurbilketa-erabiliz etiketatutako adibideak honetan eredu estatistiko bat dituena, ondoren berria etiketa sortzeko datu-deitzen den gainbegiratuko ikaskuntza (Hastie, Tibshirani, and Friedman 2009) .

5.4 irudia: nola Banerji et al deskribapen zatitu. (2010) erabilitako Galaxy Zoo sailkapen makina ikaskuntza eredu bat prestatzea galaxia sailkapena egin. Galaxien Irudiak ezaugarri matrize batean bihurtu ziren. Adibidez sinplifikatu honetan hiru ezaugarri (urdina zenbatekoa irudian, pixel distira lehian, eta pixel ez zuri-proportzioa) daude. Ondoren, irudiak azpimultzo bat da, Galaxy Zoo etiketak makinen ikasketa eredu bat prestatzea erabiltzen dira. Azkenik, makina ikaskuntza sailkapen balioesteko Gainerako galaxia egiteko erabiltzen da. proiektu mota hau deitzen dut bigarren belaunaldiko giza konputazional proiektu bat baino gizakiak izatea arazo bat konpontzeko, baita, gizakiak erabil daiteke ordenagailu bat prestatzea da arazoa konpondu behar multzoaren bat eraiki dute. ordenagailuz lagundutako planteamendu hau abantaila da, datu kopuru funtsean gizakion ahalegin kopuru finitu bat bakarrik erabiliz kudeatzeko aukera ematen duela.

5.4 irudia: nola azalpen zatitu Banerji et al. (2010) erabilitako Galaxy Zoo sailkapen makina ikaskuntza eredu bat prestatzea galaxia sailkapena egin. Galaxien Irudiak ezaugarri matrize batean bihurtu ziren. Adibidez sinplifikatu honetan hiru ezaugarri (urdina zenbatekoa irudian, pixel distira lehian, eta pixel ez zuri-proportzioa) daude. Ondoren, irudiak azpimultzo bat da, Galaxy Zoo etiketak makinen ikasketa eredu bat prestatzea erabiltzen dira. Azkenik, makina ikaskuntza sailkapen balioesteko Gainerako galaxia egiteko erabiltzen da. proiektu mota hau deitzen dut bigarren belaunaldiko giza konputazional proiektu bat baino gizakiak izatea arazo bat konpontzeko, baita, gizakiak erabil daiteke ordenagailu bat prestatzea da arazoa konpondu behar multzoaren bat eraiki dute. ordenagailuz lagundutako planteamendu hau abantaila da, datu kopuru funtsean gizakion ahalegin kopuru finitu bat bakarrik erabiliz kudeatzeko aukera ematen duela.

Ezaugarri in The Banerji et al. (2010) makina ikaskuntza ereduaren adibide adibidez, bezalako ezaugarriak erabili zuen nire jostailu baino konplexuagoak ziren "de Vaucouleurs moldatzen axial ratioa" -eta bere eredua ez zen erregresio logistiko, Neurona sare artifizial bat izan zen. bere ezaugarriak, bere eredua, eta adostasun Galaxy Zoo sailkapen erabiliz, funtzio bakoitzaren pisuak sortzeko, eta, ondoren, pisuak hauek erabili galaxien sailkapena buruzko iragarpenak egiteko gai izan zen. Esate baterako, bere analisia aurkitu apala duten "de Vaucouleurs moldatzen axial ratioa" irudiak izan ziren gehiago litekeena espiral galaxia izan. Emandako pisuak horiek, giza galaxia baten sailkapena aurreikusteko nahiko zehaztasun handiz gai izan zen.

Lana ongi Banerji et al. (2010) aktibatuta Galaxy Zoo zer bigarren belaunaldiko giza konputazio sistema bat deitu nuke sartu. The bigarren belaunaldiko sistema horiek pentsatzeko modurik onena da beharrean gizakiak izatea arazo bat konpontzen dela, gizakiak erabil daiteke ordenagailu bat prestatzea da arazoa konpondu behar multzoaren bat eraiki dute. Ordenagailua trebatzeko beharrezko datuen kopurua oso handia da, giza masa lankidetza bat sortu behar dela izan daiteke. Galaxy Zoo, erabiltzen dituen neurona sareak kasuan Banerji et al. (2010) , giza-etiketatutako adibideak kopurua oso handia behar duten ordena fidagarrian erreproduzitu giza sailkapen gai izan zen eredu bat eraikitzeko.

ordenagailuz lagundutako planteamendu hau abantaila da, datu kopuru funtsean gizakion ahalegin kopuru finitu bat bakarrik erabiliz kudeatzeko aukera ematen duela. Adibidez, milioi bat giza sailkatu galaxia ikertzailea dituena, ondoren erabili ahal milioi bat edota bilioi galaxiak sailkatzeko iragarlea eredu bat eraiki dezakezu. badira galaxia zenbakiak izugarria bada, orduan giza-ordenagailu hibrido mota hau da benetan posible irtenbide bakarra. eskalagarritasuna infinitua hau ez da doakoa, ordea. Makinen ikasketa eredu bat behar bezala giza sailkapen ugaltzen da berez arazo gogor bat eraikitzea, baina zorionez, ez dira dagoeneko Gai honi eskainitako liburu bikaina (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo giza konputazioaren proiektu asko bilakaera erakusten du. Lehenengoa, ikertzaile baten proiektua saiatzen berak edo ikerketa laguntzaile talde txiki bat (adibidez, Schawinski hasierako sailkapen ahalegina) batera. Bada ere, ez du ondo eskalatzeko, ikertzaileak giza konputazioaren proiektu bat da, non jende askok lagundu sailkapen mugitu daiteke. Baina, datu-bolumen jakin bat, giza ahalegin purua ez da nahikoa izango. Une horretan, ikertzaileak bigarren belaunaldiko sistemak non giza sailkapen dituena, ondoren, datu kopuru ia mugagabea aplikatuko makinen ikasketa eredu bat prestatzea erabiltzen dira eraiki behar.