5.2.1 Galaxy Zoo

Galaksia Zoo kombinis la penadojn de multaj ne-spertaj volontuloj por klasifiki milionajn galaksiojn.

Galaksio-Zoo kreskis pro problemo alfrontita de Kevin Schawinski, diplomiĝinta studento en Astronomio en la Universitato de Oksfordo en 2007. Simplifikante iom, Schawinski interesiĝis pri galaksioj, kaj galaksioj povas esti klasifikitaj per sia morfologio-elipsa aŭ spiralo-kaj per ilia koloro-blua aŭ ruĝa. Tiutempe, la konvencia saĝeco inter astronomoj estis, ke spiralaj galaksioj, kiel nia Lakta Vojo, estis blua koloro (indikantaj junulojn) kaj elipsaj galaksioj estis ruĝaj (indikantaj maljuniĝon). Schawinski dubis pri ĉi tiu konvencia saĝeco. Li suspektis, ke dum ĉi tiu ŝablono povus esti vera ĝenerale, verŝajne estis konsiderinda nombro de esceptoj, kaj ke per studado de multaj ĉi tiuj nekutimaj galaksioj - tiuj, kiuj ne atendis la atenditan ŝablonon - li povus lerni ion pri la procezo per kiu galaksioj formitaj.

Tiel, kio Schawinski bezonis por renversi konvenciajn saĝecon estis granda aro de morfologie klasifikitaj galaksioj; tio estas, galaksioj, kiuj estis klasifikitaj kiel espiral aŭ elipsa. La problemo, tamen, estis, ke ekzistantaj algoritmaj metodoj por klasifiki ankoraŭ ne sufiĉis por esti uzataj por scienca esplorado; En aliaj vortoj, klasifikante galaksiojn estis, tiam, problemo malfacile por komputiloj. Tial, kio bezonis estis granda nombro de homaj -classified galaksioj. Schawinski entreprenis ĉi tiun klasifikan problemon kun la entuziasmo de diplomiĝinta studento. En maratona kunsido de sep 12-horo-tagoj, li povis klasifiki 50,000 galaksiojn. Dum 50,000 galaksioj eble sonas multajn, fakte nur ĉirkaŭ 5% de la preskaŭ unu miliono de galaksioj estis fotitaj en la Sloan Cifereca Sky Survey. Schawinski rimarkis, ke li bezonas pli skaleblan aliron.

Feliĉe, ĝi rezultas ke la tasko de klasifiki galaksiojn ne postulas capacitación en astronomio; vi povas instrui iun por fari ĝin bela rapide. Alivorte, kvankam klasifiki galaksiojn estas tasko kiu estis malfacila por komputiloj, ĝi estis sufiĉe facila por homoj. Tiel, sidante en drinkejo en Oksfordo, Schawinski kaj samranga astronomo Chris Lintott forĝis retejo kie volontuloj klasifikus bildoj de galaksioj. Kelkajn monatojn poste, Galaxy Zoo naskiĝis.

En la retejo de la Galaksia Zoo, volontuloj travivus kelkajn minutojn da trejnado; ekzemple, lernante la diferencon inter espiral kaj elipsa galaksio (figuro 5.2). Post ĉi tiu trejnado, ĉiu volontulo devis pasi relative facilan kvizon klasifikante 11 el 15 galaksioj kun konataj klasifikoj-kaj tiam komencus realan klasifikon de nekonataj galaksioj per simpla interreta retejo (figuro 5.3). La transiro de volontulo al astronomo okazus en malpli ol 10 minutoj kaj nur postulis pasi la plej malaltajn kurdojn, simplajn kvizojn.

Figuro 5.2: Ekzemploj de la du ĉefaj specoj de galaksioj: espiral kaj elipsa. La projekto Galaxy Zoo uzis pli ol 100,000 volontulojn por klasifiki pli ol 900,000 bildojn. Reproduktita per permeso de http://www.GalaxyZoo.org kaj Sloan Cifereca Sky Survey.

Figuro 5.2: Ekzemploj de la du ĉefaj specoj de galaksioj: espiral kaj elipsa. La projekto Galaxy Zoo uzis pli ol 100,000 volontulojn por klasifiki pli ol 900,000 bildojn. Reproduktita per permeso de http://www.GalaxyZoo.org kaj Sloan Cifereca Sky Survey .

Figuro 5.3: Eniga ekrano, kie volontuloj petis klasifiki solan bildon. Reproduktita per permeso de Chris Lintott bazita sur bildo de la Sloan Cifereca Sky Survey.

Figuro 5.3: Eniga ekrano, kie volontuloj petis klasifiki solan bildon. Reproduktita per permeso de Chris Lintott bazita sur bildo de la Sloan Cifereca Sky Survey .

Galaksia Zoo altiris siajn komencajn volontulojn post kiam la projekto aperis en novaĵoj, kaj en ĉirkaŭ ses monatoj la projekto kreskis engaĝi pli ol 100,000 civitanajn sciencojn, homojn, kiuj partoprenis ĉar ili ĝuis la taskon kaj ili volis helpi antaŭenigi astronomion. Kune ĉi tiuj 100,000 volontuloj kontribuis al tuta de pli ol 40 milionoj da klasifikoj, kun la plimulto de la klasifikoj venantaj de relative malgranda, kerna grupo de partoprenantoj (Lintott et al. 2008) .

Esploristoj, kiuj havas spertan kontraktadon de studentoj de studentoj, eble tuj skeptikaj pri datumkvalito. Dum ĉi tiu escepticismo estas racia, Galaksio-Zoo montras, ke kiam volontulaj kontribuoj estas ĝuste purigitaj, konveneblaj kaj kompletigitaj, ili povas produkti altkvalitajn rezultojn (Lintott et al. 2008) . Grava lertaĵo por atingi la homamason krei profesiajn kvalitajn datumojn estas redundo , tio estas, havante la saman taskon faritan de multaj malsamaj homoj. En Galaksia Zoo, estis ĉirkaŭ 40 klasifikoj per galaksio; esploristoj uzantaj student-studajn helpantojn neniam povus pagi ĉi tiun nivelon de redundo kaj sekve devus multe pli koncerni la kvaliton de ĉiu individua klasifiko. Kion la volontuloj mankis en trejnado, ili pagis kun redundo.

Inkluzive kun multnombraj klasifikoj por galaksio, tamen, kombini la serion de volontulaj klasifikoj por produkti konsenton-klasifikon estis malfacila. Ĉar tre similaj defioj ekestiĝas en plej multaj homaj komputilaj projektoj, estas helpema baldaŭ revizii la tri paŝojn, kiujn la Galaksiaj Zoo-esploristoj kutimis produkti siajn konsentajn klasifikojn. Unue, la esploristoj "purigis" la datumon forigante flankajn klasifikojn. Ekzemple, homoj, kiuj ree klasifikis la saman galaksion - ion okazus, se ili provos manipuli la rezultojn - ĉesis ĉiujn siajn klasifikojn forĵetitaj. Ĉi tiu kaj alia simila purigado forigis ĉirkaŭ 4% de ĉiuj klasifikoj.

Due, post purigado, la esploristoj bezonis forigi sistemajn antaŭjuĝojn en klasifikoj. Tra serio de progresaj detektivaj studoj enkorpigitaj en la origina projekto, ekzemple, montrante iujn volontulojn la galaksion en monocromo anstataŭ koloro - la esploristoj malkovris plurajn sistemajn antaŭjuĝojn, kiel sistema antaŭdiro por klasifiki longajn espiralajn galaksiojn kiel elipsaj galaksioj (Bamford et al. 2009) . Ĝustigi por ĉi tiuj sistemaj antaŭjuĝoj estas ege grava ĉar la redundo ne aŭtomate forigas sistemajn antaŭjuĝojn; ĝi nur helpas forigi hazarda eraro.

Fine, post la debato, la esploristoj bezonis metodon por kombini la individuajn klasifikojn por produkti konsenton-klasifikon. La plej simpla maniero por kombini klasifikojn por ĉiu galaksio estus elekti la plej oftan klasifikon. Tamen, ĉi tiu alproksimiĝo donus al ĉiu volontulo egalan pezon, kaj la esploristoj suspektis, ke iuj volontuloj estis pli bonaj je klasifiko ol aliaj. Sekve, la esploristoj disvolvis pli kompleksan iteratan pezan procedon kiu provis detekti la plej bonajn klasifikilojn kaj doni al ili pli da pezo.

Tiel, post tria-paŝo-procezo-purigado, pripensado kaj pezo-la teamo de esploro de la Zoologia Galaksio transformis 40 milionojn da volontulaj klasifikoj en aron da konsentoj morfologiaj klasifikoj. Kiam ĉi tiuj Galaksiaj Zoo-klasifikoj estis komparitaj kun tri antaŭaj plej malgrandaj-skalaj provoj de profesiaj astronomoj, inkluzive de la klasifiko fare de Schawinski kiu helpis inspiri Galaksion-Zoo, estis forta interkonsento. Tiel, la volontuloj, entute, povis provizi altkvalitajn klasifikojn kaj je skalo, kiun la esploristoj ne povis egali (Lintott et al. 2008) . Fakte, havante homajn klasifikojn por tiom multaj galaksioj, Schawinski, Lintott kaj aliaj povis montri, ke nur ĉirkaŭ 80% de galaksioj sekvas la atenditajn bluajn spiralojn kaj ruĝajn elipsaĵojn - kaj multajn paperojn estis skribitaj pri ĉi tiu malkovro (Fortson et al. 2011) .

Konsiderante ĉi tiun fonon, vi nun povas vidi kiel Galaksio-Zoo sekvas la apartan-apliki-kombinitan recepton, la saman recepton kiu estas uzata por plej multaj homaj komputilaj projektoj. Unue granda problemo dividiĝas en punktoj. En ĉi tiu kazo, la problemo klasifiki milionon de galaksioj dividiĝis en milionon da problemoj klasifikante unu galaksion. Tuj poste, operacio aplikiĝas al ĉiu bendo sendepende. En ĉi tiu kazo, volontuloj klasifikis ĉiun galaksion kiel spiralan aŭ elipsa. Fine, la rezultoj kombinas por produkti konsenton rezulton. En ĉi tiu kazo, la kombina paŝo inkluzivis la purigadon, diskutadon kaj pezon por produkti konsenton-klasifikon por ĉiu galaksio. Kvankam plej multaj projektoj uzas ĉi tiun ĝeneralan recepton, ĉiu paŝo devas esti personecigita al la specifa problemo adresata. Ekzemple, en la homa komputila projekto priskribita sube, la sama recepto estos sekvata, sed la apliki kaj kombini paŝojn estos sufiĉe malsamaj.

Por la Galaksia Zoo-teamo, ĉi tiu unua projekto estis nur la komenco. Tre rapide ili rimarkis, ke kvankam ili povis klasifiki proksime al miliono da galaksioj, ĉi tiu skalo ne sufiĉas labori kun pli novaj ciferecaj enketoj, kiuj povas produkti bildojn de proksimume 10 mil milionoj da galaksioj (Kuminski et al. 2014) . Por pritrakti pliigon de 1 miliono al 10 miliardoj-faktoro de 10,000-Galaksia Zoo bezonus rekruti proksimume 10,000 fojojn pli da partoprenantoj. Kvankam la nombro da volontuloj en Interreto estas granda, ĝi ne estas senfina. Sekve, la esploristoj rimarkis, ke se ili intencos ĉiam kreskantajn kvantojn da datumoj, nova, eĉ pli skalebla, aliro bezonis.

Sekve, Manda Banerji-laboranta kun Schawinski, Lintott kaj aliaj membroj de la Galaksia Zoo-teamo (2010) instrui komputilojn por klasifiki galaksiojn. Pli specife, uzante la homajn klasifikojn kreitajn de Galaksio Zoo, Banerji konstruis maŝinan modelon, kiu povus antaŭdiri la homan klasifikon de galaksio bazita sur la karakterizaĵoj de la bildo. Se ĉi tiu modelo povus reprodukti homajn klasifikojn kun alta precizeco, tiam la esploristoj de Galaksio-Zoo povus esti uzataj por klasifiki esence senfina nombro da galaksioj.

La enfokusigas de Banerji kaj kolegoj estas efektive bela simila al teknikoj komune uzataj en socia esplorado, kvankam tiu simileco eble ne klare ekrigardas. Unue, Banerji kaj kolegoj konvertis ĉiun bildon en aro de nombraj trajtoj, kiuj resumis ĝiajn posedaĵojn. Ekzemple, por bildoj de galaksioj, povus esti tri karakterizaĵoj: la kvanto de bluo en la bildo, la varianco en la brilo de la pikseloj, kaj la proporcio de ne-blankaj pikseloj. La elekto de la ĝentilaj trajtoj estas grava parto de la problemo, kaj ĝi ĝenerale postulas spertan areon. Ĉi tiu unua paŝo, komune nomata funkciaĵa inĝenierado , rezultas datumatrico kun unu vico por bildo kaj tiam tri kolumnoj priskribantaj tiun bildon. Donita la datuma matrico kaj la dezirata eligo (ekz., Ĉu la bildo estis klasifikita de homo kiel elipsa galaksio), la esploristo kreas statistikan aŭ maŝinatan modelon-ekzemple, logistan regreson- kiu antaŭdiras la homan klasifikon bazitan sur la karakterizaĵoj de la bildo. Fine, la esploristo uzas la parametrojn en ĉi tiu statistika modelo por produkti taksajn klasifikojn de novaj galaksioj (figuro 5.4). En maŝinlernado, ĉi tiu aliro - uzante etikeditaj ekzemploj por krei modelon, kiu poste etikedos novajn datumojn - estas nomata supervisita lernado .

Figuro 5.4: Simplifika priskribo de kiel Banerji et al. (2010) uzis la Galaksion-Zoo-klasifikojn por trejni maŝinan lernadon por fari galaksian klasifikon. Bildoj de galaksioj konvertiĝis en matrico de trajtoj. En ĉi tiu simpligita ekzemplo, ekzistas tri karakterizaĵoj (la kvanto de bluo en la bildo, la varianco en la brilo de la rastrumeroj, kaj la proporcio de nevelaj pikseloj). Tiam, por subaro de la bildoj, la Galaksiaj Zoo-etiketoj estas uzataj por trejni maŝinan lernadon. Fine, la maŝina lernado uzas por taksi klasifikojn por la ceteraj galaksioj. Mi vokas ĉi tiun komputilon-helpitan homan komputadon-projekton ĉar, anstataŭ havi homojn solvi problemon, ĝi havas homojn konstrui datumeton, kiu povas esti uzata por trejni komputilon por solvi la problemon. La avantaĝo de ĉi tiu komputila-helpita homa komputila sistemo estas, ke ĝi ebligas vin manipuli esence senfinajn kvantojn da datumoj uzante nur finitan kvanton da homa penado. Bildoj de galaksioj reproduktitaj per permeso de Sloan Cifereca Sky Survey.

Figuro 5.4: Simplifika priskribo de kiel Banerji et al. (2010) uzis la Galaksion-Zoo-klasifikojn por trejni maŝinan lernadon por fari galaksian klasifikon. Bildoj de galaksioj konvertiĝis en matrico de trajtoj. En ĉi tiu simpligita ekzemplo, ekzistas tri karakterizaĵoj (la kvanto de bluo en la bildo, la varianco en la brilo de la rastrumeroj, kaj la proporcio de nevelaj pikseloj). Tiam, por subaro de la bildoj, la Galaksiaj Zoo-etiketoj estas uzataj por trejni maŝinan lernadon. Fine, la maŝina lernado uzas por taksi klasifikojn por la ceteraj galaksioj. Mi vokas ĉi tiun komputilon-helpitan homan komputadon-projekton ĉar, anstataŭ havi homojn solvi problemon, ĝi havas homojn konstrui datumeton, kiu povas esti uzata por trejni komputilon por solvi la problemon. La avantaĝo de ĉi tiu komputila-helpita homa komputila sistemo estas, ke ĝi ebligas vin manipuli esence senfinajn kvantojn da datumoj uzante nur finitan kvanton da homa penado. Bildoj de galaksioj reproduktitaj per permeso de Sloan Cifereca Sky Survey .

La karakterizaĵoj en la maŝinforma modelo de Banerji kaj kolegoj estis pli kompleksaj ol tiuj en mia ludilo-ekzemple, ŝi uzis trajtojn kiel "de Vaucouleurs fit axial ratio" - kaj ŝia modelo ne estis loĝistika regresado, ĝi estis artefarita neŭra reto. Uzante ŝiajn trajtojn, ŝian modelon, kaj la konsentojn de Galaksio Zoo-klasifikoj, ŝi povis krei pezojn sur ĉiu funkcio, kaj tiam uzi ĉi tiujn pezojn fari antaŭdirojn pri la klasifiko de galaksioj. Ekzemple, ŝia analizo trovis, ke bildoj kun malaltaj "de Vaucouleurs fit axial ratio" estis pli verŝajne esti spiralaj galaksioj. Pro ĉi tiuj pezoj, ŝi povis antaŭdiri la homan klasifikon de galaksio kun racia precizeco.

La laboro de Banerji kaj kolegoj igis Galaksion-Zoo en kion mi nomus komputil-helpita homa komputila sistemo . La plej bona maniero por pensi pri ĉi tiuj hibridaj sistemoj estas, ke se homoj havigas problemon, ili homoj kreas datumon, kiu povas esti uzata por trejni komputilon por solvi la problemon. Kelkfoje, trejnanta komputilon por solvi la problemon povas postuli multajn ekzemplojn, kaj la sola maniero por produkti sufiĉan nombron da ekzemploj estas masa kunlaboro. La avantaĝo de ĉi tiu komputila helpo-aliro estas, ke ĝi ebligas vin manipuli esence senfinajn kvantojn da datumoj uzante nur finitan kvanton da homa penado. Ekzemple, esploristo kun miliono da homaj klasifikitaj galaksioj povas konstrui antaŭdifektivan modelon, kiu tiam povas esti uzita por klasifiki miliardojn aŭ eĉ milionojn da galaksioj. Se estas multe da galaksioj, tiam ĉi tiu speco de homa komputila hibrido estas vere la sola ebla solvo. Ĉi tiu senfina skabileco ne estas senpaga, tamen. Konstrui maŝinan lernadon, kiu povas korekte reprodukti homajn klasifikojn, estas malfacila problemo, sed feliĉe ekzistas jam bonegaj libroj dediĉitaj al ĉi tiu temo (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaksia Zoo estas bona ilustrado de kiom da homaj kalkulaj projektoj evoluas. Unue, esploristo provas la projekton de si mem aŭ kun malgranda teamo de esploraj helpantoj (ekz. La komenca penado de Schawinski). Se ĉi tiu aliro ne skuas bone, la esploristo povas moviĝi al homa komputila projekto kun multaj partoprenantoj. Sed por certa volumo da datumoj, pura homa penado ne sufiĉos. Ĉe tiu punkto, esploristoj bezonas konstrui komputilon-helpitan homan komputilon, en kiu homaj klasifikoj estas uzataj por trejni maŝinatan modelon, kiu povas esti aplikata al preskaŭ senlimaj kvantoj da datumoj.