5.2.1 aise Zoo

Vexin Zoo unisci i sforzi di parechji vuluntarii non-tercani à classify un miliuni galaxies.

Vexin Zoo nata di un prublemu à affruntà par Kevin Schawinski, un studiente Lauriatu in Astronomy a l'Univirsitati di Oxford in 2007 Simplifying una sosula appena, Schawinski era ntirissatu a galaxies, è galaxies pò esse classificatu da u so morphology-ellittichi o spirale-e par u so culore-blu o rossu. À i tempi, a saviezza cunvinziunali à mezu à astronomers era chì galaxies spirali, cum'è a nostra funtana di Way, eranu blu in culore (ghjuventù mintuvendu) è chì galaxies ellittichi erani rossi in culore (mintuvendu vichjàia). Schawinski doubted stu saviezza cunvinziunali. Iddu u suspetta che mentri stu mudellu Pò esse vera in generale, ùn ci eranu prubbabbirmenti nu nummiru sizable di eccezzioni, è chì da studià carchi di ste sfarente galaxies-chiddi ca nun stava bonu lu spetta fasciu-ch'ellu pudia amparà calcosa circa lu prucessu à traversu chì galaxies furmata.

Dunque, ciò chì Schawinski bisognu di modu à overturn saviezza cunvinziunali era un grande gruppu di galaxies murfulugicamenti Criterium; chì hè, galaxies chì era statu classatu com'è sia in spirale, o ellittichi. U prublema, però, era chì i metudi mottu bassa, attuali di classìfica ùn eranu ancu abbastanza bona à esse adupratu per a ricerca scientifica; nta àutri palori, galaxies classifying era, a ddu tempu, un prublemu chì ci era dura di li computers. Ghjè per quessa, ciò chì era bisognu era un granni nùmmaru di galaxies faci partita di umani. Schawinski principia stu prublemu classìfica cù u fervori di un studiente Lauriatu. In una sessione di tradimentu di setti, di ghjorni 12-ora, si firava a classify 50.000 galaxies. Mentri 50.000 galaxies po sonu, comu assai, hè primurosu solu cunteni circa dû 5% di u quasi un miliuni galaxies chì era statu fotografiatu in u Sky bambino Sloan Digital. Schawinski avvisti ch'ellu avia bisognu d'un accostu di più scalable.

Par furtuna, si gira fora ca lu compitu di galaxies classifying ùn hà bisognu di furmazione avanzata à l 'astronumìa; pudete insignà à qualchisia à fà lu beddu prestu. Nta àutri paroli, ancu s'è classifying galaxies hè un compitu chì era dura di impianti, era beddu faciuli di la cumpagnia. Allura, mentri à pusà in un francese pub a Oxford, Schawinski è feritu astronomu Chris Lintott imprecisu, su un situ induve vuluntari putìssiru classify imàgini di galaxies. Qualchi mesi dopu, aise Zoo era natu.

À u situ aise Zoo, vuluntari chì si sottuponghenu uni pochi di minuti di a furmazione; per esempiu, què a sfarenza trà un cornu, è aise ellittichi (Figura 5,2). Dopu à sta furmazione, i vuluntari avianu a passari 'na abbastanza fàciuli affranchir-cum'ellu ci vole classifying 11 of 15 galaxies cu canusciutu Brutt-e poi i vuluntarii spartuti à putìssiru comincia vera classìfica di galaxies scunnisciutu attraversu na semprici interfaccia Web-based (Figura 5,3). Lu passaggiu di vuluntarii spartuti à astronomu putìssiru pigghiari postu in menu di 10 minuti è tenutu solu passavanu u più bassu di provi, 'na simprici affranchir.

Figura 5,2: Esempii di i dui tipi principali di galaxies: spirale e ellittichi. U prugettu di Vexin Zoo usatu chiossai di 100.000 vuluntari a categorie di più chè 900.000 imàgini. Source: www.galaxyzoo.org.

Figura 5,2: Esempii di i dui tipi principali di galaxies: spirale e ellittichi. U prugettu di Vexin Zoo usatu chiossai di 100.000 vuluntari a categorie di più chè 900.000 imàgini. Source: www.galaxyzoo.org .

Figura 5,3: screen Input unni elettori eranu custritti a classify una sola fiura. Source: www.galaxyzoo.org.

Figura 5,3: screen Input unni elettori eranu custritti a classify una sola fiura. Source: www.galaxyzoo.org .

Vexin Zoo attrattu da a so vuluntari nizziali dopu à u prugettu era statu in un articulu news, è in circa sei mesi, u prugettu cresce a vennu cuimmurciuti più chè 100.000 scinziati citadinu, ghjente chì anu combattuti pirchi I appi lu compitu, è si vulia ad aiutari l 'astronumìa nanzu. Insemi, sti 100.000 vuluntari, hà cuntribuitu un tutali di cchiù di 40 miliuna di Pavel, cu la maggiuranza di li Pavel vinia da un rilativamenti nichi, gruppu cintrali di i participanti (Lintott et al. 2008) .

Arricercatura s'addunaru ca hannu sperienza li assistenti di ricerca pressu Pò esse subitu scetticu su qualità di dati. Mentri chistu lu scetticismu hè bonu, aise Zoo mostra chì quandu i cuntributi è vuluntarii spartuti à sò cum'ellu ci vole pulito, debiased, è aggregated, si pò prudùciri risultati high-di qualità (Lintott et al. 2008) . An prighjuneru impurtante di riuniri la fudda di creà dati di qualità prufessiunale è redundancy; chì hè, avendu u listessu compitu svorgi pi tanti populi diversi. In aise Zoo, ci erani guasi 40 Brutt € per aise; circadori usannu assistenti di ricerca pressu putìa mai pagari stu livellu di redundancy è dunque bisognu à essa moltu più cuncernatu cù i qualità di ogni individuu classìfica. Chì i vuluntari mancava in furmazione, si cumpostu di cu redundancy.

Ancu cù a multiplicità di Pavel € per Vexin, però, ca cummina u ghjocu di Pavel è vuluntarii spartuti à l 'elaburazione di un classìfica aaniim hè scaltru. A causa maiò assai simile à truvà à più prugetti càlculu umani, ghjè Corsets à revue de prestu prestu i trè passi, ca lu circadori aise Zoo usatu ppi pruduciri li Pavel aaniim. Prima, i circadori "puliti" li dati da toglie Pavel call. Per esempiu, genti chi curputu faci partita di u stessu Vexin français-quarchi cosa ca a succediri si circàvanu a manighjà u risultatu-avutu tutti i so Pavel Entrée. Chistu è altre pulizia listessu cacciatu circa 4% di tutti Pavel.

Siconda, dopu à pulizia, u circadori vulsutu à sguassà biases sistimàticu in Pavel. Attraversu na serî di studi supra a lu priggiudizziu imbarcati moins de l 'esempiu di urigginali prugettu-di, mustrà parechji vuluntarii spartuti à l' âme in Tufa, 'nveci di culuri-i circadori scupertu parechje biases omicidiu, comu' na lu priggiudizziu sistimàticu à classify galaxies luntani spirali comu galaxies ellittichi (Bamford et al. 2009) . Cuscinetti di sti biases omicidiu è assai mpurtanti pirchì cumpresa tanti cuntributi ùn smarisce a lu priggiudizziu sistimàticu; si Efface solu errore incerta.

Infine, dopu à debiasing, i circadori bisognu di un mètudu à mischjà u singulu individuu Pavel pi prudùciri na classìfica aaniim. U più sèmplice di mischjà Pavel per ogni aise saria à sceglie a classìfica più cumuna. A ogni modu, stu approcciu dùnanu tutti è vuluntarii spartuti à a pisu uguali, è i circadori u suspetta che qualchi vuluntarii eranu megliu a classìfica di l 'autri. Ghjè per quessa, i circadori sviluppatu una di più cumplicatu chè a chila musculus chì prova a detect in autumàticu u megliu classifiers è dà li di più pesu.

Cusì, dopu à un trè à pocu prucessu di-pulizia, debiasing, e chila-la squatra di ricerca aise Zoo avia cunverta à 40 milioni d Pavel è vuluntarii spartuti à nantu à una ghjocu di aaniim Pavel murfulòggicu. Quannu sti Pavel aise Zoo foru paragunatu à trè merre prove urigginariu-scala par astronomers prufessiunale, cumprisa la classìfica di Schawinski ca sirvìu a strumenta aise Zoo, ci era forti accordu. Cusì, i vuluntari, in aggregate, eranu capaci à purtà un Pavel high quality, e at a scala chì i circadori ùn pudia piu (Lintott et al. 2008) . In fattu, par avè Pavel umana di 'na gran numaru di galaxies tali, Schawinski, Lintott, è altri eranu capaci pi fari capiri ca sulu circa 80% di galaxies seguità u spirals spetta fasciu-blu e ellipticals-e russu numerosi articuli hannu statu scrittu circa sta scuperta (Fortson et al. 2011) .

Datu stu fondo, si pò avà vede cumu aise Zoo di a siguenti manera la divisioni-applicàrisi àutri-valdi ricetta, lu stissu ricetta chi veni usatu di cchiù prugetti càlculu umanu. Prima, un problema granni hè divisa in Suebi. In stu casu, u prublema di classifying un miliuni galaxies hè divisa in un miliuni di prublemi di classifying unu aise. Next, un funziunamentu veni appricatu a ogni Chunks indipindente. In stu casu, un è vuluntarii spartuti à putìssiru classify ogni aise comu sia in spirale, o ellittichi. Infine, i risultati sò assuciata à l 'elaburazione di un risultatu aaniim. In stu casu, u passu di mischjà facía la pulizia, debiasing, e chila a prudùciri na classìfica aaniim per ogni aise. Ancu sè più prugetti aduprà sta ricetta ginirali, ognunu di i passi, ci vole à persunalizà a lu prublema identitariu esse infurmazione. Per esempiu, in u prugettu càlculu umani discritta quì sottu, u listessu ricetta sarà suvitatu, ma i passi di dumandà è valdi sarà antìtisi.

Di l 'squatra aise Zoo, stu primu prugettu era ghjustu u principiu. Ma Bellu prestu si resenu contu, anchi si iddi eranu capaci à classify vicinu a un miliuni, galaxies, sta scala ùn hè micca abbastanza pi travagghiari cu salumi, cielo, digitale, robba, chì pudia fà imàgini di circa 10 miliardi galaxies (Kuminski et al. 2014) . Per trattà di una crèscita di 1 millionu a 10 miliardi d-un fattore di 10.000-Vexin Zoo avissi bisognu di ricrutari all'incirca 10000 volte di più i participanti. Puru siddu lu nùmmiru di vuluntarii spartuti à nantu à u internet è grossu, ùn hè più infinita. Ghjè per quessa, i circadori di capiri ca si cci nni jemu a trattà sempre crescente limitati, di data, era bisognu di na nova, ancu più scalable, avvicinamentu.

Ghjè per quessa, Manda Banerji-travagghiannu cu Kevin Schawinski, Chris Lintott, e autri membri di u impianti insignamentu di a squatra-principianu aise Zoo à classify galaxies. Più pricisamenti, usannu la Pavel umani criatu da aise Zoo, Banerji et al. (2010) custruiri un mudellu di machine ca putìa predict classìfica umana di una aise basatu supra lu carattari di l 'imagine. S'è stu mudellu machine à perdre pudia argentu ripruducìrisi nni l 'Pavel umani cù alta accuratezza, allura putissi èssiri usatu par circadori aise Zoo à classify nu nùmmiru balla nfinitu di galaxies.

U nòcciulu di Banerji e culleghi 'avvicinamentu hè primurosu di bedda similar to tecniche cumunimenti usatu in a ricerca suciali, puru siddu chi similàri pudia micca esse semplice di primu sguardu. Prima, Banerji e culleghi cunvirtuti ogni fiura n modu nu gruppu di carattiristichi numeric chì in craru qualle pruprità. Per esempiu, per imàgini di galaxies ùn ci pudia esse trè particularità: u numeru di turchinu à la figura, dâ varianza in u splendore di i pixel, è u Data di pixel non-bianchi. A selezzione di i carattiristichi currettu hè una parti impurtanti di u prublemu, e si abbisogna di sòlitu sapè fà sughjettu-spaziu. Stu primu passu, cumunimenti chiamata capace ingegneria, résultats in una matrice di dati cù unu fila pi fiura e allura tri culonni addiscriviennu chi imagine. Vistu u matrici di dati è i radicali avrìanu pututu chjamà (per esempiu, sia siddu la figura fù classatu da un umanu com'è un aise ellittichi), u militante estimates i paràmetri di un esempiu di statìstiche mudellu-di quarchi cosa comu un rughju di-ca project priveda, u classìfica umana basati nantu à u prughjettu di a maghjina. Infine, u militante adopra i paràmetri di a stu mudellu di statìstiche di pruducia Pavel piscadori di novu galaxies (Figura 5.4). E pinsari di un simulate suciale, à pensà chì si avianu nantu à u corsu demugrafica di circa un miliuni di i studienti, è voi sapiri siddu si lauriau da u liceu o micca. You pudia micca à pienu un rughju di project à sta data, è tandu ùn si pudia aduprà i paràmetri di mudellu cunsiguenti à predict s'ellu nove studianti jemu a chjappu u so diploma da u liceu. In amparera machine, stu approcciu-usannu li siquenti sunnu asempî tichittati pi criari un mudellu di statìstiche, chì ponu tandu incullà novu dati-veni chiamatu Prughjettu learning French (Hastie, Tibshirani, and Friedman 2009) .

Figura 5,4: Description simplificatu di quantu Banerji et al. (2010) usatu u Pavel aise Zoo di furmà un mudellu di machine à fà classìfica aise. Images de galaxies foru cunvirtuti nta na matrici di a funziunalità. In issu esempiu di pratica ùn ci sò trè particularità (u numeru di turchinu à la figura, dâ varianza in u splendore di i pixel, è u Data di pixel non-bianchi). Allora, per un subset di u images, u etichette aise Zoo sò aduprati à furmà un mudellu di machine à perdre. Nfini, tutti li machine à perdre veni usatu à cuntà Pavel di li truppi galaxies. I chjamate stu tipu di prughjettu un prugettu programming umani siconda-generazione perchè, chiu tostu di avè la cumpagnia di scioglie un prublemu, iddi hannu la cumpagnia di custruisce un dataset chì pò ièssiri usatu a furmà un urdinatore à scioglie u prublema. U benefiziu di stu approcciu urdinatore-aiutu è chì si permette à voi à dà capu à balla nfinitu limitati, di dati usendu sulu na quantità core di sforzu umanu.

Figura 5,4: Description simplificatu di quantu Banerji et al. (2010) usatu u Pavel aise Zoo di furmà un mudellu di machine à fà classìfica aise. Images de galaxies foru cunvirtuti nta na matrici di a funziunalità. In issu esempiu di pratica ùn ci sò trè particularità (u numeru di turchinu à la figura, dâ varianza in u splendore di i pixel, è u Data di pixel non-bianchi). Allora, per un subset di u images, u etichette aise Zoo sò aduprati à furmà un mudellu di machine à perdre. Nfini, tutti li machine à perdre veni usatu à cuntà Pavel di li truppi galaxies. I chjamate stu tipu di prughjettu un prugettu programming umani siconda-generazione perchè, chiu tostu di avè la cumpagnia di scioglie un prublemu, iddi hannu la cumpagnia di custruisce un dataset chì pò ièssiri usatu a furmà un urdinatore à scioglie u prublema. U benefiziu di stu approcciu urdinatore-aiutu è chì si permette à voi à dà capu à balla nfinitu limitati, di dati usendu sulu na quantità core di sforzu umanu.

Li carattiristichi in Banerji et al. (2010) màcchina mudellu amparera eranu più cumplessa cà quelli chì a mio frasca esempiu di-per esempiu, avvezza features, comu "De Vaucouleurs meddu inquadramentu trip" -and u so mudeddu ùn era rughju di project, ci era una reta filaire artificiali. Aduprendu a so funziunalità, u so mudellu, è i aaniim Pavel aise Zoo, idda fu capaci di creà pesi nantu à ogni casu, e poi usari sti pesi a fari divi circa la classìfica di galaxies. Per esempiu, a so analisi trovu chì imagini cu articuli a vascia "De Vaucouleurs meddu inquadramentu trip" eranu più atta à esse galaxies spirali. Vistu ste pesi, idda fu capaci di predict classìfica umana di una aise cù pricisioni e raggiunevuli.

U travagliu di Banerji et al. (2010) girava aise Zoo in ciò ch'e avissi chjama un sistema càlculu umani siconda-generazione. U megliu à riflette à sti sistemi siconda-generazione è chì piuttostu chè avè la cumpagnia di scioglie un prublemu, iddi hannu la cumpagnia di custruisce un dataset chì pò ièssiri usatu a furmà un urdinatore à scioglie u prublema. U numeru di dati hè vulsutu à amparà lu computer ponnu essiri accussì grùassu, ca abbisogna a cullaburazioni di massa umani pi criari. Nta lu casu di Vexin Zoo, u sociaux filaire usatu par Banerji et al. (2010) nicissarii à assai granni nùmmiru di li siquenti sunnu asempî umani-tichittatu in ordini di custruiri un mudellu chì era capaci di ripruducesi reliably classìfica umanu.

U benefiziu di stu approcciu urdinatore-aiutu è chì si permette à voi à dà capu à balla nfinitu limitati, di dati usendu sulu na quantità core di sforzu umanu. Per esempiu, una ricerca incù un miliuni galaxies classatu umana pò custruì un mudellu predictive chì ponu tandu esse adupratu à classify un miliardi o ancu un As Roma galaxies. S'elli ci sò enormi numeri di galaxies, poi stu tipu d 'o umani-urdinatore è veramenti u solu suluzione pussibule. Stu scalability nfinitu ùn hè micca free, parò. Bâtiment, un mudellu di machine à perdre chì ponu ripruduce cum'ellu ci vole u Pavel umani è iddu stissu un prublema difficiuli, ma furtuna, ci sò dighjà accillenti libbra, addidicatu a stu tema (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Vexin Zoo ammustra lu prucessu di evoluzioni di parechji prugetti càlculu umanu. Prima, un militante prova di u prugettu di idda stissa o cù una piccula squadra di assistenti di ricerca (per esempiu, sforzu classìfica nizziali d'Schawinski). S'è stu approcciu ùn scala bè, u militante ponnu passari a un prugettu càlculu umana duve tanti pirsuni cuntribuisce Pavel. Ma, per un certu vulume di dati, pura sforzu umanu sarà micca esse abbastanza. A ddu puntu, circadori bisognu di fà custruisce sistemi siconda-generazione unni Pavel umani sò aduprati à furmà un mudellu di machine à perdre chì ponu tandu esse appiicata à limitati, guasi illimitatu di dati.