5.2.1 Galaxy Zoo

Galaxy Zoo şêweyên hewldanên gelek dilxwazên non-pispor ji bo bisenifînin a milyon û binetarê.

Galaxy Zoo mezin ji pirsgirêk ji aliyê Kevin Schawinski, xwendekara masterê li Astronomy li Zanîngeha Oxford in 2007. yekkirina gelekî bit, Schawinski bala hingī bû rû bi rû, û galaksiyê, dikare ji aliyê nepenî xwe (morfolojiyê)-elliptical an spiral-û destê xwe color-şîn an sor. Di wê demê de, şehrezayî adetî, di nav Astronomên bû, ku hingī spiral, wek rêya Kadizan me, şîn di reng (diyar dike ciwanan) de bûn û ku hingī elliptical di rengê sor bûn (diyar dike pîrbûnê). Schawinski ev şehrezayî konvansiyonel, dudilî bûn. Wî gumandar bû ku dema ku ev pattern bibe giştî rast, bûn dibe li wir gelek Kurd têde bicîhin îstîsnayan, û ku bi xebitîna gelek ji van galaksiyan-ji nedîtî yên ku ew ne hêjayî li çaverê pattern-ew nikare tiştekî di derbarê pêvajoyê de hîn bibin bi riya ku hingī avakirin.

Bi vî awayî, çi Schawinski pêwîst in, da ku bi muxbîrî şehrezayiya adetî a set mezin binetarê ​​morphologically nehênî bû; ku ev e, ko hingī ku weke spiral an elliptical nepenî dîtin. The Lê belê, pirsgirêk ew bû ku rêbazên algorithmic heyî ji bo Dabeşandina bûn yet têra xwe baş ji bo lêkolîna zanistî were bikaranîn ne; bi gotineke din, ko hingī classifying a pirsgirêka ku zehmet ji bo komputer bû, di wê demê de,. Ji ber vê yekê, çi pêwîst bû, ku hejmareke mezin ji hingī nepenî mirovan bû. Schawinski vê pirsgirêkê Dabeşandina bi coş ên xwendekara masterê sitendin. Di danişîneke maratona heft, rojên 12-saetê de, ew nikare de bisenifînin 50,000 hingī bû. Gava 50,000 galaksiyê dikarin wek gelek sound, ew e bi rastî tenê li ser 5% ji hema hema yek milyon û binetarê ​​ku di Survey Sky Sloan dîjîtal wêneyên dîtin. Schawinski fêm kir ku ew nêzîkatiya Comment zêdetir pêwîst.

Cihê kêfxweşiyê ye, ew dema derkeve holê ku bi erkê hingī classifying nade perwerdeya pêşketî li astronomî ne hewce; tu ji kesekî ew çi rind zû hînî min bike. Bi gotineke din, tevî ku classifying galaksiyê, karekî, ku dijwar ji bo komputer bû e, ew ji bo mirov rind û hêsan bû. Bi vî awayî, çaxê ku rûniştî di pub li Oxford, Schawinski û Astronom, Chris Lintott di xewna xwe a di malpera ku dilxwazên wê images of galaksiyan de bisenifînin. Piştî çend mehan, Galaxy Zoo ji dayik bû.

Di malpera Galaxy Zoo, dilxwazên dê were a çend xulekan ji perwerdeya; ji bo nimûne, hîn Ferqa di navbera bînayên û galaxy elliptical (WÊNE 5.2). Piştî vê perwerdeyê, dilxwazên hebû derbas a nisbî bi hêsanî quiz-kardike classifying 11 of 15 hingī bi zanîn tesnîfkirin-de û paşê bi dilxwaz dê Dabeşandina rast binetarê ​​nenas dest bi saya virtual-based web hêsan dike (Şikil 5.3). Derbasbûna ji Dilxwaz ji bo astronom dê li kêmtir ji 10 deqeyan bigire û tenê pêwîst derbas herî bênirx hurdles, a quiz sade.

Figure 5.2: Mînakên du cureyên sereke yên hingī: spiral û elliptical. Ku projeya Galaxy Zoo zêdetir ji 100,000 dilxwazên Kategoriyên bi bêtir ji 900.000 wêneyan werin bikaranîn. Source: www.galaxyzoo.org.

Figure 5.2: Mînakên du cureyên sereke yên hingī: spiral û elliptical. Ku projeya Galaxy Zoo zêdetir ji 100,000 dilxwazên Kategoriyên bi bêtir ji 900.000 wêneyan werin bikaranîn. Source: www.galaxyzoo.org .

Figure 5.3: screen Input ku hilbijêran hatin pirsîn ji bo bisenifînin wêneyekî yek. Source: www.galaxyzoo.org.

Figure 5.3: screen Input ku hilbijêran hatin pirsîn ji bo bisenifînin wêneyekî yek. Source: www.galaxyzoo.org .

Galaxy Zoo dilxwazên destpêkê xwe dikşîne, piştî ku proje di nûçeyek featured bû, û li dora şeş mehan de projeya mezin ji bo tevlêkirin zêdetir ji 100,000 zanyar hemwelatiyê, kesên ku beşdar bûn, ji ber ku ew di karê kêf û wan dixwest alîkariya astronomî pêşwext. Bi hev re, di van 100,000 dilxwazên keda wan bi giştî ji 40 milyonan zêdetir tesnîfkirin, bi piraniya tesnîfkirin hatina ji, komeke biçûk sereke yên beşdarên (Lintott et al. 2008) .

Lêkolînerên ku xwedî tecrûbe ne, dibęjin asîstanên lêkolîn lîsans di cih de bibe bi gûman û li ser kalîteya welat be. Gava ku ev Mundo maqûl e, Galaxy Zoo dide nîşandan ku dema Beşdariyên ji bo dilxwaz bi rast nehat paqijkirin, debiased, û -şandîyên, ew dikarin results-high quality hilberîne (Lintott et al. 2008) . An trick girîng ji bo daketina bi nav elaletê de ji bo afirandina welat quality profesyonel di çarçova e; ku, piştî ku wezîfeya xwe bi heman alîyê gelek kesan ve. Di Galaxy Zoo, li dora 40 tesnîfkirin per galaxy hene; lêkolînerên bikaranîna asîstanên lêkolîn lîsans qet nedikarî vê astê de ji çarçova qerebûyê de nînin û ji ber vê yekê divê ji bo gelek bi fikar zêdetir bi qalîteya Dabeşandina şexsî. Çi dilxwazên di perwerdê de tunebû, ew ji bo bi çarçova çêkirin.

Even bi tesnîfkirin multiple per galaxy, lê belê, yekbûneke set tesnîfkirin dilxwaz ji bo hilberîna a Dabeşandina lihevkirina cambaziyê ye. Ji ber ku têkoşîneke pir dişibe li piraniya projeyên computation mirovan rabe, ew alîkar bi kurtî revue de sê gavên ku lêkolîneran Galaxy Zoo bikaranîn ji bo hilberîna tesnîfkirin lihevkirina wan e. Yekem, ku lêkolînerên "paqij" li welat bi rakirina tesnîfkirin sexte. Ji bo nimûne, kesên ku gelek caran nepenî di heman galaxy-tiştekî ku dê çi bibe, eger ew dixebitîn ku destwerdanê di encamên-hemû tesnîfkirin xwe re rûb. Ev û paqijî similar din li ser% 4 ji hemû tesnîfkirin rakirin.

Duyem, piştî paqijî, lêkolînerên ku pêwîst ji bo jê meylekê sîstematîk li tesnîfkirin. Bi saya rêze xebatên tespîtkirinê bias bicîbûyî de di nava nimûne projeya-ji bo original, nîşandana hin dilxwazên ya galaxy li monochrome li şûna color-ku lêkolîner bi çend meylekê sîstematîk, wek bias sîstematîk ji bo bisenifînin hingī dûr spiral wek hingī elliptical vedîtin (Bamford et al. 2009) . Nexşerêya ji bo van rewşên sîstematîk gelek girîng e ji ber ku bi naverastî gelek Beşdariyên ji bo nade bias sîstematîk jê ne; ew bi tenê dikarî dike, error random.

Di dawiyê de, piştî debiasing, ku lêkolîner metoda bi hev re li tesnîfkirin şexsî ji bo hilberîna a Dabeşandina lihevkirina pêwîst. Herî hêsan û rê bi hev re tesnîfkirin ji bo her galaxy dê ji bo hilbijartina Dabeşandina herî. Lê belê, ev nêzîkatiya dê her dilxwaz weight wekhev bide, û lêkolînerên ku bi gumana ku hinek dilxwazên baştir li Dabeşandina ji yên din bûn. Ji ber vê yekê, ku lêkolînerên prosedureke giraniya iterative tevlihevtir e ku hewldanên ji bo automatically jixweber herî baş classifiers û ji wan zêdetir bide pêş.

Bi vî awayî, piştî ku sê gav pêvajoya-paqijî, debiasing, û giraniya-tîma lêkolînê Galaxy Zoo 40 milyon tesnîfkirin dilxwaz nav a set lihevkirina tesnîfkirin peyvsazî şa bû. Dema ku van tesnîfkirin Galaxy Zoo ji bo sê hewldanên-scale biçûk yên berê ji aliyê Astronomên profesyonel, di nav wan de Dabeşandina destê Schawinski ku alîkariya ku karibûye Galaxy Zoo bihêt kirin bû, peymaneke bi hêz heye. Bi vî awayî, dilxwaz, li pź kir, nikarin ne tesnîfkirin high quality bûn û li pîvaneke ku lêkolînerên ku nikaribû bi hev (Lintott et al. 2008) . Di rastiyê de, ji aliyê ku tesnîfkirin mirovan, ji bo vê hejmara mezin ji hingī, Schawinski, Lintott, û yên din jî ji bo ku nîşan bide ku tenê 80% ji hingī li pey EPA çaverê pattern-şîn û ellipticals-û sor û belgeyên gelek kes li ser nivîsîn bûn ev vedîtina (Fortson et al. 2011) .

Ji ber vê yekê, em niha dikarin bibînin çawa Galaxy Zoo wiha perçe-serî-êlêmêntên recipe, Reçeteya eynî ye, ku ji bo piraniya projeyên computation mirovan tê bikaranîn. Yekem, pirsgirêkeke mezin e nav werdikirin û parçekirin. Di vê rewşê de, ji bo pirsgirêka classifying a milyon hingī ji nav a milyon pirsgirêkên classifying yek galaxy parçe. Next, operasyona ji bo her chunk serbixwe serî. Di vê rewşê de, ya dilxwaz dê her galaxy weke spiral an elliptical de bisenifînin. Di dawiyê de, encamên bi hevra ji bo hilberîna di encama lihevkirina. Di vê rewşê de, gava êlêmêntên de paqijî, debiasing, û giraniya ji bo hilberîna a Dabeşandina lihevkirina ji bo her galaxy. Tevî ku piraniya projeyên bikaranîna vî tarîfa giştî, ku her yek ji gavên pêwîst ji bo takekesî ji bo pirsgirêka taybet ku peyivî. Ji bo nimûne, di projeyê de computation mirovan li jêr, Reçeteya heman bê li pey wê, lê di serî û êlêmêntên gavên wê pir cuda.

Ji bo tîma Galaxy Zoo, vê projeyê yekemîn tenê di destpêkê de bû. Pir zû ew fêm kir ku tevî ku ew karibin de bisenifînin nêzîkî milyon û binetarê ​​bûn, di vê skalayê e ne bes ji bo xebatê bi anketên Digital Sky nûtir, ku nikaribû images of about 10 milyar û binetarê ​​hilberîne (Kuminski et al. 2014) . Ji bo çareserkirina zêdebûna ji 1 milyon heta 10 milyar-faktoreke 10,000-Galaxy Zoo pêdivî dê ji bo peydakirina dora 10,000 caran zêdetir beşdarvan. Tevî ku hejmara dilxwazên ku li ser înternetê mezin e, ew e ji her demê ra ne. Ji ber vê yekê, lêkolînerên ku fêm kir ku, eger ew bi ku ve diçin ji bo çareserkirina mîqdarên her diçe zêde dibe ya welat, a nû, heta Comment bêtir, nêzîkatiya pêwîst bû.

Ji ber vê yekê, Manda Banerji-kar bi Kevin Schawinski, Chris Lintott, û endamên din ên ekîba-Guherandinên Galaxy Zoo komputer û hînkirina bi bisenifînin hingī. Bi taybetî, bi bikaranîna tesnîfkirin mirovan tên afirandin ji aliyê Galaxy Zoo, Banerji et al. (2010) modeleke fêrbûna makîneyeke ku dikarin Dabeşandina mirovan ji galaxy li ser taybetiyên wêneyê pêşbînî avakirin. Eger ev model fêrbûna makîne dikare li tesnîfkirin mirovan bi rastbûna bilind lawazî, ew jî ew dikarin ji aliyê lêkolînerên Galaxy Zoo ji bo bisenifînin hejmara bingeh de ji her demê ra binetarê.

Sereke yên nêzîkatiya Banerji û hevalên 'e bi rastî rind similar to teknîkên bi gelemperî di lêkolînên civakî tê bikaranîn, tevî ku similarity ne bibe awira ewilî de zelal be. Yekem, Banerji û hevalên hev image nav a set of features hejmar, ku bi kurtî ev milkên misilman. Ji bo nimûne, ji bo images of galaksiyê dikarin bibin sê taybetiyan heye: li gorî mêjera şîn di wêneyê de, bi berdewam di aşopên xwe ya pixel, û rêjeya pixels ne-spî. Di hilbijartinê de ji taybetmendiyên rast, parçeyeke girîng ya ku pirsgirêk e, û ev bi giştî pêwîstî bi pisporî subject-herêmê. Ev gava yekem, bi gelemperî engineering fîlma bi navê, encamên di matrix welat bi yek row per image û paşê sê stûnên danasîna ku image. Ji ber matrix welat û di encam xwestin (wek nimûne, ka wêneyê de ji aliyê mirovan wek galaxy elliptical nepenî kirin), ji aliyê lêkolînera texmîn dike ku Parametreyên yên modela-ji bo nimûne, îstatîstîk, tiştekî wek regresyonê-ku lojîstîk Şefeq ya Dabeşandina mirovan li li ser taybetmendiyên image. Di dawîyê de, lêkolînerê zimên Hirç di vê modela îstatîstîkî ji bo hilberîna tesnîfkirin bi texmînî binetarê ​​nû (WÊNE 5.4). To ji analog civakî difikirin, difikirin, ku tu agahî demografîk li ser milyon xwendekarên hebû, û tu dizanî ka ew mezûn ji zanîngehê yan ne. We nikaribû a regresyonê bi cihbûn û ev welat fit, û hingê hûn dikarin li gora modela encama mirov pêşbînî bike, ka xwendekarên nû diçin mezûn ji zanîngehê bi kar tînin. Di hînbûna machine, ev nêzîkatiya-bikaranîna wergerandî etîketa ji bo avakirina modela îstatîstîkî wê, ku dikarin beşek nû data-navê serpereştyarê fêrbûna (Hastie, Tibshirani, and Friedman 2009) .

Figure 5.4: description hêsankirî yên çawa Banerji et al. (2010) bi kar tesnîfkirin Galaxy Zoo perwerdeyê ji bo modela fêrbûna machine to do Dabeşandina galaxy. Images of hingī di matrix ji taybetmendiyên şa bûn. Di vê mînakê de tê hêsan in sê taybetiyan (mêjera şîn di wêneyi, berdewam di aşopên xwe ya pixel, û rêjeya pixels ne-spî) heye. Hingê, ji bo binkoma ya images, li labels Galaxy Zoo bi bikaranîn perwerdeyê ji bo modela fêrbûna machine. Di dawiyê de, fêrbûna makîneya tê bikaranîn ji bo texmîn tesnîfkirin bo galaksiyan mayî. Ez bi vî rengî re dibêjî-nifşê duyem projeya computational mirovan ji ber ku, li şûna ku mirov a pirsgirêkê çareser bike, ew mirov di avakirina dataset ku dikare were bikaranîn ji bo perwerde a komputerê ji bo çareserkirina pirsgirêkê. The sûd ji vê nêzîkatiya-alîkarî dibe ew e ku, dihêle ku tu ji bo çareserkirina mîqdarên di bingeh de ji her demê ra ji welat bikaranîna tenê beşekê aqilê ji hewldana mirovan.

Figure 5.4: description hêsankirî yên çawa Banerji et al. (2010) bi kar tesnîfkirin Galaxy Zoo perwerdeyê ji bo modela fêrbûna machine to do Dabeşandina galaxy. Images of hingī di matrix ji taybetmendiyên şa bûn. Di vê mînakê de tê hêsan in sê taybetiyan (mêjera şîn di wêneyi, berdewam di aşopên xwe ya pixel, û rêjeya pixels ne-spî) heye. Hingê, ji bo binkoma ya images, li labels Galaxy Zoo bi bikaranîn perwerdeyê ji bo modela fêrbûna machine. Di dawiyê de, fêrbûna makîneya tê bikaranîn ji bo texmîn tesnîfkirin bo galaksiyan mayî. Ez bi vî rengî re dibêjî-nifşê duyem projeya computational mirovan ji ber ku, li şûna ku mirov a pirsgirêkê çareser bike, ew mirov di avakirina dataset ku dikare were bikaranîn ji bo perwerde a komputerê ji bo çareserkirina pirsgirêkê. The sûd ji vê nêzîkatiya-alîkarî dibe ew e ku, dihêle ku tu ji bo çareserkirina mîqdarên di bingeh de ji her demê ra ji welat bikaranîna tenê beşekê aqilê ji hewldana mirovan.

Taybetiyan in Banerji et al. (2010) modeleke fêrbûna machine tevlîhev zêdetir in ji yên di toy min nimûne-ji bo nimûne, ew taybetiyên wekî bikaranîn bûn "de Vaucouleurs fit ratio serrûyê" şerekî model wê bû regresyonê lojîstîk ne, ku ev yek tora jittery sûnî bû. Bikaranîna taybetmendiyên wê, modela xwe, û lihevkirina li tesnîfkirin Galaxy Zoo, wê bikaribe ji bo afirandina pîvan li ser her dirêj, û paşê jî bikaranîna van pîvan ji bo ku pêşbîniyên li ser senifandina hingī bû. Ji bo nimûne, analîzên xwe dît images bi nizm "de Vaucouleurs fit ratio serrûyê" ku îhtîmala ku bêtir ji hingī spiral bûn. Dayîn, ev pîvan, ew nikare ku pêşbînî li ser Dabeşandina mirovan ji galaxy bi şaşitî û maqûl bû.

Di vê xebatê de ji Banerji et al. (2010) Galaxy Zoo nav tiştê ku ez dixwazim a-nifşê duyem sîstema computation mirovan gazî zivirî. Baştirîn rê ji bo li ser van sîstemên-nifşê duyem bawer e ku, ji dewsa ku ew mirov e ku pirsgirêk çareser bike, ew mirov di avakirina dataset ku dikare were bikaranîn ji bo perwerde a komputerê ji bo çareserkirina pirsgirêkê. The amount of data pêwîst ji bo perwerde ya kompîturê de dikare bibe, da mezin, ku pêwîstî bi hevkariya komî mirovan biafirîne. Di doza Galaxy Zoo, ku tevnên jittery bikaranîn ji aliyê Banerji et al. (2010) de ji bo avakirina modela ku dikare bi şewazeke kare Dabeşandina mirovan bû pêwîst hejmareke pir mezin ên wergerandî-mirovan û hwd.

The sûd ji vê nêzîkatiya-alîkarî dibe ew e ku, dihêle ku tu ji bo çareserkirina mîqdarên di bingeh de ji her demê ra ji welat bikaranîna tenê beşekê aqilê ji hewldana mirovan. Bo nimûne, lêkolîner bi milyon û binetarê ​​nepenî mirovan dikare modela pêşdîtinê piştre ku dikare were bikaranîn ji bo bisenifînin a milyar yan jî trîlyon û binetarê ​​ava bike. Eger hejmara mezin ya hingī li wir, wê bi vî rengî ya hybrid mirovan-dibe, bi rastî jî tenê çareseriya pêkan e. Ev scalability bêdawî ye free ne, lê belê. Avakirina modeleka fêrbûna makîneyeke ku bikaribin kare tesnîfkirin mirovan bi xwe pirsgirêkeke zehmet e, lê başe ku ji niha ve, pirtûk baş ji bo vê mijarê li wir (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo peresîna gelek projeyên computation mirovan nîşan dide. Yekem, a lêkolînerê hewlên projeya bi destê xwe, an jî bi ekîbeke piçûk ji asîstanên lêkolîn (nimûne, hewl Dabeşandina destpêkê Schawinski ye). Eger ev helwest ne baş pîvaneke ne, ku lêkolîner dikarin ji bo projeyeke computation mirovan ku gelek kes ji tesnîfkirin bar. Lê belê, ji bo avakirina cildeke hinek ji yên welat, hewl safî mirovan wê ne bes be. Di vê xalê de, lêkolîner divê ji bo avakirina sîstemên-nifşê duyem ku tesnîfkirin mirovan tên bikaranîn ji bo perwerde a modela fêrbûna makîneyeke ku dikare ji bo mîqdarên hema bêsînor ya welat were ferzkirin.