5.2.1 Galaxy Zoo

Zoo za Galaxy zilijumuisha jitihada za wajitolea wengi wasiokuwa wataalam wa kuiga galaxi milioni.

Galao Zoo ilikua kutokana na tatizo linalokabiliwa na Kevin Schawinski, mwanafunzi aliyehitimu katika Astronomy katika Chuo Kikuu cha Oxford mnamo mwaka 2007. Kupunguza kura kidogo, Schawinski alikuwa na nia ya galaxies, na galaxies zinaweza kutambulishwa na morphology yao-elliptical au spiral-na kwa rangi yao-bluu au nyekundu. Wakati huo, hekima ya kawaida kati ya wataalam wa astronomers ilikuwa kwamba galaxies za roho, kama Milky Way yetu, zilikuwa na rangi ya bluu (kuonyesha vijana) na galaxies elliptical walikuwa nyekundu (kuonyesha umri wa zamani). Schawinski alikabiliana na hekima ya kawaida. Alidai kwamba wakati ruwaza hii inaweza kuwa ya kweli kwa ujumla, kuna uwezekano wa idadi kubwa ya tofauti, na kwamba kwa kujifunza mengi ya galaxi hizi za kawaida-ambazo hazikufananisha mfano uliotarajiwa - anaweza kujifunza kitu kuhusu mchakato galaxies sumu.

Kwa hiyo, nini Schawinski inahitajika ili kuharibu hekima ya kawaida ilikuwa seti kubwa ya galaxies iliyowekwa rasmi; yaani, galaxi ambazo zilikuwa zimewekwa kama zuri au elliptical. Tatizo, hata hivyo, ilikuwa kwamba mbinu zilizopo za algorithmic za uainishaji hazikuwa nzuri sana kutumika kwa ajili ya utafiti wa kisayansi; kwa maneno mengine, kugawa galaxi ilikuwa, wakati huo, shida iliyokuwa ngumu kwa kompyuta. Kwa hiyo, kile ambacho alihitaji ilikuwa ni idadi kubwa ya makundi ya nyota binadamu -classified. Schawinski alipata tatizo hili la uainishaji na shauku ya mwanafunzi aliyehitimu. Katika kikao cha marathon cha siku saba za saa 12, aliweza kuunda galaxi 50,000. Wakati galaxies 50,000 zinaweza kuonekana kama mengi, ni kweli tu kuhusu 5% ya galaxi milioni moja ambazo zimepigwa picha katika Utafiti wa Skyan Digital Sky. Schawinski alitambua kwamba alihitaji mbinu zaidi ya kutawala.

Kwa bahati nzuri, zinageuka kuwa kazi ya kuainisha galaxies hauhitaji mafunzo ya juu katika elimu ya nyota; unaweza kufundisha mtu wa kufanya hivyo pretty haraka. Kwa maneno mengine, ingawa kuainisha galaxies ni kazi ambayo ilikuwa ngumu kwa ajili ya kompyuta, ilikuwa pretty rahisi kwa wanadamu. Hivyo, wakati wamekaa katika baa katika Oxford, Schawinski na wenzake falaki Chris Lintott ndoto ya juu tovuti ambapo kujitolea itakuwa kuainisha picha ya galaxies. Miezi michache baadaye, Galaxy Zoo alizaliwa.

Katika tovuti ya Galaxy Zoo, wajitolea wangepata dakika chache za mafunzo; kwa mfano, kujifunza tofauti kati ya galaxy ya ond na elliptical (takwimu 5.2). Baada ya mafunzo haya, kila mmoja wa kujitolea alipaswa kupitisha jitihada rahisi-kufuatilia kwa usahihi 11 ya galaxi kumi na 15 na mahesabu ya kujulikana-na kisha itaanza aina halisi ya galaxi zisizojulikana kupitia interface rahisi ya mtandao (sura ya 5.3). Mpito kutoka kwa kujitolea kwenda kwa astronomer utafanyika kwa muda wa dakika 10 na ilihitaji tu kupita vikwazo vya chini zaidi, jaribio rahisi.

Mchoro 5.2: Mifano ya aina mbili kuu za galaxi: spiral na elliptical. Mradi wa Zoo wa Galaxy ulitumia kujitolea zaidi ya 100,000 kugawa picha zaidi ya 900,000. Imetolewa kwa idhini kutoka http://www.GalaxyZoo.org na Sloan Digital Sky Utafiti.

Mchoro 5.2: Mifano ya aina mbili kuu za galaxi: spiral na elliptical. Mradi wa Zoo wa Galaxy ulitumia kujitolea zaidi ya 100,000 kugawa picha zaidi ya 900,000. Imetolewa kwa idhini kutoka http://www.GalaxyZoo.org na Sloan Digital Sky Utafiti .

Mchoro 5.3: Siri ya kuingiza ambako wajitolea walitakiwa kutengeneza picha moja. Imepelekwa ruhusa kutoka Chris Lintott kulingana na picha kutoka kwa Utafiti wa Skyan Digital Sky.

Mchoro 5.3: Siri ya kuingiza ambako wajitolea walitakiwa kutengeneza picha moja. Imepelekwa ruhusa kutoka Chris Lintott kulingana na picha kutoka kwa Utafiti wa Skyan Digital Sky .

Galao Zoo iliwavutia wajitolea wake wa kwanza baada ya mradi huo ulionyeshwa katika makala ya habari, na katika kipindi cha miezi sita mradi ulikua kuwahusisha wanasayansi zaidi ya 100,000 wananchi, watu ambao walishiriki kwa sababu walifurahia kazi na walitaka kusaidia kuwepo kwa nyota. Pamoja, wajitolea hawa 100,000 wamechangia jumla ya machapisho ya milioni 40, na idadi kubwa ya maagizo yanayotoka kwa kundi ndogo la washiriki (Lintott et al. 2008) .

Watafiti ambao wana uzoefu wa kukodisha wasaidizi wa utafiti wa shahada ya kwanza wanaweza mara moja kuwa na wasiwasi juu ya ubora wa data. Ingawa mashaka haya ni ya busara, Galaxy Zoo inaonyesha kwamba wakati mchango wa kujitolea umesafishwa kwa usahihi, unapotoshwa, na umeunganishwa, wanaweza kuzalisha matokeo ya ubora (Lintott et al. 2008) . Njia muhimu ya kupata umati wa watu kuunda data ya ubora wa kitaaluma ni redundancy , yaani, kuwa na kazi sawa inayofanyika na watu wengi tofauti. Katika Zoo za Galaxy, kulikuwa na maadili 40 kuhusu Galaxy; watafiti wanaotumia wasaidizi wa utafiti wa shahada ya kwanza hawawezi kumudu kiwango hiki cha redundancy na kwa hiyo watahitaji kuwa na wasiwasi zaidi na ubora wa kila aina ya mtu binafsi. Waliojitolea waliopotea katika mafunzo, walitengeneza kwa upungufu.

Hata kwa maagizo mengi kwa galaxy, hata hivyo, kuchanganya seti ya maadili ya kujitolea ili kuzalisha makubaliano ya makubaliano ilikuwa ngumu. Kwa sababu changamoto zinazofanana sana zinazotokea katika miradi mingi ya hesabu za kibinadamu, ni muhimu kwa kuchunguza kwa ufupi hatua tatu ambazo watafiti wa Galaxy Zoo walitumia kuzalisha maadili yao ya makubaliano. Kwanza, watafiti "walitakasa" data kwa kuondokana na utaratibu wa uharibifu. Kwa mfano, watu ambao mara kwa mara walichagua galaxy sawa-kitu ambacho kitatokea ikiwa wangejaribu kuendesha matokeo-walipoteza maagizo yao yote. Usafishaji huu na mwingine uliofanana umeondolewa kuhusu 4% ya maadili yote.

Pili, baada ya kusafisha, watafiti walihitaji kuondoa uharibifu wa utaratibu katika maadili. Kupitia mfululizo wa masomo ya kugundua upendeleo iliyoingia ndani ya mradi wa awali-kwa mfano, kuonyesha baadhi ya kujitolea galaxy katika monochrome badala ya rangi-watafiti waligundua vikwazo kadhaa vya utaratibu, kama vile kupendeza kwa utaratibu wa kuiga galaxi za milima mbali mbali kama galaxi za elliptical (Bamford et al. 2009) . Kurekebisha kwa ukiukaji wa utaratibu huu ni muhimu sana kwa sababu redundancy haina kuondoa moja kwa moja upendeleo wa utaratibu; inasaidia tu kuondosha kosa random.

Hatimaye, baada ya kupungua, watafiti walihitaji njia ya kuchanganya maadili ya mtu binafsi ili kuzalisha maadili ya makubaliano. Njia rahisi zaidi ya kuchanganya maafa ya kila Galaxy ingekuwa kuchagua chaguo la kawaida. Hata hivyo, mbinu hii ingekuwa imewapa kila kujitolea uzito sawa, na watafiti walidhani kuwa baadhi ya kujitolea walikuwa bora zaidi kuliko wengine. Kwa hiyo, watafiti walitengeneza utaratibu wa uzito wa iterative zaidi ambao walijaribu kuchunguza maafa bora na kuwapa uzito zaidi.

Hivyo, baada ya mchakato wa hatua tatu-kusafisha, kupungua, na uzito-timu ya uchunguzi wa Galaxy ilibadilisha migawanyo milioni 40 ya kujitolea katika seti ya makubaliano ya maadili ya kimazingira. Wakati maafa haya ya Galaxy Zoo yalilinganishwa na majaribio matatu ya awali ya wataalamu wa astronomers, ikiwa ni pamoja na uainishaji wa Schawinski ambao ulisaidia kuhamasisha Galaxy Zoo, kulikuwa na mkataba mkali. Kwa hiyo, wajitolea, kwa jumla, waliweza kutoa maadili ya ubora na kwa kiwango ambacho watafiti hawakuweza kufanana (Lintott et al. 2008) . Kwa hakika, kwa kuwa na maagizo ya kibinadamu kwa idadi kubwa ya miamba, Schawinski, Lintott, na wengine waliweza kuonyesha kuwa ni juu ya asilimia 80 ya galaxi ya kufuata roho ya rangi ya bluu na rangi nyekundu-na karatasi nyingi zimeandikwa kuhusu ugunduzi huu (Fortson et al. 2011) .

Kutokana na historia hii, sasa unaweza kuona jinsi Galaxy Zoo ifuatavyo mapishi ya kuchanganya-kuomba-kuchanganya, mapishi sawa ambayo hutumiwa kwa miradi ya watu wengi. Kwanza, tatizo kubwa linagawanywa katika vipande. Katika kesi hiyo, tatizo la kugawa galaxi milioni liligawanyika kuwa matatizo ya milioni ya kutengeneza galaxy moja. Halafu, operesheni hutumiwa kwa kila chunk kwa kujitegemea. Katika kesi hiyo, wajitolea waliweka kila galaxy kama vurugu au vyema. Hatimaye, matokeo yanajumuishwa ili kutoa matokeo ya makubaliano. Katika suala hili, hatua ya kuchanganya ni pamoja na kusafisha, kupungua, na uzito ili kuzalisha maelekezo ya makubaliano kwa kila galaxy. Ingawa miradi mingi hutumia kichocheo hiki, kila hatua inahitajika kufanywa tatizo maalum. Kwa mfano, katika mradi wa uhesabuji wa binadamu ulioelezwa hapa chini, mapishi sawa yatafuatwa, lakini kuomba na kuchanganya hatua itakuwa tofauti kabisa.

Kwa timu ya Galaxy Zoo, mradi huu wa kwanza ulikuwa mwanzo tu. Haraka sana walitambua kwamba hata ingawa waliweza kuiga karibu na galaxi milioni, kiwango hiki haitoshi kufanya kazi na tafiti mpya za anga za digital, ambazo zinaweza kuzalisha picha za galaxies bilioni 10 (Kuminski et al. 2014) . Ili kushughulikia ongezeko kutoka milioni 1 hadi bilioni 10-sababu ya Galaxy 10,000 ya Galaxy itahitaji kuajiri takribani mara 10,000 washiriki zaidi. Ingawa idadi ya kujitolea kwenye mtandao ni kubwa, sio usio. Kwa hiyo, watafiti waligundua kuwa kama wangeenda kushughulikia kiasi cha data cha kuongezeka, njia mpya, hata zaidi ya kupungua, ilihitajika.

Kwa hivyo, Manda Banerji-anafanya kazi na Schawinski, nyumba ya nyumba ya makao, na wanachama wengine wa timu ya mafunzo ya Galaxy Zoo (2010) ili kuunda galaxi. Zaidi hasa, kwa kutumia ugawaji wa kibinadamu uliotengenezwa na Galaxy Zoo, Banerji ilijenga mfano wa kujifunza mashine ambayo inaweza kutabiri uainishaji wa watu wa galaxy kulingana na sifa za picha. Ikiwa mfano huu unaweza kuzalisha maadili ya kibinadamu kwa usahihi wa juu, basi inaweza kutumika na watafiti wa Galaxy Zoo kuainisha idadi kubwa ya galaxi.

Msingi wa mbinu ya Banerji na wa wenzake ni kweli sawa na mbinu ambazo hutumiwa katika utafiti wa kijamii, ingawa ufanana huo hauwezi kuwa wazi kwa mtazamo wa kwanza. Kwanza, Banerji na wenzi wenzake walibadilisha kila picha katika seti ya vipengele vya namba ambazo zilifupisha mali zake. Kwa mfano, kwa picha za galaxi, kunaweza kuwa na vipengele vitatu: kiasi cha bluu katika picha, tofauti kati ya mwangaza wa saizi, na uwiano wa saizi zisizo nyeupe. Uchaguzi wa vipengele sahihi ni sehemu muhimu ya tatizo, na kwa ujumla inahitaji utaalamu wa eneo. Hatua hii ya kwanza, inayojulikana kama uhandisi wa kipengele , husababisha tumbo la data na mstari mmoja kwa kila picha na kisha nguzo tatu zinazoelezea picha hiyo. Kutokana na tumbo la data na pato la taka (kwa mfano, kama picha ilikuwa imewekwa na mwanadamu kama galaxy elliptical), mtafiti hujenga mfano wa takwimu au mashine-kwa mfano, regression ya vifaa-ambayo inabiri uainishaji wa binadamu kulingana na vipengele ya picha. Hatimaye, mtafiti hutumia vigezo katika mfano huu wa takwimu ili kuzalisha mahesabu ya makadirio ya galaxi mpya (Fungu la 5.4). Katika kujifunza mashine, mbinu hii-kwa kutumia mifano iliyoandikwa kwa kuunda mfano ambayo inaweza kisha kuipiga data mpya-inaitwa kujifunza kujishughulishwa .

Mchoro 5.4: maelezo rahisi ya jinsi Banerji et al. (2010) ilitumia maagizo ya Galaxy Zoo ili kufundisha mtindo wa kujifunza mashine kufanya ugawaji wa galaxy. Picha za galaxi zilibadilishwa kwenye tumbo la vipengele. Katika mfano huu rahisi, kuna vipengele vitatu (kiasi cha bluu katika picha, tofauti kati ya mwangaza wa saizi, na uwiano wa saizi zisizo za wilaya). Kisha, kwa kipangilio cha picha, maandiko ya Galaxy Zoo hutumiwa kufundisha mtindo wa kujifunza mashine. Hatimaye, kujifunza mashine hutumiwa kupima maadili ya galaxi zilizobaki. Ninaita hii mradi wa usanifu wa binadamu wa kompyuta kwa sababu, badala ya kuwa na binadamu kutatua tatizo, ina watu wanajenga dasaset ambayo inaweza kutumika kutumikia kompyuta ili kutatua tatizo. Faida ya mfumo huu wa kuhesabu wa kompyuta unaofaidika na kompyuta ni kwamba inakuwezesha kushughulikia kiasi kikubwa cha data bila kutumia tu ya mwisho ya jitihada za kibinadamu. Picha za galaxi zinazotolewa na ruhusa kutoka kwa Utafiti wa Skyan Digital Sky.

Mchoro 5.4: maelezo rahisi ya jinsi Banerji et al. (2010) ilitumia maagizo ya Galaxy Zoo ili kufundisha mtindo wa kujifunza mashine kufanya ugawaji wa galaxy. Picha za galaxi zilibadilishwa kwenye tumbo la vipengele. Katika mfano huu rahisi, kuna vipengele vitatu (kiasi cha bluu katika picha, tofauti kati ya mwangaza wa saizi, na uwiano wa saizi zisizo za wilaya). Kisha, kwa kipangilio cha picha, maandiko ya Galaxy Zoo hutumiwa kufundisha mtindo wa kujifunza mashine. Hatimaye, kujifunza mashine hutumiwa kupima maadili ya galaxi zilizobaki. Ninaita hii mradi wa usanifu wa binadamu wa kompyuta kwa sababu, badala ya kuwa na binadamu kutatua tatizo, ina watu wanajenga dasaset ambayo inaweza kutumika kutumikia kompyuta ili kutatua tatizo. Faida ya mfumo huu wa kuhesabu wa kompyuta unaofaidika na kompyuta ni kwamba inakuwezesha kushughulikia kiasi kikubwa cha data bila kutumia tu ya mwisho ya jitihada za kibinadamu. Picha za galaxi zinazotolewa na ruhusa kutoka kwa Utafiti wa Skyan Digital Sky .

Makala katika mfano wa Banerji na wenzake wa kujifunza mashine walikuwa ngumu zaidi kuliko wale walio kwenye mfano wangu wa toy - kwa mfano, alitumia vipengele kama "de Vaucouleurs vinavyostahili uwiano wa axial" - na mfano wake haukukuwa regression ya vifaa, ilikuwa ni mtandao wa neural bandia. Kutumia vipengele vyake, mfano wake, na maadili ya Galaxy Zoo ya makubaliano, aliweza kuunda uzito kila kipengele, na kisha kutumia uzito huu ili utabiri juu ya uainishaji wa galaxies. Kwa mfano, uchambuzi wake uligundua kuwa picha za chini za "de Vaucouleurs zinalingana na uwiano wa axial" zilikuwa zaidi uwezekano wa kuwa galaxi za roho. Kutokana na uzito huu, alikuwa na uwezo wa kutabiri uainishaji wa mwanadamu wa galaxy kwa usahihi.

Kazi ya Banerji na wenzi wenzake imegeuka Galao Zoo katika kile ambacho nitaita mfumo wa kompyuta ya usaidizi wa binadamu . Njia bora ya kufikiri juu ya mifumo hii ya mseto ni kwamba badala ya kuwa na binadamu kutatua tatizo, wanadamu wanajenga dasaset ambayo inaweza kutumika kufundisha kompyuta ili kutatua tatizo. Wakati mwingine, mafunzo ya kompyuta kutatua tatizo yanahitaji mifano nyingi, na njia pekee ya kuzalisha mifano ya kutosha ni ushirikiano wa wingi. Faida ya njia hii ya kusaidiwa na kompyuta ni kwamba inakuwezesha kushughulikia kiasi kikubwa cha data bila kutumia tu ya mwisho ya jitihada za kibinadamu. Kwa mfano, mtafiti aliye na galaxi za milioni za binadamu zilizoweza kutengeneza anaweza kujenga mfano wa utabiri ambao unaweza kisha kutumika kutengeneza bilioni au hata galaxies trilioni. Ikiwa kuna idadi kubwa ya galaxi, basi aina hii ya mseto wa binadamu-kompyuta ni kweli pekee ya ufumbuzi. Hii haiwezi kutengwa kwa bure, hata hivyo. Kujenga mfano wa kujifunza mashine ambayo inaweza kuzalisha kwa ufanisi maadili ya kibinadamu yenyewe ni tatizo ngumu, lakini kwa bahati nzuri tayari kuna vitabu vyema vya kujitolea kwa mada hii (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo ni mfano mzuri wa jinsi miradi mingi ya watu ya kuhesabu inavyogeuka. Kwanza, mtafiti anajaribu mradi huo mwenyewe au kwa timu ndogo ya wasaidizi wa utafiti (kwa mfano, juhudi za awali za Schawinski). Ikiwa mbinu hii haifai vizuri, mtafiti anaweza kuhamia mradi wa hesabu ya binadamu na washiriki wengi. Lakini, kwa kiasi fulani cha data, jitihada za kibinadamu safi hazitoshi. Kwa wakati huo, watafiti wanahitaji kujenga mfumo wa hesabu ya usaidizi wa wanadamu ambao maagizo ya kibinadamu hutumiwa kufundisha mtindo wa kujifunza mashine ambao unaweza kisha kutumika kwa kiasi kikubwa cha data.