5.2.1 Galaxy Zoo

Galaxy Zoo kombinar sa mga paningkamot sa daghan nga mga non-eksperto boluntaryo sa pagklasipikar sa usa ka milyon nga galaksiya.

Galaxy Zoo mitubo gikan sa usa ka problema nga giatubang sa Kevin Schawinski, usa ka graduate nga estudyante sa Astronomiya sa Unibersidad sa Oxford sa 2007. Pagpasayon ​​na sa usa ka gamay, Schawinski interesado sa galaksiya, ug galaksiya mahimong giklasipikar pinaagi sa ilang morpolohiya-elliptical o tuliyok-ug pinaagi sa ilang mga kolor-asul nga o pula. Sa panahon nga, conventional kaalam sa taliwala sa mga astronomo nga spiral galaksiya, sama sa atong Milky Way, mga asul nga kolor (nga nagpakita sa kabatan-onan) ug nga elliptical galaksiya mga pula nga diha sa kolor (nga nagpakita pagkatigulang). Schawinski nagduhaduha niini nga conventional nga kaalam. Siya gidudahang nga samtang kini nga sumbanan mahimong tinuod sa kinatibuk-, may lagmit usa ka dakong gidaghanon sa mga eksepsiyon, ug nga pinaagi sa pagtuon sa daghang niining mga talagsaon nga galaksiya-ang mga nga wala mohaom sa gipaabot sumbanan-siya makakat-on og usa ka butang mahitungod sa proseso nga pinaagi niini galaksiya giumol.

Busa, unsa ang Schawinski gikinahanglan aron balihon conventional kaalam sa usa ka dako nga hugpong sa mga morphologically classified galaksiya; nga mao, galaksiya nga gi-classify nga bisan sa tuliyok o elliptical. Ang problema, Apan, mao nga kasamtangan nga algorithmic mga pamaagi alang sa klasipikasyon dili pa maayo nga igo nga gamiton alang sa siyentipikanhong panukiduki; sa lain nga mga pulong, nagklasipikar galaksiya nga, sa niana nga panahon, ang usa ka problema nga lisud alang sa mga computer. Busa, unsa ang gikinahanglan mao ang usa ka dako nga gidaghanon sa tawhanong classified galaksiya. Schawinski gihimo klasipikasyon niini nga problema uban sa kadasig sa usa ka estudyante sa graduate. Sa usa ka marathon nga sesyon sa pito, 12-oras nga mga adlaw, siya nakahimo sa pagklasipikar 50,000 galaksiya. Samtang 50,000 galaksiya nga paminawon sama sa usa ka daghan, kini mao ang tinuod lamang sa 5% sa hapit usa ka milyon ka galaksiya nga hulagway diha sa Sloan Digital Sky Survey. Schawinski nakaamgo nga siya nagkinahanglan sa usa ka labaw scalable nga paagi.

Maayo na lang, kini turns nga ang tahas sa nagklasipikar galaksiya wala magkinahanglan og abante nga training sa astronomiya; nga imong mahimo sa pagtudlo sa usa ka tawo sa pagbuhat niini pretty sa madali. Sa laing mga pulong, bisan pa nga nagklasipikar galaksiya mao ang usa ka buluhaton nga lisud alang sa mga computer, kini pretty sayon ​​alang sa mga tawo. Busa, samtang naglingkod sa usa ka pub sa Oxford, Schawinski ug mga kauban sa astronomo Chris Lintott nagdamgo sa usa ka website diin ang mga boluntaryo nga pagklasipikar larawan sa galaksiya. Pipila ka bulan sa ulahi, Galaxy Zoo natawo.

Sa website Galaxy Zoo, mga boluntaryo nga moagi sa usa ka pipila ka minutos sa pagbansay; alang sa panig-ingnan, sa pagkat-on sa kalainan tali sa usa ka tuliyok ug elliptical galaxy (Figure 5.2). Human niini nga pagbansay, ang mga boluntaryo kinahanglang moagi sa usa ka medyo sayon ​​nga pasulit-husto nga paagi nagklasipikar 11 sa 15 galaksiya uban sa nailhan klasipikasyon-ug dayon ang mga volunteer magsugod tinuod nga klasipikasyon sa wala mailhi nga mga galaksiya pinaagi sa usa ka yano nga web-based interface (Figure 5.3). Ang transisyon gikan sa volunteer sa astronomo nga pagkuha sa dapit sa ubos pa kay sa 10 minutos ug sa lamang sa gikinahanglan sa pagpasa sa labing ubos sa mga hurdles, usa ka yano nga pasulit.

Figure 5.2: Ehemplo sa sa duha ka mga nag-unang matang sa galaksiya: tuliyok ug elliptical. Ang Galaxy Zoo proyekto nga gigamit labaw pa kay sa 100,000 ka boluntaryo sa kategoriya labaw pa kay sa 900,000 nga mga larawan. Source: www.galaxyzoo.org.

Figure 5.2: Ehemplo sa sa duha ka mga nag-unang matang sa galaksiya: tuliyok ug elliptical. Ang Galaxy Zoo proyekto nga gigamit labaw pa kay sa 100,000 ka boluntaryo sa kategoriya labaw pa kay sa 900,000 nga mga larawan. Source: www.galaxyzoo.org .

Figure 5.3: Input screen diin botante gihangyo sa pagklasipikar sa usa ka larawan. Source: www.galaxyzoo.org.

Figure 5.3: Input screen diin botante gihangyo sa pagklasipikar sa usa ka larawan. Source: www.galaxyzoo.org .

Galaxy Zoo nakadani sa iyang inisyal nga mga boluntaryo human sa proyekto bahin sa usa ka artikulo sa mga balita, ug sa mga unom ka bulan sa proyekto mitubo nga naglakip sa labaw pa kay sa 100,000 citizen mga siyentipiko, ang mga tawo nga miapil tungod kay nalingaw sila sa buluhaton ug buot sila sa pagtabang sa pag-asdang astronomiya. Mag-uban, kini nga mga 100,000 ka mga boluntaryo amot sa usa ka kinatibuk-an nga labaw pa kay sa 40 ka milyon nga klasipikasyon, uban sa kadaghanan sa mga klasipikasyon sa pag-abut gikan sa usa ka medyo gamay nga, core nga grupo sa mga partisipante (Lintott et al. 2008) .

Tigdukiduki nga kasinatian sa paghatag trabaho undergraduate research assistant aron diha-diha dayon nga nagduhaduha mahitungod sa kalidad sa data. Samtang kini nga pagduhaduha mao ang makataronganon, Galaxy Zoo nagpakita nga sa diha nga volunteer kontribusyon sa husto gilimpyohan, debiased, ug aggregated, sila og mga resulta hatag-as nga-kalidad nga (Lintott et al. 2008) . Usa ka importante nga lansis alang sa pagkuha sa panon sa katawhan sa paghimo sa propesyonal nga kalidad nga data ekstra; nga mao, nga sa mao usab nga buluhaton nga gihimo sa daghang lain-laing mga tawo. Sa Galaxy Zoo, may mga 40 ka klasipikasyon matag galaxy; tigdukiduki sa paggamit sa undergraduate research assistant dili gayod maabut niini nga ang-ang sa ekstra ug busa kinahanglan nga mas nabalaka sa sa kalidad sa matag indibidwal nga klasipikasyon. Unsa ang mga boluntaryo nakulang sa pagbansay, sila naghimo alang sa uban sa ekstra.

Bisan pa sa daghang mga klasipikasyon matag galaxy, Apan, sa paghiusa sa mga hugpong sa mga boluntaryo nga klasipikasyon sa pagmugna sa usa ka consensus classification malinglahon. Tungod kay susama kaayo hagit motungha sa labing tawhanong mga proyekto sa pagsuma, kini mao ang makatabang sa sa mubo nga pagribyu sa mga tulo ka mga lakang nga sa Galaxy Zoo tigdukiduki nga gigamit sa paghimo sa ilang consensus klasipikasyon. Una, ang mga tigdukiduki "gilimpyohan" sa mga data pinaagi sa pagwagtang sa mini nga klasipikasyon. Pananglitan, ang mga tawo nga balik-balik nga klasipikasyon sa sama nga galaksiya-usa ka butang nga mahitabo kon sila naningkamot sa pagmaniobra sa mga resulta-ang tanan sa ilang mga klasipikasyon gilabay. Kini ug ang ubang susama nga pagpanglimpyo gikuha mahitungod sa 4% sa tanan nga klasipikasyon.

Ikaduha, human sa paghinlo, ang mga tigdukiduki nga gikinahanglan sa pagtangtang sistematikong pagpihig sa klasipikasyon. Pinaagi sa usa ka serye sa mga pagtuon sa pagpihig detection nalakip sa sulod sa orihinal nga proyekto-alang sa panig-ingnan, nga nagpakita sa pipila ka mga boluntaryo sa galaxy sa kolor nga ilis sa kolor-ang mga tigdukiduki nadiskobrehan sa pipila sistematikong pagpihig, sama ingon sa usa ka sistematikong pagpihig sa pagklasipikar sa halayo spiral galaksiya ingon elliptical galaksiya (Bamford et al. 2009) . Pagpasibo alang niining sistematikong pagpihig mao ang hilabihan importante tungod kay average sa daghang mga amot dili kuhaa sistematiko pagpihig; kini lamang removes random kasaypanan.

Sa kataposan, human sa debiasing, ang mga tigdukiduki nga gikinahanglan sa usa ka pamaagi sa pag-combine sa mga tagsa-tagsa nga klasipikasyon sa pagmugna sa usa ka consensus classification. Ang yano nga paagi sa combine klasipikasyon alang sa matag galaxy nga sa pagpili sa labing komon nga classification. Apan, kini nga paagi nga mohatag sa matag volunteer nga sama nga gibug-aton, ug ang mga tigdukiduki gidudahang nga ang pipila sa mga boluntaryo nga mga mas maayo sa klasipikasyon kay sa uban. Busa, ang mga tigdukiduki og usa ka mas komplikado iterative nga kabug-aton nga pamaagi nga misulay sa awtomatikong makamatikod sa labing maayo nga classifiers ug sa paghatag kanila sa gibug-aton.

Busa, human sa usa ka sa tulo ka lakang sa proseso-pagpanglimpyo, debiasing, ug kabug-aton-ang Galaxy Zoo research team nga nakabig 40 milyon nga volunteer klasipikasyon ngadto sa usa ka hugpong sa mga consensus morpolohiya klasipikasyon. Sa diha nga kini nga mga Galaxy Zoo klasipikasyon mga itandi sa tulo ka mga miaging mas gamay-scale pagsulay sa propesyonal nga astronomo, lakip na ang klasipikasyon sa Schawinski nga nakatabang sa pagdasig Galaxy Zoo, may malig-on nga kasabutan. Busa, ang mga boluntaryo, sa hiusa, makahimo sa paghatag og taas nga kalidad nga klasipikasyon ug sa usa ka timbangan nga ang mga tigdukiduki dili pagpares (Lintott et al. 2008) . Sa pagkatinuod, pinaagi sa tawhanong mga klasipikasyon alang sa maong usa ka dako nga gidaghanon sa mga galaksiya, Schawinski, Lintott, ug ang uban makahimo sa pagpakita nga lamang sa 80% sa galaksiya mosunod sa gipaabot nga sumbanan-asul nga spiral ug pula nga ellipticals-ug daghang mga papeles nga gisulat mahitungod sa kini nga nadiskobrehan (Fortson et al. 2011) .

Tungod niini background, kita karon tan-awa kon sa unsang paagi Galaxy Zoo mosunod sa split-paggamit sa-combine resipe, sa sama nga resipe nga gigamit alang sa kadaghanan sa tawhanong mga proyekto sa pagsuma. Una, ang usa ka dako nga problema nga nabahin ngadto sa chunks. Sa kini nga kaso, ang problema sa nagklasipikar sa usa ka milyon nga galaksiya nga nabahin ngadto sa usa ka milyon ka mga problema sa nagklasipikar sa usa ka galaksiya. Sunod, usa ka operasyon ang mi-apply sa matag chunk kagawasan, gawas. Sa kini nga kaso, ang usa ka volunteer nga pagklasipikar sa matag galaxy ingon sa bisan tuliyok o elliptical. Sa katapusan, ang resulta hiniusa nga sa pagmugna sa usa ka consensus resulta. Sa kini nga kaso, ang combine lakang naglakip sa pagpanglimpyo, debiasing, ug nga kabug-aton sa pagmugna sa usa ka consensus klasipikasyon alang sa matag galaxy. Bisan tuod nga kadaghanan sa mga proyekto sa paggamit niini nga kinatibuk-ang nga resipe, ang matag usa sa mga lakang kinahanglan nga customized sa piho nga problema nga gitumong. Pananglitan, diha sa tawhanong proyekto pagsuma gihulagway sa ubos, sa mao usab nga resipe nga misunod, apan ang paggamit sa ug combine mga lakang mahimong lahi.

Kay ang team Galaxy Zoo, niining unang proyekto mao lang ang sinugdanan. Kaayo sa madali sila nakaamgo nga bisan tuod sila makahimo sa pagklasipikar duol sa usa ka milyon nga galaksiya, nga kining timbangan dili igo sa pagtrabaho uban sa mas bag-o survey digital langit, nga og mga larawan sa mga 10 ka bilyon nga galaksiya (Kuminski et al. 2014) . Aron pagdumala sa usa ka dugang gikan sa 1 milyon ngadto sa 10 bilyones-usa ka butang sa 10,000-Galaxy Zoo nga kinahanglan sa pag-recruit sa mapintas gayud 10,000 mga panahon nga mas partisipante. Bisan tuod ang gidaghanon sa mga boluntaryo sa Internet mao ang dako, kini dili walay kinutuban. Busa, ang mga tigdukiduki nakaamgo nga kon sila moadto sa pagdumala sa walay katapusan sa nagtubo nga kantidad sa data, nga usa ka bag-o, bisan sa mas scalable, nga paagi gikinahanglan.

Busa, Manda Banerji-sa pagtrabaho uban sa Kevin Schawinski, Chris Lintott, ug ubang mga miyembro sa team-sugod computer sa pagtudlo Galaxy Zoo sa pagklasipikar galaksiya. Mas espesipiko, sa paggamit sa tawhanong klasipikasyon gibuhat sa Galaxy Zoo, Banerji et al. (2010) nagtukod ug usa ka makina nga modelo sa pagkat-on nga pagtagna sa tawhanong klasipikasyon sa usa ka galaksiya base sa mga kinaiya sa mga larawan. Kon kini nga makina sa pagkat-on nga modelo nga paghuwad sa tawhanong klasipikasyon uban sa hatag-as nga tukma, nan kini mahimo nga gigamit sa Galaxy Zoo tigdukiduki sa pagklasipikar sa usa ka batakan nga walay kinutuban nga gidaghanon sa mga galaksiya.

Ang kinauyokan sa Banerji ug mga kauban 'pamaagi mao ang tinuod pretty susama sa mga teknik nga sagad gigamit sa social research, bisan tuod nga ang kaamgiran dili mahimong tin-aw sa unang tan-aw. Una, Banerji ug kaubanan nakabig sa matag larawan ngadto sa usa ka hugpong sa mga numerawo bahin nga summarize kini kabtangan. Kay sa panig-ingnan, alang sa mga larawan sa mga galaksiya adunay mahimong tulo ka bahin: ang kantidad sa azul sa larawan, ang pakigbingkil sa kahayag sa mga pixels, ug ang gidaghanon sa mga dili-puti nga pixels. Ang pagpili sa mga husto nga bahin mao ang usa ka importante nga bahin sa problema, ug kini sa kinatibuk-nagkinahanglan subject-nga dapit expertise. Kini nga una nga lakang, nga sagad nga gitawag nga bahin engineering, moresulta sa usa ka data nga matrix uban sa usa ka laray kada larawan ug unya sa tulo ka haligi nga naghulagway nga larawan. Tungod sa data sa matrix ug ang gitinguha nga output (pananglitan, kon ang larawan nga klasipikasyon sa usa ka tawo nga ingon sa usa ka elliptical galaxy), ang tigdukiduki nagbanabana sa lantugi sa usa ka statistical modelo-alang sa panig-ingnan, usa ka butang nga sama sa sa usa ka lohikal pagbalik-nga nagtagna sa tawo nga klasipikasyon base sa ibabaw sa mga bahin sa larawan. Sa katapusan, ang tigdukiduki naggamit sa lantugi niini nga statistical nga modelo sa pagmugna gibanabana nga klasipikasyon sa bag-ong mga galaksiya (Figure 5.4). Sa paghunahuna sa usa ka sosyal nga Analog, handurawa nga may demographic impormasyon mahitungod sa usa ka milyon nga mga estudyante, ug kamo nasayud kon sila migradwar sa kolehiyo o dili. Mahimo mo mohaum sa usa ka lohikal pagbalik sa niini nga impormasyon, ug unya mahimo ka nga mogamit sa sa mga resulta-lantugi modelo sa pagtagna kon ang bag-ong mga estudyante na mogradwar sa kolehiyo. Sa makina sa pagkat-on, kini nga paagi-sa paggamit sa gimarkahan nga mga ehemplo aron sa paghimo sa usa ka statistical modelo nga unya sulati sa bag-ong nga data-gitawag nagdumala sa pagkat-on (Hastie, Tibshirani, and Friedman 2009) .

Figure 5.4: Simplified paghulagway sa unsa nga paagi nga Banerji et al. (2010) nga gigamit sa Galaxy Zoo klasipikasyon sa pagbansay sa usa ka makina sa pagkat-on nga modelo sa pagbuhat sa galaxy nga klasipikasyon. Mga larawan sa galaksiya nakabig sa usa ka taguangkan sa mga bahin. Sa niini nga simple nga panig-ingnan adunay tulo ka bahin (sa kantidad nga azul sa larawan, ang pakigbingkil sa kahayag sa mga pixels, ug ang gidaghanon sa mga dili-puti nga pixels). Unya, alang sa usa ka subset sa mga larawan, sa Galaxy Zoo label gigamit sa pagbansay sa usa ka modelo sa makina sa pagkat-on. Sa kataposan, ang makina sa pagkat-on nga gigamit sa Gibanabana sa klasipikasyon alang sa nahabilin nga mga galaksiya. gitawag ko kini nga matang sa proyekto sa usa ka ikaduha nga-nga kaliwatan sa tawo computational proyekto tungod kay, kay sa may mga tawo sa pagsulbad sa usa ka problema, sila adunay mga tawo sa pagtukod sa usa ka panid nga mahimong gamiton sa pagbansay sa usa ka computer sa pagsulbad sa problema. Ang pagpahimulos sa niini nga computer-assisted nga paagi mao nga kini makapaarang kanimo sa pagdumala sa esensya walay kinutuban nga kantidad sa data sa paggamit sa lamang sa usa ka may kinutuban nga kantidad sa paningkamot sa tawo.

Figure 5.4: Simplified paghulagway sa unsa nga paagi nga Banerji et al. (2010) nga gigamit sa Galaxy Zoo klasipikasyon sa pagbansay sa usa ka makina sa pagkat-on nga modelo sa pagbuhat sa galaxy nga klasipikasyon. Mga larawan sa galaksiya nakabig sa usa ka taguangkan sa mga bahin. Sa niini nga simple nga panig-ingnan adunay tulo ka bahin (sa kantidad nga azul sa larawan, ang pakigbingkil sa kahayag sa mga pixels, ug ang gidaghanon sa mga dili-puti nga pixels). Unya, alang sa usa ka subset sa mga larawan, sa Galaxy Zoo label gigamit sa pagbansay sa usa ka modelo sa makina sa pagkat-on. Sa kataposan, ang makina sa pagkat-on nga gigamit sa Gibanabana sa klasipikasyon alang sa nahabilin nga mga galaksiya. gitawag ko kini nga matang sa proyekto sa usa ka ikaduha nga-nga kaliwatan sa tawo computational proyekto tungod kay, kay sa may mga tawo sa pagsulbad sa usa ka problema, sila adunay mga tawo sa pagtukod sa usa ka panid nga mahimong gamiton sa pagbansay sa usa ka computer sa pagsulbad sa problema. Ang pagpahimulos sa niini nga computer-assisted nga paagi mao nga kini makapaarang kanimo sa pagdumala sa esensya walay kinutuban nga kantidad sa data sa paggamit sa lamang sa usa ka may kinutuban nga kantidad sa paningkamot sa tawo.

Ang mga bahin sa Banerji et al. (2010) machine sa pagkat-on nga modelo mas komplikado pa kay sa mga sa akong dulaan nga panig-ingnan-pananglitan, siya gigamit sa mga bahin sama sa "de Vaucouleurs mohaom axial ratio" -ug ang iyang modelo dili lohikal pagbalik, kini mao ang usa ka artipisyal nga nerbiyos network. Pinaagi sa paggamit sa mga bahin sa iyang, ang iyang modelo, ug ang consensus Galaxy Zoo klasipikasyon, siya nakahimo sa paghimo sa mga bato sa timbangan sa matag bahin, ug unya sa paggamit niini nga mga bato sa timbangan sa paghimo sa mga panagna mahitungod sa klasipikasyon sa mga galaksiya. Kay sa panig-ingnan, ang iyang pagtuki nakakaplag nga ang mga larawan sa ubos "de Vaucouleurs mohaom sa axial ratio" mas lagmit nga mahimong spiral galaksiya. Gihatag kini nga mga bato sa timbangan, siya nakahimo sa pagtagna sa tawhanong klasipikasyon sa usa ka galaksiya uban sa makatarunganon nga katukma.

Ang buhat sa Banerji et al. (2010) nahimo Galaxy Zoo ngadto sa unsay akong pagtawag sa usa ka ikaduha nga-nga kaliwatan sa tawo pagsuma nga sistema. Ang labing maayo nga paagi sa paghunahuna mahitungod sa niini nga mga sistema sa ikaduha nga henerasyon mao nga kay sa may mga tawo sa pagsulbad sa usa ka problema, sila adunay mga tawo sa pagtukod sa usa ka panid nga mahimong gamiton sa pagbansay sa usa ka computer sa pagsulbad sa problema. Ang kantidad sa data nga gikinahanglan sa pagbansay sa computer mahimong dako kaayo nga kini nagkinahanglan sa usa ka tawo masa kolaborasyon sa paghimo. Sa kaso sa Galaxy Zoo, ang nerbiyos network nga gigamit sa Banerji et al. (2010) gikinahanglan nga usa ka dako kaayo nga gidaghanon sa mga tawo-gimarkahan mga panig-ingnan aron sa pagtukod sa usa ka modelo nga nakahimo sa reliably paghuwad sa tawhanong classification.

Ang pagpahimulos sa niini nga computer-assisted nga paagi mao nga kini makapaarang kanimo sa pagdumala sa esensya walay kinutuban nga kantidad sa data sa paggamit sa lamang sa usa ka may kinutuban nga kantidad sa paningkamot sa tawo. Pananglitan, ang usa ka tigdukiduki uban sa usa ka milyon nga sa tawo classified galaksiya mahimo sa pagtukod sa usa matagnaong modelo nga unya gamiton sa pagklasipikar sa usa ka bilyon o bisan sa usa ka trilyon nga galaksiya. Kon adunay dakong gidaghanon sa mga galaksiya, nan kini nga matang sa mga tawo-computer hybrid mao ang tinuod nga ang bugtong posible nga solusyon. Kini nga walay kinutuban nga scalability dili free, bisan pa niana. Pagtukod og usa ka makina nga modelo sa pagkat-on nga sa husto nga paagi paghuwad sa tawo klasipikasyon mao ang sa iyang kaugalingon sa usa ka malisud nga problema, apan maayo na lang nga may na maayo kaayo nga mga libro nga gipahinungod sa niini nga hilisgutan (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo nagpakita sa ebolusyon sa daghang tawhanong mga proyekto sa pagsuma. Una, ang usa ka tigdukiduki mosulay sa proyekto pinaagi sa iyang kaugalingon o sa uban sa usa ka gamay nga grupo sa mga research mga katabang (pananglitan, ni Schawinski inisyal nga klasipikasyon paningkamot). Kon kini nga pamaagi dili scale, ang tigdukiduki mobalhin sa usa ka tawo pagsuma proyekto diin ang daghang mga tawo-amot klasipikasyon. Apan, alang sa usa ka pipila ka mga gidaghanon sa mga data, lunsay sa tawo nga paningkamot dili igo. Sa niana nga punto, ang mga tigdukiduki kinahanglan sa pagtukod sa ikaduha nga henerasyon nga mga sistema diin ang tawhanong mga klasipikasyon gigamit sa pagbansay sa usa ka makina nga modelo sa pagkat-on nga dayon nga magamit sa halos walay kutub nga kantidad sa data.