5.2.1 Galaxy Zoo

translation na ito ay nilikha sa pamamagitan ng isang computer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

5.2.1 Galaxy Zoo

Galaxy Zoo pinagsasama ang mga pagsisikap ng maraming mga di-eksperto volunteers sa uri-uriin ng isang milyong mga kalawakan.

Galaxy Zoo lumago sa labas ng isang problema mukha sa pamamagitan ng Kevin Schawinski, isang nagtapos na estudyante sa Astronomy sa University of Oxford in 2007. Simplifying lubos ng kaunti, Schawinski ay interesado sa mga kalawakan, at kalawakan ay maaaring inuri sa pamamagitan ng kanilang morpolohiya-elliptical o spiral-and sa pamamagitan ng kanilang mga kulay-asul o pula. Sa oras, maginoo karunungan sa astronomers ay na spiral galaxy, tulad ng ating Milky Way, ay asul sa kulay (na nagpapahiwatig kabataan) at na elliptical galaxy ay pula sa kulay (na nagpapahiwatig katandaan). Schawinski doubted ito maginoo karunungan. Siya pinaghihinalaang na habang ito pattern ay maaaring totoo sa pangkalahatan, mayroong marahil isang malaki bilang ng mga eksepsiyon, at sa pamamagitan ng pag-aaral ng maraming ng mga hindi pangkaraniwang mga kalawakan-ang mga na ay hindi magkasya ang inaasahang pattern-siya ay maaaring malaman ng isang bagay tungkol sa proseso sa pamamagitan ng na kalawakan nabuo.

Kaya, kung ano ang Schawinski kinakailangan upang ibagsak maginoo karunungan ay isang malaking hanay ng morphologically classified kalawakan; ibig sabihin, mga kalawakan na ay nabansagang alinman spiral o elliptical. Ang problema, gayunpaman, ay na ang mga umiiral algorithmic pamamaraan para sa pag-uuri ay hindi pa sapat na mahusay na gagamitin para sa pang-agham na pananaliksik; sa ibang salita, classifying galaxies ay, sa oras na iyon, isang problema na ay mahirap para sa mga computer. Samakatuwid, kung ano ang kinakailangan ay isang malaking bilang ng mga tao nauuri kalawakan. Schawinski undertook uuri ang problemang ito sa ang sigasig ng isang mag-aaral na nagtapos. Sa isang marapon session ng pitong, 12-oras na araw, siya ay able sa uriin 50,000 kalawakan. Habang 50,000 kalawakan ay maaaring tunog tulad ng isang pulutong, ito ay talagang lamang tungkol sa 5% ng halos isang milyong mga kalawakan na ay nakuhanan ng larawan sa Sloan Digital Sky Survey. Schawinski natanto na siya na kailangan ng isang mas scalable diskarte.

Sa kabutihang palad, ito ay lumiliko out na ang mga gawain ng classifying kalawakan ay hindi nangangailangan ng mga advanced na pagsasanay sa astronomy; maaari mong magturo sa isang tao na gawin ito medyo mabilis. Sa ibang salita, kahit na pag-uuri ng mga kalawakan ay isang gawain na ay mahirap para sa mga computer, ito ay medyo madali para sa mga tao. Kaya, habang upo sa isang pub sa Oxford, Schawinski at kapwa astronomer Chris Lintott pinangarap up ng isang website na kung saan ang mga boluntaryo ay uriin imahe ng mga kalawakan. Ang ilang buwan mamaya, Galaxy Zoo ay ipinanganak.

Sa website Galaxy Zoo, mga boluntaryo ay sumailalim sa isang ilang minuto ng pagsasanay; halimbawa, pag-aaral ang pagkakaiba sa pagitan ng isang spiral at elliptical galaxy (Figure 5.2). Pagkatapos ng pagsasanay na ito, ang mga boluntaryo ay upang pumasa sa isang relatibong madaling pagsusulit-tama classifying 11 ng 15 galaxies na may kilala klasipikasyon-at pagkatapos ay ang volunteer ay magsisimula real-uuri ng mga hindi kilalang mga kalawakan sa pamamagitan ng isang simpleng web-based interface (Figure 5.3). Ang paglipat mula sa volunteer sa astronomer ay magaganap sa mas mababa sa 10 minuto at lamang na kinakailangan pagpasa sa pinakamababang ng mga hadlang, isang simpleng pagsusulit.

Figure 5.2: Mga halimbawa ng mga dalawang pangunahing uri ng mga kalawakan: spiral at elliptical. Ang Galaxy Zoo proyekto ginagamit ng higit sa 100,000 mga boluntaryo sa mga kategorya ng higit sa 900,000 mga imahe. Source: www.galaxyzoo.org .

Figure 5.3: Input screen kung saan botante hiningi sa inyo na-uri-uriin ng isang nag-iisang larawan. Source: www.galaxyzoo.org .

Galaxy Zoo attracted kanyang unang volunteers matapos ang proyekto ay itinampok sa isang artikulo ng balita, at sa tungkol sa anim na buwan ang proyekto ay lumago upang makasali ang higit sa 100,000 mamamayan siyentipiko, ang mga tao na lumahok dahil nagustuhan nila ang gawain at nais nilang tulungan advance astronomy. Magkasama, ang mga 100,000 mga boluntaryo na iniambag ng isang kabuuang higit sa 40 milyong mga pag-uuri, na may karamihan ng mga pag-uuri na nagmumula sa isang relatibong maliit, core group ng mga kalahok (Lintott et al. 2008) .

Mananaliksik na may karanasan sa pagtanggap ng empleyado undergraduate pananaliksik assistants maaaring agad na may pag-aalinlangan tungkol sa kalidad ng data. Habang ito aalinlangan ay makatwiran, Galaxy Zoo ay nagpapakita na kapag volunteer kontribusyon ay tama nalinis, debiased, at pinagsama-sama, maaari silang gumawa ng mga resulta ng mataas na kalidad (Lintott et al. 2008) . Isang mahalagang bilis ng kamay para sa pagkuha ng ang karamihan ng tao upang lumikha ng propesyonal na kalidad ng data ay kalabisan; iyon ay, pagkakaroon ng ang parehong gawain ginanap sa pamamagitan ng maraming iba't-ibang mga tao. Sa Galaxy Zoo, may mga tungkol sa 40 mga pag-uuri sa bawat kalawakan; mananaliksik gamit undergraduate pananaliksik assistants ay hindi kailanman kayang ito na antas ng kalabisan at samakatuwid ay kailangan upang maging mas nag-aalala sa kalidad ng bawat indibidwal na pag-uuri. Ano ang mga boluntaryo lacked sa pagsasanay, sila ay ginawa up ng may kalabisan.

Kahit na may maraming mga pag-uuri sa bawat kalawakan, gayunpaman, pinagsasama ang hanay ng mga volunteer klasipikasyon upang makabuo ng isang consensus uuri ay mapandaya. Dahil halos kapareho hamon lumabas dahil sa karamihan ng tao proyekto computation, makatutulong upang saglit na suriin ang mga tatlong hakbang na ang Galaxy Zoo mananaliksik na ginamit upang makabuo ng kanilang pinagkasunduan klasipikasyon. Una, ang mga mananaliksik "nalinis" ang data sa pamamagitan ng pagtanggal bogus klasipikasyon. Halimbawa, ang mga taong paulit-ulit na inuri ang parehong galaxy-isang bagay na ang mangyayari kung sila ay sinusubukan upang mamanipula ang mga resulta-ay nagkaroon ng lahat ng kanilang mga pag-uuri tinapon. Ito at iba pang katulad na paglilinis dahil tungkol sa 4% ng lahat ng mga pag-uuri.

Pangalawa, pagkatapos ng paglilinis, ang mga mananaliksik na kailangan upang alisin sistematikong biases sa mga pag-uuri. Sa pamamagitan ng isang serye ng mga pag-aaral bias detection naka-embed sa loob ng orihinal na proyekto-halimbawa, na nagpapakita ng ilang mga boluntaryo ng kalawakan sa monochrome sa halip ng kulay-the mananaliksik natuklasan ilang sistematikong biases, tulad ng isang sistematikong bias sa uri-uriin malayo spiral galaxies bilang elliptical galaxy (Bamford et al. 2009) . Pagsasaayos para sa mga sistematikong biases ay lubos na mahalaga dahil averaging maraming mga kontribusyon ay hindi alisin sistematikong bias; ito lamang ay nagtanggal random error.

Sa wakas, pagkatapos debiasing, ang mga mananaliksik na kailangan ng isang paraan upang pagsamahin ang mga indibidwal na mga pag-uuri upang makabuo ng isang consensus-uuri. Ang pinakasimpleng paraan upang pagsamahin ang mga pag-uuri para sa bawat galaxy ay upang piliin ang mga pinaka-karaniwang pag-uuri. Gayunman, ang paraan na ito ay magbibigay sa bawat volunteer pantay na timbang, at ang mga mananaliksik pinaghihinalaang na ang ilang mga boluntaryo ay mas mahusay sa pag-uuri kaysa sa iba. Samakatuwid, ang mga mananaliksik na binuo ng isang mas kumplikadong umuulit weighting procedure na pagtatangka upang awtomatikong makita ang pinakamahusay na classifiers at bigyan sila ng higit pa timbang.

Kaya, pagkatapos ng tatlong hakbang na proseso-cleaning, debiasing, at weighting-the Galaxy Zoo research team ay iko-convert sa 40 milyong volunteer klasipikasyon sa isang hanay ng consensus morphological klasipikasyon. Kapag ang mga Galaxy Zoo klasipikasyon ay inihambing sa tatlong nakaraang mga mas maliit na-scale mga pagtatangka sa pamamagitan ng propesyonal astronomo, kabilang ang pag-uuri sa pamamagitan ng Schawinski na nakatulong upang pukawin ang Galaxy Zoo, nagkaroon malakas na kasunduan. Kaya, ang mga boluntaryo, sa pinagsama-samang, ay magagawang magbigay ng mataas na kalidad na mga pag-uuri at sa isang scale na ang mga mananaliksik ay hindi maaaring tumugma sa (Lintott et al. 2008) . Sa katunayan, sa pamamagitan ng pagkakaroon ng tao klasipikasyon para sa mga tulad ng isang malaking bilang ng mga kalawakan, Schawinski, Lintott, at iba pa ay able sa ipakita na lamang tungkol sa 80% ng mga kalawakan sundin ang mga inaasahan pattern-blue spirals at red elliptical-and maraming mga papeles ay nai-nakasulat tungkol sa pagkatuklas na ito (Fortson et al. 2011) .

Given na ito background, maaari naming ngayon makita kung paano Galaxy Zoo ay sumusunod sa split-apply-pagsamahin recipe, ang parehong recipe na ay ginagamit para sa karamihan ng tao proyekto pagtutuos. Una, ang isang malaking problema ay nahati sa chunks. Sa kasong ito, ang problema ng classifying isang milyong galaxies ay nahati sa isang milyong mga problema ng classifying isa kalawakan. Susunod, isang operasyon ay inilalapat sa bawat tipak nakapag-iisa. Sa kasong ito, ang isang volunteer ay uriin bawat kalawakan bilang alinman spiral o elliptical. Sa wakas, ang mga resulta ay pinagsama upang makabuo ng isang kasunduan na resulta. Sa kasong ito, ang pagsamahin ang hakbang kasama ang paglilinis, debiasing, at weighting upang makabuo ng isang consensus uuri para sa bawat kalawakan. Kahit na karamihan sa mga proyekto gamitin ang pangkalahatang recipe, bawat isa sa mga hakbang ay kailangang customized sa mga tiyak na problema na hinarap. Halimbawa, sa ang mga tao na proyekto computation ng inilarawan sa ibaba, ang parehong recipe ay sinundan, ngunit ang mag-apply at pagsamahin hakbang na ito ay lubos na naiiba.

Para sa koponan Galaxy Zoo, ito unang proyekto ay lamang sa simula. Masyadong mabilis sila ay natanto na kahit na sila ay able sa uriin malapit sa isang milyong mga galaxy, ito scale ay hindi sapat upang gumana sa mas bagong survey digital langit, na maaaring makabuo ng mga imahe ng tungkol sa 10 bilyong galaxy (Kuminski et al. 2014) . Upang pangasiwaan ang isang pagtaas mula 1 million sa 10 bilyon-isang kadahilanan ng 10,000-Galaxy Zoo ay kailangang kumalap halos 10,000 beses na mas kalahok. Kahit na ang bilang ng mga boluntaryo sa Internet ay malaki, ito ay hindi walang hanggan. Samakatuwid, ang mga mananaliksik na natanto na kung sila ay pagpunta sa hawakan kailanman lumalagong halaga ng data, ang isang bagong, mas scalable, diskarte ay kinakailangan.

Samakatuwid, Manda Banerji-working kay Kevin Schawinski, Chris Lintott, at iba pang mga kasapi ng koponan-simula computer pagtuturo Galaxy Zoo sa uri-uriin kalawakan. Higit pang mga partikular, ang paggamit sa human klasipikasyon nilikha sa pamamagitan ng Galaxy Zoo, Banerji et al. (2010) na binuo ng isang machine modelo sa pag-aaral na maaaring mahulaan ang tao pag-uuri ng isang kalawakan batay sa mga katangian ng imahe. Kung ito machine learning modelo ay maaaring muling buuin ang tao klasipikasyon na may mataas na katumpakan, at pagkatapos na ito ay maaaring gamitin sa pamamagitan ng Galaxy Zoo mananaliksik upang uriin ang isang mahalagang walang-katapusang bilang ng mga kalawakan.

Ang core ng Banerji at kasamahan 'diskarte ay talagang pretty katulad pamamaraan karaniwang ginagamit sa panlipunang pananaliksik, bagaman na pagkakatulad ay maaaring hindi malinaw sa unang tingin. Una, Banerji at kasamahan convert ang bawat larawan sa isang hanay ng numeric tampok na sabihin sa maikling pangungusap ito ay pag-aari. Halimbawa, para sa mga imahe ng mga kalawakan doon ay maaaring tatlong mga tampok: ang halaga ng asul sa imahe, ang pagkakaiba sa lalong maningning kay sa pixels, at ang bahagdan ng mga di-puti pixels. Ang pagpili ng tamang mga tampok ay isang mahalagang bahagi ng problema, at ito sa pangkalahatan ay nangangailangan subject-lugar kadalubhasaan. Ang unang hakbang, na karaniwang tinatawag na tampok engineering, mga resulta sa isang data matrix na may isang hilera ng bawat imahe at pagkatapos ay tatlong hanay na naglalarawan ang imaheng iyon. Given ang data matrix at ang nais na output (eg, kung ang mga imahe ay inuri sa pamamagitan ng isang tao bilang isang elliptical galaxy), ang researcher tinatantya ang mga parameter ng isang statistical model-halimbawa, isang bagay tulad ng isang logistic pagbabalik-na hinuhulaan ang mga tao pag-uuri batay sa mga tampok ng imahe. Sa wakas, ang researcher ay gumagamit ng mga parameter na ito sa statistical modelo upang makabuo ng tinatayang klasipikasyon ng mga bagong kalawakan (Figure 5.4). Mag-isip ng isang social analog, isipin na kayo ay nagkaroon ng demograpikong impormasyon tungkol sa isang milyong mga mag-aaral, at alam mo kung sila ay nagtapos mula sa kolehiyo o hindi. Ikaw ay maaaring magkasya sa isang logistic pagbabalik sa data na ito, at pagkatapos ay maaari mong gamitin ang mga nagresultang mga parameter modelo upang mahulaan kung ang mga bagong mag-aaral ay pagpunta sa magtapos mula sa kolehiyo. Sa machine learning, diskarte na ito-gamit na may label halimbawa upang lumikha ng isang statistical modelo na maaaring pagkatapos ay lagyan ng label bagong data-ay tinatawag na supervised pag-aaral (Hastie, Tibshirani, and Friedman 2009) .

Figure 5.4: Pinasimple paglalarawan ng kung paano Banerji et al. (2010) na ginagamit ang Galaxy Zoo klasipikasyon upang sanayin ang isang machine learning modelo na gawin galaxy-uuri. Imahe ng mga kalawakan ay na-convert sa isang matrix ng mga tampok. Sa ganitong pinasimple halimbawa may tatlong mga tampok (ang halaga ng asul sa imahe, ang pagkakaiba sa lalong maningning kay sa pixels, at ang bahagdan ng mga di-puti pixels). Pagkatapos, para sa isang subset ng mga imahe, ang Galaxy Zoo label ay ginagamit upang sanayin ang isang modelo machine learning. Sa wakas, ang machine learning ay ginagamit upang matantya klasipikasyon para sa natitirang mga kalawakan. tawag ko sa ganitong uri ng proyekto ng isang pangalawang-generation human computational proyekto dahil, sa halip na sa pagkakaroon ng mga kawani na tao malutas ang isang problema, mayroon silang mga tao bumuo ng isang dataset na maaaring magamit upang sanayin ang isang computer upang malutas ang problema. Ang bentahe ng ito computer-assisted diskarte ay na ito ay nagbibigay-daan sa iyo upang mahawakan mahalagang walang katapusan na halaga ng data gamit lamang ang isang tiyak na halaga ng pagsisikap ng tao.

Figure 5.4: Pinasimple paglalarawan ng kung paano Banerji et al. (2010) ginamit ang Galaxy Zoo klasipikasyon upang sanayin ang isang machine learning modelo na gawin galaxy-uuri. Imahe ng mga kalawakan ay na-convert sa isang matrix ng mga tampok. Sa ganitong pinasimple halimbawa may tatlong mga tampok (ang halaga ng asul sa imahe, ang pagkakaiba sa lalong maningning kay sa pixels, at ang bahagdan ng mga di-puti pixels). Pagkatapos, para sa isang subset ng mga imahe, ang Galaxy Zoo label ay ginagamit upang sanayin ang isang modelo machine learning. Sa wakas, ang machine learning ay ginagamit upang matantya klasipikasyon para sa natitirang mga kalawakan. tawag ko sa ganitong uri ng proyekto ng isang pangalawang-generation human computational proyekto dahil, sa halip na sa pagkakaroon ng mga kawani na tao malutas ang isang problema, mayroon silang mga tao bumuo ng isang dataset na maaaring magamit upang sanayin ang isang computer upang malutas ang problema. Ang bentahe ng ito computer-assisted diskarte ay na ito ay nagbibigay-daan sa iyo upang mahawakan mahalagang walang katapusan na halaga ng data gamit lamang ang isang tiyak na halaga ng pagsisikap ng tao.

Ang mga tampok sa Banerji et al. (2010) machine learning modelo ay mas kumplikado kaysa sa mga nasa aking laruan halimbawa-halimbawa, siya na ginamit tampok tulad ng "de Vaucouleurs magkasya axial ratio" -at ang kanyang modelo ay hindi logistic pagbabalik, ito ay isang artipisyal na neural network. Paggamit ng kanyang mga tampok, ang kanyang modelo, at ang pinagkasunduan Galaxy Zoo klasipikasyon, siya ay magagawang upang lumikha ng weights sa bawat tampok na ito, at pagkatapos ay gamitin ang mga weights na gumawa ng mga paghuhula tungkol sa mga pag-uuri ng mga kalawakan. Halimbawa, ang kanyang pag-aaral natagpuan na ang mga imahe na may mababang "de Vaucouleurs magkasya axial ratio" ay mas malamang na maging spiral galaxy. Given mga weights, siya ay magagawang upang mahulaan ang tao pag-uuri ng isang kalawakan na may makatwirang kawastuhan.

Ang gawain ng Banerji et al. (2010) naka-Galaxy Zoo sa kung ano ang gusto kong tumawag sa isang pangalawang-generation human computation system. Ang pinakamahusay na paraan upang isipin ang tungkol sa mga sistema ng pangalawang-generation ay na sa halip ng pagkakaroon ng mga tao na malutas ang isang problema, mayroon silang mga tao bumuo ng isang dataset na maaaring magamit upang sanayin ang isang computer upang malutas ang problema. Ang halaga ng data na kailangan upang sanayin ang computer ay maaaring maging kaya malaki na ito ay nangangailangan ng isang tao na mass pakikipagtulungan upang lumikha ng. Sa kaso ng Galaxy Zoo, ang neural network na ginagamit ng Banerji et al. (2010) na kinakailangan ng isang napakalaking bilang ng mga tao-na may label halimbawa upang bumuo ng isang modelo na ay able sa mapagkakatiwalaan magparami ng tao pag-uuri.

Ang bentahe ng ito computer-assisted diskarte ay na ito ay nagbibigay-daan sa iyo upang mahawakan mahalagang walang katapusan na halaga ng data gamit lamang ang isang tiyak na halaga ng pagsisikap ng tao. Halimbawa, ang isang researcher sa isang milyong tao nauuri kalawakan ay maaaring bumuo ng isang mahuhulain modelo na maaaring pagkatapos ay gagamitin upang uriin ng isang bilyong o kahit na isang trilyon mga kalawakan. Kung may mga numero ng malaki ng mga kalawakan, at pagkatapos na ito uri ng tao-computer hybrid ay talagang ang tanging posibleng solusyon. Ito walang katapusan na scalability ay hindi libre, gayunman. Pagbuo ng isang machine modelo sa pag-aaral na maaaring tama magparami ng tao klasipikasyon ay mismong isang mahirap problema, ngunit sa kabutihang-palad may mga naka-mahusay na mga libro na nakatuon sa paksang ito (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo ay nagpapakita ng ebolusyon ng maraming mga tao proyekto pagtutuos. Una, ang isang researcher na susubok sa proyekto sa pamamagitan ng sarili o kasama ang isang maliit na koponan ng pananaliksik assistants (eg, ni Schawinski paunang pag-uuri pagsisikap). Kung ang paraan na ito ay hindi scale ng mabuti, ang researcher ay maaaring ilipat sa isang tao computation proyekto kung saan maraming mga tao mag-ambag klasipikasyon. Subalit, para sa isang tiyak na dami ng data, dalisay pagsisikap ng tao ay hindi magiging sapat. Sa puntong iyon, ang mga mananaliksik na kailangan upang magtayo pangalawang-generation system kung saan human klasipikasyon ay ginagamit upang sanayin ang isang machine modelo sa pag-aaral na maaaring pagkatapos ay inilapat sa halos walang limitasyong halaga ng data.