5.2.1 Galaxy Zoo

translation na ito ay nilikha sa pamamagitan ng isang computer. ×

5.2.1 Galaxy Zoo

Pinagsama ng Galaxy Zoo ang mga pagsisikap ng maraming di-eksperto na mga boluntaryo upang isaayos ang isang milyong kalawakan.

Ang Galaxy Zoo ay lumaki sa isang problema na nahaharap sa Kevin Schawinski, isang mag-aaral na nagtapos sa Astronomy sa University of Oxford noong 2007. Pinasisimple ang kaunti, ang Schawinski ay interesado sa mga kalawakan, at ang mga kalawakan ay maaaring inuri sa pamamagitan ng kanilang morpolohiya-elliptical o spiral-at sa pamamagitan ng kanilang kulay-asul o pula. Noong panahong iyon, ang maginoo na karunungan sa mga astronomo ay ang spiral galaxy, tulad ng ating Milky Way, ay kulay asul na kulay (nagpapahiwatig ng kabataan) at ang mga elliptical galaxy ay pula (nagpapahiwatig ng katandaan). Pinag-alinlangan ni Schawinski ang magaling na karunungan. Siya ay pinaghihinalaan na kahit na ang pattern na ito ay maaaring totoo sa pangkalahatan, marahil ay may isang malaking bilang ng mga eksepsiyon, at na sa pamamagitan ng pag-aaral ng maraming mga hindi pangkaraniwang mga kalawakan-ang mga na hindi umaangkop sa inaasahang pattern-siya ay maaaring matuto ng isang bagay tungkol sa proseso sa pamamagitan ng nabuo ang mga kalawakan.

Kaya, kung ano ang kinakailangan ng Schawinski upang ibagsak ang maginoo na karunungan ay isang malaking hanay ng mga galaxies na inuuri ng morphologically; iyon ay, mga kalawakan na inuri bilang alinman sa spiral o elliptical. Ang problema, gayunpaman, ay ang mga umiiral na pamamaraan ng algorithm para sa pag-uuri ay hindi pa sapat na sapat upang magamit para sa siyentipikong pananaliksik; sa ibang salita, ang pag-uuri ng mga kalawakan ay, sa panahong iyon, isang problema na mahirap para sa mga computer. Samakatuwid, kung ano ang kailangan ay isang malaking bilang ng mga tao -classified kalawakan. Ginawa ni Schawinski ang problema sa pag-uuri na ito sa sigasig ng isang mag-aaral na nagtapos. Sa sesyon ng marapon na pitong 12-oras na araw, nakapag-uri-uri siya ng 50,000 kalawakan. Habang 50,000 kalawakan ay maaaring tunog tulad ng isang pulutong, ito ay talagang lamang tungkol sa 5% ng halos isang milyong mga galaxy na nakuhanan ng larawan sa Sloan Digital Sky Survey. Natanto ni Schawinski na kailangan niya ang isang mas malawak na diskarte.

Sa kabutihang palad, ito ay lumiliko out na ang mga gawain ng classifying kalawakan ay hindi nangangailangan ng mga advanced na pagsasanay sa astronomy; maaari mong magturo sa isang tao na gawin ito medyo mabilis. Sa ibang salita, kahit na pag-uuri ng mga kalawakan ay isang gawain na ay mahirap para sa mga computer, ito ay medyo madali para sa mga tao. Kaya, habang upo sa isang pub sa Oxford, Schawinski at kapwa astronomer Chris Lintott pinangarap up ng isang website na kung saan ang mga boluntaryo ay uriin imahe ng mga kalawakan. Ang ilang buwan mamaya, Galaxy Zoo ay ipinanganak.

Sa website ng Galaxy Zoo, magboboluntaryo ang mga boluntaryo; halimbawa, pag-aralan ang pagkakaiba sa pagitan ng isang spiral at elliptical na kalawakan (tayahin 5.2). Matapos ang pagsasanay na ito, ang bawat boluntaryo ay kailangang pumasa sa isang relatibong madaling pagsusulit-wasto ang pag-uuri sa 11 ng 15 kalawakan na may kilalang klasipikasyon-at pagkatapos ay magsisimula ng tunay na pag-uuri ng hindi kilalang mga kalawakan sa pamamagitan ng simpleng interface na batay sa web (figure 5.3). Ang paglipat mula sa boluntaryo sa astronomer ay magaganap sa mas mababa sa 10 minuto at kailangan lamang na makapasa sa pinakamababa ng mga hadlang, isang simpleng pagsusulit.

Figure 5.2: Mga halimbawa ng dalawang pangunahing uri ng mga kalawakan: spiral at elliptical. Ang proyekto ng Galaxy Zoo ay gumagamit ng higit sa 100,000 boluntaryo upang maikategorya ang higit sa 900,000 na mga larawan. Nalikha ng pahintulot mula sa http://www.GalaxyZoo.org at Sloan Digital Sky Survey .

Figure 5.3: Input screen kung saan ang mga boluntaryo ay hiniling na uriin ang isang imahe. Nalikha ng pahintulot mula kay Chris Lintott batay sa isang imahe mula sa Sloan Digital Sky Survey .

Nakuha ng Galaxy Zoo ang mga unang boluntaryo nito matapos ang proyekto ay itinampok sa isang artikulo ng balita, at sa mga anim na buwan ang proyekto ay lumago upang kasangkot ang higit sa 100,000 mga siyentipiko ng mamamayan, ang mga tao na lumahok dahil kinagigiliwan nila ang gawain at nais nilang makatulong na isulong ang astronomiya. Sama-sama, ang mga 100,000 boluntaryo na ito ay nag-ambag ng higit sa 40 milyong mga klasipikasyon, kasama ang karamihan sa mga klasipikasyon na nagmumula sa isang maliit, pangunahing grupo ng mga kalahok (Lintott et al. 2008) .

Ang mga mananaliksik na may karanasan sa pagkuha ng undergraduate na katulong sa pananaliksik ay maaaring agad na maging may pag-aalinlangan tungkol sa kalidad ng data. Bagaman makatuwiran ang pag-aalinlangan na ito, ipinakikita ng Galaxy Zoo na kapag ang mga kontribusyon ng volunteer ay wastong nalinis, pinaliit, at pinagsama-samang, maaari silang makabuo ng mataas na kalidad na mga resulta (Lintott et al. 2008) . Ang isang mahalagang trick para sa pagkuha ng karamihan ng tao upang lumikha ng propesyonal na kalidad ng data ay kalabisan , iyon ay, na may parehong gawain na ginanap sa pamamagitan ng maraming iba't ibang mga tao. Sa Galaxy Zoo, may mga tungkol sa 40 mga pag-uuri sa bawat kalawakan; Ang mga mananaliksik na gumagamit ng mga undergraduate na assistant sa pananaliksik ay hindi maaaring kayang bayaran ang antas ng kalabisan na ito at samakatuwid ay kailangang maging higit na nababahala sa kalidad ng bawat indibidwal na pag-uuri. Kung ano ang kulang sa mga boluntaryo sa pagsasanay, sila ay binubuo para sa may kalabisan.

Kahit na may maraming klasipikasyon sa bawat kalawakan, gayunpaman, ang pagsasama-sama ng hanay ng mga klasipikasyon ng boluntaryo upang makagawa ng isang pag-uuri ng kasunduan ay nakakalito. Dahil ang mga katulad na hamon ay lumitaw sa karamihan sa mga proyekto ng pag-uulit ng tao, makatutulong na maikling repasuhin ang tatlong hakbang na ginagamit ng mga mananaliksik ng Galaxy Zoo upang makagawa ng kanilang mga klasipikasyon ng pinagkaisahan. Una, ang mga mananaliksik ay "nalinis" ang data sa pamamagitan ng pag-alis ng mga klaseng bogus. Halimbawa, ang mga tao na paulit-ulit na inuri ang parehong kalawakan-isang bagay na mangyayari kung sinisikap nilang manipulahin ang mga resulta-ay naitapon ang lahat ng kanilang mga klasipikasyon. Inalis na ito at iba pang katulad na paglilinis tungkol sa 4% ng lahat ng klasipikasyon.

Ikalawa, pagkatapos ng paglilinis, kailangan ng mga mananaliksik na tanggalin ang sistematikong biases sa mga klasipikasyon. Sa pamamagitan ng isang serye ng mga pag-aaral ng bias sa pagtuklas na naka-embed sa loob ng orihinal na proyekto-halimbawa, nagpapakita ng ilang mga boluntaryo ang kalawakan sa monochrome sa halip na kulay-natuklasan ng mga mananaliksik ang ilang sistematikong biases, tulad ng isang sistematikong bias upang i-classify ang mga malalayong spiral galaxies bilang mga elliptical galaxies (Bamford et al. 2009) . Ang pagsasaayos para sa mga sistematikong biases ay napakahalaga dahil ang kalabisan ay hindi awtomatikong mag-aalis ng sistematikong bias; Tinutulungan lamang nito ang pag-alis ng random na error.

Sa wakas, pagkatapos ng pagbabawas, ang mga mananaliksik ay nangangailangan ng isang paraan upang pagsamahin ang mga indibidwal na klasipikasyon upang makagawa ng isang pag-uuri ng kasunduan. Ang pinakasimpleng paraan upang pagsamahin ang mga klasipikasyon para sa bawat kalawakan ay upang piliin ang pinakakaraniwang klasipikasyon. Gayunman, ang paraan na ito ay nagbigay ng bawat boluntaryo ng pantay na timbang, at pinaghihinalaang ng mga mananaliksik na ang ilang mga boluntaryo ay mas mahusay sa pag-uuri kaysa sa iba. Samakatuwid, ang mga mananaliksik ay bumuo ng isang mas kumplikadong iterative weighting procedure na tinangka upang makita ang pinakamahusay na mga classifier at bigyan sila ng mas timbang.

Kaya, pagkatapos ng tatlong hakbang na proseso-paglilinis, pagbabawas, at pagbawas-ang koponan ng pananaliksik ng Galaxy Zoo ay nag-convert ng 40 milyong mga klasiko ng boluntaryo sa isang hanay ng mga morpolohikal na klasipikasyon ng pinagkasunduan. Kapag ang mga kategoryang Galaxy Zoo ay inihambing sa tatlong nakaraang mas maliit na pagtatangka ng mga propesyonal na astronomo, kabilang ang pag-uuri ni Schawinski na nakatulong upang mapasigla ang Galaxy Zoo, nagkaroon ng malakas na kasunduan. Kaya, ang mga boluntaryo, sa kabuuan, ay nakapagbigay ng mataas na kalidad na mga klasipikasyon at sa sukat na hindi (Lintott et al. 2008) ng mga mananaliksik (Lintott et al. 2008) . Sa katunayan, sa pamamagitan ng pagkakaroon ng mga klasipikasyon ng tao para sa tulad ng maraming bilang ng mga kalawakan, ipinakita ni Schawinski, Lintott, at iba pa na mga 80% ng mga kalawakan ang sumusunod sa inaasahang pattern-asul na mga spiral at mga pulang elliptical-at maraming mga papel ang isinulat tungkol ang pagtuklas na ito (Fortson et al. 2011) .

Dahil sa background na ito, maaari mo na ngayong makita kung paano sumusunod ang Galaxy Zoo sa split-apply-combine recipe, ang parehong recipe na ginagamit para sa karamihan ng mga proyekto sa pag-compute ng tao. Una, ang isang malaking problema ay nahati sa mga chunks. Sa kasong ito, ang problema ng pag-uuri ng isang milyong kalawakan ay nahati sa isang milyong problema ng pag-uuri ng isang kalawakan. Susunod, ang isang operasyon ay inilapat sa bawat tipak nang nakapag-iisa. Sa kasong ito, inuri ng mga boluntaryo ang bawat kalawakan bilang spiral o elliptical. Sa wakas, ang mga resulta ay pinagsama upang makabuo ng isang resulta ng pinagkasunduan. Sa kasong ito, ang pagsasama ng hakbang ay kasama ang paglilinis, pagbabawas, at pagbawas upang makagawa ng pag-uuri ng kasunduan para sa bawat kalawakan. Kahit na ginagamit ng karamihan sa mga proyekto ang pangkalahatang recipe na ito, kailangang i-customize ang bawat hakbang sa partikular na problema na hinarap. Halimbawa, sa project ng pag-compute ng tao na inilarawan sa ibaba, ang parehong recipe ay susundan, ngunit ang mag-apply at pagsamahin ang mga hakbang ay magiging magkaiba.

Para sa koponan ng Galaxy Zoo, ang unang proyekto na ito ay simula lamang. Napakabilis nilang napagtanto na kahit na nakapag-uri-uri sila ng malapit sa isang milyong kalawakan, ang sukat na ito ay hindi sapat upang magtrabaho sa mas bagong digital na mga survey sa kalangitan, na maaaring makapagpakita ng mga larawan ng mga 10 bilyong kalawakan (Kuminski et al. 2014) . Upang mahawakan ang isang pagtaas mula sa 1 milyon hanggang 10 bilyon-isang kadahilanan ng 10,000-Galaxy Zoo ay kailangang mag-recruit ng humigit-kumulang na 10,000 beses na mas kalahok. Kahit na ang bilang ng mga boluntaryo sa Internet ay malaki, hindi ito walang hanggan. Samakatuwid, natuklasan ng mga mananaliksik na kung haharapin nila ang patuloy na pagtaas ng dami ng data, isang bagong, mas maraming scalable, diskarte ay kinakailangan.

Samakatuwid, si Manda Banerji-nagtatrabaho sa Schawinski, Lintott, at iba pang mga miyembro ng koponan ng Galaxy Zoo (2010) -ang mga computer na nagtuturo sa pag-uri-uriin ng mga kalawakan. Higit na partikular, gamit ang mga klasipikasyon ng tao na nilikha ng Galaxy Zoo, itinayo ni Banerji ang modelo ng pag-aaral ng makina na maaaring hulaan ang pag-uuri ng tao ng isang kalawakan batay sa mga katangian ng imahe. Kung ang modelong ito ay maaaring magparami ng mga klasipikasyon ng tao na may mataas na kawastuhan, maaaring magamit ito ng mga mananaliksik ng Galaxy Zoo upang i-uri ang isang walang katapusang bilang ng mga kalawakan.

Ang kaibuturan ng diskarte ng Banerji at mga kasamahan ay talagang medyo katulad ng mga diskarte na karaniwang ginagamit sa panlipunang pananaliksik, bagaman ang pagkakatulad ay maaaring hindi malinaw sa unang sulyap. Una, binago ng Banerji at mga kasamahan ang bawat larawan sa isang hanay ng mga de-numerong tampok na summarized sa mga katangian nito. Halimbawa, para sa mga larawan ng mga galaxy, maaaring mayroong tatlong mga tampok: ang halaga ng asul sa imahe, ang pagkakaiba sa liwanag ng pixel, at ang proporsyon ng mga di-puting pixel. Ang pagpili ng mga tamang katangian ay isang mahalagang bahagi ng problema, at sa pangkalahatan ay nangangailangan ng kadalubhasaan sa paksa-lugar. Ang unang hakbang na ito, na karaniwang tinatawag na feature engineering , ay nagreresulta sa isang matris ng data na may isang hilera sa bawat larawan at pagkatapos ay tatlong haligi na naglalarawan sa larawang iyon. Dahil sa data matrix at ang nais na output (halimbawa, kung ang imahe ay inuri ng isang tao bilang isang elliptical galaxy), ang mananaliksik ay lumilikha ng isang istatistika o modelo ng pag-aaral ng machine-halimbawa, logistic regression-na hinuhulaan ang pag-uuri ng tao batay sa mga tampok ng imahe. Sa wakas, ginagamit ng mananaliksik ang mga parameter sa estadistika na ito upang makabuo ng tinatayang klasipikasyon ng mga bagong kalawakan (tayahin 5.4). Sa pag-aaral ng machine, ang paraan ng paggamit na ito na may label na mga halimbawa upang lumikha ng isang modelo na maaaring mag-label ng bagong data-ay tinatawag na supervised learning .

Figure 5.4: Pinasimple paglalarawan kung paano Banerji et al. (2010) ginamit ang mga pag-uuri ng Galaxy Zoo upang sanayin ang isang modelo ng pag-aaral ng makina upang magawa ang pag-uuri ng kalawakan. Ang mga imahe ng mga kalawakan ay na-convert sa isang matrix ng mga tampok. Sa ganitong pinasimple na halimbawa, mayroong tatlong mga tampok (ang halaga ng asul sa imahe, ang pagkakaiba sa liwanag ng pixel, at ang proporsyon ng mga nonwhite na pixel). Pagkatapos, para sa isang subset ng mga imahe, ang mga label ng Galaxy Zoo ay ginagamit upang sanayin ang isang modelo ng pag-aaral ng makina. Sa wakas, ang pag-aaral ng machine ay ginagamit upang tantyahin ang mga klasipikasyon para sa natitirang mga kalawakan. Tinatawag ko itong proyekto na tinutulungan ng tao na computer-computation dahil, sa halip na malutas ng mga tao ang isang problema, ito ay may mga tao na bumuo ng isang dataset na maaaring magamit upang sanayin ang isang computer upang malutas ang problema. Ang kalamangan ng sistemang ito ng computer na tinutulungan ng computer na ito ay nagbibigay-daan sa iyo upang mahawakan ang walang katapusang halaga ng data na gumagamit lamang ng isang limitadong halaga ng pagsisikap ng tao. Mga imahe ng mga kalawakan na muling ginawa ng pahintulot mula sa Sloan Digital Sky Survey .

Ang mga tampok sa modelo ng pag-aaral ng makina ng Banerji at mga kasamahan ay mas kumplikado kaysa sa mga halimbawa ng aking laruan-halimbawa, gumamit siya ng mga tampok tulad ng "de Vaucouleurs fit axial ratio" -at ang kanyang modelo ay hindi lohikal na pagbabalik, isang artipisyal na neural network. Gamit ang kanyang mga tampok, ang kanyang modelo, at ang pinagkaisahan na mga pag-uuri ng Galaxy Zoo, nakagawa siya ng mga timbang sa bawat tampok, at pagkatapos ay gamitin ang mga timbang upang gumawa ng mga hula tungkol sa pag-uuri ng mga kalawakan. Halimbawa, nalaman ng kanyang pagtatasa na ang mga larawan na may mababang "de Vaucouleurs na akma sa axial ratio" ay mas malamang na maging spiral galaxies. Dahil sa mga timbang na ito, nakuha niya upang mahulaan ang pag-uuri ng tao ng isang kalawakan na may makatwirang kawastuhan.

Ang gawain ng Banerji at mga kasamahan ay nagpalit ng Galaxy Zoo sa kung ano ang tatawagan ko sa isang computer-assisted human computing system . Ang pinakamahusay na paraan upang mag-isip tungkol sa mga hybrid na sistema ay na sa halip na magkaroon ng mga tao na malutas ang isang problema, mayroon silang mga tao bumuo ng isang dataset na maaaring magamit upang sanayin ang isang computer upang malutas ang problema. Minsan, ang pagsasanay ng isang computer upang malutas ang problema ay maaaring mangailangan ng maraming halimbawa, at ang tanging paraan upang makabuo ng sapat na bilang ng mga halimbawa ay isang pakikipagtulungan ng masa. Ang bentahe ng diskarteng tinutulungan ng computer na ito ay nagbibigay-daan sa iyo upang mahawakan ang walang katapusang halaga ng data na gumagamit lamang ng isang limitadong halaga ng pagsisikap ng tao. Halimbawa, ang isang mananaliksik na may isang milyong kalipong galaksi ng tao ay maaaring bumuo ng isang predictive na modelo na maaaring magamit sa pag-uri-uriin ng isang bilyon o kahit na isang trilyong kalawakan. Kung may mga napakalaking bilang ng mga kalawakan, ang ganitong uri ng hybrid na tao-computer ay ang tanging posibleng solusyon. Gayunpaman, ang walang-katapusang scalability ay hindi libre. Ang pagbuo ng isang modelo ng pag-aaral ng makina na maaaring maayos na magparami ng mga klasipikasyon ng tao ay isang mahirap na problema, ngunit sa kabutihang-palad may mga mahusay na libro na nakatuon sa paksang ito (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Ang Galaxy Zoo ay isang magandang ilustrasyon kung gaano karaming ebolusyon ng mga proyekto sa pag-compute ng tao. Una, sinusubukan ng isang mananaliksik ang proyekto sa pamamagitan ng kanyang sarili o sa isang maliit na pangkat ng mga assistant sa pananaliksik (hal., Ang unang pagsisikap ng pag-uuri ng Schawinski). Kung ang diskarte na ito ay hindi mahusay na sukat, ang tagapagpananaliksik ay maaaring lumipat sa isang tao na proyekto sa pagtutuos na may maraming mga kalahok. Ngunit, para sa isang tiyak na dami ng data, ang dalisay na pagsisikap ng tao ay hindi sapat. Sa puntong iyon, kailangan ng mga mananaliksik na magtayo ng computer-assisted human computing system kung saan ang mga classification ng tao ay ginagamit upang sanayin ang isang modelo ng pag-aaral ng makina na maaaring ilapat sa halos walang limitasyong halaga ng data.