5.2.1 Galaxy Zoo

Galaxy Zoo cothlamadh de na h-oidhirpean mòran de neo-eòlaiche saor-thoileach a sheòrsachadh millean galaxies.

Galaxy Zoo dh'fhàs a-mach à duilgheadas mu choinneamh le Kevin Schawinski, cheumnaich oileanaich ann an Reul-eòlas aig Oilthigh Oxford ann an 2007. nas sìmplidhe buileach beagan, Schawinski robh ùidh ann an galaxies, agus galaxies Faodar an seòrsachadh a rèir an morf-eòlas-falaichte no shnìomhanach-agus a rèir an dath-ghorm no dearg. Aig an àm, gnàthach gliocas am measg speuradairean a bha sin shnìomhanach galaxies, mar ar Milky Way, bha gorm ann an dath (a 'sealltainn na h-òigridh) agus gun falaichte galaxies bha e dearg an dath (a' sealltainn seann aois). Schawinski teagamh seo gnàthach gliocas. E amharas gun fhad 'sa tha am pàtran seo a dh'fhaodadh a bhith fìor san fharsaingeachd, bha' s dòcha mòran àireamh de ach a-mhàin, agus sin le bhith a 'dèanamh tòrr de na neo-àbhaisteach galaxies-an fheadhainn nach do fhreagair e dùilean-faodadh e rudeigin ionnsachadh mun phròiseas tro a galaxies chruthachadh.

Mar sin, dè Schawinski a dhìth ann an òrdugh a thionndadh gu gnàthach gliocas bha mòr seata de thaobh morf-eòlais seòrsaichte galaxies; 'se sin, galaxies a bha air an seòrsachadh mar an dara cuid shnìomhanach no falaichte. Tha an duilgheadas, ge-tà, bha sin ann mar-thà algorithmic dòighean airson seòrsachadh cha robh math gu leòr gu bhith air a chleachdadh airson rannsachadh saidheansail; ann am facail eile, seòrsachadh galaxies bha, aig an àm sin, duilgheadas a bha cruaidh airson coimpiutairean. Mar sin, dè bha a dhìth bha àireamh mhòr de daonna seòrsachadh galaxies. Schawinski os làimh seòrsachadh seo duilgheadas ann leis an dealas Cheumnaich oileanach. Ann an seisean marathon seachd, 12-uair a thìde làithean, bha e comasach air an seòrsachadh 50,000 galaxies. Ged 50,000 galaxies dòcha fuaim coltach ri mòran, tha e dha-rìribh ach mu 5% de cha mhòr millean galaxies a chaidh a thogail anns a 'Sloan Digital Adhar Suirbhidh. Schawinski thuig gum feumadh e nas scalable dòigh-obrach.

Gu fortanach, tha e a 'tionndadh a-mach gu bheil an obair a' seòrsachadh galaxies Chan eil feum adhartach trèanadh ann an reul-eòlas; faodaidh tu teagasg cuideigin ga dhèanamh gu math luath. Ann am briathran eile, ged seòrsachadh galaxies 'S e obair chruaidh a bha airson coimpiutairean, bha i gu math furasta do dhaoine. Mar sin, fhad 'sa bha na shuidhe ann an taigh-seinnse ann an Oxford, Schawinski agus fear Reul-eòlaiche Chris Lintott bhruadair suas làrach-lìn far an robh saor-thoileach a bhiodh an seòrsachadh ìomhaighean de galaxies. Beagan mhìosan an dèidh sin, Galaxy Zoo Rugadh.

Aig an Galaxy Zoo làrach-lìn, saor-thoileach a bhiodh a 'dol tro beagan mhionaidean trèanaidh; mar eisimpleir, ionnsachadh eadar-dhealachadh eadar shnìomhanach agus falaichte galaxy (Figear 5.2). An dèidh an trèanadh seo, an saor-thoileach a bha a 'dol seachad air an ìre mhath furasta quiz-ceart seòrsachadh 11 de 15 galaxies le ainmeil seòrsachadh-agus an uair sin bhiodh saor-thoileach tòiseachadh fìor seòrsachadh unknown galaxies tro sìmplidh eadar-lìon eadar-aghaidh (Figear 5.3). Tha an gluasad bho saor-thoileach airson an Reul-eòlaiche a bhiodh a 'gabhail àite ann an nas lugha na 10 mionaid, agus riatanach ach dol seachad air an ìre ab' ìsle na cnapan-starra, ceisteachan sìmplidh.

Figear 5.2: Eisimpleirean de na dà phrìomh sheòrsa galaxies: shnìomhanach agus falaichte. Tha Galaxy Zoo chleachd am pròiseact còrr is 100,000 luchd saor-thoileach gus roinnean-seòrsa còrr is 900,000 ìomhaighean. Source: www.galaxyzoo.org.

Figear 5.2: Eisimpleirean de na dà phrìomh sheòrsa galaxies: shnìomhanach agus falaichte. Tha Galaxy Zoo chleachd am pròiseact còrr is 100,000 luchd saor-thoileach gus roinnean-seòrsa còrr is 900,000 ìomhaighean. Source: www.galaxyzoo.org .

Figear 5.3: Input glacadh far a bheil luchd-bhòtaidh Chaidh iarraidh air an seòrsachadh aon dealbh. Source: www.galaxyzoo.org.

Figear 5.3: Input glacadh far a bheil luchd-bhòtaidh Chaidh iarraidh air an seòrsachadh aon dealbh. Source: www.galaxyzoo.org .

Galaxy Zoo a thàladh a chiad saor-thoileach an dèidh Chaidh a 'phròiseact' nochdadh ann an artaigil naidheachd, is ann mu dheidhinn sia mìosan a 'phròiseict a chur an sàs dh'fhàs còrr is 100,000 saoranach saidheans, daoine a tha air pàirt a ghabhail seach gu bheil iad a' còrdadh ris a 'ghnìomh agus tha iad ag iarraidh ro-làimh gus cuideachadh reultan. Còmhla, tha na 100,000 neach-obrach saor-thoileach a 'cur gu h-iomlan còrr is 40 millean duine a' seòrsachadh, leis a 'mhòr-chuid de na seòrsachaidhean a' tighinn bho an ìre mhath beag, prìomh bhuidheann de chom-pàirtichean (Lintott et al. 2008) .

Rannsaichean aig a bheil eòlas fastadh fo-cheuma rannsachadh cuideachaidh a dh'fhaodadh a bhith anns a 'bhad saorsa mu càileachd an dàta. Ged a dh'aindheoin cheistean-dearbhaidh seo tha reusanta, Galaxy Zoo 'sealltainn gu bheil saor-thoileach nuair a tabhartasan a tha gu ceart a' glanadh, debiased, agus còmhla, 's urrainn dhaibh a dhèanamh de dh'àrd-chàileachd toraidhean (Lintott et al. 2008) . An cleas cudromach airson fàs an t-sluaigh a chruthachadh proifeiseanta càileachd dàta a tha dreuchdan; is e sin, an dèidh an aon ghnìomh an seinn le iomadh diofar dhaoine. Ann an Galaxy Zoo, bha mu 40 seòrsachadh gach galaxy; -rannsachaidh a 'cleachdadh fo-cheuma rannsachadh cuideachaidh Cha b' urrainn pàigheadh ​​an ìre seo de an dreuchdan, agus mar sin a dh'fheumas a bhith mòran nas cheangailte ri càileachd gach neach fa leth seòrsachadh. Dè an robh saor-thoilich ann an trèanadh, tha iad a 'dèanamh suas airson ri dìth.

Fiù 's le ioma seòrsachadh gach galaxy, ge-tà, a' cur an seata de luchd saor-thoileach seòrsachadh a thoirt gu buil co-aontachd seòrsachadh e doirbh. Seach gu math coltach dùbhlain a nochdas sa mhòr-chuid daonna coimpiutadh pròiseactan, tha e feumail gu ath-bhreithneachadh geàrr an trì ceumannan a Galaxy an Sù-rannsachaidh a chleachdadh gus a chruthachadh co-aontachd an seòrsachadh. A 'chiad, an luchd-rannsachaidh "glanadh" an dàta le bhith a' toirt air falbh bogus-seòrsachadh. Mar eisimpleir, daoine a tha tric air an seòrsachadh an aon galaxy-rudeigin a thachradh mur a biodh iad a 'feuchainn ri atharrachadh na toraidhean aca-bha a h-uile seòrsachadh tilgeil air falbh. Seo agus feadhainn eile coltach glanadh air falbh mu 4% de na h-uile seòrsachadh.

San dàrna àite, an dèidh a 'glanadh, an luchd-rannsachaidh a dhìth a thoirt air falbh eagarach biases ann seòrsachadh. Tro shreath de leiteachas lorgaidh Eòlais freumhaichte taobh a-staigh a 'chiad phròiseact mar eisimpleir, a' sealltainn an cuid obrach saor-thoileach an galaxy ann monochrome àite dath-an luchd-rannsachaidh a lorg grunn eagarach biases, leithid eagarach leiteachas a sheòrsachadh fada air falbh shnìomhanach galaxies mar falaichte galaxies (Bamford et al. 2009) . Ceartachadh airson na eagarach biases tha air leth cudromach oir chuibheasach mòran tabhartasan Chan eil rianail a thoirt air falbh leiteachas; e a-mhàin air falbh air thuaiream mearachd.

Mu dheireadh, an dèidh debiasing, an luchd-rannsachaidh feum air dòigh còmhla ri an neach fa leth seòrsachadh a thoirt gu buil co-aontachd seòrsachadh. Tha an dòigh as sìmplidhe a chur còmhla seòrsachadh airson gach galaxy bhiodh a thaghadh as cumanta seòrsachadh. Ach, seo an dòigh-obrach saor-thoileach a bheireadh gach cuideam co-ionnan, agus an luchd-rannsachaidh fo amharas gun robh cuid de luchd saor-thoileach a bha na b 'fheàrr aig seòrsachadh na feadhainn eile. Uime sin, an luchd-rannsachaidh a leasachadh nas iom-fhillte ioma-taobhach cudromachd modhan-obrach a 'feuchainn a lorgadh gu fèin-obrachail as fheàrr classifiers agus a' toirt dhaibh barrachd cuideam.

Mar sin, às dèidh trì ceum pròiseas-glanaidh, debiasing, agus cuideam an-Galaxy Zoo sgioba rannsachaidh a bha air an iompachadh 40 millean neach saor-thoileach a-steach seòrsachadh seata co-aontachd morphological-seòrsachadh. Nuair a sin Galaxy Zoo seòrsachadh bha an coimeas ri trì roimhe nas lugha oidhirpean le speuradairean proifeiseanta, nam measg an seòrsachadh le Schawinski a chuidich a bhrosnachadh Galaxy Zoo, bha aonta làidir ann. Mar sin, saor-thoileach, ann an oigreachdan, b 'urrainn do chàileachd àrd sheòrsachaidhean is aig sgèile a tha an luchd-rannsachaidh nach b' urrainn a 'maidseadh (Lintott et al. 2008) . Gu dearbh, le bhith a 'daonna' seòrsachadh airson àireamh cho mòr de galaxies, Schawinski, Lintott, agus feadhainn eile a bha comasach air sealltainn nach eil ach mu 80% de galaxies leantainn an dùil pàtran gorm-snìomhain agus dearg ellipticals-agus iomadh pàipear a sgrìobhadh mu deidhinn seo a lorg (Fortson et al. 2011) .

Air sgàth seo, faodaidh sinn a-nis a 'faicinn mar a Galaxy Zoo a leanas a' sgaradh a 'buntainn--còmhla reasabaidh, an aon reasabaidh a tha air a chleachdadh airson coimpiutadh pròiseactan as daonna. A 'chiad, gu bheil trioblaid mhòr air a roinn a-steach cnapan. Sa chùis seo, tha an trioblaid a 'seòrsachadh millean galaxies air a roinn a-steach millean duilgheadasan seòrsachadh aon galaxy. An ath, an obrachadh a thathar a 'cur gu gach pìos neo-eisimeileach. Sa chùis seo, gu saor-thoileach a bhiodh an seòrsachadh gach galaxy mar an dara cuid shnìomhanach no falaichte. Mu dheireadh, tha na toraidhean còmhla ri chèile co-aontachd thoradh. Sa chùis seo, a 'gabhail a-steach còmhla ceum an glanadh, debiasing, agus cuideam a chur ri chèile co-aontachd seòrsachadh airson gach galaxy. Fiù 's ged as pròiseactan seo a chleachdadh coitcheann reasabaidh, gach aon de na ceumannan a dh'fheumas a gnàthaichte gu sònraichte a' dèiligeadh ris an duilgheadas. Mar eisimpleir, ann an coimpiutadh daonna 'phròiseict air a mhìneachadh gu h-ìosal, an aon reasabaidh Thèid a leantainn, ach a' cur a-steach agus a chur còmhla ceumannan a bhios gu math eadar-dhealaichte.

Airson an Galaxy Zoo sgioba, seo a 'chiad phròiseact a bha dìreach an toiseach. Fìor luath thuig iad gun robh fiù 's ged a bha iad comasach air an seòrsachadh faisg air millean galaxies, an sgèile seo chan eil gu leòr a bhith ag obair le nas ùire didseatach speur suirbhidhean, a dh'fhaodadh a dheasachadh ìomhaighean de mu 10 billean galaxies (Kuminski et al. 2014) . Làimhseachadh àrdachadh bho 1 millean gu 10 billean-bhàillidh de 10,000 neach-Galaxy Zoo dh'fheumadh a thàladh gu garg 10,000 amannan barrachd chom-pàirtichean. Fiù 's ged a bha an àireamh de luchd saor-thoileach air an eadar-lìon a tha mòr, chan eil e neo-chrìochnach. Uime sin, an luchd-rannsachaidh thuig ma tha iad a 'dol a làimhseachadh a-riamh a' fàs uiread de dàta, ùr, fiù 's barrachd scalable, bha feum air dòigh-obrach.

Uime sin, Manda Banerji-obrachadh còmhla ri Kevin Schawinski, Chris Lintott, agus buill eile den Galaxy Zoo sgioba-teagaisg a 'tòiseachadh coimpiutairean a sheòrsachadh galaxies. Tuilleadh sònraichte, a 'cleachdadh an daonna seòrsachadh chruthachadh le Galaxy Zoo, Banerji et al. (2010) a thogail inneal modail ionnsachaidh a dh'fhaodadh ro-daonna seòrsachadh nan reultan stèidhichte air feartan an deilbh. Ma seo inneal modail ionnsachaidh a dh'fhaodadh a 'gintinn a' daonna 'seòrsachadh le àrd mionaideachd, an uair sin dh'fhaodadh ea bhith air a chleachdadh le Galaxy Zoo rannsachaidh a sheòrsachadh an ìre mhath neo-chrìochnach àireamh de galaxies.

Tha cridhe Banerji agus co-oibrichean dòigh-obrach 'S e dha-rìribh math coltach ri dòighean-obrach a chleachdadh gu cumanta ann an rannsachadh sòisealta, ged a dh'fhaodadh coltach nach eil e soilleir aig a' chiad shealladh. A 'chiad, Banerji agus co-oibrichean iompachadh gach dealbh-steach seata de àireamhach feartan gu bheil geàrr-chunntas a tha e feartan. Mar eisimpleir, airson ìomhaighean de galaxies dh'fhaodadh gum bi trì feartan: an t-suim de gorm ann an ìomhaigh, an toireadh ann an dealradh na pixel, agus bha a 'chuibhreann de neo-gheal piogsail. Tha taghadh de na feartan cearta S e pàirt chudromach de an trioblaid, is e an fharsaingeachd Feumaidh cuspair-eòlas sgìre. Tha seo a 'chiad cheum, dham b' ainm cumanta feart innleadaireachd, toraidhean ann an dàta matrix le aon sreath gach dealbh agus an uair sin a 'toirt iomradh air trì colbhan gu bheil ìomhaigh. Leis an dàta matrix agus ag iarraidh cur a-mach (me, a bheil an ìomhaigh Chaidh seòrsachadh le daonna mar falaichte galaxy), an neach-rannsachaidh a 'dèanamh tuairmse na crìochan staitistigeach modail-mar eisimpleir, rudeigin mar stiùireadh regression-gu bheil sùileachadh daonna seòrsachadh stèidhichte air feartan an deilbh. Mu dheireadh, an neach-rannsachaidh a 'cleachdadh nam paraimeadaran seo staitistigeil modail a thoirt gu buil thuairmse seòrsachadh ùr galaxies (Figear 5.4). Smaoineachadh air sòisealta Analog, smaoineachadh gu bheil thu robh am fiosrachadh deamografach mu millean oileanaich, agus tha fios agad co-dhiù a tha iad a 'ceumnachadh bho cholaiste no nach eil. Dh'fhaodadh tu bròg stiùireadh regression airson an dàta seo, agus an uair sin dh'fhaodadh tu a 'cleachdadh a' mhodail mar thoradh air crìochan a ràdh co-dhiù ùr oileanaich a 'dol a' ceumnachadh bho cholaiste. Ann an inneal ionnsachaidh, dòigh-obrach seo a 'cleachdadh bileagan-eisimpleirean a chruthachadh staitistigeil modail a dh'fhaodas an uair sin ainmich dàta ùr-Canar fo stiùir ionnsachadh (Hastie, Tibshirani, and Friedman 2009) .

Figear 5.4: Simplidh iomradh air mar a Banerji et al. (2010) a chleachdadh an Galaxy Zoo seòrsachadh a 'trèanadh inneal ionnsachaidh modail a dhèanamh galaxy seòrsachadh. Images of galaxies chaidh an iompachadh chèile ann am meatrags de fheartan. Ann an seo sìmplidh mar eisimpleir tha na trì feartan a (an t-suim de gorm ann an ìomhaigh, an toireadh ann an dealradh na pixel, agus bha a 'chuibhreann de neo-gheal pixel). An uair sin, airson fo-sheata de na h-ìomhaighean, an Galaxy Zoo bileagan gan cleachdadh gus trèanadh inneal modail ionnsachaidh. Mu dheireadh, an inneal ionnsachaidh air a chleachdadh gus tuairmse a dhèanamh air seòrsachadh airson galaxies fhàgail. Their mi ris an seòrsa seo de phròiseact dàrna ginealach-daonna computational pròiseact oir, seach daoine fuasgladh fhaighinn air an duilgheadas, feumaidh iad daoine a thogail sean a dh'fhaodar a chleachdadh airson trèanadh do coimpiutair gus fuasgladh fhaighinn air an duilgheadas. Tha am brath seo le taic coimpiutair dòigh-obrach gu bheil e a 'toirt cothrom dhut a làimhseachadh an ìre mhath neo-chrìochnach suimean dàta a' cleachdadh ach crìochnach suim daonna oidhirp.

Figear 5.4: Simplidh iomradh air mar a Banerji et al. (2010) a chleachdadh an Galaxy Zoo seòrsachadh a 'trèanadh inneal ionnsachaidh modail a dhèanamh galaxy seòrsachadh. Images of galaxies chaidh an iompachadh chèile ann am meatrags de fheartan. Ann an seo sìmplidh mar eisimpleir tha na trì feartan a (an t-suim de gorm ann an ìomhaigh, an toireadh ann an dealradh na pixel, agus bha a 'chuibhreann de neo-gheal pixel). An uair sin, airson fo-sheata de na h-ìomhaighean, an Galaxy Zoo bileagan gan cleachdadh gus trèanadh inneal modail ionnsachaidh. Mu dheireadh, an inneal ionnsachaidh air a chleachdadh gus tuairmse a dhèanamh air seòrsachadh airson galaxies fhàgail. Their mi ris an seòrsa seo de phròiseact dàrna ginealach-daonna computational pròiseact oir, seach daoine fuasgladh fhaighinn air an duilgheadas, feumaidh iad daoine a thogail sean a dh'fhaodar a chleachdadh airson trèanadh do coimpiutair gus fuasgladh fhaighinn air an duilgheadas. Tha am brath seo le taic coimpiutair dòigh-obrach gu bheil e a 'toirt cothrom dhut a làimhseachadh an ìre mhath neo-chrìochnach suimean dàta a' cleachdadh ach crìochnach suim daonna oidhirp.

Tha na feartan ann an Banerji et al. (2010) inneal modail ionnsachaidh a bha nas iom-fhillte na an fheadhainn ann an dèideag agam-eisimpleir mar eisimpleir, chleachd i feartan mar "de Vaucouleurs freagarrach axial co-mheas" Rìoghachd modail aice nach robh stiùireadh regression, bha e fuadain neural lìonra. Cleachdadh aice feartan, modail aice, agus a 'co-aontachd Galaxy Zoo seòrsachadh, bha i comasach a chruthachadh cuideaman air gach feart, agus an uair sin a' cleachdadh na cuideaman airson ro-innsean mu dheidhinn a 'seòrsachadh galaxies. Mar eisimpleir, tha mion-sgrùdadh aice air lorg gu bheil ìomhaighean le ìosal "de Vaucouleurs freagarrach axial co-mheas" na bu bhuailtiche a bhith shnìomhanach galaxies. Leis na cuideaman, bha i comasach air ro-innse daonna seòrsachadh nan reultan ceart.

Tha obair Banerji et al. (2010) thionndaidh Galaxy Zoo a-steach na tha mi a 'gairm second-generation daonna coimpiutadh siostam. An dòigh as fheàrr gus smaoineachadh mu na dàrna ginealach siostaman a tha sin seach daoine fuasgladh fhaighinn air an duilgheadas, feumaidh iad daoine a thogail sean a dh'fhaodar a chleachdadh airson trèanadh do coimpiutair gus fuasgladh fhaighinn air an duilgheadas. Tha an t-suim de dàta a dh'fheumar airson trèanadh a 'choimpiutair urrainn a bhith cho mòr' s gu bheil e Feumaidh daonna tomad co-obrachadh a chruthachadh. Ann an cùis Galaxy Zoo, an neural lìonraidhean a chleachdadh le Banerji et al. (2010) a tha a dhìth tha àireamh mhòr mhòr de daonna-eisimpleirean air an ainmeachadh anns an òrdugh a thogail modail a bha comasach air earbsach 'gintinn an seòrsachadh daonna.

Tha am brath seo le taic coimpiutair dòigh-obrach gu bheil e a 'toirt cothrom dhut a làimhseachadh an ìre mhath neo-chrìochnach suimean dàta a' cleachdadh ach crìochnach suim daonna oidhirp. Mar eisimpleir, rannsaiche le millean daonna seòrsachadh galaxies urrainn thogail predictive modail sin a chleachdadh an uairsin a sheòrsachadh a billean no fiù 's trillion galaxies. Ma tha mòr-àireamhan de galaxies, an uair sin an seòrsa seo de daonna-coimpiutair dà-chonnaidh a tha dha-rìribh an t-aon fhuasgladh. Tha an neo-chrìochnach scalability chan eil e saor an-asgaidh, ge-tà. A 'togail inneal modail ionnsachaidh gun urrainn ceart gintinn daonna seòrsachadh e fhèin cruaidh trioblaid, ach gu fortanach, tha mar-thà sàr leabhraichean coisrigte don chuspair seo (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo 'sealltainn an mean-fhàs de iomadh daonna coimpiutadh pròiseactan. A 'chiad, neach-rannsachaidh a' feuchainn a 'phròiseict fhèin no le sgioba bheag de luchd-cuideachaidh rannsachadh (me, Schawinski chiad seòrsachadh oidhirp). Ma bhios dòigh-obrach seo chan eil Sgèile math, an neach-rannsachaidh gun urrainn dhaibh gluasad gu daonna coimpiutadh pròiseact far am bi mòran dhaoine a 'cur seòrsachadh. Ach, airson cuid de leabhar de dàta, fìor-ghlan daonna oidhirp nach bi gu leòr. Aig an ìre sin, feumaidh luchd-rannsachaidh a 'togail dàrna ginealach siostaman far daonna seòrsachaidhean gan cleachdadh airson a' trèanadh inneal modail ionnsachaidh a dh'fhaodas an uair sin a chur ri cha mhòr gun chrìoch suimean dàta.