5.2.1 Galaxy Sw

Mae'r cyfieithiad ei greu gan gyfrifiadur. ×

5.2.1 Galaxy Sw

Cyfunodd Zoo Galaxy ymdrechion llawer o wirfoddolwyr nad ydynt yn arbenigwyr i ddosbarthu miliwn o galaethau.

Tyfodd Galaxy Zoo o broblem a wynebwyd gan Kevin Schawinski, myfyriwr graddedig mewn Seryddiaeth ym Mhrifysgol Rhydychen yn 2007. Symleiddio'n eithaf, roedd gan Schawinski ddiddordeb mewn galaethau, a gall galaethau gael eu dosbarthu gan eu morffoleg-eliptig neu chwith-a gan eu lliw glas neu goch. Ar y pryd, y doethineb confensiynol ymhlith y seryddwyr oedd bod galaethau troellog, fel ein Ffordd Llaethog, yn lliw las (yn dynodi ieuenctid) ac roedd galaethau eliptig yn goch (yn nodi henaint). Roedd Schawinski yn amau am y doethineb confensiynol hwn. Roedd yn amau, er y byddai'r patrwm hwn yn wir yn gyffredinol, mae'n debyg bod nifer sylweddol o eithriadau, a hynny trwy astudio llawer o'r galaethau anarferol hyn - y rhai nad oeddent yn ffitio â'r patrwm disgwyliedig - gallai ddysgu rhywbeth am y broses drwyddi galaethau wedi'u ffurfio.

Felly, yr hyn oedd ei angen ar Schawinski er mwyn gwrthdroi doethineb confensiynol oedd set fawr o galaethau dosbarthu morffolegol; hynny yw, galaethau a ddosbarthwyd naill ai'n ysgubol neu'n eliptig. Y broblem, fodd bynnag, oedd nad oedd y dulliau algorithmig presennol ar gyfer dosbarthu eto'n ddigon da i'w defnyddio ar gyfer ymchwil wyddonol; mewn geiriau eraill, roedd dosbarthu galaethau, ar y pryd, yn broblem anodd i gyfrifiaduron. Felly, yr hyn yr oedd ei angen oedd nifer fawr o galaethau dynol- benodol. Ymgymerodd Schawinski â'r broblem dosbarthu hwn gyda brwdfrydedd myfyriwr graddedig. Mewn sesiwn marathon o saith diwrnod 12 awr, roedd yn gallu dosbarthu 50,000 o galaethau. Er y gall 50,000 o galaethau swnio fel llawer, dim ond oddeutu 5% o'r bron i un miliwn o galaethau a gafodd eu ffotograffio yn yr Arolwg Sky Digidol Sloan. Sylweddolodd Schawinski fod angen ymagwedd fwy graddol arno.

Yn ffodus, mae'n troi allan nad yw'r dasg o alaethau dosbarthu yn gofyn am hyfforddiant uwch mewn seryddiaeth; gallwch ddysgu rhywun i wneud hynny yn weddol gyflym. Mewn geiriau eraill, hyd yn oed er ddosbarthu galaethau yn dasg a oedd yn anodd ar gyfer cyfrifiaduron, roedd yn eithaf hawdd i bobl. Felly, tra yn eistedd mewn tafarn yn Rhydychen, Schawinski a chyd-seryddwr Chris Lintott wefan lle byddai gwirfoddolwyr yn dosbarthu delweddau o alaethau breuddwydio amdano. Ychydig fisoedd yn ddiweddarach, Galaxy Sw ei eni.

Yn y wefan Galaxy Zoo, byddai gwirfoddolwyr yn cael ychydig funudau o hyfforddiant; er enghraifft, yn dysgu'r gwahaniaeth rhwng galaeth troellog ac eliptig (ffigwr 5.2). Ar ôl yr hyfforddiant hwn, roedd yn rhaid i bob gwirfoddolwr basio cwis-gywir yn gymharol hawdd i ddosbarthu 11 o 15 galaeth â dosbarthiadau hysbys-ac yna byddai'n dechrau dosbarthu galaethau'n anhysbys trwy gyfrwng rhyngwyneb syml ar y we (ffigwr 5.3). Byddai'r newid o wirfoddolwr i seryddydd yn digwydd mewn llai na 10 munud a dim ond mynd heibio i'r rhwystrau isaf, cwis syml.

Ffigur 5.2: Enghreifftiau o'r ddau brif fath o galaethau: troellog ac eliptig. Defnyddiodd y prosiect Galaxy Zoo fwy na 100,000 o wirfoddolwyr i gategoreiddio mwy na 900,000 o ddelweddau. Atgynhyrchwyd drwy ganiatâd http://www.GalaxyZoo.org ac Arolwg Sky Digidol Sloan .

Ffigwr 5.3: Sgrîn mewnbwn lle gofynnwyd i wirfoddolwyr ddosbarthu delwedd sengl. Atgynhyrchwyd gan ganiatâd Chris Lintott yn seiliedig ar ddelwedd o'r Arolwg Sky Digidol Sloan .

Denodd Galaxy Z ei wirfoddolwyr cychwynnol ar ôl i'r prosiect gael ei gynnwys mewn erthygl newyddion, ac mewn tua chwe mis fe gynyddodd y prosiect i gynnwys mwy na 100,000 o wyddonwyr dinasyddion, pobl a gymerodd ran oherwydd eu bod yn mwynhau'r dasg ac roeddent am helpu i ddatblygu seryddiaeth. Gyda'i gilydd, cyfrannodd y 100,000 o wirfoddolwyr hyn gyfanswm o fwy na 40 miliwn o ddosbarthiadau, gyda'r mwyafrif o'r dosbarthiadau'n dod o grŵp craidd cymharol fach o gyfranogwyr (Lintott et al. 2008) .

Efallai y bydd ymchwilwyr sydd â phrofiad o gyflogi cynorthwywyr ymchwil israddedig yn amheus ar ansawdd data ar unwaith. Er bod yr amheuaeth hon yn rhesymol, mae Galaxy Z yn dangos, pan fydd cyfraniadau gwirfoddol yn cael eu glanhau'n gywir, eu dadfeddiannu a'u cyfuno, gallant gynhyrchu canlyniadau o ansawdd uchel (Lintott et al. 2008) . Un anodd yw sicrhau bod y dorf yn creu data o ansawdd proffesiynol yn cael ei ddiswyddo , hynny yw, gan gael yr un dasg a berfformir gan lawer o wahanol bobl. Yn y Gala Gala, roedd tua 40 o ddosbarthiadau fesul galaeth; ni fyddai ymchwilwyr sy'n defnyddio cynorthwywyr ymchwil israddedig byth yn gallu fforddio'r diswyddo hwn ac felly byddai'n rhaid iddyn nhw lawer mwy o bryderu ag ansawdd pob dosbarthiad unigol. Yr hyn nad oedd gan y gwirfoddolwyr mewn hyfforddiant, roeddent yn gwneud cais am ddiswyddo.

Hyd yn oed gyda dosbarthiadau lluosog fesul galaeth, fodd bynnag, roedd cyfuno'r set o ddosbarthiadau gwirfoddolwyr i gynhyrchu dosbarthiad consensws yn anodd. Gan fod heriau tebyg iawn yn codi yn y rhan fwyaf o brosiectau cyfrifo dynol, mae'n ddefnyddiol adolygu'n fyr y tri cham a ddefnyddiodd ymchwilwyr y Swl Galaxy i gynhyrchu eu dosbarthiadau consensws. Yn gyntaf, mae'r ymchwilwyr "wedi glanhau" y data trwy ddileu dosbarthiadau ffug. Er enghraifft, mae pobl a ddosbarthodd yr un galaeth dro ar ôl tro - rhywbeth a fyddai'n digwydd pe baent yn ceisio trin y canlyniadau - a gafodd eu holl ddosbarthiadau eu gwahardd. Tynnodd hyn a glanhau tebyg tebyg tua 4% o'r holl ddosbarthiadau.

Yn ail, ar ôl glanhau, roedd angen i'r ymchwilwyr gael gwared â rhagfarn systematig mewn dosbarthiadau. Trwy gyfres o astudiaethau canfod rhagfarn a gafodd eu hymgorffori yn y prosiect gwreiddiol - er enghraifft, yn dangos rhai o'r gwirfoddolwyr y galaid mewn monocrom yn hytrach na lliw - darganfuodd yr ymchwilwyr sawl rhagfarn systematig, fel rhagfarn systematig i ddosbarthu galaethau teithiog rhyfeddol fel galaethau eliptig (Bamford et al. 2009) . Mae addasu ar gyfer y tueddiadau systematig hyn yn hynod o bwysig gan nad yw colli swydd yn dileu rhagfarn systematig yn awtomatig; dim ond helpu i gael gwared ar gamgymeriad ar hap.

Yn olaf, ar ôl dadlau, roedd angen i'r ymchwilwyr ddull i gyfuno'r dosbarthiadau unigol i gynhyrchu dosbarthiad consensws. Y ffordd symlaf o gyfuno dosbarthiadau ar gyfer pob galaeth fyddai dewis y dosbarthiad mwyaf cyffredin. Fodd bynnag, byddai'r dull hwn wedi rhoi pwysau cyfartal i bob gwirfoddolwr, ac roedd yr ymchwilwyr yn amau bod rhai gwirfoddolwyr yn well yn y dosbarthiad nag eraill. Felly, datblygodd yr ymchwilwyr weithdrefn bwysoli anhygoel fwy cymhleth a geisiodd ganfod y dosbarthwyr gorau a rhoi mwy o bwysau iddynt.

Felly, ar ôl prosesu tri cham, glanhau, dadlau a phwysoli, roedd tîm ymchwil y Gala Gala wedi trosi 40 miliwn o ddosbarthiadau gwirfoddolwyr i set o ddosbarthiadau morffolegol consensws. Pan gymharwyd y dosbarthiadau Zoo Galaxy hyn â thri ymgais flaenorol ar raddfa lai gan seryddwyr proffesiynol, gan gynnwys y dosbarthiad gan Schawinski a helpodd i ysbrydoli Galaxy Sw, cafwyd cytundeb cryf. Felly, roedd y gwirfoddolwyr, ar y cyfan, yn gallu darparu dosbarthiadau o ansawdd uchel ac ar raddfa na allai yr ymchwilwyr ei gydweddu (Lintott et al. 2008) . Mewn gwirionedd, trwy gael dosbarthiadau dynol ar gyfer nifer mor fawr o galaethau, roedd Schawinski, Lintott, ac eraill yn gallu dangos mai dim ond tua 80% o galaethau sy'n dilyn y troellddau patrwm glas a'r eliptigau coch - a ysgrifennwyd nifer o bapurau am y darganfyddiad hwn (Fortson et al. 2011) .

O ystyried y cefndir hwn, gallwch nawr weld sut y mae Galaxy Sw yn dilyn y rysáit cyfunol-cymhwyso, yr un rysáit a ddefnyddir ar gyfer y rhan fwyaf o brosiectau cyfrifo dynol. Yn gyntaf, mae problem fawr wedi'i rannu'n ddarnau. Yn yr achos hwn, rhannwyd y broblem o ddosbarthu miliwn o galaethau yn filiwn o broblemau o ddosbarthu un galaeth. Nesaf, llawdriniaeth yn cael ei gymhwyso i bob darn yn annibynnol. Yn yr achos hwn, roedd gwirfoddolwyr yn dosbarthu pob galaeth naill ai'n ysgubol neu'n eliptig. Yn olaf, cyfunir y canlyniadau i gynhyrchu canlyniad consensws. Yn yr achos hwn, roedd y cam cyfun yn cynnwys glanhau, dadlau a phwysoli i gynhyrchu dosbarthiad consensws ar gyfer pob galaeth. Er bod y rhan fwyaf o brosiectau yn defnyddio'r rysáit gyffredinol hon, mae angen addasu pob cam i'r broblem benodol sy'n cael sylw. Er enghraifft, yn y prosiect cyfrifo dynol a ddisgrifir isod, bydd yr un rysáit yn cael ei dilyn, ond bydd y camau cymhwyso a chyfuno yn eithaf gwahanol.

Ar gyfer y tîm Zoo Galaxy, y prosiect cyntaf hwn oedd y dechrau yn unig. Yn gyflym iawn, gwnaethant sylweddoli, er eu bod yn gallu dosbarthu bron i filiwn o galaethau, nid yw'r raddfa hon yn ddigon i weithio gydag arolygon awyr digidol newydd, sy'n gallu cynhyrchu delweddau o tua 10 biliwn o galaethau (Kuminski et al. 2014) . Er mwyn delio â chynnydd o 1 miliwn i 10 biliwn - byddai'n rhaid i ffactor o 10,000-Galaxy Sw recriwtio oddeutu 10,000 gwaith yn fwy o gyfranogwyr. Er bod nifer y gwirfoddolwyr ar y Rhyngrwyd yn fawr, nid yw'n ddiddiwedd. Felly, gwnaeth yr ymchwilwyr sylweddoli pe baent yn mynd i'r afael â symiau cynyddol o ddata, roedd angen dull newydd, hyd yn oed mwy o arian, o ran graddfa.

Felly, roedd Manda Banerji - yn gweithio gyda Schawinski, Lintott, ac aelodau eraill o'r tîm Galaxy Zoo (2010) - yn dechrau cyfrifiaduron addysgu i ddosbarthu galaethau. Yn fwy penodol, gan ddefnyddio'r dosbarthiadau dynol a grëwyd gan Galaxy Zoo, adeiladodd Banerji fodel dysgu peiriant a allai ragweld dosbarthiad dynol galaeth yn seiliedig ar nodweddion y ddelwedd. Pe byddai'r model hwn yn gallu atgynhyrchu'r dosbarthiadau dynol gyda chywirdeb uchel, yna gallai ymchwilwyr Galaxy Zoo ei ddefnyddio i ddosbarthu nifer anfeidrol o elynion yn y bôn.

Mae craidd ymagwedd Banerji a chydweithwyr mewn gwirionedd yn eithaf tebyg i dechnegau a ddefnyddir yn aml mewn ymchwil gymdeithasol, er na fyddai'r tebygrwydd hwnnw'n glir ar yr olwg gyntaf. Yn gyntaf, trosodd Banerji a chydweithwyr bob delwedd i set o nodweddion rhifiadol a grynhoesi ei heiddo. Er enghraifft, ar gyfer delweddau o galaethau, gallai fod yna dri nodwedd: faint y glas yn y ddelwedd, yr amrywiant yn disgleirdeb y picseli, a chyfran y picsel nad ydynt yn wyn. Mae dewis y nodweddion cywir yn rhan bwysig o'r broblem, ac yn gyffredinol mae'n gofyn am arbenigedd pwnc. Mae'r cam cyntaf hwn, a elwir yn gyffredin fel peirianneg nodwedd , yn arwain at fatrics data gydag un rhes fesul delwedd ac yna tair colofn yn disgrifio'r ddelwedd honno. O ystyried y matrics data a'r allbwn a ddymunir (ee a oedd y ddelwedd wedi'i ddosbarthu gan ddyn fel galaeth eliptig), mae'r ymchwilydd yn creu model dysgu ystadegol neu beiriant - er enghraifft, atchweliad logistaidd - sy'n rhagweld y dosbarthiad dynol yn seiliedig ar y nodweddion o'r ddelwedd. Yn olaf, mae'r ymchwilydd yn defnyddio'r paramedrau yn y model ystadegol hwn i gynhyrchu dosbarthiadau amcangyfrifedig o galaethau newydd (ffigur 5.4). Mewn dysgu peiriannau, caiff yr ymagwedd hon - gan ddefnyddio enghreifftiau wedi'u labelu i greu model sy'n gallu labelu data newydd - gael ei alw'n dysgu dan oruchwyliaeth .

Ffigur 5.4: Disgrifiad syml o sut mae Banerji et al. (2010) yn defnyddio dosbarthiadau Galaxy Zoo i hyfforddi model dysgu peiriant i wneud dosbarthiad galaeth. Troswyd delweddau o galaethau mewn matrics o nodweddion. Yn yr enghraifft syml hon, mae yna dair nodwedd (maint y glas yn y ddelwedd, yr amrywiant yn disgleirdeb y picsel, a chyfran y picsel nad yw'n gwyn). Yna, ar gyfer is-set o'r delweddau, mae'r labeli Sw Galaxy yn cael eu defnyddio i hyfforddi model dysgu peiriannau. Yn olaf, defnyddir y dysgu peiriant i amcangyfrif y dosbarthiadau ar gyfer y galaethau sy'n weddill. Rwy'n galw hwn yn brosiect cyfrifo dynol a gynorthwyir gan gyfrifiadur, oherwydd, yn hytrach na bod pobl yn datrys problem, mae pobl wedi adeiladu set ddata y gellir ei ddefnyddio i hyfforddi cyfrifiadur i ddatrys y broblem. Mantais y system gyfrifo dynol a gynorthwyir gan gyfrifiaduron yw ei fod yn eich galluogi i drin symiau anfeidrol o ddata yn y bôn gan ddefnyddio dim ond swm cyfyngedig o ymdrech ddynol. Delweddau o galaethau a atgynhyrchir gan ganiatâd Sloan Digital Sky Survey.

Ffigur 5.4: Disgrifiad syml o sut mae Banerji et al. (2010) defnyddio dosbarthiadau Galaxy Zoo i hyfforddi model dysgu peiriant i wneud dosbarthiad galaeth. Troswyd delweddau o galaethau mewn matrics o nodweddion. Yn yr enghraifft syml hon, mae yna dair nodwedd (maint y glas yn y ddelwedd, yr amrywiant yn disgleirdeb y picsel, a chyfran y picsel nad yw'n gwyn). Yna, ar gyfer is-set o'r delweddau, mae'r labeli Sw Galaxy yn cael eu defnyddio i hyfforddi model dysgu peiriannau. Yn olaf, defnyddir y dysgu peiriant i amcangyfrif y dosbarthiadau ar gyfer y galaethau sy'n weddill. Rwy'n galw hwn yn brosiect cyfrifo dynol a gynorthwyir gan gyfrifiadur, oherwydd, yn hytrach na bod pobl yn datrys problem, mae pobl wedi adeiladu set ddata y gellir ei ddefnyddio i hyfforddi cyfrifiadur i ddatrys y broblem. Mantais y system gyfrifo dynol a gynorthwyir gan gyfrifiaduron yw ei fod yn eich galluogi i drin symiau anfeidrol o ddata yn y bôn gan ddefnyddio dim ond swm cyfyngedig o ymdrech ddynol. Delweddau o galaethau a atgynhyrchir gan ganiatâd Sloan Digital Sky Survey .

Roedd y nodweddion yn model dysgu peiriannau Banerji a chydweithwyr yn fwy cymhleth na'r rhai yn fy enghraifft deganau - er enghraifft, roedd hi'n defnyddio nodweddion fel cymhareb "de Vaucouleurs fit axial" - ac nid oedd ei model yn atchweliad logistaidd, rhwydwaith niwclear artiffisial ydyw. Gan ddefnyddio ei nodweddion, ei model, a dosbarthiadau consensws Galaxy Zoo, roedd hi'n gallu creu pwysau ar bob nodwedd, ac wedyn defnyddiwch y pwysau hyn i wneud rhagfynegiadau ynghylch dosbarthu galaethau. Er enghraifft, canfu ei dadansoddiad fod delweddau â chymhareb "de Vaucouleurs" yn addas yn fwy tebygol o fod yn galaethau troellog. O ystyried y pwysau hyn, roedd hi'n gallu rhagfynegi dosbarthiad dynol galaeth gyda chywirdeb rhesymol.

Gwnaeth gwaith Banerji a chydweithwyr droi Galaxy Sw i'r hyn y byddwn i'n galw system gyfrifo dynol a gynorthwyir gan gyfrifiadur . Y ffordd orau i feddwl am y systemau hybrid hyn yw bod dynion yn creu set ddata y gellir ei ddefnyddio i hyfforddi cyfrifiadur i ddatrys y broblem yn hytrach na bod pobl yn datrys problem. Weithiau, gall hyfforddi cyfrifiadur i ddatrys y broblem angen llawer o enghreifftiau, a'r unig ffordd o gynhyrchu nifer ddigonol o enghreifftiau yw cydweithio màs. Mantais yr ymagwedd hon â chymorth cyfrifiadur yw ei fod yn eich galluogi i drin symiau anfeidrol o ddata yn y bôn gan ddefnyddio dim ond swm cyfyngedig o ymdrech ddynol. Er enghraifft, gall ymchwilydd gyda miliwn o elwau dosbarthedig dynol greu model rhagfynegol y gellir ei ddefnyddio wedyn i ddosbarthu biliwn neu hyd yn oed triliwn o galaethau. Os oes yna nifer enfawr o galaethau, yna'r math hwn o hybrid cyfrifiadurol dynol yw'r unig ateb posibl. Fodd bynnag, nid yw'r rhyddfeddiant anfeidrol hon yn rhad ac am ddim. Mae model dysgu peiriant sy'n gallu atgynhyrchu'r dosbarthiadau dynol yn broblem anodd ei hun, ond yn ffodus mae llyfrau rhagorol eisoes yn ymroddedig i'r pwnc hwn (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Mae Galaxy Zoo yn enghraifft dda o faint o brosiectau cyfrifo dynol sy'n esblygu. Yn gyntaf, mae ymchwilydd yn ymgeisio'r prosiect ganddo'i hun neu gyda thîm bach o gynorthwywyr ymchwil (ee, ymdrech dosbarthu cychwynnol Schawinski). Os nad yw'r dull hwn yn graddio'n dda, gall yr ymchwilydd symud i brosiect cyfrifo dynol gyda llawer o gyfranogwyr. Ond, ar gyfer nifer benodol o ddata, ni fydd ymdrech ddynol yn ddigon. Ar y pwynt hwnnw, mae angen i ymchwilwyr adeiladu system gyfrifo dynol a gynorthwyir gan gyfrifiadur lle defnyddir dosbarthiadau dynol i hyfforddi model dysgu peiriant y gellir ei ddefnyddio wedyn i symiau bron yn ddidyn o ddata.