5.2.1 Galaxy Sw

Galaxy Sw yn cyfuno ymdrechion llawer o wirfoddolwyr nad ydynt yn arbenigwyr i ddosbarthu miliwn o galaethau.

Tyfodd Galaxy Sw allan o broblem a wynebir gan Kevin Schawinski, myfyriwr graddedig mewn Seryddiaeth ym Mhrifysgol Rhydychen yn 2007. Symleiddio tipyn, roedd Schawinski ddiddordeb mewn galaethau, a gall galaethau gael eu dosbarthu gan eu morffoleg-eliptig neu sbiral-ac gan eu lliw-glas neu goch. Ar y pryd, doethineb confensiynol ymhlith seryddwyr oedd bod galaethau troellog, fel ein Llwybr Llaethog, yn las o ran lliw (yn dangos ieuenctid) a bod galaethau eliptig yn goch o ran lliw (sy'n dangos henaint). amau Schawinski hon ddoethineb confensiynol. Roedd yn amau ​​fod tra gallai patrwm hwn fod yn wir yn gyffredinol, roedd mwy na thebyg nifer sizable o eithriadau, a bod trwy astudio llawer o anarferol galaethau-y hyn rhai nad oedd yn ffitio'r patrwm disgwyliedig-yr oedd yn gallu dysgu rhywbeth am y broses lle galaethau ffurfio.

Felly, beth oedd angen Schawinski er i wrthdroi ddoethineb confensiynol yn set fawr o alaethau forffolegol dosbarthu; hynny yw, galaethau a oedd wedi eu dosbarthu fel naill ai troellog neu eliptigol. Y broblem, fodd bynnag, oedd nad oedd y dulliau algorithmig presennol ar gyfer dosbarthu yn eto yn ddigon da i gael ei ddefnyddio ar gyfer ymchwil wyddonol; mewn geiriau eraill, galaethau dosbarthu oedd, ar y pryd, problem a oedd yn anodd ar gyfer cyfrifiaduron. Felly, yr hyn oedd ei angen oedd nifer fawr o alaethau dosbarthu dynol. Cynhaliodd Schawinski problem dosbarthiad hwn gyda brwdfrydedd myfyriwr graddedig. Mewn sesiwn marathon o saith, diwrnodau 12 awr, roedd yn gallu dosbarthu 50,000 o galaethau. Er y gall 50,000 o galaethau swnio fel llawer, ei fod mewn gwirionedd dim ond tua 5% o'r bron i filiwn o galaethau a oedd wedi'u tynnwyd yn Arolwg Sky Sloan Digital. Sylweddolodd Schawinski fod angen dull mwy scalable.

Yn ffodus, mae'n troi allan nad yw'r dasg o alaethau dosbarthu yn gofyn am hyfforddiant uwch mewn seryddiaeth; gallwch ddysgu rhywun i wneud hynny yn weddol gyflym. Mewn geiriau eraill, hyd yn oed er ddosbarthu galaethau yn dasg a oedd yn anodd ar gyfer cyfrifiaduron, roedd yn eithaf hawdd i bobl. Felly, tra yn eistedd mewn tafarn yn Rhydychen, Schawinski a chyd-seryddwr Chris Lintott wefan lle byddai gwirfoddolwyr yn dosbarthu delweddau o alaethau breuddwydio amdano. Ychydig fisoedd yn ddiweddarach, Galaxy Sw ei eni.

Ar wefan Galaxy Sw, byddai gwirfoddolwyr yn cael ychydig funudau o hyfforddiant; er enghraifft, dysgu y gwahaniaeth rhwng sbiral a galaeth eliptig (Ffigur 5.2). Ar ôl yr hyfforddiant hwn, roedd gan y gwirfoddolwyr i basio dosbarthu gymharol hawdd cwis-gywir 11 o 15 alaethau gyda hysbys dosbarthiadau-ac yna byddai'r gwirfoddolwr yn dechrau dosbarthiad gwirioneddol o galaethau anhysbys drwy ryngwyneb gwe syml (Ffigur 5.3). Byddai'r trawsnewid o wirfoddolwyr i seryddwr yn digwydd yn llai na 10 munud a dim ond yn ofynnol pasio yr isaf o rwystrau, cwis syml.

Ffigur 5.2: Enghreifftiau o'r ddau brif fath o galaethau: troellog a eliptigol. Mae prosiect Galaxy Sw defnyddio mwy na 100,000 o wirfoddolwyr i gategorïau mwy na 900,000 o ddelweddau. Ffynhonnell: www.galaxyzoo.org.

Ffigur 5.2: Enghreifftiau o'r ddau brif fath o galaethau: troellog a eliptigol. Mae prosiect Galaxy Sw defnyddio mwy na 100,000 o wirfoddolwyr i gategorïau mwy na 900,000 o ddelweddau. Ffynhonnell: www.galaxyzoo.org .

Ffigur 5.3: screen Mewnbwn lle gofynnwyd pleidleiswyr oedd i ddosbarthu un ddelwedd. Ffynhonnell: www.galaxyzoo.org.

Ffigur 5.3: screen Mewnbwn lle gofynnwyd pleidleiswyr oedd i ddosbarthu un ddelwedd. Ffynhonnell: www.galaxyzoo.org .

Denodd Galaxy Sw ei wirfoddolwyr cychwynnol ar ôl i'r prosiect gael ei gynnwys mewn erthygl newyddion, ac mewn tua chwe mis tyfodd y prosiect i gynnwys mwy na 100,000 o wyddonwyr dinasyddion, pobl a gymerodd ran am eu bod yn mwynhau'r dasg ac maent yn awyddus i helpu i seryddiaeth ymlaen llaw. Gyda'i gilydd, cyfrannodd y rhain 100,000 o wirfoddolwyr cyfanswm o fwy na 40 miliwn o ddosbarthiadau, gyda'r mwyafrif o'r dosbarthiadau yn dod o grwp cymharol fach, craidd o gyfranogwyr (Lintott et al. 2008) .

Gallai ymchwilwyr sydd â phrofiad llogi cynorthwywyr ymchwil israddedig fod yn amheus am ansawdd data ar unwaith. Er bod amheuon hyn yn rhesymol, Galaxy Sw yn dangos bod pan fydd cyfraniadau gwirfoddol yn cael eu glanhau yn gywir, debiased, ac hagregu, gallant gynhyrchu canlyniadau o ansawdd uchel (Lintott et al. 2008) . Un tric bwysig ar gyfer cael y dorf i greu data o ansawdd proffesiynol yn colli swydd; hynny yw, ar ôl yr un dasg perfformio gan lawer o wahanol bobl. Yn Galaxy Sw, roedd tua 40 o ddosbarthiadau bob alaeth; Mae angen i ymchwilwyr sy'n defnyddio cynorthwywyr ymchwil israddedig allai fyth fforddio lefel hon o gael eu diswyddo, ac felly i fod yn llawer fwy ymwneud ag ansawdd pob dosbarthiad unigol. Yr hyn y mae'r gwirfoddolwyr yn brin mewn hyfforddiant, maent yn gwneud iawn am golli eu swyddi.

Hyd yn oed gyda dosbarthiadau lluosog fesul galaeth, fodd bynnag, gan gyfuno y set o ddosbarthiadau gwirfoddol i gynhyrchu dosbarthiad consensws yn ddyrys. Oherwydd bod heriau tebyg iawn yn codi yn y rhan fwyaf o brosiectau cyfrifiannu dynol, mae'n ddefnyddiol i adolygu fras y tri camau y mae'r ymchwilwyr Galaxy Sw a ddefnyddir i gynhyrchu eu dosbarthiadau consensws. Yn gyntaf, mae'r ymchwilwyr "lanhau" y data drwy ddileu dosbarthiadau ffug. Er enghraifft, mae pobl sy'n dosbarthu yr un alaeth-rhywbeth a fyddai'n digwydd pe eu bod yn ceisio trin y dro ar ôl tro canlyniadau-roedd eu holl ddosbarthiadau taflu. dileu hyn a glanhau eraill tebyg tua 4% o'r holl ddosbarthiadau.

Yn ail, ar ôl glanhau, roedd angen i'r ymchwilwyr i gael gwared ar rhagfarnau systematig mewn dosbarthiadau. Drwy gyfres o astudiaethau canfod gogwydd hymgorffori yn yr enghraifft gwreiddiol ar brosiect-er, gan ddangos rhai gwirfoddolwyr yr alaeth yn unlliw yn hytrach na lliw-yr ymchwilwyr ddarganfod sawl ragfarnau systematig, fel gogwydd systematig i ddosbarthu galaethau pell sbiral fel galaethau eliptig (Bamford et al. 2009) . Addasu ar gyfer tueddiadau systematig hyn yn hynod o bwysig oherwydd nid gyfartaledd llawer o gyfraniadau yn dileu'r rhagfarn systematig; dim ond cael gwared wall hap.

Yn olaf, ar ôl debiasing, roedd angen i'r ymchwilwyr ddull i gyfuno dosbarthiadau unigol i gynhyrchu dosbarthiad consensws. Y ffordd symlaf i gyfuno dosbarthiadau ar gyfer pob alaeth fydd dewis y dosbarthiad mwyaf cyffredin. Fodd bynnag, byddai'r dull hwn yn rhoi pob gwirfoddolwr pwysau cyfartal, ac mae'r ymchwilwyr yn amau ​​bod rhai gwirfoddolwyr yn well am ddosbarthu nag eraill. Felly, datblygodd yr ymchwilwyr gweithdrefn pwysiad ailadroddol mwy cymhleth sy'n ceisio canfod y dosbarthwyr gorau yn awtomatig ac yn rhoi mwy o bwysau arnynt.

Felly, ar ôl tri cam proses-glanhau, debiasing, a pwysiad-tîm ymchwil Galaxy Sw wedi trosi 40 miliwn o ddosbarthiadau gwirfoddol yn set o gonsensws dosbarthiadau morffolegol. Pan fydd hyn dosbarthiadau Galaxy Zoo eu cymharu â thri ymgais ar raddfa lai blaenorol gan seryddwyr proffesiynol, gan gynnwys y dosbarthiad gan Schawinski a helpodd i ysbrydoli Galaxy Sw, roedd cytundeb cryf. Felly, mae'r gwirfoddolwyr, gyda'i gilydd, yn gallu darparu dosbarthiadau o safon uchel ac ar raddfa na allai'r ymchwilwyr yn cyd-fynd (Lintott et al. 2008) . Yn wir, trwy gael dosbarthiadau dynol ar gyfer nifer mor fawr o alaethau, Schawinski, Lintott, ac eraill yn gallu dangos mai dim ond tua 80% o alaethau yn dilyn y troellau patrwm disgwyliedig-glas a ellipticals-a choch nifer papurau wedi cael ei ysgrifennu am darganfyddiad hwn (Fortson et al. 2011) .

O ystyried y cefndir hwn, gallwn yn awr weld sut Galaxy Sw yn dilyn y rhaniad-ymgeisio-cyfuno rysáit, yr un rysáit a ddefnyddir ar gyfer y rhan fwyaf o brosiectau cyfrifiannu dynol. Yn gyntaf, yn broblem fawr yn cael ei rannu'n ddarnau. Yn yr achos hwn, y broblem o ddosbarthu miliwn o galaethau ei rannu i mewn miliwn o broblemau o ddosbarthu un alaeth. Nesaf, llawdriniaeth yn cael ei gymhwyso i bob darn yn annibynnol. Yn yr achos hwn, byddai gwirfoddolwr ddosbarthu pob galaeth troellog fel naill ai neu eliptigol. Yn olaf, mae'r canlyniadau yn cael eu cyfuno i gynhyrchu canlyniad consensws. Yn yr achos hwn, y cam cyfuno cynnwys y glanhau, debiasing, a pwysiad i gynhyrchu dosbarthiad consensws ar gyfer pob alaeth. Er bod y rhan fwyaf o brosiectau yn defnyddio'r rysáit cyffredinol hwn, mae angen i bob un o'r camau i addasu at y broblem benodol cael sylw. Er enghraifft, yn y prosiect cyfrifiant dynol a ddisgrifir isod, yr un rysáit yn cael ei dilyn, ond bydd y cais ac yn cyfuno camau fod yn wahanol iawn.

Ar gyfer y tîm Galaxy Sw, y prosiect cyntaf oedd dim ond y dechrau. Yn gyflym iawn eu bod yn sylweddoli bod hyd yn oed er eu bod yn gallu dosbarthu yn agos at filiwn o galaethau, nid yw y raddfa hon yn ddigon i weithio gydag arolygon awyr digidol mwy newydd, a allai gynhyrchu delweddau o tua 10 biliwn o galaethau (Kuminski et al. 2014) . I drin cynnydd o 1 miliwn i 10 biliwn a byddai angen i ffactor o 10,000-Galaxy Zoo i recriwtio tua 10,000 gwaith yn fwy o gyfranogwyr. Er bod nifer y gwirfoddolwyr ar y Rhyngrwyd yn fawr, nid yw'n ddiderfyn. Felly, mae'r ymchwilwyr sylweddoli bod os ydynt yn mynd i ymdrin â symiau cynyddol o ddata, roedd angen, hyd yn oed yn fwy scalable, dull newydd.

Felly, Manda Banerji-weithio gyda Kevin Schawinski, Chris Lintott, ac aelodau eraill o'r Galaxy Sw cyfrifiaduron addysgu yn dechrau tîm i ddosbarthu galaethau. Yn fwy penodol, ddefnyddio'r dosbarthiadau dynol a grëwyd gan Galaxy Sw, Banerji et al. (2010) adeiladu model dysgu peiriant a allai ragweld y dosbarthiad dynol alaeth yn seiliedig ar nodweddion y ddelwedd. Pe gallai hyn model dysgu peiriant atgynhyrchu'r dosbarthiadau dynol gyda chywirdeb uchel, yna gellid ei ddefnyddio gan ymchwilwyr Galaxy Sw i ddosbarthu nifer ei hanfod anfeidrol o galaethau.

Mae craidd dull Banerji a chydweithwyr 'mewn gwirionedd yn eithaf debyg i dechnegau a ddefnyddir yn gyffredin mewn ymchwil gymdeithasol, er na allai fod tebygrwydd fod yn glir ar yr olwg gyntaf. Yn gyntaf, Banerji a chydweithwyr trosi pob delwedd yn set o nodweddion rhifol sy'n crynhoi ei fod yn eiddo. Er enghraifft, ar gyfer delweddau o alaethau gallai fod tri nodweddion: maint y glas yn y llun, yr amrywiaeth yn y disgleirdeb y picsel, a chyfran y picsel heb fod yn wyn. Mae detholiad o'r nodweddion cywir yn rhan bwysig o'r broblem, ac yn gyffredinol mae'n gofyn am arbenigedd pwnc-ardal. Mae'r cam cyntaf, a elwir yn gyffredin peirianneg nodwedd, yn arwain at matrics data gydag un rhes am bob delwedd ac yna tair colofn disgrifio'r ddelwedd honno. O ystyried y matrics data ac mae'r allbwn a ddymunir (ee, p'un a yw'r ddelwedd ei ddosbarthu gan ddynol fel alaeth eliptig), mae'r ymchwilydd yn amcangyfrif y paramedrau o ystadegol enghraifft model-er, rhywbeth fel logistaidd atchweliad-sy'n rhagweld y dosbarthiad dynol sy'n seiliedig ar ar y nodweddion y ddelwedd. Yn olaf, mae'r ymchwilydd yn defnyddio'r paramedrau yn y model ystadegol hwn i gynhyrchu dosbarthiadau amcangyfrifedig o alaethau newydd (Ffigur 5.4). I feddwl am analog cymdeithasol, dychmygwch eich bod wedi cael gwybodaeth ddemograffig tua miliwn o fyfyrwyr, ac yr ydych yn gwybod a ydynt graddiodd o goleg neu beidio. Gallech osod atchweliad logistaidd i ddata hon, ac yna gallech ddefnyddio'r paramedrau model sy'n deillio i ragfynegi a yw myfyrwyr newydd yn mynd i raddio o'r coleg. Mewn dysgu peiriant, dull-ddefnyddio'r enghreifftiau labelu i greu model ystadegol yna gall fod labelu newydd data-gelwir dan oruchwyliaeth dysgu (Hastie, Tibshirani, and Friedman 2009) .

Ffigur 5.4: Disgrifiad syml o sut Banerji et al. (2010) a ddefnyddir dosbarthiadau Galaxy Sw i hyfforddi model dysgu peiriant i wneud dosbarthiad galaeth. Delweddau o alaethau eu trawsnewid mewn matrics o nodweddion. Yn yr enghraifft hon symlach, mae tair nodwedd (y swm o glas yn y llun, yr amrywiaeth yn y disgleirdeb y picsel, a chyfran y picsel nad ydynt yn wyn). Yna, ar gyfer is-set o'r delweddau, y labeli Galaxy Sw yn cael eu defnyddio i hyfforddi model dysgu peiriant. Yn olaf, mae'r dysgu peiriant yn cael ei ddefnyddio i amcangyfrif dosbarthiadau ar gyfer yr galaethau sy'n weddill. Rwy'n galw y math hwn o brosiect yn brosiect cyfrifiannol dynol ail genhedlaeth, oherwydd, yn hytrach na chael pobl yn datrys problem, mae ganddynt bodau dynol adeiladu set ddata y gellir ei ddefnyddio i hyfforddi cyfrifiadur i ddatrys y broblem. Mantais y dull chymorth cyfrifiadur hwn yw ei fod yn eich galluogi i drin symiau y bôn diddiwedd o ddata gan ddefnyddio dim ond swm cyfyngedig o ymdrech ddynol.

Ffigur 5.4: Disgrifiad syml o sut Banerji et al. (2010) yn defnyddio'r dosbarthiadau Galaxy Sw i hyfforddi model dysgu peiriant i wneud dosbarthiad galaeth. Delweddau o alaethau eu trawsnewid mewn matrics o nodweddion. Yn yr enghraifft hon symlach, mae tair nodwedd (y swm o glas yn y llun, yr amrywiaeth yn y disgleirdeb y picsel, a chyfran y picsel nad ydynt yn wyn). Yna, ar gyfer is-set o'r delweddau, y labeli Galaxy Sw yn cael eu defnyddio i hyfforddi model dysgu peiriant. Yn olaf, mae'r dysgu peiriant yn cael ei ddefnyddio i amcangyfrif dosbarthiadau ar gyfer yr galaethau sy'n weddill. Rwy'n galw y math hwn o brosiect yn brosiect cyfrifiannol dynol ail genhedlaeth, oherwydd, yn hytrach na chael pobl yn datrys problem, mae ganddynt bodau dynol adeiladu set ddata y gellir ei ddefnyddio i hyfforddi cyfrifiadur i ddatrys y broblem. Mantais y dull chymorth cyfrifiadur hwn yw ei fod yn eich galluogi i drin symiau y bôn diddiwedd o ddata gan ddefnyddio dim ond swm cyfyngedig o ymdrech ddynol.

Mae'r nodweddion yn Banerji et al. (2010) model dysgu peiriant yn fwy cymhleth na'r rhai yn fy tegan enghraifft-er enghraifft, mae hi'n defnyddio nodweddion fel "de Vaucouleurs ffitio cymhareb echelinol" -ac nid ei model oedd atchweliad logistaidd, roedd rhwydwaith nerfol artiffisial. Gan ddefnyddio ei nodweddion, ei model, a'r consensws dosbarthiadau Galaxy Sw, roedd yn gallu creu pwysau ar bob nodwedd, ac yna defnyddio pwysau hyn i wneud rhagfynegiadau ynghylch dosbarthiad galaethau. Er enghraifft, canfu ei dadansoddiad bod delweddau gyda isel "de Vaucouleurs ffitio cymhareb echelinol" yn fwy tebygol o fod yn galaethau troellog. O ystyried pwysau hyn, roedd yn gallu rhagweld y dosbarthiad dynol alaeth gyda chywirdeb rhesymol.

Mae gwaith Banerji et al. (2010) troi Galaxy Sw i mewn i hyn y byddwn yn ei alw'n system cyfrifiant ddynol ail genhedlaeth. Y ffordd orau i feddwl am systemau ail genhedlaeth hyn yw bod yn hytrach na chael pobl yn datrys problem, mae ganddynt bodau dynol adeiladu set ddata y gellir ei ddefnyddio i hyfforddi cyfrifiadur i ddatrys y broblem. Gall faint o ddata sydd ei angen i hyfforddi'r cyfrifiadur fod mor fawr ei fod yn gofyn am gydweithrediad màs dynol i greu. Yn achos Galaxy Sw, y rhwydweithiau niwral a ddefnyddir gan Banerji et al. (2010) yn gofyn am nifer fawr iawn o enghreifftiau a labelu-dynol er mwyn adeiladu model a oedd yn gallu atgynhyrchu y dosbarthiad dynol yn ddibynadwy.

Mantais y dull chymorth cyfrifiadur hwn yw ei fod yn eich galluogi i drin symiau y bôn diddiwedd o ddata gan ddefnyddio dim ond swm cyfyngedig o ymdrech ddynol. Er enghraifft, gall ymchwilydd gyda miliwn o galaethau dosbarthu dynol adeiladu model rhagfynegi y gellir wedyn yn cael ei ddefnyddio i ddosbarthu biliwn neu hyd yn oed triliwn galaethau. Os oes nifer enfawr o alaethau, yna y math hwn o hybrid dynol-cyfrifiadur yn wir yr unig ateb posibl. Nid yw hyn scalability anfeidrol hwn yn rhad ac am ddim, fodd bynnag. Adeiladu model dysgu peiriant sy'n gallu atgynhyrchu'r dosbarthiadau dynol yn gywir ei hun yn broblem caled, ond yn ffodus mae yna eisoes lyfrau ardderchog sy'n ymroddedig i pwnc hwn (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Sw yn dangos esblygiad llawer o brosiectau gyfrifiannu dynol. Yn gyntaf, ymchwilydd yn ceisio y prosiect ei phen ei hun neu gyda thîm bychan o gynorthwywyr ymchwil (ee, ymdrech dosbarthiad cychwynnol Schawinski) yn. Os nad yw'r dull hwn yn raddfa dda, gall yr ymchwilydd symud i brosiect cyfrifiant dynol lle mae llawer o bobl yn cyfrannu dosbarthiadau. Ond, am gyfrol penodol o ddata, ymdrech dynol pur ni fydd yn ddigon. Ar y pwynt hwnnw, mae angen i ymchwilwyr i adeiladu systemau ail genhedlaeth lle dosbarthiadau dynol yn cael eu defnyddio i hyfforddi model dysgu beiriant y gellir wedyn eu cymhwyso i symiau bron anghyfyngedig o ddata.