5.2.1 Galaxy Zoo

Galaxy Zoo kombinearret de ynspanningen fan in soad non-expert frijwilligers om in miljoen galaxies te klassifisearjen.

Galaxy Zoo groeide út in probleem dat te krijen hat troch Kevin Schawinski, studint yn astronomy oan 'e Universiteit fan Oxford yn 2007. Ferplettering in bytsje skoft, wie Schawinski belangstelling foar galaxies, en galaxies kinne klassifisearre wurde troch har morphology-elliptyske of spiral-en troch har kleur-blauwe of read. Op dat stuit wie de konvinsjonele wiisheid yn 'e astronomen, dat spiraalgalaxys, lykas ús Milky Way, blau yn kleur wiene (oanjûn fan jeugd) en elliptyske galaxies wiene reade (oanjûn âldere leeftyd). Schawinski betwere dizze konvinsjonele wiisheid. Hy fermoedet dat tidens dit patroon algemien wierskynlik wie, wiene der wierskynlik in oantal útsûnderings, en dat troch in protte ûngewoane galaxies te studearjen - dejingen dy't it ferwachte patroan net passe - hy koe wat learje oer it proses, galaxies foarme.

Sa, wat Schawinski nedich om de konvinsjonele wiisheid te feroverjen wie in grut set fan morphologysk klassike galaxies; dat is galaksjits dy't klassifisearre binne as beide spiral of elliptysk. It probleem wie lykwols dat al besteande algoritmyske metoaden foar klassifikaasje noch net genôch genôch binne foar wittenskiplik ûndersyk; yn oare wurden, klassisearjende galaxies wie, op dat stuit in probleem dat hurd wie foar kompjûters. Dêrom wie wat nedich wie in grut oantal minske- klassifisearre galaxiële. Schawinski ûndernaam dit klassifikaasjeprobleem mei de entûsjasme fan in ôfstudearende studint. Yn in marathon-sesje fan sân 12-oeren dagen koe hy 50.000 galaxies klassifisearje. Hoewol 50.000 galaxies lûke as in soad, is it eigentlik mar sa'n 5% fan 'e hast ien miljoen galaxies dy't fotografearre binne yn' e Sloan Digital Sky Survey. Schawinski realisearre dat hy in skalberere oanpak nedich wie.

Gelokkich, it blykt dat de taak fan classifying stjerrestelsels net nedich avansearre oplieding yn de astronomy; kinne jo leare immen te dwaan dat moai gau. Yn oare wurden, ek al classifying stjerrestelsels is in opjefte dy't wie hurd foar kompjûters, wie it moaie maklik foar minsken. Sa, wylst sitte yn in kafee yn Oxford, Schawinski en kollega astronoom Chris Lintott dreamde op in webside dêr't frijwilligers soe klassifisearjen bylden fan stjerrestelsels. In pear moannen letter, Galaxy Zoo waard berne.

Op de webside fan Galaxy Zoo sil frijwilligers in pear minuten fan trening passe; bygelyks it ferskil tusken in spiraal en elliptyske galaxie learje (ôfbylding 5.2). Nei dizze oplieding moast elke frijwilliger in relatyf ienfâldige kwizearje fan 11 fan 15 galaxies mei bekende klassifikaasjes. - en dan soe echte klassifikaasje fan ûnbekende galaxys begjinne mei in ienfâldige web-basearre ynterface (figuer 5.3). De oergong fan frijwilligers nei astronoom soe plakfine yn minder as 10 minuten en allinich ferplicht de leechste fan hurdles, in ienfâldige quiz.

Ofbylding 5.2: Foarbylden fan de twa haadtalen fan galaxies: spiraal en elliptysk. It projekt Galaxy Zoo brûkt mear as 100.000 frijwilligers om mear as 900.000 ôfbyldings te kategorisearje. Ferfong troch tastimming fan http://www.GalaxyZoo.org en Sloan Digital Sky Survey.

Ofbylding 5.2: Foarbylden fan de twa haadtalen fan galaxies: spiraal en elliptysk. It projekt Galaxy Zoo brûkt mear as 100.000 frijwilligers om mear as 900.000 ôfbyldings te kategorisearje. Ferfong troch tastimming fan http://www.GalaxyZoo.org en Sloan Digital Sky Survey .

Ofbylding 5.3: Ynput skerm dêr't frijwilligers frege waarden om in inkele ôfbylding te klassifisearjen. Ferfredeare troch tastimming fan Chris Lintott basearre op in byld fan 'e Sloan Digital Sky Survey.

Ofbylding 5.3: Ynput skerm dêr't frijwilligers frege waarden om in inkele ôfbylding te klassifisearjen. Ferfredeare troch tastimming fan Chris Lintott basearre op in byld fan 'e Sloan Digital Sky Survey .

Galaxy Zoo luts syn earste frijwilligers nei it projekt yn in nijsartikel, en yn ûngefear seis moanne it projekt groeide om mear as 100.000 boargerwittenskippen te belûken, minsken dy't meidwaan om't se de taak hiene en sy wolle astronomy helpe. Tegearre hawwe dizze 100.000 frijwilligers in totaal mear as 40 miljoen klassifikaasjes bydroegen, mei de mearderheid fan de klassifikaasjes fan in relatyf lytse, kearngroep fan dielnimmers (Lintott et al. 2008) .

Undersikers dy't ûnderfining fan ûnderwittende ûndersyksassistenten hawwe, kinne fuortendaliks skeakel wêze oer data kwaliteit. Hoewol dizze skepsis is leare, Galaxy Zoo lit sjen dat wannear't frijwillige bydragen korrekt skjinmakke, debisearre en aggregearre wurde, kinne se in hege kwaliteitsresultaat meitsje (Lintott et al. 2008) . In wichtige stuk foar it krijen fan it publyk om profesjonele kwaliteitsgegevens oan te meitsjen is redundans , dat is, itselde wurk hat troch in protte ferskillende minsken dien. Yn Galaxy Zoo wiene sa'n 40 klassifikaasjes per galaxy; Undersikers dy't gebrûk fan undergradulearre ûndersikers wiene sûnder dat nivo fan redundans nea levere en dus dêrmei folle mear omtinken wêze moatte mei de kwaliteit fan elke yndividuele klassifikaasje. Wat de frijwilligers yn 'e trening miste, makken se mei redundans.

Sels mei meardere klassifikaasjes per galaxy lykwols, it kombinearjen fan de opset fan frijwilligersklassifikaasjes om in konsensus-klassifikaasje te meitsjen, wie hurd. Om't de measte minsklike proefprojekten tige ferskate oanpakare ûntsteane, is it helpt om de trije stappen te klúzjen dy't de ûndersikers fan Galaxy Zoo brûkt hawwe om har konsensus-klassifikaasjes te meitsjen. Earst hawwe de ûndersikers 'de gegevens' troch gegevens ferdylgje. Bygelyks minsken dy't de selde galaxie werhelle hawwe - wat dat barre soe as se besykje de resultaten te manipulearjen - hiene allegearre harren klassifikaasjes ôfsletten. Dizze en oare ferlykbere reinigings ferwiderje sawat 4% fan alle klassifikaasjes.

Twadde, nei it reinigjen, moasten de ûndersikers systematyske ideeën foardwaan yn klassifikaasjes. Troch in searje fan fertikale stúdzjes dy't yn it oarspronklike projekt ynboud binne - bygelyks wat frijwilligers de galaxie yn monochrom ynstee fan kleur sjen litte - ûntdutsen de ûndersikers ferskate systematyske fioazjes, lykas in systematyske fjoerstien om farwile spiraalgalaksjes as elliptyske galaxys te klassifisearjen (Bamford et al. 2009) . It oanpassen fan dizze systematyske fioazjes is tige wichtich omdat redundance automatysk systematyske foaroardielen net fuorthet; It allinich helpt de willekeurige flater fuort.

Uteinlik, nei it debiasjen, nedich de ûndersikers in metoade om de yndividuele klassifikaasjes te kombinearjen om in konsensus-klassifikaasje te meitsjen. De ienfâldichste manier om klassifikaasjes foar elke galaxia te kombinearjen soe wêze om de meast foarkommende klassifikaasje te kiezen. Dizze oanpak soe lykwols elke frijwilligers gewicht wiene, en de ûndersikers fermoedden dat guon frijwilligers better yn 'e klassifikaasje binne as oaren. Dêrom ûntwikkele de ûndersikers in kompleksere ytterative wizeproseduere dy't besocht de bêste klassifers te ûndersiikjen en harren mear gewicht te jaan.

Dêrnei hawwe de ûndersyksteam fan Galaxy Zoo nei trije stappen proksynjen, debysjen en gewichtjen - 40 miljoen frijwilligersklassifikaasjes omsetten yn in opset fan konsensus morphologyske klassifikaasjes. Doe't dizze Galaxy Zoo klassifikaasjes fergelykber waarden mei trije eardere lytsskalige problemen troch profesjonele astronomen, wêrûnder de klassifikaasje fan Schawinski dy't de Galaxy Zoo helpe, wie in sterke oerienkomst. Sa kinne de frijwilligers, yn aggregaat, heechweardige klassifikaasjes leverje en op in skaal dy't de ûndersikers net oerien wiene (Lintott et al. 2008) . Yn 't feit hawwe troch Schawinski, Lintott en oaren manspersoanlikheden foar sokke in grut tal galaxies sjen litten dat allinich sawat 80% fan' e galaxys folgje fan 'e ferwachte pattern-blauwe spiralen en read-ellipticals - en in protte papieren binne skreaun oer dizze ûntdekking (Fortson et al. 2011) .

Op grûn fan dizze eftergrûn kinne jo no sjen hoe't de Galaxy Zoo de split-oanfraach kombinearret, itselde resept dat brûkt wurdt foar de measte humorreitsprojekten. Earst is in grut probleem dielen yn skuon. Yn dit gefal waard it probleem foar it klassifisearjen fan in miljoen galaxies yn in miljoen problemen dielen fan ien galaxy. Dêrnei wurdt in operaasje tapast wurdt oan elke spiel. Yn dit gefal falle frijwilligers elke galaxia as spiraal of elliptysk. Uteinlik wurde de resultaten kombinearre om in konsensusresultaat te meitsjen. Yn dit gefal binne de kombinearjende stappen de reiniging, debiasjen en gewicht om in konsensus-klassifikaasje foar elke galaxia te meitsjen. Hoewol de measte projekten dit algemiene resepsje brûke, moat elke stap oanpast wurde oan it spesifike probleem dat oanpakt wurdt. Bygelyks, yn it hjirboppe beskreaune human-computing-projekt wurdt deselde resept folge, mar de tapassing en kombinearjen fan stappen sil hiel oars wêze.

Foar it Galaxy Zoo team wie dit earste projekt krekt it begjin. In protte snelle realisearre dat, al binne se yn 'e buert fan in miljoen galaxies klassifisearre, is dizze skaal net genôch om te wurkjen mei nijere digitale skyûndersiken, dy't produsearje kinne fan sa'n 10 miljoen galaxies (Kuminski et al. 2014) . Om in ferheging fan 1 miljoen nei 10 miljard te behanneljen - in faktor fan 10.000-Galaxy Zoo moast om 10.000 kear mear dielnimmers werkenne. Alhoewol't it oantal frijwilligers op it ynternet grut is, is it net iens. Dêrom realisearren de ûndersikers dat as se mei wikseljende bedragen fan gegevens omgean, waard in nij, noch skalberer, oanpak nedich.

Dêrom is Manda Banerji gearwurke mei Schawinski, Lintott, en oare leden fan it Galaxy Zoo team (2010) -startige learkrêften om galaxies te klassifisearjen. Mear spesifike gebrûk fan 'e minsklike klassifikaasjes makke troch Galaxy Zoo, Banerji boude in masine-learmodel dat de minsklike klassifikaasje fan in galaxia basearre kin op basis fan de skaaimerken fan it byld. As dit model de minsklike klassifikaasjes mei in hege prestaasje makket, dan kin it brûkt wurde troch ûndersikers fan Galaxy Zoo om in essensjele unfinale tal galaxiëts te klassifisearjen.

De kearn fan Banerji en kollega 's oanpak is eigentlik aardich te fergelykjen oan technyske techniken dy't faak brûkt wurde yn' e maatskiplike ûndersyk, hoewol dat oerienkomst net dúdlik op 'e eerst sjen kin. Earst hawwe Banerji en kollega's elke byld yn in set fan numerike funksjes konvertearre dy't har eigenskippen fermelde. Bygelyks foar bylden fan galaxies kinne der trije funksjes wêze: de blauwe yn it byld, de fariant yn 'e helderheid fan' e piksels, en it oanpart fan net-wite piksels. De seleksje fan 'e goede eigenskippen is in wichtich ûnderdiel fan it probleem, en it freget omskattigens ûnderwerp-fakkundigens. Dizze earste stap, allinich neamde spesifike yngenieur , bringt resultaten yn in gegevensmatrix mei ien rige per ôfbylding en dan trije kolommen dy't dit ôfbylding beskriuwt. Op grûn fan de gegevensmatrix en de winske útfier (bgl. It byld fan in minske as in elliptyske galaxia klassifisearre is) skept de ûndersiker in statistysk of masine-learmodel - bygelyks logistyske regression - dat de minsklike klassifikaasje foarbysteld is basearre op 'e funksjes fan it byld. Uteinlik brûkt de ûndersiker de paragrafen yn dit statistyske modeling om geschatte klassifikaasjes fan nije galaxies te meitsjen (ôfbylding 5.4). Yn it masine learen, dizze oanpak-gebrûk meitsjende tekenrige foarbylden om in model te meitsjen dy't nije gegevens ljeppe kin - wurdt begelaat learen neamd .

Figure 5.4: Ferplichte beskriuwing fan hoe't Banerji et al. (2010) brûkte de klassifikaasjes fan Galaxy Zoo om in masine-learmodel te trenen om de galaxis-klassifikaasje te dwaan. Ofbyldings fan galaxies waarden omboud yn in matrix fan funksjes. Yn dit fergelykbere foarbyld binne der trije funksjes (it blau yn it byld, de fariant yn 'e helderheid fan' e piksels, en it oanpart fan nonwhite pixels). Dêrnei wurde foar in subset fan 'e bylden de teksten fan Galaxy Zoo brûkt om in masine-learmodel te trenen. Uteinlik wurdt it masine learen brûkt om de klassifikaasjes foar de oare galaxiëten te beskachten. Ik neam dat dit in kompjûter assistinte-human-computing-projekt, om't it leverjen fan 'e minsken in probleem hat, dat hy minsken in dataset opmeitsje kin brûkt wurde om in kompjûter te trenen om it probleem op te lossen. It foardiel fan dit kompjûter assistinte-minsklike rekreaasje-systeem is dat it jo makket om essensjele unike mominten fan gegevens te brûken mei allinich in begryp fan minsklike ynspanning. Ofbyldings fan galaksjes dy't reprodusearre binne troch tastimming fan Sloan Digital Sky Survey.

Figure 5.4: Ferplichte beskriuwing fan hoe't Banerji et al. (2010) brûkte de klassifikaasjes fan Galaxy Zoo om in masine-learmodel te trenen om de galaxis-klassifikaasje te dwaan. Ofbyldings fan galaxies waarden omboud yn in matrix fan funksjes. Yn dit fergelykbere foarbyld binne der trije funksjes (it blau yn it byld, de fariant yn 'e helderheid fan' e piksels, en it oanpart fan nonwhite pixels). Dêrnei wurde foar in subset fan 'e bylden de teksten fan Galaxy Zoo brûkt om in masine-learmodel te trenen. Uteinlik wurdt it masine learen brûkt om de klassifikaasjes foar de oare galaxiëten te beskachten. Ik neam dat dit in kompjûter assistinte-human-computing-projekt, om't it leverjen fan 'e minsken in probleem hat, dat hy minsken in dataset opmeitsje kin brûkt wurde om in kompjûter te trenen om it probleem op te lossen. It foardiel fan dit kompjûter assistinte-minsklike rekreaasje-systeem is dat it jo makket om essensjele unike mominten fan gegevens te brûken mei allinich in begryp fan minsklike ynspanning. Ofbyldings fan galaksjes dy't reprodusearre binne troch tastimming fan Sloan Digital Sky Survey .

De funksjes yn Banerji en kollega's learenmodel binne komplekser as dy yn myn spielprobleem - bygelyks brûkte se funksjes lykas "de Vaucouleurs pass axial ratio" - en har model wie gjin logistyske regression, it wie in keunstmjittich neurennetwurk. Mei har funksjes, har model, en de konsensus Galaxy Zoo klassifikaasjes, koe se gewichten op elke funksje meitsje, en brûkte dy gewichten om predikaasjes te meitsjen oer de klassifikaasje fan galaxiëten. Bygelyks, har analyze ûndersocht dat bylden mei leech "de Vaucouleurs fit axiale ferhâlding" wierskynliker wjerspegele galaxies wêze. Op grûn fan dizze gewichten koe se de minsklike klassifikaasje fan in galaxie mei rjochte prestaasje praten.

It wurk fan Banerji en kollega's draaide de Galaxy Zoo yn wat ik soe in kompjûter assistinte-human-computing-systeem neame. De bêste manier om te tinken oer dizze hybride systemen is dat leaver as minsken minsken in probleem oplosse, se hawwe minsken in dataset bouwe dy't brûkt wurde om in kompjûter te trenerjen om it probleem op te lossen. Somtiden kinne jo in kompjûter opliede om it probleem op te lossen, in protte foarbylden nedich, en de iennige manier om in foldwaande tal foarbylden te meitsjen is in massaarmwurk. It foardiel fan dizze kompjûter-assistearre oanpak is dat it jo makket om essensjele unike mominten fan gegevens te brûken mei allinne mar in definityf bedrach fan minsklike ynspanning. Bygelyks, in ûndersiker mei in miljoen minsklike klassike galaxies kin in foar predikant model bouwe dat kinne brûkt wurde om in miljard of sels in triljoen galaxies te klassifisearjen. As der in geweldige tal galaksjes binne, dan is dizze soarte fan minsk-kompjûterhybride echt de iennichste oplossing. Dizze unfinale skalberens is lykwols net fergees. It bouwen fan in masine-learmodel dy't de minske-klassifikaasjes korrekt reproduzearje is sels in swier probleem, mar lokkich binne der al goeie boeken dy't foar dit ûnderwerp wijd binne (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo is in goeie yllustraasje fan hoefolle manuele proefprojekten útwreidzje. Earst besiket in ûndersiker it projekt troch himsels of mei in lyts team fan ûndersyksassistenten (bygelyks Schawinski's earste klassifikaasjeûntstekking). As dizze oanpak net goed skaal is, kin de ûndersiker nei in minsklike kaderprojekt mei in soad dielnimmers bewegen. Mar, foar in bepaalde monein fan gegevens sil net genôch minske-ynspannings genôch wêze. Op dat stuit moatte ûndersikers in kompjûter assistinte-human-computing-systeem oanbiede, dêr't minsklike klassifikaasjes brûkt wurde om in masine-learmodel te trainearjen, dy 't dan tapast wurde kin foar praktysk unbegryplikte data fan gegevens.