5.2.1 Galaxy Zoo

Dizze oersetting is makke troch in kompjûter. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

5.2.1 Galaxy Zoo

Galaxy Zoo kombinearret de ynset fan in soad net-expert frijwilligers te klassifisearjen in miljoen stjerrestelsels.

Galaxy Zoo groeide út fan in probleem faced troch Kevin Schawinski, in ôfstudearre studint yn Astronomy oan de Universiteit fan Oxford yn 2007. ferienfâldiging fan nochal wat, Schawinski wie ynteressearre yn stjerrestelsels, en stjerrestelsels kinne wurde yndield troch harren morfology-elliptyske of spiraalfoarmige-en troch harren kleur-blau of read. By de tiid, konvinsjonele wiisheid ûnder astronomen wie dat spiraal stjerrestelsels, lykas ús Molkenpaad, wienen blauwe yn kleur (oanjout jongerein) en dat elliptyske stjerrestelsels wienen read yn kleur (tsjut op âlde leeftiid). Schawinski twivele dit konvinsjonele wiisheid. Hy tocht dat wylst dit patroan soe wêze wier yn it algemien, wienen der nei alle gedachten in sizable tal útsûnderingen, en dat troch stúdzje in soad fan dizze ûngewoane stjerrestelsels-de lju dy't net passe de ferwachte patroan-hy koe leare wat oer it proses troch dat stjerrestelsels foarme.

Sa, wat Schawinski nedich om te overturn konvinsjonele wiisheid wie in grut set fan morphologically Classified stjerrestelsels; dat is, stjerrestelsels dat hie it klassifisearre as beide spiraal of elliptyske. It probleem, lykwols, wie dat besteande algorithmic metoaden foar klassifikaasje wienen noch net goed genôch om te brûkt wurde foar wittenskiplik ûndersyk; yn oare wurden, classifying stjerrestelsels wie, yn dy tiid, in probleem dat wie hurd foar kompjûters. Dêrom, wat wie nedich wie in grut tal fan minsklike klassifisearre stjerrestelsels. Schawinski ûndernaam dizze klassifikaasje probleem mei it entûsjasme fan in ôfstudearre studint. Yn in maraton sesje fan sân, 12-oere dagen, hy wie by steat om te klassifisearjen 50.000 stjerrestelsels. Wylst 50.000 stjerrestelsels ek klinke as in soad, is it eins mar sa'n 5% fan de hast ien miljoen stjerrestelsels dat hie fotografearre yn de Sloan Digitale Sky Survey. Schawinski realisearre dat er nedich in mear scalable oanpak.

Gelokkich, it blykt dat de taak fan classifying stjerrestelsels net nedich avansearre oplieding yn de astronomy; kinne jo leare immen te dwaan dat moai gau. Yn oare wurden, ek al classifying stjerrestelsels is in opjefte dy't wie hurd foar kompjûters, wie it moaie maklik foar minsken. Sa, wylst sitte yn in kafee yn Oxford, Schawinski en kollega astronoom Chris Lintott dreamde op in webside dêr't frijwilligers soe klassifisearjen bylden fan stjerrestelsels. In pear moannen letter, Galaxy Zoo waard berne.

By de Galaxy Zoo webside, frijwilligers soe ûndergean in pear minuten fan oplieding; bygelyks, it learen fan it ferskil tusken in spiraal en elliptyske galaxy (Figuer 5.2). Nei dizze oplieding, de frijwilligers moasten lâns in relatyf maklik kwis-goed classifying 11 fan 15 stjerrestelsels mei bekend klassifikaasjes-en dêrnei de frijwilliger soe begjinne echte klassifikaasje fan ûnbekende stjerrestelsels troch in ienfâldige web-basearre interface (Figure 5.3). De oergong fan frijwilliger nei astronoom soe plakfine yn minder as 10 minuten en allinnich ferplichte foarby de leechste fan bewurkje, in ienfâldich kwis.

Figuer 5.2: Foarbylden fan de twa wichtichste soarten stjerrestelsels: spiraal en elliptyske. De Galaxy Zoo projekt brûkt mear as 100.000 frijwilligers oan kategoryen mear as 900.000 ôfbyldingen. Boarne: www.galaxyzoo.org .

Figuer 5.3: Input skerm wêr kiezers waarden frege om te klassifisearjen ien byld. Boarne: www.galaxyzoo.org .

Galaxy Zoo luts syn earste frijwilligers nei it projekt waard featured yn in nijs artikel, en yn likernôch seis moanne it projekt groeide te belûken mear as 100.000 boarger wittenskippers, minsken dy't meidien om't se genoaten fan 'e taak en se woene te helpen foarôf astronomy. Tegearre, dizze 100.000 frijwilligers bydroegen yn totaal mear as 40 miljoen klassifikaasjes, mei de mearderheid fan de klassifikaasjes út in relatyf lyts, core groep fan dielnimmers (Lintott et al. 2008) .

Ûndersikers dy't ûnderfining ynhier bachelor ûndersyk assistinten kinne fuortendaliks wêze skeptysk oer data kwaliteit. Wylst dit skepsis is ridlik, Galaxy Zoo docht bliken dat as frijwillige bydragen binne goed skjinmakke, debiased, en byinoar opteld, se kinne produsearje hege-kwaliteit results (Lintott et al. 2008) . In wichtige Hattrick op foar it krijen fan it publyk te meitsjen profesjonele kwaliteit gegevens is ûntslach; dat is, dy't deselde taak útfierd troch in protte ferskillende minsken. Yn Galaxy Zoo, der wiene sa'n 40 klassifikaasjes per galaxy; ûndersikers brûkende bachelor ûndersyk assistinten koe nea betelje dit nivo fan ûntslach en dêrom moatte wurde folle mear dwaande mei de kwaliteit fan elke yndividuele klassifikaasje. Wat de frijwilligers ûntbruts yn oplieding, se makke foar mei ûntslach.

Sels mei meardere klassifikaasjes per stjerrestelsel, lykwols, kombinearjen de dea fan frijwillige klassifikaasjes te produsearje in konsensus klassifikaasje is lestich. Omdat tige sa'n útdagings ûntsteane yn de measte minsken computation projekten, it is brûkber te koart review de trije stappen dy't de Galaxy Zoo ûndersikers brûkt te produsearjen harren konsensus klassifikaasjes. Earste, de ûndersikers "skjinmakke" de gegevens troch fuortheljen Bogus klassifikaasjes. Bygelyks, minsken dy't geregeldwei klassifisearre deselde galaxy-wat, dat soe barre as se wiene besykje te manipulearje de resultaten-hiene al har klassifikaasjes wiske. Dit en oare ferlykbere cleaning fuorthelle likernôch 4% fan alle klassifikaasjes.

Twadde, neidat skjinmeitsjen, de ûndersikers nedich om fuortsmite systematysk biases yn klassifikaasjes. Troch in rige fan bias detection stúdzjes ynsletten binnen de oarspronklike projekt-bygelyks, hjir in pear frijwilligers de galaxy yn monogroom ynstee fan kleur-de ûndersikers ûntdutsen ferskate systematyske biases, lykas in systematyske foaroardielen te klassifisearjen fier fuort spiral stjerrestelsels as elliptyske stjerrestelsels (Bamford et al. 2009) . Oanpassen foar dy systematysk biases is tige wichtich, omdat trochstrings in soad bydragen net fuortsmite systematyske bias; it allinne verwijdert willekeurige flater.

Lang om let, neidat debiasing, de ûndersikers nedich in metoade te kombinearjen de yndividuele klassifikaasjes te produsearje in konsensus klassifikaasje. De ienfâldichste manier om te kombinearjen klassifikaasjes foar eltse galaxy wêze soe om 'e meast foarkommende klassifikaasje. Mar, dizze oanpak soe jaan eltse frijwilliger gelikense gewicht, en de ûndersikers derfan fertocht dat guon frijwilligers wiene better op klassifikaasje as oaren. Dêrom, de ûndersikers ûntwikkele in mear komplekse werheljende weighting proseduere dy't probearret om automatysk ûntdekke de bêste classifiers en jou se mear gewicht.

Sa, nei in trije stap proses-cleaning, debiasing, en weighting-de Galaxy Zoo ûndersyk ploech hie bekearde 40 miljoen frijwillige klassifikaasjes yn in set fan konsensus morfologyske klassifikaasjes. Doe't dy Galaxy Zoo klassifikaasjes waarden yn ferliking mei trije foarige lytsere-skaal besocht troch profesjonele astronomen, wêrûnder de klassifikaasje troch Schawinski dy't holpen om inspire Galaxy Zoo, der wie sterke oerienkomst. Sa, de frijwilligers, in aggregaat, koenen te bieden hege kwaliteit klassifikaasjes en op in skaal dy't de ûndersikers net oerien (Lintott et al. 2008) . Yn feite, troch it hawwen fan minsklike klassifikaasjes foar sa'n grut tal fan stjerrestelsels, Schawinski, Lintott, en oaren koenen sjen dat mar sa'n 80% fan de stjerrestelsels folgje de ferwachte patroan-blauwe spiralen en reade ellipticals-en tal fan papers binne skreaun oer dizze ûntdekking (Fortson et al. 2011) .

Mei it each op dizze eftergrûn, wy kinne no sjen hoe't Galaxy Zoo folget de split-jilde-kombinearje resept, itselde resept dat brûkt wurdt foar de measte minsken computation projekten. Earst, in grut probleem is spjalte yn brokken. Yn dit gefal, it probleem fan classifying in miljoen stjerrestelsels wurdt splitst yn in miljoen problemen fan classifying ien galaxy. Folgjende, in operaasje wurdt tapast oan eltse chunk selsstannich. Yn dit gefal, in frijwilliger soe klassifisearjen eltse galaxy as beide spiraal of elliptyske. Ta beslút, de resultaten wurde kombinearre te produsearje in konsensus resultaat. Yn dit gefal, it kombinearjen stap opnaam de cleaning, debiasing, en weighting te produsearje in konsensus klassifikaasje foar eltse galaxy. Ek al de measte projekten brûke dizze algemiene resept, elk fan de stappen moat nei maatwurk foar de spesifike probleem wurdt oanpakt. Bygelyks, yn it minsklike computation projekt beskreaun hjirûnder, deselde resept wurdt folge, mar de tapassing en kombinearjen stappen sil hiel oars.

Foar de Galaxy Zoo team, dizze earste projekt wie krekt it begjin. Hiel gau se realisearre dat ek al se wienen by steat om te klassifisearjen ticht by in miljoen stjerrestelsels, dy skaal is net genôch om te wurkjen mei nijere digitale himel enkêtes, dat koe produsearje bylden fan likernôch 10 miljard stjerrestelsels (Kuminski et al. 2014) . Om omgean in ferheging fan 1 miljoen oant 10 miljard-in faktor fan 10.000-Galaxy Zoo soe moatte winnen rûchwei 10.000 kear mear dielnimmers. Ek al it tal frijwilligers op it ynternet is grut, is it net ûneinige. Dêrom, de ûndersikers realisearre dat as se geane te omgean hieltyd groeiende bedraggen fan gegevens, in nije, noch mear scalable, oanpak wie nedich.

Dêrom, Manda Banerji-wurkje mei Kevin Schawinski, Chris Lintott, en oare leden fan it Galaxy Zoo team-begjinnende ûnderwiis computers te klassifisearjen stjerrestelsels. Mear spesifyk, mei help fan de minsklike klassifikaasjes makke troch Galaxy Zoo, Banerji et al. (2010) boud in masine learen model dat koe foarsizze de minsklike klassifikaasje fan in galaxy basearre op de skaaimerken fan de ôfbylding. As dizze machine learen model koe dan it minsklike klassifikaasjes mei hege krektens, dan koe brûkt wurde troch Galaxy Zoo ûndersikers te klassifisearjen in yn wêzen ûneinige tal fan stjerrestelsels.

De kearn fan Banerji en kollega 'oanpak is eins moai te ferlykjen mei techniken algemien brûkt wurdt yn sosjale ûndersyk, hoewol't dat oerienkomst soe net dúdlik by earste eachopslach. Earst, Banerji en kollega omsetten eltse ôfbylding yn in set fan numeryk funksjes dy't gearfetsje it eigenskippen. Bygelyks, foar bylden fan stjerrestelsels der koe wêze trije mooglikheden: it bedrach fan blau yn it byld, de fariânsje yn de helderheid fan de pixels, en it oanpart fan net-wite piksels. De seleksje fan de goede eigenskippen is in wichtich ûnderdiel fan it probleem, en it algemien ferget ûnderwerp-gebiet ekspertize. Dy earste stap, faak neamd funksje engineering, results yn in gegevens matrix mei ien rige per byld en dêrnei trije kolommen beskriuwe dat byld. Mei it each op de gegevens matrix en de winske output (bygelyks, oft it byld waard yndield by in minske as in elliptyske galaxy), de ûndersiker rûst de parameters fan in statistyske model-bygelyks, wat as in logistiek in regresje-, dat foarseit de minsklike klassifikaasje basearre op 'e eigenskippen fan' e ôfbylding. Ta beslút, de ûndersiker brûkt de parameters yn dizze statistyske model te produsearjen estimated klassifikaasjes fan nije stjerrestelsels (Figure 5.4). Te tinken oan in sosjaal analoge, yntinke dat dy hie demografyske ynformaasje oer in miljoen studinten, en jo witte oft se studearre út kolleezje of net. Jo koe passe in logistiek in regresje oan dizze gegevens, en dan koe brûke it gefolch model parameters te foarsizze oft nije studinten sille foar stúdzje út kolleezje. Yn machine learen, dizze oanpak-brûkend bestimpele foarbylden te meitsjen in statistyske model dat kin dan label nije data-hjit tafersjoch learen (Hastie, Tibshirani, and Friedman 2009) .

Figuer 5.4: Simplified beskriuwing fan hoe't Banerji et al. (2010) brûkt de Galaxy Zoo klassifikaasjes foar it oplieden fan in masine learen model te dwaan galaxy klassifikaasje. Images of stjerrestelsels waarden omsetten yn in matrix fan funksjes. Yn dizze ferienfâldige bygelyks binne der trije skaaimerken (it bedrach fan blau yn it byld, de fariânsje yn de helderheid fan de pixels, en it oanpart fan net-blanke piksels). Doe, om in bepaald berik fan de bylden, de Galaxy Zoo labels wurde brûkt foar it oplieden fan in masine learen model. Ta beslút, de machine learen wurdt brûkt om te skatten klassifikaasjes foar de oare stjerrestelsels. Ik neam dit soarte fan projekt in twadde-generaasje minsklike kompjûtasjonele projekt omdat, earder as mei minsken oplosse in probleem, se hawwe minsken bouwe in dataset dat brûkt wurde kin foar it oplieden fan in kompjûter te lossen it probleem. It foardiel fan dizze kompjûter-bystien oanpak is dat it stelt jo te omgean wêzen ûneinige bedraggen fan gegevens mei help fan allinnich in einige bedrach fan minsklike ynspanning.

De funksjes yn Banerji et al. (2010) machine learen model wiene mear kompleks as dy yn myn boartersguod bygelyks-bygelyks, se brûkte funksjes lykas "de Vaucouleurs passe axial ferhâlding" en har model wie net logistiek in regresje, wie it in keunstmjittich neural netwurk. Mei help fan har eigenskippen, har model, en de konsensus Galaxy Zoo klassifikaasjes, se koe om te meitsjen gewichten op eltse funksje, en dan brûke dizze gewichten om foarsizzings oer de klassifikaasje fan stjerrestelsels. Bygelyks, har analyze fûn dat ôfbyldings mei lege "de Vaucouleurs passe axial ferhâlding" wiene mear kâns te wêzen spiraal stjerrestelsels. Mei it each op dizze gewichten, se koe foarsizze de minsklike klassifikaasje fan in galaxy mei reedlike krektens.

It wurk fan Banerji et al. (2010) draaide Galaxy Zoo yn wat ik soe neame in twadde-generaasje minsklike computation systeem. De bêste manier om te tinken oer dy twadde-generaasje systemen is dat earder as mei minsken oplosse in probleem, se hawwe minsken bouwe in dataset dat brûkt wurde kin foar it oplieden fan in kompjûter te lossen it probleem. It bedrach fan gegevens nedich om te trenen de kompjûter kin wêze sa grut dat it freget om in minsklike massa gearwurking te meitsjen. Yn it gefal fan Galaxy Zoo, de neural netwurken brûkt troch Banerji et al. (2010) ferplichte in tige grut tal fan minsklik-bestimpele foarbylden om te bouwen in model dat koe betrouber reprodusearjen fan de minsklike klassifikaasje.

It foardiel fan dizze kompjûter-bystien oanpak is dat it stelt jo te omgean wêzen ûneinige bedraggen fan gegevens mei help fan allinnich in einige bedrach fan minsklike ynspanning. Bygelyks, in ûndersiker mei in miljoen minsklike klassifisearre stjerrestelsels kin bouwe in foarsizzend model dat kin dan brûkt wurde om te klassifisearjen in miljard of sels in trillion stjerrestelsels. As der enoarme getallen fan stjerrestelsels, dan dit soarte fan minske-kompjûter hybride is eins de ienige mooglike oplossing. Dit ûneinige scalability is net fergees, lykwols. It bouwen fan in masine learen model dat kin goed dan it minsklike klassifikaasjes is sels in hurde probleem, mar lokkigernôch binne der al poerbêst boeken wijd oan dit ûnderwerp (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo toant de ûntjouwing fan in protte minsklike computation projekten. Earst, in ûndersiker besiket it projekt troch harsels of mei in lytse ploech fan ûndersyk assistinten (bygelyks, Schawinski syn earste klassifikaasje ynspanning). As dizze oanpak net skaal goed, de ûndersiker kin ferhúzje nei in minsklike computation projekt dêr't in protte minsken bydrage klassifikaasjes. Mar, foar in beskate folume fan gegevens, suver minsklik ynset sil net wêze genôch. Op dat punt, ûndersikers moatte bouwen twadde-generaasje systemen dêr't minsklike klassifikaasjes wurde brûkt foar it oplieden fan in masine learen model dat kin dan wurde tapast om frijwol ûnbeheinde bedraggen fan gegevens.