5.2.1 Galaxy Zoo

Galaxy Zoo yhdistää monien ei-asiantuntijoiden vapaaehtoisten pyrkimykset luokitella miljoonat galaksit.

Galaxy Zoo kasvoi ongelmasta, jota Oxfordin yliopistossa tähtitieteen tähtitieteen opiskelija Kevin Schawinski koki vuonna 2007. Schawinssi oli yksinkertaisesti yksinkertaisempi, galaksien kiinnostus, ja galaksit voidaan luokitella niiden morfologia-elliptinen tai spiraali-ja niiden väri-sininen tai punainen. Tuolloin tavanomaista viisautta tähtitieteilijöiden keskuudessa oli, että spiraalilataksit, kuten Linnunradan kaltaiset, olivat väriltään sinisiä (osoittaen nuoria) ja elliptiset galaksit olivat punaisia ​​(osoittaa vanhuutta). Schawinski epäili tätä perinteistä viisautta. Hän epäili, että vaikka tämä malli voisi olla totta yleisesti, oli todennäköisesti huomattava määrä poikkeuksia ja että tutkimalla monia näitä epätavallisia galaksiat - ne, jotka eivät sovi odotettuun kaavaan - hän voisi oppia jotain prosessista, jonka kautta galaksit muodostettiin.

Siten, mitä Schawinski tarvitsi perinteisen viisauden kumoamiseksi, oli suuri joukko morfologisesti luokiteltuja galaksijoita; eli galakseja, jotka oli luokiteltu joko spiraaliksi tai elliptiseksi. Ongelma oli kuitenkin se, että olemassa olevat algoritmiset luokittelumenetelmät eivät olleet vielä riittävän hyviä tieteelliseen tutkimukseen; Toisin sanoen, galaksien luokittelu oli tuolloin tietokoneen kannalta vaikea ongelma. Siksi tarvitaan paljon ihmisen luokiteltuja galakseja. Schawinski otti tämän luokitusongelman jatko-opiskelijan innolla. Seitsemän 12 tunnin päivän maratonistunnossa hän pystyi luokittelemaan 50 000 galaksia. Vaikka 50 000 galaksia saattaa kuulostaa paljon, se on itse asiassa vain noin 5% lähes miljoonasta galaksiasta, jotka oli kuvattu Sloan Digital Sky Survey -tapahtumassa. Schawinski ymmärsi, että hän tarvitsi skaalautuvaa lähestymistapaa.

Onneksi käy ilmi, että tehtäväksi luokitella galakseja ei edellytä jatkokoulutus tähtitieteessä; voit opettaa jonkun tekemään sen melko nopeasti. Toisin sanoen, vaikka luokittelemalla galaksien on tehtävä, joka oli vaikea tietokoneet, se oli melko helppoa ihmisille. Joten, istuen pubi Oxford, Schawinski ja muiden tähtitieteilijä Chris Lintott keksineet sivusto, jossa vapaaehtoiset luokittelisi kuvia galakseja. Muutamaa kuukautta myöhemmin, Galaxy Zoo syntyi.

Galaxy Zoo -verkkosivustolla vapaaehtoiset joutuisivat muutaman minuutin harjoitteluun; esimerkiksi spiraalin ja elliptisen galaksin välisen eron oppiminen (kuva 5.2). Tämän koulutuksen jälkeen jokaisen vapaaehtoisen oli läpäistävä suhteellisen helppo tietokilpailu - oikein luokiteltava yhdeksän kymmenestä 15: sta tunnetuista luokituksista muodostetuista galaksi- ja sitten aloittaisi tuntemattomien galaksien todellinen luokittelu yksinkertaisen web-pohjaisen rajapinnan kautta (kuva 5.3). Siirtyminen vapaaehtoiselta astronomiksi tapahtui alle 10 minuutissa ja tarvitsi vain vähäisimpien esteiden, yksinkertaisen tietokilpailun.

Kuva 5.2: Esimerkkejä kahden päätyypin galaksien: spiraali ja elliptinen. Galaxy Zoo -projekti käytti yli 100 000 vapaaehtoista luokitellakseen yli 900 000 kuvaa. Julkaistu luvalla http://www.GalaxyZoo.org ja Sloan Digital Sky Survey.

Kuva 5.2: Esimerkkejä kahden päätyypin galaksien: spiraali ja elliptinen. Galaxy Zoo -projekti käytti yli 100 000 vapaaehtoista luokitellakseen yli 900 000 kuvaa. Julkaistu luvalla http://www.GalaxyZoo.org ja Sloan Digital Sky Survey .

Kuva 5.3: Syöttöruutu, jossa vapaaehtoisia pyydettiin luokittelemaan yksi kuva. Toistetaan Chris Lintottin luvalla, joka perustuu Sloan Digital Sky Surveyin kuvaan.

Kuva 5.3: Syöttöruutu, jossa vapaaehtoisia pyydettiin luokittelemaan yksi kuva. Toistetaan Chris Lintottin luvalla, joka perustuu Sloan Digital Sky Surveyin kuvaan.

Galaxy Zoo houkutteli alkuperäisiä vapaaehtoisiaan sen jälkeen, kun hanke oli uutisartikkelissa, ja noin kuudessa kuukaudessa hanke kasvoi osallistumaan yli 100 000 kansalaistutkijaan, osallistuviin ihmisiin, koska he nauttivat tehtävää ja halusivat auttaa astronomiaa eteenpäin. Yhdessä näistä 100 000 vapaaehtoisesta osallistui yhteensä yli 40 miljoonaan luokitukseen, joista suurin osa luokituksista tuli suhteellisen pienestä osallistujaryhmästä (Lintott et al. 2008) .

Tutkijat, joilla on kokemusta perusopetuksen tutkijoiden palkkaamisesta, saattavat olla välittömästi epäilyttäviä tietojen laadusta. Vaikka tämä skeptismi on kohtuullista, Galaxy Zoo osoittaa, että kun vapaaehtoistyöntekijät ovat oikein puhdistettuja, puolueettomia ja aggregaatteja, he voivat tuottaa laadukkaita tuloksia (Lintott et al. 2008) . Tärkeä tavoite saada yleisöä luomaan ammattimaista dataa on irtisanominen , toisin sanoen sama tehtävä on monien erilaisten ihmisten suorittamassa. Galaxy Zoo: ssa oli noin 40 luokitusta galaksia kohden; tutkijat, jotka käyttäisivät perusopetuksen apulaisopettajia, eivät koskaan voineet varautua tähän redundanssin tasoon, ja siksi heidän olisi kiinnitettävä enemmän huomiota kunkin yksittäisen luokituksen laatuun. Vapaaehtoisilla ei ollut koulutusta, vaan heidät oli tehty irtisanomisella.

Jopa useita luokituksia per galaksi, kuitenkin yhdistämällä joukko vapaaehtoisia luokitukset tuottamaan konsensus luokitus oli hankala. Koska hyvin samankaltaiset haasteet syntyvät useimmissa ihmisen laskentaprojekteissa, on hyödyllistä tarkastella lyhyesti kolmea vaihetta, joita Galaxy Zoo-tutkijat käyttivät tuottamaan konsensusluokituksensa. Ensinnäkin tutkijat "puhdistavat" tiedot poistamalla turhia luokituksia. Esimerkiksi henkilöt, jotka toistuvasti luokitelivat saman galaksin - jotain, joka tapahtuisi, jos he yrittäisivät manipuloida tuloksia - olivat kaikki luokituksensa hylättyjä. Tämä ja muu vastaava puhdistus poisti noin 4% kaikista luokituksista.

Toiseksi, puhdistuksen jälkeen tutkijat tarvitsivat poistamaan järjestelmälliset poikkeamat luokituksiin. Esimerkiksi alkuperäisen hankkeen sisältämien bias-detektiotutkimusten kautta - esimerkiksi näyttämällä joitain vapaaehtoisia galaksia yksivärisessä värin sijasta - tutkijat löysivät useita systemaattisia ennakkoluuloja, kuten systemaattista puolueellista luokitella etäiset kierre-galaksit elliptisiin galakseiksi (Bamford et al. 2009) . Näiden systemaattisten puolueiden säätäminen on äärimmäisen tärkeää, koska redundanssi ei automaattisesti poista järjestelmällistä poikkeamaa; se vain auttaa poistamaan satunnaisen virheen.

Lopuksi, tutkijan päätyttyä tutkijat tarvitsivat menetelmän yksittäisten luokitusten yhdistämiseksi konsensusluokituksen tuottamiseksi. Yksinkertaisin tapa yhdistää luokitukset kullekin galaksille olisi ollut valita tavallisimmat luokitukset. Tämä lähestymistapa olisi kuitenkin antanut jokaiselle vapaaehtoiselle yhdenvertaisen painon, ja tutkijat epäilivät, että jotkut vapaaehtoiset olivat luokituksessa parempia kuin toiset. Siksi tutkijat kehittivät monimutkaisemman iteraattisen painotusmenettelyn, joka yritti havaita parhaat luokittelijat ja antaa heille enemmän painoa.

Näin ollen kolmen vaiheen prosessin puhdistus, poistaminen ja painottaminen - Galaxy Zoo -tutkimusryhmä oli muuttanut 40 miljoonan vapaaehtoisen luokituksen joukoksi konsensus morfologisia luokituksia. Kun näitä Galaxy Zoo -luokituksia verrattiin kolmeen aikaisempaa pienempään yritykseen, jonka mukaan astronomit, mukaan lukien Schawinskiin luokittelu, joka auttoi innostaa Galaxy Zooa, oli vahva sopimus. Tästä syystä vapaaehtoiset pystyivät yhdessä tuottamaan korkealaatuisia luokituksia ja mittakaavassa, jota tutkijat eivät voineet sopia (Lintott et al. 2008) . Itse asiassa, sillä ihmisluokitukset tällaiselle suurelle määrälle galaksit, Schawinski, Lintott ja muut pystyivät osoittamaan, että vain noin 80% galaksien seuraa odotettuja kuvio-sinisiä spiraaleja ja punaisia ​​elliptisiä - ja lukuisia papereita on kirjoitettu tämä löytö (Fortson et al. 2011) .

Tämän taustan perusteella voit nyt nähdä, kuinka Galaxy Zoo noudattaa split-apply-combine-reseptiä, samaa reseptiä, jota käytetään useimmissa ihmisen laskentaprojekteissa. Ensinnäkin suuri ongelma jaetaan palasiksi. Tässä tapauksessa miljoonan galaksien luokituksen ongelma jaettiin miljooniksi ongelmiksi yhden galaksin luokittelemisesta. Seuraavaksi jokaista kappaletta käytetään toisistaan ​​riippumatta. Tällöin vapaaehtoiset luokittelivat jokaisen galaksin joko spiraalina tai elliptisenä. Lopuksi tulokset yhdistetään tuottamaan yksimielisen tuloksen. Tässä tapauksessa yhdistelmävaiheeseen sisältyi puhdistus, poistaminen ja painotus tuottamaan konsensuksen luokittelu kullekin galaksille. Vaikka useimmat hankkeet käyttävät tätä yleistä reseptiä, jokainen askel on räätälöitävä erityiseen ongelmaan. Esimerkiksi jäljempänä kuvatussa ihmisen laskentaprojektissa noudatetaan samaa reseptiä, mutta sovellettavat ja yhdistävät vaiheet ovat varsin erilaisia.

Galaxy Zoo -ryhmää varten tämä ensimmäinen projekti oli vasta alkua. Hyvin nopeasti he huomasivat, että vaikka he pystyivät luokittelemaan lähes miljoona galaksia, tämä mittakaava ei riitä tekemään uusia digitaalisia taivaan tutkimuksia, jotka voivat tuottaa kuvia noin 10 miljardista galaksiasta (Kuminski et al. 2014) . Käsittelemään kasvua 1 miljoonasta 10 miljardiin - 10 000-Galaxy Zoo -tekijän olisi rekrytoitava noin 10 000 kertaa enemmän osallistujia. Vaikka vapaaehtoisten määrä Internetissä on suuri, se ei ole ääretöntä. Siksi tutkijat ymmärtävät, että jos he aikovat käsitellä yhä kasvavia määriä tietoja, tarvitaan uusi, skaalautuva lähestymistapa.

Siksi Manda Banerji - yhteistyössä Schawinskiin, Lintottin ja muiden Galaxy Zoo -ryhmän jäsenten (2010) käynnisti opetus tietokoneita galaksien luokittelemiseksi. Tarkemmin sanottuna, käyttämällä Galaxy Zoo: n luomaa ihmislauseketta, Banerji rakensi koneen oppimismallin, joka voisi ennustaa galaksin ihmisen luokituksen kuvan ominaisuuksien perusteella. Jos tämä malli pystyy toistamaan ihmisluokitukset erittäin tarkasti, Galaxy Zoo-tutkijat voisivat käyttää sitä olennaisesti ääretöntä galaksien määrää.

Banerjin ydin ja kollegojen lähestymistapa ovat itse asiassa varsin samankaltaisia ​​kuin yhteiskunnallisessa tutkimuksessa yleisesti käytetyt tekniikat, vaikka tällainen samankaltaisuus ei välttämättä ole selkeä ensi silmäyksellä. Ensinnäkin Banerji ja kollegat muuttivat jokaisen kuvan joukkoon numeerisia ominaisuuksia, jotka koosivat sen ominaisuuksia. Esimerkiksi galaksien kuville saattaa olla kolme ominaisuutta: kuvan sinisen määrän määrä, pikselien kirkkauden vaihtelu ja ei-valkoisten pikseleiden osuus. Oikeiden ominaisuuksien valinta on tärkeä osa ongelmaa, ja se yleensä edellyttää aihealueiden osaamista. Tämä ensimmäinen vaihe, jota yleisesti kutsutaan erikoistekniikaksi , tuottaa datamatriisin, jossa on yksi rivi kuvaa kohden ja kolme saraketta kuvaavaa kuvaa. Ottaen huomioon datamatriisin ja halutun tuotoksen (esim. Onko ihminen luokittanut kuvan elliptiseksi galaksiksi) tutkija luo tilastollisen tai koneen oppimismallin - esimerkiksi logistisen regressiota -, joka ennustaa ihmisen luokittelua ominaisuuksien perusteella kuvasta. Lopuksi tutkija käyttää tässä tilastollisessa mallissa parametreja tuottamaan uusien galaksien luokiteltuja luokituksia (kuva 5.4). Konetekniikassa tämä lähestymistapa, jossa käytetään leimattuja esimerkkejä mallin luomiseksi, joka voi sitten merkitä uusia tietoja, kutsutaan valvotuksi oppimaksi .

Kuva 5.4: Yksinkertaistettu kuvaus siitä, miten Banerji et al. (2010) käytti Galaxy Zoo -luokituksia kouluttaakseen koneen oppimismallin galaksin luokituksen tekemiseksi. Galaksien kuvat muunnettiin ominaisuuksien matriisissa. Tässä yksinkertaistetussa esimerkissä on kolme ominaisuutta (sinisen kuvan määrä, pikselien kirkkauden vaihtelu ja muiden kuin valkoisten pikseleiden osuus). Tällöin kuvien alaryhmälle Galaxy Zoo -merkit käytetään kouluttamaan koneen oppimismallia. Lopuksi koneen oppimista käytetään arvioimaan luokitukset jäljellä oleville galaksien. Minä kutsun tätä tietokoneavusteiseksi ihmisen laskentaprojektiksi, koska sen sijaan, että ihmiset voisivat ratkaista ongelman, ihminen rakentaa tietokokonaisuuden, jota voidaan käyttää kouluttamaan tietokone ongelman ratkaisemiseksi. Tämän tietokoneavusteisen ihmisen laskentajärjestelmän etuna on se, että se pystyy käsittelemään olennaisesti ääretöntä tietomääriä käyttämällä vain rajallista määrää ihmisen työtä. Sloan Digital Sky Surveyin luvalla toistetut galaksien kuvat.

Kuva 5.4: Yksinkertaistettu kuvaus siitä, miten Banerji et al. (2010) käytti Galaxy Zoo -luokituksia kouluttaakseen koneen oppimismallin galaksin luokituksen tekemiseksi. Galaksien kuvat muunnettiin ominaisuuksien matriisissa. Tässä yksinkertaistetussa esimerkissä on kolme ominaisuutta (sinisen kuvan määrä, pikselien kirkkauden vaihtelu ja muiden kuin valkoisten pikseleiden osuus). Tällöin kuvien alaryhmälle Galaxy Zoo -merkit käytetään kouluttamaan koneen oppimismallia. Lopuksi koneen oppimista käytetään arvioimaan luokitukset jäljellä oleville galaksien. Minä kutsun tätä tietokoneavusteiseksi ihmisen laskentaprojektiksi, koska sen sijaan, että ihmiset voisivat ratkaista ongelman, ihminen rakentaa tietokokonaisuuden, jota voidaan käyttää kouluttamaan tietokone ongelman ratkaisemiseksi. Tämän tietokoneavusteisen ihmisen laskentajärjestelmän etuna on se, että se pystyy käsittelemään olennaisesti ääretöntä tietomääriä käyttämällä vain rajallista määrää ihmisen työtä. Sloan Digital Sky Surveyin luvalla toistetut galaksien kuvat.

Banerjin ja työtovereiden koneen oppimismallin ominaisuudet olivat monimutkaisempia kuin lelujani esimerkissä. Esimerkiksi hän käytti sellaisia ​​ominaisuuksia kuin "de Vaucouleursin aksiaalisuhde" - ja hänen mallinsa ei ollut logistinen regressio, se oli keinotekoinen hermoverkko. Hänen ominaisuutensa, mallinsa ja konsensuksensa Galaxy Zoo -luokitusten avulla hän pystyi luomaan painoja jokaiselle ominaisuudelle ja käyttämään sitten näitä painoja arvioitaessa galaksien luokitusta. Esimerkiksi hänen analyysinsä osoitti, että kuvat, joilla on alhainen "de Vaucouleursin aksiaalisuhde", olivat todennäköisimmin spiraaligealakseja. Näiden painojen perusteella hän pystyi ennakoimaan galaksin ihmisen luokittelun kohtuullisella tarkkuudella.

Banerjin ja kollegoiden työ käänsi Galaxy Zooa siihen, mitä kutsun tietokoneavusteiseksi ihmisen laskentajärjestelmäksi . Paras tapa ajatella näitä hybridijärjestelmiä on, että sen sijaan, että ihmiset ratkaisevat ongelman, heillä on ihminen rakentamaan tietojoukko, jota voidaan käyttää kouluttamaan tietokone ongelman ratkaisemiseksi. Joskus tietokoneen kouluttaminen ongelman ratkaisemiseksi voi vaatia paljon esimerkkejä, ja ainoa tapa tuottaa riittävä määrä esimerkkejä on massayhteistyö. Tämän tietokoneavusteisen lähestymistavan etuna on se, että se pystyy käsittelemään olennaisesti ääretöntä tietomääriä käyttämällä vain rajallista määrää ihmisen työtä. Esimerkiksi tutkija, jolla on miljoona ihmisen luokiteltua galaksia, voi rakentaa ennakoivan mallin, jota voidaan sitten käyttää miljardien tai jopa miljardien galaksien luokittelemiseen. Jos galaksit ovat valtavat, niin tällainen ihmisen ja tietokoneen hybridi on todellakin ainoa mahdollinen ratkaisu. Tämä ääretön skaalautuvuus ei kuitenkaan ole vapaa. Itse kova ongelma on koneen oppimismalli, joka pystyy oikein jäljentää ihmisen luokitukset, mutta onneksi on jo olemassa erinomaisia ​​kirjoja tähän aiheeseen (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo on hyvä esimerkki siitä, kuinka monta ihmisen laskentaprojektia kehittyy. Ensinnäkin tutkija yrittää itse hankkeen tai pienen tutkimusapulaisten ryhmän (esim. Schawinskiin alustava luokituspyrkimys). Jos tämä lähestymistapa ei skaalaudu hyvin, tutkija voi siirtyä ihmisen laskentaprojekseen monien osallistujien kanssa. Mutta tietyn määrän tietoja, puhdas ihminen ei riitä. Tällöin tutkijoiden on kehitettävä tietokoneavusteinen ihmisen laskentajärjestelmä, jossa ihmisen luokituksia käytetään koneoppimallin harjoittelemiseen, jota voidaan soveltaa lähes rajattomasti tietomääriin.