5.2.1 Galaxy Zoo

Galaxy Zoo yhdistää ponnisteluja monia ei-asiantuntija vapaaehtoisia luokitella miljoonaa galaksit.

Galaxy Zoo kasvoi ulos ongelmana Kevin Schawinski, jatko-opiskelija tähtitieteen Oxfordin yliopistossa vuonna 2007. yksinkertaistaminen melko vähän, Schawinski oli kiinnostunut galakseja, ja galaksit voidaan luokitella niiden morfologian-elliptinen tai spiraalin ja väristä-sininen tai punainen. Tuolloin perinteisen viisauden keskuudessa astronomers oli spiraaligalakseja, kuten Linnunradan, oli väriltään sininen (osoittaen nuoriso) ja että elliptinen galaksit olivat väriltään punaisia ​​(osoittaen vanhuus). Schawinski epäillyt tämän perinteisen viisauden. Hän epäilee, että vaikka tämä malli voi olla totta yleisesti, oli luultavasti melkoinen joukko poikkeuksia, ja että tutkimalla paljon näitä epätavallisia galaksien-ne, jotka eivät sovi odotetussa jakautumisessa-hän voisi oppia jotain prosessia, jonka kautta galaksit muodostuvat.

Siten mitä Schawinski tarpeen kaataa perinteisen viisauden oli suuri joukko morfologisesti luokiteltu galaksien eli galakseja, jotka oli luokiteltu joko spiraali tai elliptinen. Ongelmana oli kuitenkin se, että nykyiset algoritmisten menetelmiä luokitteluun eivät olleet vielä tarpeeksi hyviä käytettäväksi tieteelliseen tutkimukseen; toisin sanoen, luokittelemalla galakseja oli tuolloin, ongelma, joka oli vaikea tietokoneille. Siksi mitä tarvittiin suuri määrä ihmisen luokiteltu galakseja. Schawinski sitoutui Tämän luokittelun ongelma innostus jatko-opiskelija. Vuonna maratonsession seitsemän, 12 tunnin päivää, hän pystyi luokittelemaan 50000 galakseja. Vaikka 50000 galaksit voi kuulostaa paljon, se on oikeastaan ​​vain noin 5% lähes miljoona galakseja, jotka oli kuvattuna Sloan Digital Sky Survey. Schawinski tajusi, että hän tarvitsi enemmän skaalautuva lähestymistapa.

Onneksi käy ilmi, että tehtäväksi luokitella galakseja ei edellytä jatkokoulutus tähtitieteessä; voit opettaa jonkun tekemään sen melko nopeasti. Toisin sanoen, vaikka luokittelemalla galaksien on tehtävä, joka oli vaikea tietokoneet, se oli melko helppoa ihmisille. Joten, istuen pubi Oxford, Schawinski ja muiden tähtitieteilijä Chris Lintott keksineet sivusto, jossa vapaaehtoiset luokittelisi kuvia galakseja. Muutamaa kuukautta myöhemmin, Galaxy Zoo syntyi.

Tällä Galaxy Zoo sivustolla, vapaaehtoiset läpi muutaman minuutin harjoittelua; Esimerkiksi oppimisen ero spiraalin ja elliptinen (kuvio 5.2). Tämän jälkeen koulutus, vapaaehtoisia oli kulkea suhteellisen helppo tietokilpailu-oikein luokittelemalla 11 15 galakseja tunnettujen luokitusten-ja sitten vapaaehtoisen alkaisi todellista luokittelu tuntematon galaksien läpi yksinkertaisen web-pohjainen käyttöliittymä (Kuva 5.3). Siirtyminen vapaaehtoista tähtitieteilijä tapahtuisi alle 10 minuuttia ja vaaditaan vain ohimennen alimman esteitä, yksinkertainen tietokilpailu.

Kuva 5.2: Esimerkkejä kahta päätyyppiä galaksit: kierre ja elliptinen. Galaxy Zoo projekti käyttää yli 100000 vapaaehtoisia luokkia yli 900000 kuvia. Lähde: www.galaxyzoo.org.

Kuva 5.2: Esimerkkejä kahta päätyyppiä galaksit: kierre ja elliptinen. Galaxy Zoo projekti käyttää yli 100000 vapaaehtoisia luokkia yli 900000 kuvia. Lähde: www.galaxyzoo.org .

Kuva 5.3: syöttöruutuun jossa äänestäjät pyydettiin luokittelemaan yhden kuvan. Lähde: www.galaxyzoo.org.

Kuva 5.3: syöttöruutuun jossa äänestäjät pyydettiin luokittelemaan yhden kuvan. Lähde: www.galaxyzoo.org .

Galaxy Zoo keräsi alkuperäistä vapaaehtoisilla hankkeen oli esillä uutisartikkelissa ja noin kuusi kuukautta hankkeen kasvoi saada yli 100000 kansalainen tiedemiehet, osallistuneista koska he nauttivat tehtävän ja he halusivat auttaa ennakkoon tähtitiede. Yhdessä nämä 100000 vapaaehtoiset vaikuttivat yhteensä yli 40 miljoonaa luokituksia, jossa suurin osa luokitusten tulevat suhteellisen pieni, ydinryhmän osallistujat (Lintott et al. 2008) .

Tutkijat, joilla on kokemusta palkata perustutkintoa tutkimusapulaisia ​​voisi heti olla skeptisiä tietojen laatua. Vaikka tämä skeptisyys on kohtuullinen, Galaxy Zoo osoittaa, että kun vapaaehtoinen maksut oikein puhdistettu, debiased, ja yhteen, ne voivat tuottaa korkealaatuisia tuloksia (Lintott et al. 2008) . Tärkeä temppu saada väkijoukon luoda ammattimaisia ​​laatutiedot on irtisanominen; eli joilla on sama tehtävä suoritetaan monia erilaisia ​​ihmisiä. Galaxy Zoo, oli noin 40 luokitusten kohti galaksin; Tutkijat käyttävät perustutkintoa tutkimusapulaista voisi koskaan varaa tämän tason irtisanomisten ja siksi täytyy olla paljon enemmän huolissaan laadusta jokaisen yksittäisen luokituksen. Mitä vapaaehtoiset puuttui koulutukseen, he selvitty irtisanominen.

Vaikka useita luokitusten per Galaxy kuitenkin yhdistämällä joukko vapaaehtoisen luokittelujen tuottaa yksimielisyys luokitus on hankalaa. Koska hyvin samankaltaisia ​​haasteita esiintyy useimmissa ihmisen laskennan projekteja, on hyödyllistä tarkastella lyhyesti kolme vaihetta, että Galaxy Zoo tutkijat käytetään tuottamaan niiden konsensuksen luokituksia. Ensinnäkin tutkijat "puhdistettu" data poistamalla väärä luokituksia. Esimerkiksi ihmisille, jotka toistuvasti luokitellaan samaan galaksin jotain, joka tapahtuisi, jos he yrittävät manipuloida tuloksia-olivat kaikki luokituksensa hävittää. Tämä ja muut vastaavat puhdistus poistaa noin 4% kaikista luokituksiin.

Toiseksi, puhdistuksen jälkeen, tutkijat tarvitaan poistamaan järjestelmällinen harhat luokituksia. Läpi useita bias havaitsemisen tutkimukset upotettu alkuperäiseen hanke-esimerkiksi osoittaa joitakin vapaaehtoisia galaksia yksivärinen sijasta väri-tutkijat havaitsivat useita järjestelmällisten harhojen, kuten systemaattista harhaa luokitella kaukana spiraaligalakseja kuten elliptinen galaksit (Bamford et al. 2009) . Säätäminen Näiden järjestelmällisten harhojen on äärimmäisen tärkeää, koska keskimäärin paljon maksuja ei poista systemaattista poikkeamaa; se vain poistaa satunnaisvirhe.

Lopulta kun debiasing, tutkijat tarvitaan menetelmä yhdistää yksittäiset luokitukset tuottaa yksimielisyys luokitus. Yksinkertaisin tapa yhdistää luokituksia jokaisen galaksin olisi valita yleisin luokitukseen. Tämä lähestymistapa antaisi jokaisen vapaaehtoisen samanveroisia, ja tutkijat epäillään, että jotkut vapaaehtoiset olivat parempia luokittelua kuin toiset. Siksi tutkijat kehittivät monimutkaisempi iteratiivinen painotus menettely, joka yrittää tunnistaa automaattisesti parhaan luokittelijoiden ja ne saavat enemmän painoarvoa.

Niinpä sen jälkeen kolmivaiheinen prosessi-puhdistus, debiasing, ja painotus-Galaxy Zoo tutkimusryhmä oli kääntynyt 40 miljoonaa vapaaehtoinen luokitukset joukoksi konsensus morfologisten luokituksiin. Kun nämä Galaxy Zoo luokitukset verrattiin kolmen edellisen pienemmän mittakaavan yrityksiä ammattimaisten tähtitieteilijät, mukaan lukien luokitusta Schawinski joka auttoi innostaa Galaxy Zoo oli kovia sopimus. Siten vapaaehtoisia, yhteenlaskettuna, pystyivät tarjoamaan laadukkaita luokituksista ja mittakaavassa, että tutkijat eivät pystyneet (Lintott et al. 2008) . Itse asiassa, saamalla ihmisen luokituksia niin suuren määrän galakseja, Schawinski, Lintott, ja toiset pystyivät osoittamaan, että vain noin 80% galaksien seuraa odotettu kuvio-sininen spiraalit ja punainen ellipticals-ja lukuisia paperit on kirjoitettu tämän löydön (Fortson et al. 2011) .

Tätä taustaa vasten voimme nyt nähdä, miten Galaxy Zoo seuraa jaetun soveltaa-yhdistyvät resepti, samalla reseptillä, jota käytetään useimmissa ihmisen laskenta projekteja. Ensinnäkin suuri ongelma on jaettu paloiksi. Tässä tapauksessa ongelma luokitella miljoonan galaksit jaetaan miljoona ongelmiin luokittelussa yhden galaksin. Seuraavaksi operaatio sovelletaan kuhunkin murikka itsenäisesti. Tällöin vapaaehtoinen luokittelee jokaisen galaksin joko spiraali tai elliptinen. Lopuksi, tulokset yhdistetään tuottamaan yksimielisyyteen tuloksen. Tässä tapauksessa yhdistää vaihe mukana puhdistus-, debiasing, ja painotus tuottaa konsensus annetaan kutakin galaksin. Vaikka useimmat projektit käyttävät tätä yleistä reseptiä, jokainen askel on sovittaa tiettyyn ongelmaan puututaan. Esimerkiksi ihmisen laskennan projekti kuvattu alla, samalla reseptillä seuraa, mutta soveltaa ja yhdistää vaiheet on aivan erilainen.

Galaxy Zoo joukkue, tämä ensimmäinen projekti oli vasta alkua. Hyvin nopeasti he ymmärtäneet, että vaikka he pystyivät luokitella lähes miljoona galaksit, tämä asteikko ei ole tarpeeksi työtä uudemmilla digitaalinen taivas tutkimuksia, jotka voivat tuottaa kuvia noin 10 miljardia galaksia (Kuminski et al. 2014) . Käsitellä kasvua 1000000-10000000000-kertaiseksi 10000 Galaxy Zoo olisi palkattava karkeasti 10000 kertaa enemmän osallistujia. Vaikka määrä vapaaehtoisia Internetissä on suuri, se ei ole ääretön. Siksi tutkijat tajusi, että jos he aikovat käsitellä yhä kasvava tietomääriä, uusi, entistä skaalautuva, lähestymistapa oli tarpeen.

Siksi Manda Banerji-työskentelystä Kevin Schawinski, Chris Lintott, ja muut jäsenet Galaxy Zoo joukkue käynnistyvä opetus tietokoneet luokittelemaan galakseja. Tarkemmin sanottuna käyttämällä ihmisen luokituksia luoma Galaxy Zoo, Banerji et al. (2010) rakennettu kone oppimisen malli, joka voisi ennustaa ihmisen luokittelu galaksi perustuu kuvan ominaisuuksia. Jos tämä koneoppimisen malli voisi lisääntyä ihmisen luokituksia suurella tarkkuudella, niin se voisi käyttää Galaxy Zoo tutkijat luokitella olennaisesti lukemattomia galakseja.

Ydin Banerji ja kollegoiden lähestymistapa on itse asiassa melko samanlainen kuin tekniikoita käytetään yleisesti sosiaalista tutkimusta, vaikka tämä samankaltaisuus ei ehkä selvää ensi silmäyksellä. Ensinnäkin Banerji ja työtovereiden muuntaa jokaisen kuvan joukoksi numeerisia piirteitä, jotka antavat yleiskuvan sen ominaisuuksia. Esimerkiksi kuvien galaksit voisi olla kolme ominaisuudet: sinisen määrää kuvan, varianssi kirkkautta pikseliä, ja osuus ei-valkoinen pikseliä. Valinta oikea ominaisuuksista on tärkeä osa ongelmaa, ja se vaatii yleensä aihe-alueen asiantuntemusta. Tämä ensimmäinen vaihe, jota yleisesti kutsutaan ominaisuus engineering, johtaa data matriisin yksi rivi kuvaa kohti ja sitten kolme saraketta kuvaavat kyseisen kuvan. Koska Datamatriisin ja halutun tehon (esim onko kuva luokiteltiin ihmisen kuin elliptinen), tutkija arvioi parametrit tilastollisen mallin-esimerkiksi jotain logistinen regressio-, joka ennustaa ihmisen luokittelu perustuu ominaisuuksista kuvan. Lopuksi tutkija käyttää parametreja tässä tilastollisen mallin tuottaa arviolta luokituksia uusia galakseja (Kuva 5.4). Ajatella sosiaalinen analoginen, kuvitella, että teillä oli demografisia tietoja miljoonaa opiskelijaa, ja tiedät, onko ne valmistui College vai ei. Mahtuisi logistiikkaregressiomallin näihin tietoihin, ja sitten voit käyttää tuloksena mallin parametrien ennustaa, uusien opiskelijoiden aikovat valmistua collegesta. Koneoppimisen, tämä lähestymistapa käyttäviin leimattua esimerkkejä luoda tilastollinen malli, joka voidaan sitten leimata uutta tietoa-kutsutaan valvottu oppiminen (Hastie, Tibshirani, and Friedman 2009) .

Kuva 5.4: yksinkertaistettu kuvaus siitä, miten Banerji et al. (2010) käyttivät Galaxy Zoo luokitukset kouluttaa koneen oppimisen malli tehdä galaksi luokitusta. Kuvia galaksit muutettiin matriisin ominaisuuksia. Tässä yksinkertaistetussa esimerkissä on kolme ominaisuuksia (sinisen määrää kuvan, varianssi kirkkautta pikseliä, ja osuus ei-valkoinen pikseliä). Sitten osajoukon kuvien, Galaxy Zoo tarrat käytetään kouluttaa koneoppimista malli. Lopuksi koneoppimisen on käytetty arvioimaan luokitusten jäljellä galaksit. Kutsun tällaista hanketta toisen sukupolven ihmisen laskennallisen hanketta, koska sen sijaan, että ihmisillä ratkaista ongelma, niillä ihmisillä rakentaa aineisto, jota voidaan käyttää kouluttaa tietokoneen ongelman ratkaisemiseksi. Etuna tässä tietokoneavusteisen lähestymistapa on, että sen avulla voit käsitellä oleellisesti ääretön tietomääriä käyttämällä vain rajallinen määrä ihmisen vaivaa.

Kuva 5.4: yksinkertaistettu kuvaus siitä, miten Banerji et al. (2010) käyttivät Galaxy Zoo luokitukset kouluttaa koneen oppimisen malli tehdä galaksi luokitusta. Kuvia galaksit muutettiin matriisin ominaisuuksia. Tässä yksinkertaistetussa esimerkissä on kolme ominaisuuksia (sinisen määrää kuvan, varianssi kirkkautta pikseliä, ja osuus ei-valkoinen pikseliä). Sitten osajoukon kuvien, Galaxy Zoo tarrat käytetään kouluttaa koneoppimista malli. Lopuksi koneoppimisen on käytetty arvioimaan luokitusten jäljellä galaksit. Kutsun tällaista hanketta toisen sukupolven ihmisen laskennallisen hanketta, koska sen sijaan, että ihmisillä ratkaista ongelma, niillä ihmisillä rakentaa aineisto, jota voidaan käyttää kouluttaa tietokoneen ongelman ratkaisemiseksi. Etuna tässä tietokoneavusteisen lähestymistapa on, että sen avulla voit käsitellä oleellisesti ääretön tietomääriä käyttämällä vain rajallinen määrä ihmisen vaivaa.

Piirteet Banerji et al. (2010) koneoppimisen malli olivat monimutkaisempia kuin minun lelu esimerkissä-esimerkiksi hän käytti ominaisuuksia, kuten "de Vaucouleurs sovi aksiaalisuhde" -ja hänen malli ei ollut logistinen regressio, se oli keinotekoinen neuroverkko. Käyttää hänen ominaisuuksia, hänen malli, ja konsensus Galaxy Zoo luokituksia, hän pystyi luomaan painoja kunkin ominaisuuden, ja sitten käyttää näitä painoja tehdä ennusteita siitä luokittelua galakseja. Esimerkiksi hänen analyysissä havaittiin, että kuva ja pieni "de Vaucouleurs sovi aksiaalisuhde" olivat todennäköisemmin spiraaligalakseista. Koska nämä painot, hän pystyi ennustamaan ihmisen luokittelua galaksin kohtuullisella tarkkuudella.

Työ Banerji et al. (2010) osoittautui Galaxy Zoo, mitä kutsuisin toisen sukupolven ihmisen laskenta järjestelmä. Paras tapa ajatella näitä toisen sukupolven järjestelmät on, että sen sijaan, että ihmisillä ratkaista ongelma, niillä ihmisillä rakentaa aineisto, jota voidaan käyttää kouluttaa tietokoneen ongelman ratkaisemiseksi. Datan määrä tarvitaan kouluttaa tietokone voi olla niin suuri, että se vaatii ihmisen massa yhteistyössä luoda. Kun kyseessä on Galaxy Zoo, neuroverkkojen käyttämien Banerji et al. (2010) tarvitaan hyvin suuri määrä ihmisen leimatun esimerkkejä, jotta voidaan rakentaa malli, joka pystyi luotettavasti toistamaan ihmisen luokitusta.

Etuna tässä tietokoneavusteisen lähestymistapa on, että sen avulla voit käsitellä oleellisesti ääretön tietomääriä käyttämällä vain rajallinen määrä ihmisen vaivaa. Esimerkiksi tutkija miljoonan ihmisen luokiteltu galaksit voi rakentaa ennustava malli, joka voidaan sitten käyttää luokittelemaan miljardi tai jopa biljoonaa galakseja. Jos on valtavan määrän galakseja, niin tällaista ihmisen ja tietokoneen hybridi on oikeastaan ​​ainoa mahdollinen ratkaisu. Tämä ääretön skaalautuvuus ei ole ilmainen kuitenkaan. Rakennus kone oppimisen malli, joka voi oikein toistamaan ihmisen luokitukset on sinänsä vaikea ongelma, mutta onneksi on olemassa jo erinomaisia ​​kirjoja omistettu tähän aiheeseen (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo osoittaa evoluution moniin ihmisen laskennan projekteja. Ensinnäkin, tutkija yrittää hankkeen yksikseen tai pieni ryhmä tutkimusapulaisina (esim Schawinski alkuperäisen luokittelun vaivaa). Jos tämä lähestymistapa ei mittakaavassa hyvin, tutkija voi siirtyä ihmisen laskennan projekti, jossa monet ihmiset osallistuvat luokituksia. Mutta, tietty määrä tietoa, puhdasta ihmisen ponnisteluja ei riitä. Siinä vaiheessa, tutkijat täytyy rakentaa toisen sukupolven järjestelmät, joissa ihmisen luokituksia käytetään kouluttaa koneen oppimisen malli, joka voidaan sitten soveltaa lähes rajaton tietomääriä.