5.2.1 Galaxy Zoo

Galaxy Zoo kombinerer innsatsen til mange ikke-ekspert frivillige til å klassifisere en million galakser.

Galaxy Zoo vokste ut av et problem som møter Kevin Schawinski, en graduate student i astronomi ved University of Oxford i 2007. Forenkling ganske mye, Schawinski var interessert i galakser, og galakser kan klassifiseres etter deres morfologi-elliptisk eller spiral-og ved sin farge-blå eller rød. På den tiden konvensjonell visdom blant astronomer var at spiralgalakser, som Melkeveien, var blå i fargen (som indikerer ungdom) og at elliptiske galakser var rød i fargen (som indikerer alderdom). Schawinski tvilte denne konvensjonelle visdom. Han mistenkte at mens dette mønsteret kan være sant generelt, var det trolig et betydelig antall unntak, og at ved å studere mange av disse uvanlige galakser-de som ikke passet den forventede mønsteret, han kunne lære noe om prosessen der galakser dannes.

Derfor, hva Schawinski nødvendig for å velte konvensjonell visdom var et stort sett med morfologisk klassifisert galakser; det er, galakser som hadde blitt klassifisert som enten spiral eller elliptisk. Problemet var imidlertid at eksisterende algoritmiske metoder for klassifisering var ennå ikke god nok til å brukes til vitenskapelig forskning; med andre ord, klassifisere galakser var, på den tiden, et problem som var vanskelig for datamaskiner. Derfor, hva som var nødvendig var et stort antall humane klassifisert galakser. Schawinski foretok denne klassifiseringen problem med entusiasme av en graduate student. I en maraton-økt på syv, 12-timers dager, var han i stand til å klassifisere 50.000 galakser. Mens 50.000 galakser kan høres ut som mye, er det faktisk bare ca 5% av de nesten en million galakser som hadde blitt fotografert i Sloan Digital Sky Survey. Schawinski innså at han trengte en mer skalerbar tilnærming.

Heldigvis viser det seg at oppgaven med å klassifisere galakser ikke krever videregående opplæring i astronomi; du kan lære noen å gjøre det ganske raskt. Med andre ord, selv om klassifisering av galakser er en oppgave som var vanskelig for datamaskiner, var det ganske enkelt for mennesker. Så, mens du sitter i en pub i Oxford, Schawinski og stipendiat astronomen Chris Lintott drømt opp en nettside hvor frivillige vil klassifisere bilder av galakser. Noen måneder senere ble Galaxy Zoo født.

På Galaxy Zoo nettside, vil frivillige gjennomgå noen få minutter med trening; for eksempel å lære forskjellen mellom en spiral og elliptiske galaksen (figur 5.2). Etter denne opplæringen, de frivillige måtte passere en relativt enkel quiz-korrekt å klassifisere 11 av 15 galakser med kjente klassifikasjoner-og deretter frivillig ville begynne reell klassifisering av ukjente galakser gjennom en enkel web-basert grensesnitt (figur 5.3). Overgangen fra frivillig til astronomen vil finne sted i løpet av mindre enn 10 minutter, og bare kreves bestått den laveste av hekk, en enkel quiz.

Figur 5.2: Eksempler på de to hovedtyper av galakser: spiral og elliptiske. The Galaxy Zoo prosjektet brukte mer enn 100.000 frivillige til kategorier mer enn 900.000 bilder. Kilde: www.galaxyzoo.org.

Figur 5.2: Eksempler på de to hovedtyper av galakser: spiral og elliptiske. The Galaxy Zoo prosjektet brukte mer enn 100.000 frivillige til kategorier mer enn 900.000 bilder. Kilde: www.galaxyzoo.org .

Figur 5.3: Input skjerm der velgerne ble bedt om å klassifisere et enkelt bilde. Kilde: www.galaxyzoo.org.

Figur 5.3: Input skjerm der velgerne ble bedt om å klassifisere et enkelt bilde. Kilde: www.galaxyzoo.org .

Galaxy Zoo tilt sin innledende frivillige etter at prosjektet ble omtalt i en nyhetsartikkel, og i omtrent seks måneder prosjektet vokste til å involvere mer enn 100.000 statsborger forskere, folk som deltok fordi de likte oppgaven, og de ønsket å hjelpe forhånd astronomi. Sammen utgjør disse 100.000 frivillige bidratt med til sammen mer enn 40 millioner klassifikasjoner, med de fleste av de klassifikasjoner som kommer fra en relativt liten, kjernegruppen av deltakere (Lintott et al. 2008) .

Forskere som har erfaring ansette lavere forskningsassistenter kan umiddelbart være skeptisk til datakvalitet. Mens denne skepsisen er rimelig, viser Galaxy Zoo at når frivillige bidrag er riktig rengjort, debiased, og samlet, kan de produsere resultater av høy kvalitet (Lintott et al. 2008) . En viktig triks for å få publikum til å lage profesjonelle kvalitet data er redundans; det vil si, ha den samme oppgave utføres av mange forskjellige personer. I Galaxy Zoo, var det ca 40 klassifikasjoner per galakse; Forskerne bruker lavere forskningsassistenter kunne aldri ha råd til dette nivået av redundans og derfor trenger å være mye mer opptatt av kvaliteten på hver enkelt klassifisering. Hva de frivillige manglet i trening, gjorde de opp for med redundans.

Selv med flere klassifikasjoner per galakse, men å kombinere sett av frivillige klassifikasjoner for å produsere en konsensus klassifiseringen er vanskelig. Fordi svært like utfordringer oppstår i de fleste menneskelige beregnings prosjekter, er det nyttig å kort gjennomgå de tre trinnene at Galaxy Zoo forskerne som brukes til å produsere sine konsensus klassifiseringer. Først forskerne "renset" data ved å fjerne falske klassifikasjoner. For eksempel folk som gjentatte ganger klassifisert den samme galaksen-noe som ville skje hvis de prøvde å manipulere resultatene-hadde alle sine klassifiseringer forkastet. Dette og andre lignende rengjøring fjernet ca 4% av alle klassifiseringer.

For det andre, etter rengjøring, forskerne som trengs for å fjerne systematiske skjevheter i klassifiseringer. Gjennom en rekke skjevhet deteksjons studier integrert i det opprinnelige prosjektet, for eksempel, som viser noen frivillige galaksen i svart-hvitt i stedet for farge-forskerne oppdaget flere systematiske skjevheter, for eksempel en systematisk skjevhet å klassifisere langt unna spiralgalakser som elliptiske galakser (Bamford et al. 2009) . Justert for disse systematiske skjevheter er ekstremt viktig fordi snitt mange bidrag ikke fjerner systematisk skjevhet; det bare fjerner tilfeldige feil.

Til slutt, etter debiasing, forskerne trengs en metode for å kombinere de enkelte klassifikasjoner for å fremstille en konsensus klassifikasjon. Den enkleste måten å kombinere klassifikasjoner for hver galakse ville være å velge den vanligste klassifiseringen. Imidlertid vil denne tilnærmingen gi hver frivillig lik vekt, og forskerne mistanke om at noen frivillige var bedre på klassifisering enn andre. Derfor har forskerne utviklet en mer kompleks iterativ vekting prosedyre som forsøker å automatisk oppdage de beste classifiers og gi dem mer vekt.

Dermed, etter en tre trinns prosess-rensing, debiasing, og vektet Galaxy Zoo forskerteamet hadde konvertert 40 millioner frivillige klassifikasjoner i et sett av konsensus morfologiske klassifikasjoner. Når disse Galaxy Zoo klassifikasjoner ble sammenlignet med tre foregå mindre skala forsøk av profesjonelle astronomer, inkludert klassifisering av Schawinski som bidro til å inspirere Galaxy Zoo, var det sterk enighet. Dermed de frivillige i aggregert var i stand til å tilby høy kvalitet klassifikasjoner og på en skala som forskerne ikke kunne matche (Lintott et al. 2008) . Faktisk, ved å ha menneskelige klassifikasjoner for et så stort antall galakser, Schawinski, Lintott, og andre var i stand til å vise at bare ca 80% av galakser følge de forventede mønster blå spiraler og røde ellipticals-og utallige artikler har blitt skrevet om dette funnet (Fortson et al. 2011) .

Med dette som bakgrunn kan vi nå se hvordan Galaxy Zoo følger split-søke-kombinere oppskrift, samme oppskrift som brukes for de fleste menneskelige beregning prosjekter. For det første er et stort problem deles i biter. I dette tilfelle er problemet med å klassifisere en million galakser delt i en million problemer med å klassifisere en Galaxy. Deretter blir en operasjon påført på hver klump uavhengig av hverandre. I dette tilfellet ville en frivillig klassifisere hver galakse som enten spiral eller elliptisk. Til slutt, er resultatene kombineres for å frembringe et konsensus resultat. I dette tilfellet, inkludert den kombinerer trinn rengjøring, debiasing, og vekting for å fremstille en konsensus klassifisering for hver Galaxy. Selv om de fleste prosjekter bruker denne generelle oppskriften, må hver av trinnene for å tilpasses til det spesifikke problemet blir adressert. For eksempel, i den menneskelige beregningen prosjektet som er beskrevet nedenfor, den samme oppskrift vil bli fulgt, men det gjelder, og kombinerer trinn vil være helt annerledes.

For Galaxy Zoo team, dette første prosjektet var bare begynnelsen. Svært raskt de innså at selv om de var i stand til å klassifisere nær en million galakser, er denne skalaen ikke nok til å jobbe med nyere digital sky undersøkelser som kan produsere bilder av rundt 10 milliarder galakser (Kuminski et al. 2014) . For å håndtere en økning 1000000-10000000000-en faktor på 10 000-Galaxy Zoo trenger å rekruttere om lag 10.000 ganger flere deltakere. Selv om antall frivillige på Internett er stor, er det ikke uendelig. Derfor forskerne innså at hvis de kommer til å håndtere stadig økende datamengder, en ny, enda mer skalerbar, tilnærming var nødvendig.

Derfor Manda Banerji arbeidende med Kevin Schawinski, Chris Lintott, og andre medlemmer av Galaxy Zoo team-start undervisnings datamaskiner for å klassifisere galakser. Mer spesifikt, ved hjelp av menneskelige klassifikasjoner skapt av Galaxy Zoo, Banerji et al. (2010) bygget en maskin læring modell som kunne forutsi den menneskelige klassifisering av en galakse basert på egenskapene til bildet. Hvis maskinen læring modellen kunne reprodusere de menneskelige grupperinger med stor nøyaktighet, så det kan bli brukt av Galaxy Zoo forskere å klassifisere en vesentlig uendelig antall galakser.

Kjernen i Banerji og kolleger 'tilnærming er faktisk ganske lik teknikker som vanligvis brukes i samfunnsforskningen, selv om det likheten ikke kan være klar ved første øyekast. Først Banerji og kolleger konvertert hvert bilde til et sett med numeriske funksjoner som oppsummerer det er egenskaper. For eksempel, for bilder av galakser det kan være tre funksjoner: mengden av blått i bildet, variansen i lysstyrken av pikslene, og andelen ikke-hvite piksler. Utvelgelsen av de riktige funksjonene er en viktig del av problemet, og det krever generelt emne-området kompetanse. Det første trinnet, vanligvis kalt funksjon teknikk, resulterer i en datamatrise med en rad per bilde og deretter tre kolonner som beskriver det bildet. Gitt data matrise og ønsket utgang (for eksempel om bildet ble klassifisert av et menneske som en elliptisk galakse), anslår forskeren parametrene av en statistisk modell, for eksempel noe sånt som en logistisk regresjon-som spår den menneskelige klassifikasjon basert på funksjonene i bildet. Til slutt, bruker forskeren parametrene i dette statistisk modell for å produsere estimerte klassifiseringer av nye galakser (figur 5.4). Å tenke på en sosial analog, forestill deg at du hadde demografisk informasjon om en million studenter, og du vet om de ble uteksaminert fra college eller ikke. Du kan passe en logistisk regresjon til disse dataene, og så kan du bruke de resulterende modellparametre for å forutsi om nye studenter kommer til å oppgradere fra college. I maskinlæring, denne tilnærmingen-bruker merket eksempler opprette en statistisk modell som kan deretter merke ny data kalles veiledet læring (Hastie, Tibshirani, and Friedman 2009) .

Figur 5.4: Forenklet beskrivelse av hvordan Banerji et al. (2010) brukte Galaxy Zoo klassifikasjoner å trene en maskinlæring modell å gjøre galaksen klassifisering. Bilder av galakser ble konvertert i en matrise av funksjoner. I dette forenklet eksempel er det tre funksjoner (mengden blått i bildet, variansen i lysstyrken av pikslene, og andelen ikke-hvite piksler). Så, for en undergruppe av bildene, er Galaxy Zoo etikettene brukes til å trene en maskinlæring modell. Til slutt blir den maskinlæring brukes til å estimere klassifikasjoner for de resterende galakser. Jeg kaller denne typen prosjekt en andre generasjons menneskeberegnings prosjektet fordi, i stedet for å ha mennesker løse et problem, de har mennesker bygge et datasett som kan brukes til å trene en datamaskin for å løse problemet. Fordelen med denne datamaskin-assistert tilnærmingen er at den gjør det mulig å håndtere hovedsak uendelige mengder data ved hjelp av bare en begrenset mengde av menneskelig innsats.

Figur 5.4: Forenklet beskrivelse av hvordan Banerji et al. (2010) brukte Galaxy Zoo klassifikasjoner å trene en maskinlæring modell å gjøre galaksen klassifisering. Bilder av galakser ble konvertert i en matrise av funksjoner. I dette forenklet eksempel er det tre funksjoner (mengden blått i bildet, variansen i lysstyrken av pikslene, og andelen ikke-hvite piksler). Så, for en undergruppe av bildene, er Galaxy Zoo etikettene brukes til å trene en maskinlæring modell. Til slutt blir den maskinlæring brukes til å estimere klassifikasjoner for de resterende galakser. Jeg kaller denne typen prosjekt en andre generasjons menneskeberegnings prosjektet fordi, i stedet for å ha mennesker løse et problem, de har mennesker bygge et datasett som kan brukes til å trene en datamaskin for å løse problemet. Fordelen med denne datamaskin-assistert tilnærmingen er at den gjør det mulig å håndtere hovedsak uendelige mengder data ved hjelp av bare en begrenset mengde av menneskelig innsats.

Funksjonene i Banerji et al. (2010) maskinlæring modell var mer kompleks enn de i mitt leketøy eksempel, for eksempel, hun brukte funksjonene som "de Vaucouleurs passe aksial ratio" -og hennes modellen var ikke logistisk regresjon, det var et kunstig nevralt nettverk. Ved hjelp av hennes egenskaper, hennes modell, og konsensus Galaxy Zoo klassifikasjoner, var hun i stand til å lage vekter på hver funksjon, og deretter bruke disse vekter for å gjøre spådommer om klassifisering av galakser. For eksempel, hennes analyse fant at bilder med lav "de Vaucouleurs passe aksial ratio" var mer sannsynlig å være spiralgalakser. Gitt disse vektene, var hun i stand til å forutsi menneskelige klassifisering av en galakse med rimelig nøyaktighet.

Arbeidet med Banerji et al. (2010) viste Galaxy Zoo i hva jeg vil kalle en andregenerasjons menneskelig beregning system. Den beste måten å tenke på disse andre generasjons systemer er at i stedet for å ha mennesker løse et problem, de har mennesker bygge et datasett som kan brukes til å trene en datamaskin for å løse problemet. Mengden data som trengs for å trene datamaskinen kan være så stort at det krever en human masse samarbeid for å skape. I tilfelle av Galaxy Zoo, nevrale nettverk som brukes av Banerji et al. (2010) kreves et meget stort antall humane merkede eksempler for å bygge en modell som var i stand til pålitelig å reprodusere det menneskelige klassifisering.

Fordelen med denne datamaskin-assistert tilnærmingen er at den gjør det mulig å håndtere hovedsak uendelige mengder data ved hjelp av bare en begrenset mengde av menneskelig innsats. For eksempel kan en forsker med en million mennesker klassifisert galakser bygge en prediktiv modell som kan brukes til å klassifisere en milliard eller til og med en billion galakser. Hvis det er enorme antall galakser, da denne typen menneske-maskin-hybrid er egentlig den eneste mulige løsningen. Dette uendelig skalerbarhet er ikke gratis, men. Bygge en maskin læring modell som kan korrekt reprodusere menneske klassifikasjoner er i seg selv et vanskelig problem, men heldigvis finnes det allerede gode bøker dedikert til dette emnet (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo viser utviklingen av mange menneskelige beregnings prosjekter. Først forsøker en forsker prosjektet av seg selv eller med et lite team av vitenskapelige assistenter (f.eks Schawinski innledende klassifisering innsats). Hvis denne tilnærmingen ikke skalere godt, kan forskeren flytte til en menneskelig beregning prosjekt der mange mennesker bidra klassifikasjoner. Men, for et visst volum av data, ren menneskelig innsats vil ikke være nok. På dette punktet, må forskerne å bygge andre generasjons systemer der menneske klassifikasjoner brukes til å trene en maskinlæring modell som kan deretter brukes på nesten ubegrensede mengder data.