5.2.1 Galaxy Zoo

Galaxy Zoo kombinerte innsatsen fra mange ikke-ekspertfrivillige for å klassifisere en million galakser.

Galaxy Zoo vokste ut av et problem som Kevin Schawinski, en kandidatstudent i astronomi ved Oxford University i 2007 forenklet. Schawinski var interessert i galakser, og galakser kan klassifiseres av deres morfologi-elliptiske eller spiral-og ved deres fargeblå eller røde. På den tiden var den konvensjonelle visdom blant astronomer at spiralgalakser, som vår Melkevei, var blå i fargen (indikerer ungdom) og elliptiske galakser var røde (indikerer alderdom). Schawinski tvilte denne konvensjonelle visdommen. Han mistenkte at mens dette mønsteret kunne være sant generelt, var det sannsynligvis et stort antall unntak, og at ved å studere mange av disse uvanlige galakser - de som ikke passet det forventede mønsteret - han kunne lære noe om prosessen gjennom hvilken dannet galakser.

Derfor var det Schawinski som trengte for å reversere konvensjonell visdom, et stort sett med morfologisk klassifiserte galakser; det vil si galakser som hadde blitt klassifisert som enten spiral eller elliptiske. Problemet var imidlertid at eksisterende algoritmiske metoder for klassifisering ennå ikke var gode nok til å bli brukt til vitenskapelig forskning; med andre ord var klassifisering av galakser på det tidspunkt et problem som var vanskelig for datamaskiner. Derfor var det som var behov for et stort antall menneskeklassifiserte galakser. Schawinski tok dette klassifikasjonsproblemet med entusiasmen til en kandidatstudent. I en maraton sju 12-timers dager kunne han klassifisere 50.000 galakser. Mens 50 000 galakser kan høres ut som mye, er det faktisk bare omtrent 5% av de nesten en million galakser som ble fotografert i Sloan Digital Sky Survey. Schawinski innså at han trengte en mer skalerbar tilnærming.

Heldigvis viser det seg at oppgaven med å klassifisere galakser ikke krever videregående opplæring i astronomi; du kan lære noen å gjøre det ganske raskt. Med andre ord, selv om klassifisering av galakser er en oppgave som var vanskelig for datamaskiner, var det ganske enkelt for mennesker. Så, mens du sitter i en pub i Oxford, Schawinski og stipendiat astronomen Chris Lintott drømt opp en nettside hvor frivillige vil klassifisere bilder av galakser. Noen måneder senere ble Galaxy Zoo født.

På nettsiden til Galaxy Zoo ville frivillige gjennomgå noen få minutters trening; for eksempel å lære forskjellen mellom en spiral og elliptisk galakse (figur 5.2). Etter denne treningen måtte hver frivillig passere en relativt enkel quiz - riktig klassifisering av 11 av 15 galakser med kjente klassifikasjoner - og deretter begynte ekte klassifisering av ukjente galakser gjennom et enkelt nettbasert grensesnitt (figur 5.3). Overgangen fra frivillig til astronom ville finne sted på mindre enn 10 minutter og bare nødvendig å passere det laveste av forhindringer, en enkel quiz.

Figur 5.2: Eksempler på de to hovedtyper av galakser: spiral og elliptisk. Galaxy Zoo-prosjektet brukte mer enn 100.000 frivillige til å kategorisere mer enn 900.000 bilder. Gjengitt med tillatelse fra http://www.GalaxyZoo.org og Sloan Digital Sky Survey.

Figur 5.2: Eksempler på de to hovedtyper av galakser: spiral og elliptisk. Galaxy Zoo-prosjektet brukte mer enn 100.000 frivillige til å kategorisere mer enn 900.000 bilder. Gjengitt med tillatelse fra http://www.GalaxyZoo.org og Sloan Digital Sky Survey .

Figur 5.3: Input-skjerm hvor frivillige ble bedt om å klassifisere et enkelt bilde. Gjengitt med tillatelse fra Chris Lintott basert på et bilde fra Sloan Digital Sky Survey.

Figur 5.3: Input-skjerm hvor frivillige ble bedt om å klassifisere et enkelt bilde. Gjengitt med tillatelse fra Chris Lintott basert på et bilde fra Sloan Digital Sky Survey .

Galaxy Zoo tiltrukket sine første frivillige etter at prosjektet ble omtalt i en nyhetsartikkel, og i løpet av seks måneder vokste prosjektet med å involvere mer enn 100 000 borgerforskere, folk som deltok fordi de likte oppgaven, og de ønsket å bidra til å fremme astronomi. Sammen bidro disse 100.000 frivillige til sammen mer enn 40 millioner klassifikasjoner, med hovedparten av klassifikasjonene som kommer fra en relativt liten kjernegruppe av deltakere (Lintott et al. 2008) .

Forskere som har erfaring med å ansette undervisningsassistenter, kan umiddelbart være skeptiske til datakvaliteten. Selv om denne skepsis er rimelig, viser Galaxy Zoo at når frivillige bidrag er riktig rengjort, deorganisk og aggregert, kan de produsere høyverdige resultater (Lintott et al. 2008) . Et viktig triks for å få publikum til å skape profesjonell kvalitet, er redundans , det vil si å ha samme oppgave utført av mange forskjellige personer. I Galaxy Zoo var det om lag 40 klassifiseringer per galakse; Forskere som bruker forskerassistenter kan aldri ha råd til dette nivået av redundans, og derfor må de være mye mer opptatt av kvaliteten på hver enkelt klassifisering. Hva frivillige manglet i trening, de gjorde opp med redundans.

Selv med flere klassifiseringer per galakse var det imidlertid vanskelig å kombinere settet med frivillige klassifiseringer for å produsere en konsensusklassifisering. Fordi det oppstår svært like utfordringer i de fleste menneskelige beregningsprosjekter, er det nyttig å kort gjennomgå de tre trinnene som Galaxy Zoo-forskerne pleide å produsere konsensus klassifikasjoner. For det første "rengjorde" forskerne dataene ved å fjerne falske klassifikasjoner. For eksempel, folk som gjentatte ganger har klassifisert samme galakse - noe som ville skje hvis de prøvde å manipulere resultatene - hadde alle klassifiseringene deres kassert. Denne og annen lignende rengjøring fjernet ca. 4% av alle klassifikasjoner.

For det andre, etter rengjøring, trengte forskerne å fjerne systematiske forstyrrelser i klassifikasjoner. Gjennom en rekke biasdeteksjonsstudier innebygd i det opprinnelige prosjektet, for eksempel viser noen frivillige galaksen i svart-hvitt i stedet for farge, oppdaget forskerne flere systematiske forstyrrelser, for eksempel en systematisk forstyrrelse for å klassifisere fjerne spiralgalaksier som elliptiske galakser (Bamford et al. 2009) . Justering for disse systematiske forstyrrelser er ekstremt viktig fordi redundans ikke automatisk fjerner systematisk forspenning; det hjelper bare med å fjerne tilfeldig feil.

Til slutt, etter debiasing, trengte forskerne en metode for å kombinere de enkelte klassifikasjonene for å gi konsensus klassifisering. Den enkleste måten å kombinere klassifikasjoner for hver galakse ville ha vært å velge den vanligste klassifiseringen. Denne tilnærmingen ville imidlertid ha gitt hver frivillig like vekt, og forskerne mistenkte at noen frivillige var bedre i klassifisering enn andre. Derfor utviklet forskerne en mer kompleks iterativ vektingprosedyre som forsøkte å oppdage de beste klassifiseringene og gi dem mer vekt.

Således, etter en tre-trinns prosessrengjøring, debiasing og vekting, hadde Galaxy Zoo-forskerholdet konvertert 40 millioner frivillige klassifikasjoner til et sett av konsensus morfologiske klassifikasjoner. Når disse Galaxy Zoo klassifiseringene ble sammenlignet med tre tidligere mindreskala forsøk av profesjonelle astronomer, inkludert klassifiseringen av Schawinski som bidro til å inspirere Galaxy Zoo, var det sterk enighet. Dermed var frivillige samlet sett i stand til å gi klassifiseringer av høy kvalitet og i en skala som forskerne ikke kunne matche (Lintott et al. 2008) . Faktisk ved å ha menneskelige klassifiseringer for så mange galakser, kunne Schawinski, Lintott og andre vise at bare 80% av galakser følger de forventede mønsterblå spiraler og røde elliptiske - og mange papirer er skrevet om denne oppdagelsen (Fortson et al. 2011) .

Gitt denne bakgrunnen, kan du nå se hvordan Galaxy Zoo følger splitt-søk-kombinere oppskrift, samme oppskrift som brukes til de fleste menneskelige beregningsprosjekter. For det første er et stort problem delt inn i biter. I dette tilfellet ble problemet med å klassifisere en million galakser splittet i en million problemer med å klassifisere en galakse. Deretter påføres en operasjon til hver bit uavhengig av hverandre. I dette tilfellet klassifiserte frivillige hver galakse som enten spiral eller elliptisk. Til slutt blir resultatene kombinert for å gi et konsensusresultat. I dette tilfellet inkluderte kombinertrinnet rengjøring, debiasing og vekting for å gi konsensus klassifisering for hver galakse. Selv om de fleste prosjekter bruker denne generelle oppskriften, må hvert trinn tilpasses til det spesifikke problemet som tas opp. For eksempel i den menneskelige beregning prosjektet beskrevet nedenfor, vil samme oppskrift følges, men søknadene og kombinere trinnene vil være ganske forskjellige.

For Galaxy Zoo teamet var dette første prosjektet bare begynnelsen. Svært raskt innså de at selv om de klarte å klassifisere nær en million galakser, er denne skalaen ikke nok til å fungere med nyere digitale (Kuminski et al. 2014) , som kan produsere bilder på rundt 10 milliarder galakser (Kuminski et al. 2014) . For å håndtere en økning fra 1 million til 10 milliarder, vil en faktor på 10.000 Galaxy Zoo måtte rekruttere omtrent 10.000 ganger flere deltakere. Selv om antall frivillige på Internett er stort, er det ikke uendelig. Derfor innså forskerne at hvis de skulle håndtere stadig voksende mengder data, var det nødvendig med en ny, enda mer skalerbar tilnærming.

Derfor har Manda Banerji-arbeidet med Schawinski, Lintott og andre medlemmer av Galaxy Zoo-teamet (2010) startet med å undervise datamaskiner for å klassifisere galakser. Mer spesifikt, ved å bruke de menneskelige klassifikasjonene som er opprettet av Galaxy Zoo, bygde Banerji en maskininnlæringsmodell som kunne forutsi den menneskelige klassifisering av en galakse basert på egenskapene til bildet. Hvis denne modellen kunne reproducere de menneskelige klassifikasjonene med høy nøyaktighet, så kunne den brukes av Galaxy Zoo-forskere til å klassifisere et i alt uendelig antall galakser.

Kjernen i Banerji og kollegernes tilnærming er faktisk ganske lik teknikker som ofte brukes i sosial forskning, selv om likheten kanskje ikke er klar ved første øyekast. Først konverterte Banerji og kolleger hvert bilde til et sett med numeriske funksjoner som oppsummerte egenskapene. For eksempel, for bilder av galakser, kan det være tre funksjoner: mengden blå i bildet, variansen i lysstyrken på pikslene, og andelen av ikke-hvite piksler. Valget av de riktige funksjonene er en viktig del av problemet, og det krever generelt fagfeltkompetanse. Dette første trinnet, ofte kalt funksjonsteknikk , resulterer i en datamatrise med en rad per bilde og deretter tre kolonner som beskriver bildet. Gitt datamatrisen og ønsket utgang (for eksempel om bildet ble klassifisert av et menneske som en elliptisk galakse), oppretter forskeren en statistisk eller maskinlæringsmodell - for eksempel logistisk regresjon - som forutsetter den menneskelige klassifiseringen basert på funksjonene av bildet. Endelig bruker forskeren parametrene i denne statistiske modellen for å produsere estimerte klassifikasjoner av nye galakser (figur 5.4). I maskinlæring kan denne tilnærmingen, ved hjelp av merkede eksempler for å lage en modell som kan danne nye data, kalles overvåket læring .

Figur 5.4: Forenklet beskrivelse av hvordan Banerji et al. (2010) brukte Galaxy Zoo klassifiseringer til å trene en maskin læringsmodell for å gjøre galakse klassifisering. Bilder av galakser ble omgjort i en matrise av funksjoner. I dette forenklede eksempelet er det tre funksjoner (mengden blå i bildet, variansen i lysstyrken på pikslene, og andelen av ikke-hvite piksler). For en delmengde av bildene brukes Galaxy Zoo-etikettene til å trene en maskinlæringsmodell. Endelig brukes maskinlæringen til å estimere klassifikasjoner for de gjenværende galakser. Jeg kaller dette et datamaskinassistent menneskelig beregningsprosjekt fordi, i stedet for at mennesker løser et problem, har det mennesker bygget et datasett som kan brukes til å trene en datamaskin for å løse problemet. Fordelen ved dette datamaskinassisterte menneskelige beregningssystemet er at det gjør det mulig å håndtere i det vesentlige uendelige mengder data ved å bruke bare en begrenset mengde menneskelig innsats. Bilder av galakser gjengitt med tillatelse fra Sloan Digital Sky Survey.

Figur 5.4: Forenklet beskrivelse av hvordan Banerji et al. (2010) brukte Galaxy Zoo klassifiseringer til å trene en maskin læringsmodell for å gjøre galakse klassifisering. Bilder av galakser ble omgjort i en matrise av funksjoner. I dette forenklede eksempelet er det tre funksjoner (mengden blå i bildet, variansen i lysstyrken på pikslene, og andelen av ikke-hvite piksler). For en delmengde av bildene brukes Galaxy Zoo-etikettene til å trene en maskinlæringsmodell. Endelig brukes maskinlæringen til å estimere klassifikasjoner for de gjenværende galakser. Jeg kaller dette et datamaskinassistent menneskelig beregningsprosjekt fordi, i stedet for at mennesker løser et problem, har det mennesker bygget et datasett som kan brukes til å trene en datamaskin for å løse problemet. Fordelen ved dette datamaskinassisterte menneskelige beregningssystemet er at det gjør det mulig å håndtere i det vesentlige uendelige mengder data ved å bruke bare en begrenset mengde menneskelig innsats. Bilder av galakser gjengitt med tillatelse fra Sloan Digital Sky Survey .

Funksjonene i Banerji og kollegas maskinlæringsmodell var mer komplekse enn de i leketøyeksemplet, for eksempel brukte hun funksjoner som "de Vaucouleurs passive aksiale forhold" - og modellen var ikke logistisk regresjon, det var et kunstig nevralt nettverk. Ved hjelp av hennes egenskaper, hennes modell og konsensus Galaxy Zoo klassifiseringer, var hun i stand til å skape vekter på hver funksjon, og deretter bruke disse vekterene for å gjøre spådommer om klassifisering av galakser. For eksempel fant hennes analyse at bilder med lav "de Vaucouleurs passive aksiale forhold" var mer sannsynlig å være spiralgalaksier. Gitt disse vektene, kunne hun forutsi den menneskelige klassifiseringen av en galakse med rimelig nøyaktighet.

Arbeidet til Banerji og kolleger gjorde Galaxy Zoo til det jeg ville kalle et datamaskinassistent menneskelig beregningssystem . Den beste måten å tenke på disse hybridsystemene er at i stedet for at mennesker løser et problem, har de mennesker bygget et datasett som kan brukes til å trene en datamaskin for å løse problemet. Noen ganger kan trening av en datamaskin for å løse problemet kreve mange eksempler, og den eneste måten å produsere et tilstrekkelig antall eksempler på er et massesamarbeid. Fordelen ved denne datastøttede tilnærmingen er at den gjør det mulig å håndtere i det vesentlige uendelige mengder data ved å bruke bare en begrenset mengde menneskelig innsats. For eksempel kan en forsker med en million menneskeklassifiserte galakser bygge en prediktiv modell som deretter kan brukes til å klassifisere en milliard eller til og med en billion galakser. Hvis det er enorme antall galakser, så er denne typen hybrid-hybrid virkelig den eneste mulige løsningen. Denne uendelige skalerbarhet er imidlertid ikke ledig. Å bygge en maskininnlæringsmodell som korrekt kan gjengi de menneskelige klassifikasjonene, er i seg selv et vanskelig problem, men heldigvis er det allerede gode bøker som er dedikert til dette emnet (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo er en god illustrasjon av hvor mange menneskelige beregningsprosjekter utvikler seg. For det første forsøker en forsker prosjektet alene eller med et lite team av forskningsassistenter (f.eks. Schawinskis første klassifiseringsarbeid). Hvis denne tilnærmingen ikke skaleres bra, kan forskeren flytte til et menneskelig beregningsprosjekt med mange deltakere. Men for en viss mengde data vil ren menneskelig innsats ikke være nok. På det tidspunktet må forskere bygge et datamaskinassistert menneskelig beregningssystem der menneskelige klassifiseringer brukes til å trene en maskinlæringsmodell som deretter kan brukes på nesten ubegrensede mengder data.