5.2.1 Galaxy Zoo

Galaxy Zoo kombinerede indsatsen fra mange ikke-ekspertfrivillige til at klassificere en million galakser.

Galaxy Zoo voksede ud af et problem, som Kevin Schawinski, en kandidatstuderende i astronomi ved Oxfords universitet i 2007 forenklede. Schawinski var interesseret i galakser, og galakser kan klassificeres ved deres morfologi-elliptiske eller spiral-og ved deres farveblå eller røde. På den tid var den konventionelle visdom blandt astronomer, at spiralgalakser, som vores mælkevej, var blåfarve (indikerer ungdom) og elliptiske galakser var røde (angiver alderdom). Schawinski tvivlede på denne konventionelle visdom. Han mente, at selvom dette mønster kunne være sandt generelt, var der sandsynligvis et stort antal undtagelser, og at ved at studere mange af disse usædvanlige galakser - dem der ikke passer til det forventede mønster - kunne han lære noget om processen, hvorigennem dannede galakser.

Således var det, som Schawinski havde brug for for at overtræde konventionel visdom, et stort sæt morfologisk klassificerede galakser; det vil sige galakser, der var klassificeret som enten spiral eller elliptiske. Problemet var imidlertid, at eksisterende algoritmiske metoder til klassificering endnu ikke var gode nok til at blive anvendt til videnskabelig forskning; med andre ord var klassificering af galakser på det tidspunkt et problem, der var svært for computere. Derfor var det, der var nødvendigt, et stort antal menneskeskabte galakser. Schawinski foretog dette klassifikationsproblem med entusiasmen hos en kandidatstuderende. I en maraton-session på syv 12-timers dage kunne han klassificere 50.000 galakser. Mens 50.000 galakser kan lyde som meget, er det faktisk kun omkring 5% af de næsten en million galakser, der var blevet fotograferet i Sloan Digital Sky Survey. Schawinski indså, at han havde brug for en mere skalerbar tilgang.

Heldigvis viser det sig, at opgaven med at klassificere galakser ikke kræver avanceret uddannelse i astronomi; du kan lære nogen til at gøre det temmelig hurtigt. Med andre ord, selvom klassificere galakser er en opgave, der var svært for computere, var det temmelig nemt for mennesker. Så mens du sidder i en pub i Oxford, Schawinski og kollega astronom Chris Lintott drømt op en hjemmeside, hvor frivillige ville klassificere billeder af galakser. Et par måneder senere, blev Galaxy Zoo født.

På Galaxy Zoo hjemmeside ville frivillige gennemgå et par minutters træning; for eksempel at lære forskellen mellem en spiral og elliptisk galakse (figur 5.2). Efter denne træning måtte hver frivillig passere en forholdsvis let quiz - korrekt klassificere 11 af 15 galakser med kendte klassifikationer - og så ville begynde virkelige klassificering af ukendte galakser gennem en simpel web-baseret grænseflade (figur 5.3). Overgangen fra frivillig til astronom ville finde sted på mindre end 10 minutter og krævede kun at passere det laveste af forhindringer, en simpel quiz.

Figur 5.2: Eksempler på de to hovedtyper af galakser: spiral og elliptisk. Galaxy Zoo-projektet brugte mere end 100.000 frivillige til at kategorisere mere end 900.000 billeder. Reproduceret med tilladelse fra http://www.GalaxyZoo.org og Sloan Digital Sky Survey.

Figur 5.2: Eksempler på de to hovedtyper af galakser: spiral og elliptisk. Galaxy Zoo-projektet brugte mere end 100.000 frivillige til at kategorisere mere end 900.000 billeder. Reproduceret med tilladelse fra http://www.GalaxyZoo.org og Sloan Digital Sky Survey .

Figur 5.3: Indgangsskærm hvor frivillige blev bedt om at klassificere et enkelt billede. Reproduceret med tilladelse fra Chris Lintott baseret på et billede fra Sloan Digital Sky Survey.

Figur 5.3: Indgangsskærm hvor frivillige blev bedt om at klassificere et enkelt billede. Reproduceret med tilladelse fra Chris Lintott baseret på et billede fra Sloan Digital Sky Survey .

Galaxy Zoo tiltrak sine oprindelige frivillige efter at projektet var omtalt i en nyhedsartikel, og i ca. seks måneder voksede projektet med at involvere mere end 100.000 borgerforskere, folk, der deltog, fordi de havde det, og de ønskede at hjælpe med at fremme astronomi. Sammen bidrog disse 100.000 frivillige i alt mere end 40 millioner klassifikationer, hvor hovedparten af ​​klassifikationerne kommer fra en relativt lille kernegruppe af deltagere (Lintott et al. 2008) .

Forskere, der har erfaring med at ansætte bachelorforskere, kan straks være skeptiske over datakvaliteten. Selvom denne skepsis er rimelig, viser Galaxy Zoo, at når frivillige bidrag er korrekt rengjort, deorganiske og aggregerede, kan de producere resultater af høj kvalitet (Lintott et al. 2008) . Et vigtigt trick for at få publikum til at skabe data af høj kvalitet er redundans , det vil sige at have samme opgave udført af mange forskellige mennesker. I Galaxy Zoo var der omkring 40 klassifikationer pr. Galakse; forskere, der anvender bachelorforskningsassistenter, har aldrig råd til dette niveau af redundans og vil derfor være meget mere bekymrede over kvaliteten af ​​hver enkelt klassifikation. Hvad de frivillige manglede i træning, de gjorde op med redundans.

Selv med flere klassifikationer pr. Galakse var det imidlertid vanskeligt at kombinere sæt af frivillige klassifikationer til at producere en konsensusklassificering. Fordi meget lignende udfordringer opstår i de fleste menneskelige beregningsprojekter, er det nyttigt at kort gennemgå de tre trin, som Galaxy Zoo forskerne brugte til at producere deres konsensus klassifikationer. For det første "forskydede forskerne" dataene ved at fjerne falske klassifikationer. For eksempel personer, der gentagne gange har klassificeret den samme galakse - noget der ville ske, hvis de forsøgte at manipulere resultaterne - havde alle deres klassifikationer kasseret. Denne og anden lignende rengøring fjernede ca. 4% af alle klassifikationer.

For det andet var forskerne nødt til at fjerne systematiske forstyrrelser i klassificeringen efter rengøring. Gennem en række biasdetekteringstudier indlejret i det oprindelige projekt - for eksempel viser nogle frivillige galaksen i monokrom i stedet for farve - opdagede forskerne flere systematiske forstyrrelser, såsom en systematisk forstyrrelse for at klassificere fjerne spiralgalakser som elliptiske galakser (Bamford et al. 2009) . Justering for disse systematiske forstyrrelser er yderst vigtigt, fordi redundans ikke automatisk fjerner systematisk forspænding; det hjælper kun med at fjerne tilfældig fejl.

Endelig efterforskede forskerne en metode til at kombinere de enkelte klassifikationer for at opnå en konsensus klassifikation. Den enkleste måde at kombinere klassifikationer på hver galakse ville have været at vælge den mest almindelige klassifikation. Denne tilgang ville imidlertid have givet hver frivillig lige vægt, og forskerne mistanke om, at nogle frivillige var bedre til at klassificere end andre. Derfor udviklede forskerne en mere kompleks iterativ vægtningsprocedure, der forsøgte at opdage de bedste klassifikatorer og give dem større vægt.

Således har Galaxy Zoo-forskergruppen efter en tre-trins procesrensning, debiasing og vægtning konverteret 40 millioner frivillige klassifikationer til et sæt konsensusmorfologiske klassifikationer. Da disse Galaxy Zoo klassifikationer blev sammenlignet med tre tidligere mindre skala forsøg fra professionelle astronomer, herunder klassifikation af Schawinski, der hjalp til at inspirere Galaxy Zoo, var der stærk aftale. Således var frivillige samlet set i stand til at levere klassificeringer af høj kvalitet og i en skala, som forskerne ikke kunne matche (Lintott et al. 2008) . Faktisk ved at have menneskelige klassifikationer for et så stort antal galakser, var Schawinski, Lintott og andre i stand til at vise, at kun ca. 80% af galakserne følger de forventede mønsterblå spiraler og røde elliptiske - og der er skrevet mange papirer om denne opdagelse (Fortson et al. 2011) .

På baggrund af denne baggrund kan du nu se, hvordan Galaxy Zoo følger split-apply-combinere opskrift, den samme opskrift, der bruges til de fleste menneskelige beregningsprojekter. For det første er et stort problem opdelt i klumper. I dette tilfælde blev problemet med at klassificere en million galakser opdelt i en million problemer med at klassificere en galakse. Derefter anbringes en operation hver for sig selvstændigt. I dette tilfælde klassificerede frivillige hver galakse som enten spiral eller elliptisk. Endelig kombineres resultaterne for at skabe et konsensusresultat. I dette tilfælde omfattede kombineret trin rengøring, debiasing og vægtning for at producere en konsensus klassifikation for hver galakse. Selvom de fleste projekter bruger denne generelle opskrift, skal hvert trin tilpasses til det specifikke problem, der behandles. For eksempel i den menneskelige beregningsprojekt, der er beskrevet nedenfor, vil den samme opskrift følges, men de anvendte og kombinerede trin vil være helt forskellige.

For Galaxy Zoo teamet var dette første projekt bare begyndelsen. Meget hurtigt indså de, at selvom de var i stand til at klassificere tæt på en million galakser, er denne skala ikke tilstrækkelig til at arbejde med nyere digitale himmelundersøgelser, der kan producere billeder af omkring 10 milliarder galakser (Kuminski et al. 2014) . At håndtere en stigning fra 1 million til 10 milliarder - en faktor på 10.000-Galaxy Zoo ville skulle rekruttere omkring 10.000 gange flere deltagere. Selv om antallet af frivillige på internettet er stort, er det ikke uendeligt. Derfor indså forskerne, at hvis de skulle håndtere stadig voksende datamængder, var der behov for en ny, endnu mere skalerbar tilgang.

Derfor begyndte Manda Banerji-samarbejde med Schawinski, Lintott og andre medlemmer af Galaxy Zoo teamet (2010) lære computere at klassificere galakser. Mere specifikt byggede Banerji ved hjælp af de menneskelige klassifikationer, der blev oprettet af Galaxy Zoo, en maskinindlæringsmodel, der kunne forudsige den menneskelige klassificering af en galakse baseret på billedets egenskaber. Hvis denne model kunne reproducere de menneskelige klassifikationer med høj nøjagtighed, kunne den bruges af Galaxy Zoo forskere til at klassificere et i det væsentlige uendeligt antal galakser.

Kernen i Banerji og kollegernes tilgang er faktisk meget lig den teknikker, der almindeligvis anvendes i social forskning, selv om denne lighed måske ikke er klar ved første øjekast. For det første konverterede Banerji og kolleger hvert billede til et sæt numeriske træk, der opsummerede dets egenskaber. For billeder af galakser kan der for eksempel være tre funktioner: mængden af ​​blåt i billedet, variansen i pixlernes lysstyrke og andelen af ​​ikke-hvide pixels. Udvælgelsen af ​​de korrekte funktioner er en vigtig del af problemet, og det kræver generelt faglig ekspertise. Dette første trin, der almindeligvis kaldes funktionsteknologi , resulterer i en datamatrix med en række pr. Billede og derefter tre kolonner, der beskriver dette billede. I betragtning af datamatrixen og det ønskede output (fx om billedet er klassificeret af et menneske som en elliptisk galakse), opretter forskeren en statistisk eller maskinelærende model - for eksempel logistisk regression - der forudsiger den menneskelige klassificering baseret på funktionerne af billedet. Endelig bruger forskeren parametrene i denne statistiske model til at producere estimerede klassifikationer af nye galakser (figur 5.4). I maskinindlæringen kaldes denne tilgange, der bruger mærkede eksempler til at oprette en model, der så kan mærke nye data - kaldes overvåget læring .

Figur 5.4: Forenklet beskrivelse af, hvordan Banerji et al. (2010) brugte Galaxy Zoo klassificeringerne til at træne en maskine læring model til at gøre galakse klassifikation. Billeder af galakser blev konverteret i en matrix af funktioner. I dette forenklede eksempel er der tre funktioner (mængden af ​​blå i billedet, variansen i pixlernes lysstyrke og andelen af ​​ikke-hvide pixels). For en delmængde af billederne bruges Galaxy Zoo-mærkerne til at træne en maskinindlæringsmodel. Endelig bruges maskinindlæringen til at estimere klassifikationer for de resterende galakser. Jeg kalder dette et computerassisteret menneskeligt beregningsprojekt, fordi mennesker i stedet for at løse et problem har mennesker, der bygger et datasæt, der kan bruges til at træne en computer til at løse problemet. Fordelen ved dette computerassisterede menneskelige beregningssystem er, at det gør det muligt for dig at håndtere i det væsentlige uendelige mængder data ved kun at bruge en begrænset mængde menneskelig indsats. Billeder af galakser reproduceret med tilladelse fra Sloan Digital Sky Survey.

Figur 5.4: Forenklet beskrivelse af, hvordan Banerji et al. (2010) brugte Galaxy Zoo klassificeringerne til at træne en maskine læring model til at gøre galakse klassifikation. Billeder af galakser blev konverteret i en matrix af funktioner. I dette forenklede eksempel er der tre funktioner (mængden af ​​blå i billedet, variansen i pixlernes lysstyrke og andelen af ​​ikke-hvide pixels). For en delmængde af billederne bruges Galaxy Zoo-mærkerne til at træne en maskinindlæringsmodel. Endelig bruges maskinindlæringen til at estimere klassifikationer for de resterende galakser. Jeg kalder dette et computerassisteret menneskeligt beregningsprojekt, fordi mennesker i stedet for at løse et problem har mennesker, der bygger et datasæt, der kan bruges til at træne en computer til at løse problemet. Fordelen ved dette computerassisterede menneskelige beregningssystem er, at det gør det muligt for dig at håndtere i det væsentlige uendelige mængder data ved kun at bruge en begrænset mængde menneskelig indsats. Billeder af galakser reproduceret med tilladelse fra Sloan Digital Sky Survey .

Funktionerne i Banerji og kollegernes maskinindlæringsmodel var mere komplekse end dem i mit legetøjseksempel - for eksempel brugte hun funktioner som "de Vaucouleurs fit aksiale forhold" - og hendes model var ikke logistisk regression, det var et kunstigt neuralt netværk. Ved hjælp af hendes egenskaber, hendes model og konsensus Galaxy Zoo klassifikationer kunne hun skabe vægte på hver funktion og derefter bruge disse vægte til at forudsige klassificering af galakser. For eksempel viste hendes analyse, at billeder med lavt "de Vaucouleurs fit aksiale forhold" var mere tilbøjelige til at være spiralgalakser. I betragtning af disse vægte kunne hun forudsige den menneskelige klassifikation af en galakse med rimelig nøjagtighed.

Banerji og kollegerne gjorde Galaxy Zoo til, hvad jeg ville kalde et computerassisteret menneskeligt beregningssystem . Den bedste måde at tænke på disse hybridsystemer er, at i stedet for at have mennesker løse et problem, har de mennesker opbygget et datasæt, der kan bruges til at træne en computer til at løse problemet. Nogle gange kan træning af en computer til at løse problemet kræve mange eksempler, og den eneste måde at producere et tilstrækkeligt antal eksempler på er et massesamarbejde. Fordelen ved denne computerassisterede tilgang er, at den giver dig mulighed for at håndtere i det væsentlige uendelige mængder data ved kun at bruge en begrænset mængde menneskelig indsats. For eksempel kan en forsker med en million menneskeklassificerede galakser opbygge en prædiktiv model, der så kan bruges til at klassificere en milliard eller endog en billioner galakser. Hvis der er et enormt antal galakser, så er denne slags human-computer hybrid virkelig den eneste mulige løsning. Denne uendelige skalerbarhed er dog ikke fri. At opbygge en maskinindlæringsmodel, som korrekt gengiver de menneskelige klassifikationer, er i sig selv et svært problem, men heldigvis er der allerede gode bøger, der er dedikeret til dette emne (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo er en god illustration af, hvor mange menneskelige beregningsprojekter udvikler sig. For det første forsøger en forsker selve projektet eller med et lille team af forskningsassistenter (f.eks. Schawinski's oprindelige klassifikationsindsats). Hvis denne tilgang ikke skaleres godt, kan forskeren flytte til et menneskeligt beregningsprojekt med mange deltagere. Men for en vis mængde data vil ren menneskelig indsats ikke være nok. På det tidspunkt skal forskere opbygge et computerassisteret menneskeligt beregningssystem, hvor menneskelige klassifikationer bruges til at uddanne en maskinindlæringsmodel, der så kan anvendes til praktisk talt ubegrænsede mængder data.