5.2.1 Galaxy Zoo

Galaxy Zoo kombinerade insatserna från många icke-experter frivilliga för att klassificera en miljon galaxer.

Galaxy Zoo växte ut ur ett problem som Kevin Schawinski, en universitetsstudent i astronomi vid Oxford University år 2007 stod inför. Förenklade ganska, var Schawinski intresserad av galaxer och galaxer kan klassificeras av deras morfologi-elliptiska eller spiral-och genom sina färgblå eller röda. Vid den tiden var den konventionella visdomen bland astronomer att spiralgalaxerna, som vårt Vintergata, var blåfärgade (indikerar ungdomar) och elliptiska galaxer var röda (indikerar ålderdom). Schawinski tvivlade på denna konventionella visdom. Han misstänkte att medan det här mönstret var sant i allmänhet var det förmodligen ett stort antal undantag, och att genom att studera många av dessa ovanliga galaxer - de som inte passade det förväntade mönstret - kunde han lära sig något om processen genom vilken bildade galaxer.

Således var det som Schawinski behövde för att försvaga konventionell visdom en stor uppsättning morfologiskt klassificerade galaxer; det vill säga galaxer som hade klassificerats som spiral eller elliptiska. Problemet var emellertid att befintliga algoritmiska metoder för klassificering ännu inte var tillräckliga för att användas för vetenskaplig forskning. Med andra ord var klassificering av galaxer vid den tiden ett problem som var svårt för datorer. Därför behövdes ett stort antal människor- klassificerade galaxer. Schawinski åtagit sig detta klassificeringsproblem med entusiasmen hos en doktorand. Under en maratonperiod på sju 12-timmarsdagar kunde han klassificera 50.000 galaxer. Medan 50.000 galaxer låter som mycket, är det faktiskt bara omkring 5% av de nästan en miljon galaxer som hade fotograferats i Sloan Digital Sky Survey. Schawinski insåg att han behövde en mer skalbar inställning.

Lyckligtvis visar det sig att uppgiften att klassificera galaxer inte kräver avancerad utbildning i astronomi; kan du lära någon att göra det ganska snabbt. Med andra ord, även om klassificering av galaxer är en uppgift som var svårt för datorer, var det ganska lätt för människor. Så när man sitter i en pub i Oxford, Schawinski och kolleger astronom Chris Lintott drömde upp en webbplats där frivilliga skulle klassificera bilder av galaxer. Några månader senare var Galaxy Zoo föddes.

På Galaxy Zoo webbplats skulle frivilliga genomgå några minuters träning; till exempel lära skillnaden mellan en spiral och elliptisk galax (figur 5.2). Efter denna träning måste varje frivillig passera en relativt enkel frågesport - korrekt klassificera 11 av 15 galaxer med kända klassificeringar - och sedan började verklig klassificering av okända galaxer genom ett enkelt webbaserat gränssnitt (figur 5.3). Övergången från frivillig till astronom skulle ske på mindre än 10 minuter och bara krävde att passera det lägsta av hinder, en enkel frågesport.

Figur 5.2: Exempel på de två huvudtyperna av galaxer: spiral och elliptisk. Galaxy Zoo-projektet använde mer än 100 000 volontärer för att kategorisera mer än 900 000 bilder. Reproducerad med tillstånd från http://www.GalaxyZoo.org och Sloan Digital Sky Survey.

Figur 5.2: Exempel på de två huvudtyperna av galaxer: spiral och elliptisk. Galaxy Zoo-projektet använde mer än 100 000 volontärer för att kategorisera mer än 900 000 bilder. Reproducerad med tillstånd från http://www.GalaxyZoo.org och Sloan Digital Sky Survey .

Figur 5.3: Inmatningsskärm där frivilliga ombads klassificera en enda bild. Reproducerad med tillstånd från Chris Lintott baserat på en bild från Sloan Digital Sky Survey.

Figur 5.3: Inmatningsskärm där frivilliga ombads klassificera en enda bild. Reproducerad med tillstånd från Chris Lintott baserat på en bild från Sloan Digital Sky Survey .

Galaxy Zoo lockade sina inledande volontärer efter att projektet presenterades i en nyhetsartikel och på ungefär sex månader växte projektet med att involvera mer än 100 000 medborgareforskare, personer som deltog eftersom de åtnjöt uppgiften och de ville hjälpa till att utveckla astronomi. Tillsammans bidrog dessa 100 000 volontärer totalt mer än 40 miljoner klassificeringar, med majoriteten av klassificeringarna som kommer från en relativt liten kärngrupp av deltagare (Lintott et al. 2008) .

Forskare som har erfarenhet av att anställa forskarassistenter kan omedelbart vara skeptiska till datakvaliteten. Medan denna skepticism är rimlig visar Galaxy Zoo att när volontärbidrag är korrekt rengjorda, deorganiska och aggregerade kan de producera högkvalitativa resultat (Lintott et al. 2008) . Ett viktigt knep för att få publiken att skapa professionell kvalitet är redundans , det vill säga att ha samma uppgift som utförts av många olika personer. I Galaxy Zoo var det cirka 40 klassificeringar per galax; Forskare som använder forskarassistenter kan aldrig ha råd med denna nivå av redundans och skulle därför behöva vara mycket mer oroade över kvaliteten på varje enskild klassificering. Vad volontärerna saknade i träning, de gjorde upp med redundans.

Även med flera klassificeringar per galax var det dock svårt att kombinera uppsättningen volontärklassificeringar för att skapa en konsensusklassificering. Eftersom många liknande utmaningar uppstår i de flesta mänskliga beräkningsprojekt, är det till hjälp att kortfattat granska de tre steg som Galaxy Zoo-forskarna brukade producera konsensus klassificeringar. Först, forskarna "städade" data genom att ta bort falska klassificeringar. Till exempel, folk som upprepade gånger klassificerade samma galax - något som skulle hända om de försökte manipulera resultaten - hade alla sina klassificeringar kasserade. Denna och annan liknande rengöring avlägsnades ca 4% av alla klassificeringar.

För det andra, efter rengöring, behövde forskarna ta bort systematiska fördomar i klassificeringen. Genom en serie biasdetekteringsstudier inbäddade i det ursprungliga projektet, som till exempel visar några volontärer galaxen i svartvitt i stället för färg, upptäckte forskarna flera systematiska förspänningar, såsom en systematisk förspänning för att klassificera avlägsna spiralgalaxer som elliptiska galaxer (Bamford et al. 2009) . Justering för dessa systematiska förspänningar är extremt viktigt eftersom redundans inte automatiskt tar bort systematisk förspänning. Det hjälper bara att ta bort slumpmässigt fel.

Slutligen, efter debiering, behövde forskarna en metod för att kombinera de enskilda klassificeringarna för att skapa en konsensusklassificering. Det enklaste sättet att kombinera klassificeringar för varje galax skulle ha varit att välja den vanligaste klassificeringen. Detta tillvägagångssätt skulle dock ha gett varje volontär lika stor vikt, och forskarna misstänkte att vissa volontärer var bättre på att klassificera än andra. Därför utvecklade forskarna ett mer komplext iterativt viktningsförfarande som försökte upptäcka de bästa klassificeringsmedlen och ge dem större vikt.

Således, efter en tre stegs processrengöring, avluftning och viktning, hade Galaxy Zoo-forskargruppen konverterat 40 miljoner volontärklassificeringar till en uppsättning konsensusmorfologiska klassificeringar. När dessa Galaxy Zoo klassificeringar jämfördes med tre tidigare mindre skala försök av professionella astronomer, inklusive klassificeringen av Schawinski som hjälpte till att inspirera Galaxy Zoo, var det starkt överenskommelse. Således kunde volontärerna tillhandahålla högkvalitativa klassificeringar och i en skala som forskarna inte kunde matcha (Lintott et al. 2008) . Faktum är att genom att ha mänskliga klassificeringar för ett så stort antal galaxer, kunde Schawinski, Lintott och andra visa att endast cirka 80% av galaxerna följer de förväntade mönstervågspiralerna och de röda elliptikerna - och många papper har skrivits om denna upptäckt (Fortson et al. 2011) .

Med den här bakgrunden kan du nu se hur Galaxy Zoo följer split-apply-combinereceptet, samma recept som används för de flesta mänskliga beräkningsprojekt. Först delas ett stort problem upp i bitar. I detta fall delades problemet med att klassificera en miljon galaxer i en miljon problem att klassificera en galax. Därefter appliceras en operation varje bit separat. I detta fall klassificerade volontärer varje galax som antingen spiral eller elliptisk. Slutligen kombineras resultaten för att skapa ett konsensusresultat. I detta fall inkluderade blandningssteget rengöring, avluftning och viktning för att producera en konsensusklassificering för varje galax. Även om de flesta projekt använder detta allmänna recept måste varje steg anpassas till det specifika problemet som behandlas. Till exempel i det mänskliga beräkningsprojektet som beskrivs nedan, kommer samma recept att följas, men de applicera och kombinera stegen kommer att vara ganska annorlunda.

För Galaxy Zoo laget var detta första projekt bara början. Mycket snabbt insåg de att även om de kunde klassificera närmare en miljon galaxer, är denna skala inte tillräcklig för att arbeta med nyare digitala himmelundersökningar, som kan producera bilder på cirka 10 miljarder galaxer (Kuminski et al. 2014) . För att hantera en ökning från 1 miljon till 10 miljarder skulle en faktor på 10 000 Galaxy Zoo behöva rekrytera cirka 10 000 gånger fler deltagare. Även om antalet volontärer på Internet är stor är det inte oändligt. Därför insåg forskarna att om de skulle hantera ständigt växande datamängder, behövdes en ny, ännu mer skalbar tillvägagångssätt.

Därför började Manda Banerji-arbeta med Schawinski, Lintott och andra medlemmar av Galaxy Zoo-teamet (2010) undervisa datorer för att klassificera galaxer. Mer specifikt, med hjälp av de mänskliga klassificeringar som skapades av Galaxy Zoo, byggde Banerji en maskininlärningsmodell som kunde förutsäga den mänskliga klassificeringen av en galax baserad på bildens egenskaper. Om denna modell skulle kunna reproducera de mänskliga klassificeringarna med hög noggrannhet, skulle det kunna användas av Galaxy Zoo-forskare att klassificera ett väsentligen oändligt antal galaxer.

Kärnan i Banerji och kollegornas tillvägagångssätt är faktiskt ganska lik tekniker som vanligtvis används i social forskning, även om den likheten inte kan vara tydlig vid första anblicken. Först konverterade Banerji och kollegor varje bild till en uppsättning numeriska funktioner som sammanfattade dess egenskaper. Till exempel, för bilder av galaxer kan det finnas tre funktioner: mängden blå i bilden, variationen i ljusstyrkan på pixlarna och andelen icke-vita pixlar. Urvalet av de korrekta funktionerna är en viktig del av problemet, och det kräver vanligtvis ämnesområdena. Detta första steg, vanligtvis kallad funktionsteknik , resulterar i en datamatris med en rad per bild och sedan tre kolumner som beskriver den bilden. Med tanke på datamatrisen och den önskade effekten (t.ex. om bilden klassificerades av en människa som en elliptisk galax), skapar forskaren en statistisk eller maskininlärningsmodell - till exempel logistisk regression - som förutspår den mänskliga klassificeringen baserat på funktionerna av bilden. Slutligen använder forskaren parametrarna i denna statistiska modell för att producera uppskattade klassificeringar av nya galaxer (figur 5.4). I maskininlärning kallas detta tillvägagångssätt med hjälp av märkta exempel för att skapa en modell som sedan kan märka ny data - kallas övervakat lärande .

Figur 5.4: Förenklad beskrivning av hur Banerji et al. (2010) använde Galaxy Zoo klassificeringar för att träna en maskininlärningsmodell för att göra galaxklassificering. Bilder av galaxer omvandlades i en matris av funktioner. I det här förenklade exemplet finns tre funktioner (mängden blå i bilden, variansen i pixlarnas ljusstyrka och andelen icke-vita pixlar). Sedan, för en delmängd av bilderna, används Galaxy Zoo-etiketterna för att träna en maskininlärningsmodell. Slutligen används maskininlärningen för att uppskatta klassificeringar för de återstående galaxerna. Jag kallar detta för ett datorstödd mänskligt beräkningsprojekt eftersom det i stället för att människor har löst ett problem, har människor byggt en dataset som kan användas för att träna en dator för att lösa problemet. Fördelen med detta datorassisterade mänskliga beräkningssystem är att det gör att du kan hantera i huvudsak oändliga mängder data med endast en begränsad mängd mänsklig ansträngning. Bilder av galaxer som reproduceras med tillstånd från Sloan Digital Sky Survey.

Figur 5.4: Förenklad beskrivning av hur Banerji et al. (2010) använde Galaxy Zoo klassificeringar för att träna en maskininlärningsmodell för att göra galaxklassificering. Bilder av galaxer omvandlades i en matris av funktioner. I det här förenklade exemplet finns tre funktioner (mängden blå i bilden, variansen i pixlarnas ljusstyrka och andelen icke-vita pixlar). Sedan, för en delmängd av bilderna, används Galaxy Zoo-etiketterna för att träna en maskininlärningsmodell. Slutligen används maskininlärningen för att uppskatta klassificeringar för de återstående galaxerna. Jag kallar detta för ett datorstödd mänskligt beräkningsprojekt eftersom det i stället för att människor har löst ett problem, har människor byggt en dataset som kan användas för att träna en dator för att lösa problemet. Fördelen med detta datorassisterade mänskliga beräkningssystem är att det gör att du kan hantera i huvudsak oändliga mängder data med endast en begränsad mängd mänsklig ansträngning. Bilder av galaxer som reproduceras med tillstånd från Sloan Digital Sky Survey .

Funktionerna i Banerji och kollegas maskininlärningsmodell var mer komplexa än de i mitt leksaksexempel, till exempel använde hon funktioner som "de Vaucouleurs passande axiella förhållandet" och hennes modell var inte logistisk regression, det var ett konstgjort neuralt nätverk. Med hjälp av hennes egenskaper, hennes modell och konsensus Galaxy Zoo klassificeringar kunde hon skapa vikter på varje funktion och använd sedan dessa vikter för att göra förutsägelser om klassificeringen av galaxer. Till exempel fann hennes analys att bilder med låg "de Vaucouleurs passande axiella förhållandet" var mer benägna att vara spiralgalaxer. Med tanke på dessa vikter kunde hon förutsäga den mänskliga klassificeringen av en galax med rimlig noggrannhet.

Banerji och kollegas arbete gjorde Galaxy Zoo till vad jag skulle kalla ett datorstödd mänskligt beräkningssystem . Det bästa sättet att tänka på dessa hybridsystem är att i stället för att människor ska lösa ett problem, har de människor att bygga en dataset som kan användas för att träna en dator för att lösa problemet. Ibland kan träning av en dator för att lösa problemet kräva många exempel, och det enda sättet att producera ett tillräckligt antal exempel är ett masssamarbete. Fördelen med detta datorstödda tillvägagångssätt är att det gör att du kan hantera i huvudsak oändliga mängder data med endast en begränsad mängd mänsklig ansträngning. Till exempel kan en forskare med en miljon människor klassificerade galaxer bygga en prediktiv modell som sedan kan användas för att klassificera en miljard eller till och med en biljon galaxer. Om det finns ett enormt antal galaxer, är den här typen av mänsklig datortybrid verkligen den enda möjliga lösningen. Denna oändliga skalbarhet är dock inte fri. Att bygga en maskininlärningsmodell som korrekt reproducerar de mänskliga klassificeringarna är ett svårt problem, men lyckligtvis finns det redan utmärkta böcker som är avsedda för detta ämne (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo är en bra illustration av hur många mänskliga beräkningsprojekt utvecklas. Först försöker en forskare projektet själv eller med ett litet team av forskningsassistenter (t.ex. Schawinskis första klassificeringsinsats). Om detta synsätt inte skala bra kan forskaren flytta till ett mänskligt beräkningsprojekt med många deltagare. Men för en viss mängd data kommer ren mänsklig ansträngning inte att räcka. Vid den tidpunkten behöver forskare bygga ett datorassistent mänskligt beräkningssystem där mänskliga klassificeringar används för att träna en maskininlärningsmodell som sedan kan tillämpas på praktiskt taget obegränsade datamängder.