5.2.1 Galaxy Zoo

Galaxy Zoo kombinerar insatser från många icke-expert volontärer att klassificera en miljon galaxer.

Galaxy Zoo växte fram ur ett problem av Kevin Schawinski, doktorand i astronomi vid universitetet i Oxford 2007. Förenkla ganska lite, var Schawinski intresserad av galaxer inför, och galaxer kan klassificeras med deras morfologi-elliptisk eller spiral och genom sin färg blått eller rött. Vid den tiden konventionell visdom bland astronomer var att spiralgalaxer, som vår Vintergatan, var blå färg (indikerar ungdomar) och att elliptiska galaxer var röd i färgen (indikerar ålderdom). Schawinski tvivlade denna konventionella visdom. Han misstänkte att även om detta mönster kan vara sant i allmänhet, det var förmodligen ett betydande antal undantag och att genom att studera massor av dessa ovanliga galaxer-de som inte passar det förväntade mönstret, han kunde lära sig något om den process genom vilken galaxer bildas.

Således, vad Schawinski behövs för att välta konventionell visdom var en stor uppsättning av morfologiskt klassificerade galaxer; det vill säga galaxer som hade klassificerats som antingen spiral eller elliptisk. Problemet var dock att befintliga algoritmiska metoder för klassificering ännu inte var tillräckligt bra för att användas för vetenskaplig forskning; med andra ord, som klassificerar galaxer var, vid denna tidpunkt, ett problem som var svårt för datorer. Därför vad som behövdes var ett stort antal människor klassificerade galaxer. Schawinski åtog klassificeringen problem med entusiasm av en doktorand. I en maratonsession av sju, 12 timmar om dagen, kunde han klassificera 50.000 galaxer. Medan 50.000 galaxer kan låta som en hel del, är det faktiskt bara ca 5% av de nästan en miljon galaxer som hade fotograferats i Sky Survey Sloan Digital. Schawinski insåg att han behövde en mer skalbar tillvägagångssätt.

Lyckligtvis visar det sig att uppgiften att klassificera galaxer inte kräver avancerad utbildning i astronomi; kan du lära någon att göra det ganska snabbt. Med andra ord, även om klassificering av galaxer är en uppgift som var svårt för datorer, var det ganska lätt för människor. Så när man sitter i en pub i Oxford, Schawinski och kolleger astronom Chris Lintott drömde upp en webbplats där frivilliga skulle klassificera bilder av galaxer. Några månader senare var Galaxy Zoo föddes.

På Galaxy Zoo webbplats skulle frivilliga genomgå några minuters träning; till exempel, lär sig skilja mellan en spiral och elliptisk galax (figur 5,2). Efter denna utbildning, de frivilliga var tvungna att passera en relativt enkel frågesport-korrekt klassificera 11 av 15 galaxer med kända klassificeringar-och volontären skulle börja verklig klassificering av okända galaxer genom ett enkelt webbaserat gränssnitt (Figur 5.3). Övergången från frivillig till astronom skulle ske i mindre än 10 minuter och bara krävs passerar lägsta av hinder, en enkel frågesport.

Figur 5.2: Exempel på de två huvudtyper av galaxer: spiral och elliptisk. Galaxy Zoo-projektet används mer än 100.000 volontärer kategorier mer än 900.000 bilder. Källa: www.galaxyzoo.org.

Figur 5.2: Exempel på de två huvudtyper av galaxer: spiral och elliptisk. Galaxy Zoo-projektet används mer än 100.000 volontärer kategorier mer än 900.000 bilder. Källa: www.galaxyzoo.org .

Figur 5.3: Ingångs skärm där väljarna ombads att klassificera en enda bild. Källa: www.galaxyzoo.org.

Figur 5.3: Ingångs skärm där väljarna ombads att klassificera en enda bild. Källa: www.galaxyzoo.org .

Galaxy Zoo lockade sina första frivilliga efter det att projektet presenterades i en nyhetsartikel, och i cirka sex månader projektet växte involvera mer än 100.000 medborgare vetenskapsmän, personer som deltog att de haft uppgiften och de ville hjälpa förväg astronomi. Tillsammans bidrog dessa 100.000 frivilliga sammanlagt mer än 40 miljoner klassificeringar, med majoriteten av klassificeringarna som kommer från en relativt liten, central grupp av deltagare (Lintott et al. 2008) .

Forskare som har erfarenhet anställa grundforskarassistenter skulle omedelbart vara skeptisk datakvalitet. Även om denna skepsis är rimligt, visar Galaxy Zoo som när frivilliga bidrag är korrekt rengörs, debiased, och aggregeras, kan de producera högkvalitativa resultat (Lintott et al. 2008) . En viktig trick för att få publiken att skapa professionella kvalitetsdata är redundans; det vill säga, har samma uppgift som utförs av många olika människor. I Galaxy Zoo, fanns det cirka 40 klassificeringar per galaxen; forskare som använder grundforskarassistenter aldrig skulle ha råd denna nivå av redundans och därför måste vara mycket mer intresserade av kvaliteten på varje enskild klassificering. Vad de frivilliga saknade i utbildning, gjorde de för med redundans.

Även med flera klassificeringar per galax, men att kombinera uppsättningen av frivilliga klassificeringar för att producera en konsensusklassificering är knepigt. Eftersom mycket likartade utmaningar uppstår i de flesta mänskliga beräkningsprojekt, är det bra att kortfattat gå igenom de tre steg som Galaxy Zoo forskare som används för att producera sina konsensus klassificeringar. Först forskarna "städas" data genom att ta bort falska klassificeringar. Till exempel personer som upprepade gånger klassificeras samma galax, något som skulle hända om de försökte manipulera resultat hade alla sina klassificeringar kasseras. Detta och andra liknande rengöring bort cirka 4% av alla klassificeringar.

För det andra, efter rengöring, forskarna behövs för att avlägsna systematiska fel i klassificeringar. Genom en serie partiskhet upptäckt studier inbäddade i det ursprungliga projektet, till exempel, visar några frivilliga galaxen i svartvitt i stället för färg-forskarna upptäckt flera systematiska fel, till exempel en systematisk partiskhet att klassificera långt bort spiralgalaxer som elliptiska galaxer (Bamford et al. 2009) . Justerat för dessa systematiska fel är extremt viktigt eftersom genomsnitt många bidrag inte tar bort systematisk partiskhet; det bara tar bort slumpmässiga fel.

Slutligen, efter debiasing, forskarna behövs en metod för att kombinera de individuella klassificeringar för att producera en konsensusklassificering. Det enklaste sättet att kombinera klassificeringar för varje galax skulle vara att välja den vanligaste klassificeringen. Men skulle detta tillvägagångssätt ge varje volontär lika stor vikt, och forskarna misstänker att några frivilliga var bättre på klassificering än andra. Därför forskarna utvecklat en mer komplex iterativ viktning förfarande som försöker att automatiskt upptäcka de bästa klassificerare och ge dem mer tyngd.

Således, efter en trestegsprocess rengörande, debiasing och viktnings Galaxy Zoo forskargrupp hade konverterat 40 miljoner frivilliga klassificeringar i en uppsättning av konsensus morfologiska klassificeringar. När dessa Galaxy Zoo klassificeringar jämfördes med tre tidigare småskaliga försök av professionella astronomer, inklusive klassificeringen av Schawinski som hjälpte till att inspirera Galaxy Zoo, det var stark överenskommelse. Således, de frivilliga, sammanlagt kunde tillhandahålla högkvalitativa klassificeringar och i sådan omfattning att forskarna inte kunde matcha (Lintott et al. 2008) . I själva verket, genom att ha mänskliga klassificeringar för ett så stort antal galaxer, Schawinski, Lintott och andra kunde visa att endast cirka 80% av galaxer följer det förväntade mönstret blå spiraler och röda elliptiska-och många artiklar har skrivits om denna upptäckt (Fortson et al. 2011) .

Mot denna bakgrund kan vi nu se hur Galaxy Zoo följer split-apply-kombinera recept, samma recept som används för de flesta mänskliga beräkningsprojekt. För det första är ett stort problem delas upp i bitar. I detta fall är problemet med att klassificera en miljon galaxer delas upp i en miljon problem att klassificera en galax. Därefter en operation tillämpas på varje bit oberoende av varandra. I detta fall skulle en volontär klassificera varje galax som antingen spiral eller elliptisk. Slutligen är resultaten kombineras för att producera en konsensus resultat. I detta fall, innefattade kombinera steg rengöring, debiasing, och viktning för att producera en konsensusklassificering för varje galax. Även om de flesta projekt använder denna allmänna receptet, vart och ett av de steg som måste anpassas till det specifika problemet som adresseras. Till exempel i den mänskliga beräknings projekt som beskrivs nedan, samma recept kommer att följas, men tillkomma och kombinerar steg kommer att vara helt annorlunda.

För Galaxy Zoo laget, detta första projekt var bara början. Mycket snabbt insåg de att även om de kunde klassificera nära en miljon galaxer, är denna skala inte tillräckligt för att arbeta med nyare digital sky undersökningar, som kan producera bilder av cirka 10 miljarder galaxer (Kuminski et al. 2014) . För att hantera en ökning 1.000.000-10000000000-en faktor 10.000-Galaxy Zoo skulle behöva rekrytera cirka 10.000 gånger fler deltagare. Även om antalet volontärer på Internet är stort, är det inte oändlig. Därför insåg forskarna att om de kommer att hantera allt större datamängder, en ny, ännu mer skalbar, tillvägagångssätt behövdes.

Därför Manda Banerji arbetande med Kevin Schawinski, Chris Lintott, och andra medlemmar av Galaxy Zoo laget startande undervisningsdatorer för att klassificera galaxer. Mer specifikt, genom att använda mänskliga klassificeringar som skapats av Galaxy Zoo, Banerji et al. (2010) byggde en maskin inlärningsmodell som skulle kunna förutsäga human klassificering av en galax baserade på egenskaperna hos bilden. Om maskininlärning modell kan återge mänskliga klassificeringar med hög noggrannhet, så kan det användas av Galaxy Zoo forskare att klassificera ett väsentligen oändligt antal galaxer.

Kärnan i Banerji och kollegor "tillvägagångssätt är faktiskt ganska lik tekniker som vanligen används i social forskning, även om denna likhet inte kan vara klart vid första anblicken. Först Banerji och kollegor omvandlas varje bild till en uppsättning av numeriska funktioner som sammanfattar det är egenskaper. Till exempel, för bilder av galaxer det kan finnas tre funktioner: mängden blått i bilden, variansen i ljusstyrka av pixlarna, och andelen icke-vita pixlar. Valet av rätt egenskaper är en viktig del av problemet, och det kräver i allmänhet föremål området expertis. Detta första steg, som brukar kallas funktionen teknik, resulterar i en datamatris med en rad per bild och sedan tre kolumner beskriver den bilden. Med tanke på matrisdata och önskad effekt (t ex om bilden klassificerades av en människa som en elliptisk galax) uppskattar forskaren parametrarna för en statistisk modell, till exempel, något som en logistisk regressions som förutsäger den mänskliga klassificering baserad på funktionerna i bilden. Slutligen använder forskaren parametrarna i denna statistisk modell för att producera uppskattade klassificeringar av nya galaxer (Figur 5.4). Att tänka på en social analog, tänk dig att du hade demografisk information om en miljon studenter, och du vet om de examen från college eller inte. Du skulle kunna passa en logistisk regression till dessa uppgifter, och sedan kan du använda de resulterande modellparametrarna för att förutsäga om nya studenter kommer att ta examen från college. I maskininlärning, att detta tillvägagångssätt användande märkta exempel skapa en statistisk modell som sedan kan märka ny data kallas övervakas lärande (Hastie, Tibshirani, and Friedman 2009) .

Figur 5.4: Förenklad beskrivning av hur Banerji et al. (2010) använde Galaxy Zoo klassificeringar för att utbilda en maskininlärning modell för att göra Galaxy klassificering. Bilder av galaxer omvandlades i en matris av funktioner. I denna förenklade exemplet finns tre funktioner (mängden blått i bilden, variansen i ljusstyrka av pixlarna, och andelen icke-vita pixlar). Då, för en delmängd av bilderna, är Galaxy Zoo etiketter används för att träna en maskininlärning modell. Slutligen maskininlärning används för att uppskatta klassificeringar för de återstående galaxer. Jag kallar denna typ av projekt en andra generationens mänskliga beräknings projektet eftersom, snarare än med människor lösa ett problem, har de människor bygga en datamängd som kan användas för att träna en dator för att lösa problemet. Fördelen med denna datorstödd metod är att det gör att du kan hantera allt väsentligt oändliga mängder data med hjälp av endast en begränsad mängd mänskliga ansträngningar.

Figur 5.4: Förenklad beskrivning av hur Banerji et al. (2010) använde Galaxy Zoo klassificeringar för att utbilda en maskininlärning modell för att göra Galaxy klassificering. Bilder av galaxer omvandlades i en matris av funktioner. I denna förenklade exemplet finns tre funktioner (mängden blått i bilden, variansen i ljusstyrka av pixlarna, och andelen icke-vita pixlar). Då, för en delmängd av bilderna, är Galaxy Zoo etiketter används för att träna en maskininlärning modell. Slutligen maskininlärning används för att uppskatta klassificeringar för de återstående galaxer. Jag kallar denna typ av projekt en andra generationens mänskliga beräknings projektet eftersom, snarare än med människor lösa ett problem, har de människor bygga en datamängd som kan användas för att träna en dator för att lösa problemet. Fördelen med denna datorstödd metod är att det gör att du kan hantera allt väsentligt oändliga mängder data med hjälp av endast en begränsad mängd mänskliga ansträngningar.

Funktionerna i Banerji et al. (2010) maskininlärning modellen var mer komplicerade än de i min leksak exempel, till exempel, använde hon funktioner som "de Vaucouleurs passa axial ratio" -och hennes modell var inte logistisk regression, var det ett artificiellt neuralt nätverk. Med hjälp av sina funktioner, sin modell, och konsensus Galaxy Zoo klassificeringar, kunde hon skapa vikter på varje funktion, och sedan använda dessa vikter för att göra förutsägelser om klassificering av galaxer. Till exempel, hennes analys fann att bilder med låg "de Vaucouleurs passar axial ratio" var mer benägna att vara spiralgalaxer. Med tanke på dessa vikter, kunde hon förutsäga mänskliga klassificering av en galax med rimlig noggrannhet.

Arbetet med Banerji et al. (2010) visade Galaxy Zoo i vad jag skulle kalla en andra generationens mänskliga beräkningssystemet. Det bästa sättet att tänka på dessa andra generationens system är att i stället för att ha människor lösa ett problem, har de människor bygga en datamängd som kan användas för att träna en dator för att lösa problemet. Den mängd data som krävs för att träna dator kan vara så stor att det krävs en mänsklig massa samarbete för att skapa. I fallet med Galaxy Zoo, de neurala nätverk som används av Banerji et al. (2010) krävs ett mycket stort antal exempel mänskliga märkta i syfte att bygga en modell som kunde tillförlitligt reproducera den mänskliga klassificering.

Fördelen med denna datorstödd metod är att det gör att du kan hantera allt väsentligt oändliga mängder data med hjälp av endast en begränsad mängd mänskliga ansträngningar. Till exempel kan en forskare med en miljon människor klassificeras galaxer bygga en prediktiv modell som sedan kan användas för att klassificera en miljard eller ens en biljon galaxer. Om det finns enorma mängder av galaxer, då denna typ av människa-dator hybrid är egentligen den enda möjliga lösningen. Denna oändliga skalbarhet är inte gratis, dock. Att bygga en maskininlärningsmodell som korrekt kan återge de mänskliga klassificeringar är själv en hård problem, men lyckligtvis finns det redan utmärkta böcker tillägnad detta ämne (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo visar utvecklingen av många mänskliga beräkningsprojekt. Först försöker forskare projektet själv eller med ett litet team av forskarassistenter (t.ex. Schawinski ursprungliga klassificering ansträngning). Om detta tillvägagångssätt inte skala bra, kan forskaren flytta till en mänsklig beräkning projekt där många människor bidrar klassificeringar. Men, för en viss mängd data, rent mänskliga ansträngningar kommer inte att räcka. Vid den tidpunkten, forskare behöver för att bygga andra generationens system där mänskliga klassificeringar används för att träna en maskininlärningsmodell som sedan kan appliceras på nästan obegränsade mängder data.