5.2.1 Galaxy Zoo

Galaxy Zoo kombinerer indsatsen fra mange ikke-ekspert frivillige til at klassificere en million galakser.

Galaxy Zoo voksede ud af et problem af Kevin Schawinski, en ph.d.-studerende i Astronomi ved University of Oxford står i 2007. Forenkling ganske lidt, Schawinski var interesseret i galakser, og galakser kan klassificeres ved deres morfologi-elliptisk eller spiral-og ved deres farve-blå eller rød. På det tidspunkt, konventionelle visdom blandt astronomer var, at spiralgalakser, ligesom vores Mælkevej, var blå i farve (hvilket indikerer ungdom), og at elliptiske galakser var røde i farven (indikerer alderdom). Schawinski tvivlede denne konventionelle visdom. Han anede, at mens dette mønster kan være sandt i almindelighed, der var sandsynligvis en anselig række undtagelser, og at ved at studere masser af disse usædvanlige galakser-dem, der ikke passede det forventede mønster, han kunne lære noget om den proces, hvorigennem galakser dannes.

Således hvad Schawinski nødvendig for at vælte konventionelle visdom var et stort sæt af morfologisk klassificerede galakser; dvs. galakser, der var klassificeret som enten spiral eller elliptisk. Problemet var imidlertid, at de eksisterende algoritmiske metoder til klassificering ikke var endnu god nok til at blive brugt til videnskabelig forskning; med andre ord, klassificerer galakser var, på det tidspunkt, et problem, der var svært for computere. Derfor, hvad der var brug for var et stort antal humane klassificerede galakser. Schawinski foretog denne klassifikation problem med begejstring af en ph.d.-studerende. I en maraton-session på syv, 12-timers dage, han var i stand til at klassificere 50.000 galakser. Mens 50.000 galakser kan lyde som en masse, det er faktisk kun omkring 5% af de næsten en million galakser, der var blevet fotograferet i Sloan Digital Sky Survey. Schawinski indså, at han havde brug for en mere skalerbar tilgang.

Heldigvis viser det sig, at opgaven med at klassificere galakser ikke kræver avanceret uddannelse i astronomi; du kan lære nogen til at gøre det temmelig hurtigt. Med andre ord, selvom klassificere galakser er en opgave, der var svært for computere, var det temmelig nemt for mennesker. Så mens du sidder i en pub i Oxford, Schawinski og kollega astronom Chris Lintott drømt op en hjemmeside, hvor frivillige ville klassificere billeder af galakser. Et par måneder senere, blev Galaxy Zoo født.

På Galaxy Zoo hjemmeside, vil frivillige gennemgå et par minutter af uddannelse; for eksempel lære forskellen mellem en spiral og elliptiske galakse (figur 5.2). Efter denne uddannelse, de frivillige skulle passere en forholdsvis let quiz-korrekt klassificere 11 af 15 galakser med kendte klassifikationer-og derefter den frivillige ville begynde reelle klassificering af ukendte galakser gennem en simpel web-baseret interface (Figur 5.3). Overgangen fra frivillig til astronom ville finde sted på mindre end 10 minutter og kun påkrævet passerer den laveste af forhindringer, en simpel quiz.

Figur 5.2: Eksempler på de to hovedtyper af galakser: spiral og elliptisk. Galaxy Zoo-projektet brugt mere end 100.000 frivillige til kategorier mere end 900.000 billeder. Kilde: www.galaxyzoo.org.

Figur 5.2: Eksempler på de to hovedtyper af galakser: spiral og elliptisk. Galaxy Zoo-projektet brugt mere end 100.000 frivillige til kategorier mere end 900.000 billeder. Kilde: www.galaxyzoo.org .

Figur 5.3: Input skærm, hvor vælgerne blev bedt om at klassificere et enkelt billede. Kilde: www.galaxyzoo.org.

Figur 5.3: Input skærm, hvor vælgerne blev bedt om at klassificere et enkelt billede. Kilde: www.galaxyzoo.org .

Galaxy Zoo tiltrak sine oprindelige frivillige efter at projektet blev omtalt i en nyhedsartikel, og i cirka seks måneder at projektet voksede til at omfatte mere end 100.000 borger forskere, folk, der deltog, fordi de nød opgaven og de ønskede at hjælpe forhånd astronomi. Tilsammen udgør disse 100.000 frivillige bidrog i alt mere end 40 millioner klassifikationer, med de fleste af de klassifikationer, der kommer fra en relativt lille, kernegruppe af deltagere (Lintott et al. 2008) .

Forskere, der har erfaring leje bachelor forskningsassistenter måske umiddelbart være skeptisk over datakvaliteten. Mens denne skepsis er rimelig, Galaxy Zoo viser, at når frivillige bidrag er korrekt rengjort, debiased, og aggregeret, kan de producere resultater af høj kvalitet (Lintott et al. 2008) . En vigtig trick for at få publikum til at skabe faglige kvalitet data redundans; det vil sige, der har den samme opgave udføres af mange forskellige mennesker. I Galaxy Zoo, var der omkring 40 klassifikationer pr galakse; forskere ved hjælp af bachelor forskningsassistenter kunne aldrig råd til dette niveau af redundans og derfor nødt til at være langt mere bekymret over kvaliteten af ​​hver enkelt klassificering. Hvad de frivillige manglede i uddannelse, de gjort op for med redundans.

Selv med flere klassifikationer pr galakse, men kombinerer det sæt af frivillige klassifikationer til at producere en konsensus klassifikation er vanskelig. Fordi opstår meget lignende udfordringer i de fleste menneskelige beregningsmetoder projekter, er det nyttigt kort at gennemgå de tre trin, at Galaxy Zoo forskere anvendes til at fremstille deres konsensus klassifikationer. Først forskerne "renset" data ved at fjerne falske klassifikationer. For eksempel folk, der gentagne gange er klassificeret i samme galakse-noget, der ville ske, hvis de forsøgte at manipulere med resultaterne-havde alle deres klassificeringer kasseret. Dette og andre lignende rengøring fjernet ca. 4% af alle klassifikationer.

For det andet, efter rengøring, forskerne nødvendig for at fjerne systematiske afvigelser i klassifikationer. Gennem en række fordomme afsløring undersøgelser indlejret i det oprindelige projekt-for eksempel, der viser nogle frivillige galaksen i monokrome stedet for farve-forskerne opdagede flere systematiske afvigelser, såsom en systematisk bias at klassificere langt væk spiralgalakser som elliptiske galakser (Bamford et al. 2009) . Justeret for disse systematiske afvigelser er ekstremt vigtigt, fordi gennemsnittet mange bidrag fjerner ikke systematisk skævhed; det fjerner kun tilfældige fejl.

Endelig, efter debiasing, forskerne behov for en metode til at kombinere de individuelle klassifikationer til at producere en konsensus klassifikation. Den enkleste måde at kombinere klassifikationer for hver galakse ville være at vælge den mest almindelige klassificering. Dog vil denne fremgangsmåde give hver frivillig lige stor vægt, og forskerne mistanke om, at nogle frivillige var bedre til klassificering end andre. Derfor forskerne udviklet en mere kompleks iterativ vægtning procedure, der forsøger at automatisk at registrere de bedste klassificører og give dem mere vægt.

Således, efter en tre-trins proces-rengøring, debiasing, og vægtning-Galaxy Zoo forskerholdet havde konverteret 40 millioner frivillige klassifikationer til et sæt af konsensus morfologiske klassifikationer. Når disse Galaxy Zoo klassifikationer blev sammenlignet med tre tidligere forsøg i mindre målestok af professionelle astronomer, herunder klassificeringen af ​​Schawinski der hjalp til at inspirere Galaxy Zoo, der var stærk enighed. Således de frivillige, samlet, var i stand til at levere klassifikationer af høj kvalitet og på en skala, at forskerne ikke kunne matche (Lintott et al. 2008) . Faktisk ved at have menneskelige klassifikationer for sådan et stort antal galakser, Schawinski, Lintott og andre var i stand til at vise, at kun omkring 80% af galakser følger det forventede mønster-blå spiraler og røde ellipseformede-og talrige papirer er blevet skrevet om denne opdagelse (Fortson et al. 2011) .

På denne baggrund kan vi nu se, hvordan Galaxy Zoo følger split-anvende-kombinere opskrift, den samme opskrift, som bruges til de fleste menneskelige beregnings- projekter. Først et stort problem opdelt i bidder. I dette tilfælde er problemet med at klassificere en million galakser opdelt i en million problemer med at klassificere en galakse. Dernæst en operation anvendes på hver luns selvstændigt. I dette tilfælde ville en frivillig klassificere hver galakse som enten spiral eller elliptisk. Endelig er resultaterne kombineret til frembringelse af en konsensus resultat. I dette tilfælde kombinerer trin omfattede rengøring, debiasing, og vægtning til at producere en konsensus klassifikation for hver galakse. Selv om de fleste projekter anvender denne generelle opskrift, hvert trin skal tilpasses det særlige problem, der behandles. For eksempel, i den menneskelige beregning nedenfor beskrevne projekt den samme opskrift vil blive fulgt, men de gælder og kombinerer skridt vil være helt anderledes.

For Galaxy Zoo team, dette første projekt var kun begyndelsen. Meget hurtigt de indså, at selv om de var i stand til at klassificere tæt på en million galakser, denne skala er ikke nok til at arbejde med nyere undersøgelser digital himmel, som kunne producere billeder af omkring 10 milliarder galakser (Kuminski et al. 2014) . For at håndtere en stige fra 1. millioner til 10 milliarder en faktor på 10.000 Galaxy Zoo skulle ansætte omkring 10.000 gange flere deltagere. Selvom antallet af frivillige på internettet er stor, er det ikke uendelig. Derfor indså forskerne, at hvis de kommer til at håndtere stadigt voksende mængder data, blev brug for en ny, endnu mere skalerbar, tilgang.

Derfor Manda Banerji-arbejde med Kevin Schawinski, Chris Lintott, og andre medlemmer af Galaxy Zoo team-start undervisningscomputere at klassificere galakser. Mere specifikt ved anvendelse af de humane klassificeringer skabt af Galaxy Zoo, Banerji et al. (2010) bygget en maskine learning model, der kunne forudsige den menneskelige klassificering af en galakse baseret på egenskaberne af billedet. Hvis maskinen learning model kunne reproducere de menneskelige klassificeringer med stor nøjagtighed, så det kunne bruges af Galaxy Zoo forskere til at klassificere en i det væsentlige uendeligt antal galakser.

Kernen i Banerji og kollegers tilgang er faktisk temmelig ligner teknikker almindeligvis anvendes i social forskning, selv om denne lighed ikke kan være klar ved første øjekast. Først Banerji og kolleger konverteret hvert billede i et sæt af numeriske funktioner, der opsummerer det er egenskaber. For eksempel, for billeder af galakser der kunne være tre funktioner: mængden af ​​blå i billedet, variansen i lysstyrken af ​​pixel, og andelen af ​​ikke-hvide pixels. Udvælgelsen af ​​de korrekte funktioner er en vigtig del af problemet, og det kræver generelt genstand område ekspertise. Dette første skridt, kaldet funktion engineering, resulterer i en data matrix med én række per billede og derefter tre kolonner beskriver dette billede. I betragtning af den data matrix og den ønskede effekt (fx om billedet blev klassificeret af et menneske som en elliptisk galakse), forskeren anslår parametrene for en statistisk model for eksempel, noget som en logistisk regression-der forudsiger den menneskelige klassifikation baseret på de elementer i billedet. Endelig forskeren bruger parametrene i denne statistiske model til at producere estimerede klassificeringer af nye galakser (Figur 5.4). At tænke på en social analog, forestille sig, at du havde demografiske oplysninger om en million studerende, og du ved, om de dimitterede fra college eller ej. Du kunne passe en logistisk regression til disse data, og så kunne du bruge de resulterende model parametre til at forudsige, om nye studerende kommer til at opgradere fra college. I machine learning, at denne tilgang-hjælp mærkede eksempler skabe en statistisk model, der så kan mærke nye data-kaldes overvåget læring (Hastie, Tibshirani, and Friedman 2009) .

Figur 5.4: Forenklet beskrivelse af, hvordan Banerji et al. (2010) brugte Galaxy Zoo klassifikationer til at træne en maskine læringsmodel at gøre galakse klassificering. Billeder af galakser blev konverteret i en matrix af funktioner. I denne forenklede eksempel er der tre funktioner (mængden af ​​blå i billedet, variansen i lysstyrken af ​​pixel, og andelen af ​​ikke-hvide pixels). Så for en delmængde af de billeder, er Galaxy Zoo etiketter bruges til at træne en maskine læringsmodel. Endelig er maskinen learning benyttes til at vurdere klassificeringer for de resterende galakser. Jeg kalder denne form for projekt en anden generation menneskelige beregningsmæssige projekt, fordi, i stedet for at have mennesker løse et problem, de har mennesker opbygge et datasæt, der kan bruges til at træne en computer til at løse problemet. Fordelen ved denne computer-assisteret tilgang er, at det giver dig mulighed for at håndtere væsentlige uendelige mængder af data ved hjælp af kun en endelig mængde menneskelig indsats.

Figur 5.4: Forenklet beskrivelse af, hvordan Banerji et al. (2010) brugte Galaxy Zoo klassifikationer til at træne en maskine læringsmodel at gøre galakse klassificering. Billeder af galakser blev konverteret i en matrix af funktioner. I denne forenklede eksempel er der tre funktioner (mængden af ​​blå i billedet, variansen i lysstyrken af ​​pixel, og andelen af ​​ikke-hvide pixels). Så for en delmængde af de billeder, er Galaxy Zoo etiketter bruges til at træne en maskine læringsmodel. Endelig er maskinen learning benyttes til at vurdere klassificeringer for de resterende galakser. Jeg kalder denne form for projekt en anden generation menneskelige beregningsmæssige projekt, fordi, i stedet for at have mennesker løse et problem, de har mennesker opbygge et datasæt, der kan bruges til at træne en computer til at løse problemet. Fordelen ved denne computer-assisteret tilgang er, at det giver dig mulighed for at håndtere væsentlige uendelige mængder af data ved hjælp af kun en endelig mængde menneskelig indsats.

Funktionerne i Banerji et al. (2010) machine learning model var mere kompleks end i mit legetøj eksempel-for eksempel, hun brugte funktioner som "de Vaucouleurs passer aksial ratio" -og hendes model var ikke logistisk regression, det var et kunstigt neuralt netværk. Brug hendes ansigtstræk, hendes model og konsensus Galaxy Zoo klassifikationer, hun var i stand til at skabe vægte på hver enkelt funktion, og derefter bruge disse vægte for at gøre forudsigelser om klassifikation af galakser. For eksempel hendes analyse fandt, at billeder med lav "de Vaucouleurs passer aksial ratio" var mere tilbøjelige til at være spiralgalakser. På baggrund af disse vægte, hun var i stand til at forudsige den menneskelige klassificering af en galakse med rimelig nøjagtighed.

Arbejdet i Banerji et al. (2010) vendte Galaxy Zoo i, hvad jeg ville kalde en anden generation menneskelige beregning system. Den bedste måde at tænke over disse andengenerations systemer er, at snarere end at have mennesker løse et problem, har de mennesker opbygge et datasæt, der kan bruges til at træne en computer til at løse problemet. Mængden af ​​data, der er nødvendige for at træne computeren kan være så stor, at det kræver en menneskelig masse samarbejde for at skabe. I tilfælde af Galaxy Zoo, de neurale netværk, der anvendes af Banerji et al. (2010) kræves et meget stort antal humane-mærkede eksempler med henblik på at bygge en model, der var i stand til pålideligt at reproducere det humane klassifikation.

Fordelen ved denne computer-assisteret tilgang er, at det giver dig mulighed for at håndtere væsentlige uendelige mængder af data ved hjælp af kun en endelig mængde menneskelig indsats. For eksempel kan en forsker med en million humane klassificeret galakser opbygge en prædiktiv model, som derefter kan anvendes til at klassificere en milliard eller endda en billion galakser. Hvis der er et enormt antal af galakser, så er denne form for human-computer hybrid er virkelig den eneste mulige løsning. Denne uendelige skalerbarhed er ikke gratis, dog. Opbygning af en maskine learning model, der korrekt kan gengive den menneskelige klassifikationer er i sig selv en hård problem, men heldigvis er der allerede gode bøger dedikeret til dette emne (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo viser udviklingen i mange menneskelige beregnings- projekter. Først en forsker forsøger projektet ved selv eller med et lille team af forskningsassistenter (f.eks Schawinski oprindelige klassifikation indsats). Hvis denne fremgangsmåde ikke skalerer godt, kan forskeren flytte til en menneskelig beregning projekt, hvor mange mennesker bidrager klassifikationer. Men for en vis mængde data, ren menneskelig indsats vil ikke være nok. På det tidspunkt, forskerne nødt til at bygge andengenerations systemer, hvor menneskelige klassifikationer bruges til at træne en maskine læringsmodel, som derefter kan anvendes på stort set ubegrænsede mængder af data.