5.2.1 Galaxy Zoo

Galaxy Zoo kombinéiert d'Efforten vun vill Net-Expert Fräiwëlleger enger Millioun Galaxien ze klassifizéieren.

Galaxy Zoo gewuess aus engem Problem konfrontéiert vum Kevin Schawinski, engem CSL Schüler vun der Astronomie op der Universitéit vun Oxford an 2007 vereinfacht nawell bëssen, Schawinski zu Galaxien interesséiert war, an Galaxien kënnen duerch hir Wirklechkeet-elliptesch séiert ginn oder Spiralgalaxien-a vun hirer Faarf-blo oder rout. An der Zäit, war konventionell Wäisheet ënnert Astronomen datt Spiralgalaxien, wéi eis Mëllechstrooss, an Faarf (besot Jugend) blo waren an datt elliptesch Galaxien ware rout an Faarf (besot Alter). Schawinski gezweiwelt dës konventionell Wäisheet. Hie gëtt verdächtegt, datt während dësem Muster am allgemengen richteg wier, do wahrscheinlech eng sizable Zuel vun Ausnamen waren, an dass déi vill vun dësen ongewéinleche Galaxien-déi ënnersicht, datt net de hutt fit erwaart Muster-hien eppes iwwert de Prozess léieren konnt duerch déi Galaxien entstanen.

Sou, waren Schawinski wat fir konventionell Wäisheet ëmzekippen war eng grouss Sammlung vu morphologically séiert Galaxien; dat ass, Galaxien déi als entweder Spiralgalaxien oder elliptesch séiert gouf. De Problem war awer, dass bestehend algorithmic Methode fir Klassifikatioun nach net gutt waren genuch fir wëssenschaftlech Fuerschung benotzt gin; an anere Wierder, classifying Galaxien war, op déi Zäit, e Problem dee schwéier fir Computer war. Dofir, wat néideg war gouf eng grouss Zuel vu mënschlechen séiert Galaxien. Schawinski mat dëser Klassifikatioun Problem mat der Begeeschterung vun engem CSL Schüler. An engem Marathon Sëtzung vun siwen, 12-Stonne Deeg, Zänn gebass 50.000 Galaxien ze klassifizéieren. Iwwerdeems 50.000 Galaxien wéi vill Toun kann, ass et eigentlech nëmmen ëm 5% vun de bal eng Millioun Galaxien, déi zu der Sloan Digital Sky Survey fotografeschen gouf. Schawinski gemierkt, datt hien e méi scalable Approche waren.

Ma, et stellt sech eraus, dass d'Aufgab vun classifying Galaxien net spezifesch Formatioun an der Astronomie heescht verlaangen; Dir kënnt een léieren et relativ séier ze maachen. An anere Wierder, och wann Galaxien ass eng Aufgab classifying datt schwéier fir Computeren huet, war et relativ einfach fir Mënschen. Also, an engem Café zu Oxford, Schawinski a Matbierger Astronom Chris Lintott iwwerdeems Sëtzen gedreemt e Site an wou Fräiwëlleger Biller vu Galaxien klassifizéieren géif. E puer Méint méi spéit, war Galaxy Zoo gebuer.

Um Galaxy Zoo Websäit, géif Fräiwëlleger e puer Minutte vum Training hi; zum Beispill, léieren d'Differenz tëschent engem Spiralrelief an elliptesch Galaxis (Dorënner 5.2). No dëser Formatioun, déi de Fräiwëllege classifying 11 vun 15 Galaxien mat bekannt eng relativ einfach Quiz-korrekt ze Ugrëff Klassifikatiounen-an da géif de Fräiwëllegen real Klassifikatioun vun onbekannt Galaxien fänken duerch eng einfach web-baséiert Interface (Dorënner 5.3). D'Transitioun vun Fräiwëllegen zu Astronom géif Plaz an manner wéi 10 Minutten huelen a verlaangt nëmmen laanscht déi ënnescht vun Hürden, engem einfache Quiz.

Figur 5.2: Beispiller vun den zwee Haaptgrënn Zorte vu Galaxien: Spiralgalaxien an elliptesch. De Galaxy Zoo Projet benotzt méi wéi 100.000 Bénévolen fir Kategorien méi wéi 900.000 Biller. Source: www.galaxyzoo.org.

Figur 5.2: Beispiller vun den zwee Haaptgrënn Zorte vu Galaxien: Spiralgalaxien an elliptesch. De Galaxy Zoo Projet benotzt méi wéi 100.000 Bénévolen fir Kategorien méi wéi 900.000 Biller. Source: www.galaxyzoo.org .

Figur 5.3: check Ecran wou Wieler gefrot goufen eng eenzeg Bild ze klassifizéieren. Source: www.galaxyzoo.org.

Figur 5.3: check Ecran wou Wieler gefrot goufen eng eenzeg Bild ze klassifizéieren. Source: www.galaxyzoo.org .

Galaxy Zoo ugezunn seng initial Fräiwëlleger no de Projet vun enger news Manifestatioun souzen war, an zu ronn sechs Méint de Projet gewuess zu méi wéi 100.000 Bierger Wëssenschaftler abannen, Leit déi matgemaach well se d'Aufgab ass an si wollten Viraus Astronomie ze hëllefen. Zesumme, dréit dësen 100.000 Bénévolen insgesamt méi wéi 40 Milliounen Klassifikatiounen duerchzeféieren, mat der Majoritéit vun de Klassifikatiounen aus engem relativ kleng, Kär Grupp vu Mataarbechter nächste (Lintott et al. 2008) .

Fuerscher déi Erfahrung rekrutéiert undergraduate Fuerschung Assistenten hunn kéint direkt un Donnéeën Qualitéit skeptesch ginn. Während dëser Skepsis räsonnabel ass, Galaxy Zoo weist, datt wann Fräiwëllegen Contributiounen richteg gebotzt ginn, debiased, an aggregéiert, kann se héich-Qualitéit Resultater produzéieren (Lintott et al. 2008) . Eng wichteg Hattrick fir d'Spectateuren agetriichtert berufflech Qualitéit Donnéeën ze schafen ass Redundanz; dat ass, dass déi selwecht Aufgab déi vill verschidden Leit gesuergt. An Galaxy Zoo, waren et ronn 40 Klassifikatiounen pro Galaxis; Fuerscher undergraduate Fuerschung Assistenten benotzt ni dësem Niveau vun Redundanz leeschte kéinten a muss also mat der Qualitéit vun den eenzelne Klassifikatioun vill méi beschäftegt ginn. Wat de Fräiwëllege am Training gefeelt huet, huet si fir mat Redundanz weider.

Och mat Multiple Klassifikatiounen pro Galaxis, awer, fir d'Formatioun vun Fräiwëllegen Klassifikatiounen kombinéiert produzéiere engem Konsens Klassifikatioun komplizéiert ass. Well ähnlecht Erausfuerderungen an déi mënschlech Berechnung Projeten opwerft, ass et hëllefräich ze kuerz déi dräi Schrëtt review datt de Galaxy Zoo Fuerscher benotzt fir hir Konsens Klassifikatiounen produzéieren. Éischt, déi de Fuerscher d'Donnéeën vun Stoppen Krisenzäite Klassifikatiounen "gebotzt". Zum Beispill, Leit déi de selwechten Galaxis-eppes ërem séiert, datt dat geschitt wier wann se der ze manipuléieren versicht Resultater-Équipe an all hir Klassifikatiounen discarded. Dës an aner ähnlech Botzen geläscht iwwer 4% vun all Klassifikatiounen duerchzeféieren.

Zweet, no Botzen, waren d'Fuerscher systematesch biases zu Klassifikatiounen ze läschen. Duerch eng Rei vu Studien Westen erkennen am original Projet-zB Ënnerbewosstsinn, e puer Volontären déi Galaxis an gestiermt weisen amplaz vum Faarf-d'Fuerscher entdeckt puer systematesch biases, wéi eng systematesch de Westen ze klassifizéieren wäit ewech Spiralgalaxien als elliptesch Galaxien (Bamford et al. 2009) . Ugepasst fir dës systematesch biases ass extrem wichteg, well vill Contributiounen averaging net systematesch de Westen net ewechhuelen; et schaaft just zoufälleg Fehler.

Endlech, no debiasing, waren d'Fuerscher eng Method déi eenzel Klassifikatiounen ze kombinéieren engem Konsens Klassifikatioun ze produzéieren. Déi einfach Manéier Klassifikatiounen ze kombinéieren fir all Galaxis wier déi gemeinsam Klassifikatioun ze wielen. Allerdéngs géif dës Approche all Bénévole selwecht Gewiicht ginn, an de Fuerscher verdächtegt, datt e puer Fräiwëllege wéi anerer um Klassifikatioun besser waren. Dofir, entwéckelt de Fuerscher e méi komplex iterative Gewiicht Prozedur déi automatesch Versich fir de beschte classifiers z'entdecken an se méi Gewiicht ginn.

Sou, no engem dräi Schrëtt Prozess-Botzen, debiasing, an Gewiicht-de Galaxy Zoo Fuerschung team hat 40 Milliounen Fräiwëllegen Klassifikatiounen an eng Formatioun vun Konsens morphological Klassifikatiounen ëmgerechent. Wann dës Klassifikatiounen Galaxy Zoo am Verglach sech zu dräi virdrun kleng-Skala Versich vun berufflech Astronomen, dorënner d'Klassifikatioun vun Schawinski datt Galaxy Zoo ze begeeschteren gehollef, war et staark Accord. Soumat huet de Fräiwëllege, an ugesammelt, kënnen héich Qualitéit Klassifikatiounen ze bidden an op enger Skala, déi d'Fuerscher net Match kéint (Lintott et al. 2008) . An Tatsaach, déi de Mënsch Klassifikatiounen fir esou eng grouss Zuel vu Galaxien mussen, Schawinski, Lintott, an anerer konnten ze weisen, datt nëmmen ongeféier 80% vun de Galaxien déi erwaart Muster-blo spirals a rout elliptesch Galaxis-a vill Aarbechten geschriwwe goufen dann iwwert dëser Entdeckung (Fortson et al. 2011) .

An dësem Kontext, kann mir elo gesinn, wéi Galaxy Zoo villméi de Norweeger-Demande-combinéiert Rezept, d'selwecht Rezept, datt fir déi mënschlech Berechnung Projete benotzt ginn ass. Éischt, ass e grousse Problem an Stécker gedeelt. An dësem Fall ass de Problem vun enger Millioun Galaxien vun classifying gedeelt war eng Millioun Problemer vun enger Galaxis classifying. Next, ass eng Operatioun onofhängeg zu all Chunk applizéiert. An dësem Fall, géif klassifizéieren Fräiwëllegen all Galaxis als entweder Spiralgalaxien oder elliptesch. Endlech, sinn d'Resultater kombinéiert e Konsens Resultat ze produzéieren. An dësem Fall, dorënner de kombinéieren Schrëtt d'Botzen, debiasing, an Gewiicht e Konsens Klassifikatioun fir all Galaxis ze produzéieren. Och wann déi Projeten dës allgemeng Rezept benotzen, brauch all vun der Trap fir de spezifesche Problem Déclaratioun Wiesen ze adaptéiert. Zum Beispill, an de Mënsch Berechnung Projet hei ënnendrënner beschriwwe gëtt de selwechte Rezept gefollegt ginn, mä d'Demande an kombinéieren Schrëtt wäert ganz ënnerschiddlech sinn.

Fir den Galaxy Zoo Equipe, war dëse éischte Projet just den Ufank. Ganz schnell gespuert si dat obwuel si kënnen sech no enger Millioun Galaxien ze klassifizéieren, ass dës Skala net genuch mat engem Neien digital Himmel Ëmfroen ze schaffen, déi Biller vun iwwer 10 Milliarden Galaxien produzéiere konnt (Kuminski et al. 2014) . Zu enger Erhéijung vun 1 Milliounen op 10 Milliarden-e Faktor vun 10.000-Galaxy Zoo Deemno géif brauchen ongeféier 10.000 Mol méi Participanten ze rekrutéieren. Och wann d'Zuel vun Fräiwëllegen op der Internet grouss ass, ass et net onendlech. Dofir, realiséiert d'Fuerscher dass wann si elo ëmmer méi Quantitéiten vun Donnéeën ze handhaben, eng nei, nach méi scalable, Approche néideg war.

Manda Banerji-schaffe mat Kevin Schawinski, Chris Lintott, an aner Memberen vun der Galaxy Zoo team-Start Unterrécht Computeren Dofir, fir Galaxien klassifizéieren. Méi geziilt Hëllef, de Mënsch Klassifikatiounen geschafen duerch Galaxy Zoo, Banerji et al. (2010) gebaut Modell enger Maschinn léieren, datt de Mënsch Klassifikatioun vun enger Galaxis ze soe kéint baséiert op de Charakter vun der Bild. Wann dës Maschinn Léieren Modell de Mënsch Klassifikatiounen mat héijer Genauegkeet reproduzéieren hätt, dann hätt et vun Galaxy Zoo Fuerscher benotzt ginn eng wesentlech onendlecher vu Galaxien ze klassifizéieren.

De Kär vun Banerji a Kollegen "Approche ass effektiv flott gläicht Techniken Toast am sozialen Fuerschung benotzt ginn, obwuel déi Ähnlechkeet op den éischte Bléck net kloer wier. Éischt, ëmgerechent Banerji a Kollegen all Bild an eng Formatioun vun da Fonctiounen, datt et d'Eegeschafte WikiCommons. Zum Beispill, fir Biller vu Galaxien kéint et dräi Fonctiounen ginn: d'Quantitéit vun blo am Bild, de Varianz vun der Hellegkeet vun der Pixel, an den Undeel vun Net-wäisse Pixel. D'Auswiel vun de richtege Fonctiounen ass e wichtegen Deel vum Problem, an et brauch normalerweis Thema-Beräich Expertise. Dës éischt Schrëtt, Toast Fonktioun Ingenieur genannt, Resultater an engem Donnéeën Matrixentgasung mat ee Stéck pro Bild an dann dräi Saile beschreiwen, dass Bild. Am Bezug op déi Donnéeën Matrixentgasung an der gewënschter Wasserstoff (zB, ob d'Bild vun engem Mënsch wéi eng elliptesch Galaxis kleng war), d'Fuerscher Schätzunge d'Parameter vun engem statisteschen Modell-zum Beispill, eppes wéi e Logistikzenter Réckgang-, datt de Mënsch Klassifikatioun renomméierter däitscher Zeitung baséiert op d'Fonctiounen vun der Bild. Endlech, notzt d'Fuerscher d'Parameter vun dëser Statistik Modell geschate Klassifikatiounen vun neie Galaxien (Dorënner 5.4) ze produzéieren. Fir dass vun engem sozialen Analog, virstellen, dass Dir demographescher Informatiounen iwwer eng Millioun Schüler hat, an Dir wësst, ob se aus der Uni Diplom oder net. Dir kënnt e Logistikzenter Réckgang fir dës Donnéeën fit, an da kënnt Dir de schéine Modell Parameter benotzt ze soe ob nei Studenten vun der Fachhéichschoul zu CSL ginn. An Maschinn Léieren, dës Approche-Hëllef Fortgeschratten Beispiller engem statisteschen Modell ze schafen, déi dann nei Label kann Daten-Opsiicht Léieren genannt (Hastie, Tibshirani, and Friedman 2009) .

Figur 5,4: Einfacht Beschreiwung vun wéi Banerji et al. (2010) benotzt den Galaxy Zoo Klassifikatiounen enger Maschinn Léieren Modell ze Zuch Galaxis Klassifikatioun ze maachen. Biller vu Galaxien sech zu engem Matrixentgasung vun Fonctiounen ëmgerechent. An dës vereinfacht Beispill sinn do dräi Funktiounen (de Montant vun blo am Bild, de Varianz der Hellegkeet vun de Pixel, an den Undeel vun Net-wäisse Pixel). Dann, fir e Ziel vun de Biller, déi de Galaxy Zoo Etiketten benotzt enger Maschinn Léieren Modell ze trainéieren. Endlech ass d'Maschinn Léieren ze schätzen Klassifikatiounen fir de Rescht Galaxien benotzt. Ech nennen dës Zort Projet eng zweet-Generatioun Mënsch computational Projet well, anstatt de Mënschen e Problem léisen, si Mënschen eng Donnéeën ze bauen, déi benotzt kënne engem Computer ze trainéieren de Problem ze léisen. De Virdeel vun dësem Computer-assisteiert Approche ass, datt et Iech am Fong onendlech Montanten vun Daten nëmmen eng Haapt Montant vun mënschlech Effort mat ze handhaben erméiglecht.

Figur 5,4: Einfacht Beschreiwung vun wéi Banerji et al. (2010) benotzt den Galaxy Zoo Klassifikatiounen enger Maschinn Léieren Modell ze Zuch Galaxis Klassifikatioun ze maachen. Biller vu Galaxien sech zu engem Matrixentgasung vun Fonctiounen ëmgerechent. An dës vereinfacht Beispill sinn do dräi Funktiounen (de Montant vun blo am Bild, de Varianz der Hellegkeet vun de Pixel, an den Undeel vun Net-wäisse Pixel). Dann, fir e Ziel vun de Biller, déi de Galaxy Zoo Etiketten benotzt enger Maschinn Léieren Modell ze trainéieren. Endlech ass d'Maschinn Léieren ze schätzen Klassifikatiounen fir de Rescht Galaxien benotzt. Ech nennen dës Zort Projet eng zweet-Generatioun Mënsch computational Projet well, anstatt de Mënschen e Problem léisen, si Mënschen eng Donnéeën ze bauen, déi benotzt kënne engem Computer ze trainéieren de Problem ze léisen. De Virdeel vun dësem Computer-assisteiert Approche ass, datt et Iech am Fong onendlech Montanten vun Daten nëmmen eng Haapt Montant vun mënschlech Effort mat ze handhaben erméiglecht.

D'Fonctiounen an Banerji et al. (2010) Maschinn Léieren Modell sech méi komplex wéi déi vun mengem Zil Beispill-zum Beispill, si Fonctiounen benotzt wéi "de Vaucouleurs axial Verhältnis fit" -and hire Modell war net Logistikzenter Réckgang, et war eng kënschtlech Mä Netz. Benotzt hir Fonctiounen, hire Modell, an de Konsens Galaxy Zoo Klassifikatiounen duerchzeféieren, hatt konnt Gewiichter ze schafen op all Fonktioun, an duerno dës Gewiichter benotzen fir Prognosen iwwert d'Klassifikatioun vun de Galaxien maachen. Zum Beispill, fonnt hirer Analyse datt Biller mat niddregen "de Vaucouleurs fit axial Verhältnis" Spiralgalaxien gin méi wahrscheinlech goufen. Entscheet dëse Gewiichter, hatt konnt de Mënsch Klassifikatioun vun enger Galaxis mat raisonabel Genauegkeet virauszesoen.

D'Aarbecht vun Banerji et al. (2010) war Galaxy Zoo an wat ech eng zweet-Generatioun Mënsch Berechnung System Opruff wier. Déi bescht Manéier iwwer dës zweet-Generatioun Systemer ze denken ass dass anstatt Mënschen e Problem léisen, si Mënschen eng Donnéeën ze bauen, déi benotzt kënne engem Computer ze trainéieren de Problem ze léisen. De Montant vun Daten waren de Computer ze Zuch kann esou grouss ginn, datt et e Mënsch Mass Zesummenaarbecht ze schafen verlaangt. Am Fall vun Galaxy Zoo, déi Mä Netzwierker vun benotzt Banerji et al. (2010) néideg eng ganz grouss Zuel vun de Mënscherechter-Label Beispiller fir e Modell ze bauen, datt gebass gouf zu zouverlässeg der mënschlecher Klassifikatioun reproduzéieren.

De Virdeel vun dësem Computer-assisteiert Approche ass, datt et Iech am Fong onendlech Montanten vun Daten nëmmen eng Haapt Montant vun mënschlech Effort mat ze handhaben erméiglecht. Zum Beispill, e Fuerscher mat enger Millioun Mënsch séiert Galaxien kann engem predictive Modell bauen, dass da benotzt ka enger Milliard oder souguer eng Billioun Galaxien ze klassifizéieren. Wann et enorm Zuel vu Galaxien sinn, da dëser Aart vu Mënsch-Computer Hybrid ass wierklech déi eenzeg méiglech Léisung. Dëst onendlech Entwécklungsfähegkeet ass net gratis Ee. Gebai eng Maschinn Léieren Modell datt de Mënsch Klassifikatiounen richteg reproduzéiere kann et selwer eng schwéier Problem, mä glécklecherweis gëtt et schon excellent Bicher zu dësem Thema engagéierten (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo weist d'Evolutioun vu ville mënschleche Berechnung Projeten. Éischt, Versich engem Fuerscher de Projet vun selwer oder mat enger klenger Equipe vu Fuerschung Assistenten (zB, initial Klassifikatioun Effort d'Schawinski). Wann dës Approche net gutt geet Skala, kann d'Fuerscher zu engem Mënsch Berechnung Projet plënneren, wou vill Leit Klassifikatiounen bäidroen. Mä, fir eng bestëmmte Volume vun Daten, reng mënschlech Effort gëtt net genuch ginn. Bei dësem leschte Punkt, brauche Fuerscher zweet-Generatioun Systemer ze bauen wou mënschlech Klassifikatiounen benotzt ginn eng Maschinn Léieren Modell ze trainéieren dat kann dann zu quasi onlimitéiert Montanten vun Donnéeën applizéiert ginn.