5.2.1 Galaxy Zoo

Galaxy Zoo kombinéiert d'Efforten vun villen net-experten Fräiwëlleger fir eng Millioun Galaxien ze klasséieren.

De Galaxi Zoo ass aus engem Problem konfrontéiert, dee vum Kevin Schawinski, dem Graduéierte an der Astronomie an der University of Oxford, agefouert gouf. Amgaange sinn zimlech kuerz, Schawinski war interesséiert fir Galaxien, a Galaxien kënnen klasséiert ginn duerch hir Morphologie-elliptesch oder spiralfërmeg duerch hir Faarf oder Blo. Zu dëser Zäit war d'konventionell Weisheet tëscht Astronomen datt Spiralgalaxien, wéi eis Mëllechstier, blo an der Faarf waren (jugendlech Zeechen) an elliptesch Galaxien waren roueg (wat d'Alters agehale). Schawinski hu misse mat dëser konventioneller Wäisheet gezunn. Hien huet gemengt, datt dëst Muster ëmmer am allgemengen richteg ass, datt et wahrscheinlech e groussen Ausnamen waren, an datt duerch vill Studie vun dëse ongewéinlech Galaxien - déi déi net mat dem erwuessene Muster passen - hie kann eppes iwwer den Prozess léieren, duerch deen Galaxien hu sech geformt.

Also, wat Schawinski brauch fir d'konventionell Wäisheet ëmzekippen, war e groussen Satz vu morphologesch klasséiert Galaxien; dat ass Galaxien, déi entweder spiral oder elliptesch klasséiert klasséiert waren. De Problem ass awer datt déi existenziell algorithmesch Methoden fir Klassifikatioun nach net gutt genuch waren fir wëssenschaftlech Fuerschung ze benotzen; An anere Wierder, ass Klassifizéierung Galaxien war zu deem Zäit e Problem, deen schwéier fir Computere war. Dofir ass wat eng Noutwendegkeet war eng grouss Unzuel vu menschen- klassifizéierte Galaxien. Schawinski huet dës Klassifikatiounsproblem mat der Begeeschterung vun engem Diplom Student studéiert. An enger Marathon Sessioun vu siwen 12 Stonne Deeg konnt hien sech 50.000 Galaxien klassifizéieren. Während 50.000 Galaxien vläicht esou vill sinn, ass et eigentlech nëmmen ongeféier 5% vun de bal eng Millioun Galaxien déi am Sloan Digital Sky Survey fotograféiert goufen. Schawinski realiséiert datt hien eng méi skalierbar Approche brauch.

Ma, et stellt sech eraus, dass d'Aufgab vun classifying Galaxien net spezifesch Formatioun an der Astronomie heescht verlaangen; Dir kënnt een léieren et relativ séier ze maachen. An anere Wierder, och wann Galaxien ass eng Aufgab classifying datt schwéier fir Computeren huet, war et relativ einfach fir Mënschen. Also, an engem Café zu Oxford, Schawinski a Matbierger Astronom Chris Lintott iwwerdeems Sëtzen gedreemt e Site an wou Fräiwëlleger Biller vu Galaxien klassifizéieren géif. E puer Méint méi spéit, war Galaxy Zoo gebuer.

Op der Galaxy Zoo Websäit hunn d'Fräiwëlleger e puer Minutten Trainingstrafe erfonnt; zum Beispill, den Ënnerscheed tëscht enger Spiralgalaxie (5.2) ze léieren. No dësem Training hunn all Volontäre e relativ einfache Quiz wéi 11 vun 15 Galaxien mat bekannten Klassifikatiounen ze verlaangen - an dann wier eng echte Klassifikatioun vun onbekannte Galaxien duerch eng einfache webbasierte Interface (5.3) unzefänken. Den Iwwergank vum Volontär zum Astronom kéint an manner wéi 10 Minutten stattfannen an nëmme just den drëtten vun Hürden ze verlaangen, e einfachen Quiz.

Bild 5.2 Beispiller vun deenen zwee Haapttypen vun Galaxien: Spiral a Elliptesch. De Galaxy Zoo Projet huet méi wéi 100.000 Fräiwëlleger benotzt fir méi wéi 900.000 Biller ze kategoriséieren. Gitt mat der Erlaabnis vum http://www.GalaxyZoo.org a Sloan Digital Sky Survey.

Bild 5.2 Beispiller vun deenen zwee Haapttypen vun Galaxien: Spiral a Elliptesch. De Galaxy Zoo Projet huet méi wéi 100.000 Fräiwëlleger benotzt fir méi wéi 900.000 Biller ze kategoriséieren. Gitt mat der Erlaabnis vum http://www.GalaxyZoo.org a Sloan Digital Sky Survey .

Figure 5.3: Bildschirm d'Input wou d'Fräiwëlleger gefrot hunn eng eenzeg Bild ze klasséieren. Duerch d'Erlaabnes vum Chris Lintott ginn op Basis vun engem Bild vum Sloan Digital Sky Survey reproduzéiert.

Figure 5.3: Bildschirm d'Input wou d'Fräiwëlleger gefrot hunn eng eenzeg Bild ze klasséieren. Duerch d'Erlaabnes vum Chris Lintott ginn op Basis vun engem Bild vum Sloan Digital Sky Survey reproduzéiert .

De Galaxy Zoo huet seng éischt fräiwëlleger Organisatioun gezunn, nodeems de Projet e Pressekonzert an engem Newsartikel agefouert huet an an ongeféier 6 Méint huet de Projet méi wéi 100.000 Biergerwëssenschaftler involvéiert, d'Leit, déi ugeholl hunn, well se d'Aufgab genoss hunn an si wollten d'Astronomie ze promovéieren. Zesumme konnten dës 100.000 Fräiwëlleger insgesamt 40 Milliounen Klassifikatiounen beherrschen, mat der Majoritéit vun den Klassifikatiounen aus enger relativ klenger, deelweiser Grupp vun den Participanten (Lintott et al. 2008) .

D'Fuerscher déi Experienz mat engem erfollegräichen Fuerschungshëllef kréien hunn, kënne direkt Datenquelle skeptesch sinn. Während dëser Skepsis sinn raisonabel ass de Galaxie Zoo datt wann fräiwëlleger Contributiounen richteg geraumt, debiéiert a aggregéiert sinn, kënnen se qualitativ Resultater produzéieren (Lintott et al. 2008) . E wichtegt Trick fir d'Leit ze sammelen fir qualitativ héichwäerteg Daten ze erstellen, ass Redundanz , dat heescht déi selwecht Aufgab vu ville verschiddene Leit. Am Galaxy Zoo waren et ongeféier 40 Klassifikatiounen pro Galaxis. Fuerscher déi Undergraduéierter Fuerscher hëllefe kënne sech ni sou ofgrenze mam Redundanz leeschten an dofir mussen vill méi mat der Qualitéit vun all individueller Klassifikatioun betrëfft. Wat d'Fräiwëlleger an der Ausbildung lackéiert hunn, hunn se mat Redundanz gemaach.

Och mat méi klassifizéierter Klassifikatioun pro Galaxis, déi de Satz vu Volontär Klassifikatiounen kombinéiere fir eng Konsensclassifikatioun ze produzéieren, war et komplizéiert. Well besonnesch ähnlech Erausfuerderungen an de meeschte mënschlech Berechtegungsprojeten entstinn, ass et hëllefrid ze iwwerpréiwen déi dräi Schrëtt, déi d'Galaxis Zoo-Fuerscher benotzt hunn fir hir Konsensklassifikatioun ze produzéieren. Als éischt hunn d'Fuerscher "d'Daten" gereinegt andeems d'Scheierklassemente geäussert ginn. Zum Beispill, Leit, déi d'selwecht Galaxie ëmmer erëm klasséiert hunn - wat dat geschitt, wann se versicht d'Resultater ze manipuléieren - hunn all hir Klassifikatiounen verworf. Dëst an aner ähnlech Akeef huet ëm 4% vun alle Klassifikatiounen entfernt.

Zweetens, no der Sanéierung, musse d'Fuerscher systematesch Bereetschaft an Klassifikatiounen erofhuelen. Duerch eng Serie vu Viraussichtungsstudien, déi an der ursprénglecher Projete agefouert goufen, zum Beispill, e puer Fräiwëlleger déi Galaxis am Monochrom anstatt vu Faarf ze weisen, hunn d'Fuerscher verschidde systematesch Biasien entdeckt, wéi eng systematesch Viraussetzung fir wäit aus Spiralgalaxien als elliptesch Galaxien klasséiert (Bamford et al. 2009) . Andeems dës systematesch Biessen agefouert gi sinn extrem wichteg, well d'Redundanz net automatesch systematesch Viraussetzung eliminéiert; Et hëlleft nëmmen zoufälleg Feeler.

Endlech, no der Debiilatioun hunn d'Fuerscher eng Method gebraucht fir d'eenzel Klassifikatiounen ze kombinéieren fir eng Konsensklassifikatioun ze produzéieren. Déi einfachst Méiglechkeet, Klassifikatiounen fir all Galaxie ze kombinéieren wären déi gewéinlech üblech Klassifikatioun. Allerdéngs wier dës Approche eegestänneg Gläichen gläich gewiilt, an d'Fuerscher hunn fonnt datt verschidde Fräiwëlleger besser an der Klassifikatioun waren wéi anerer. Dofir hunn d'Fuerscher e méi komplexe iterative Gewiichtverfahren entwéckelt, déi versicht d'bescht Klassifizéierer ze detektéieren an hinnen méi Gewiicht ze ginn.

Domat huet de Galaxy Zoo Research Team no enger drëtt Stufe Prozess-Reinigung, Debiiléierung a Gewichteung ëmgewandelt 40 Milliarde Volontär Klassifikatiounen an eng Rei vu Konsensus morphologesch Klassifikatiounen. Wéi dës Galaxie Zoo Klassifikatiounen am Verglach mat dräi fréizäiteg Versécherungen vu professionelle Astronomen verglach goufe, dorënner d'Klassifikatioun vum Schawinski, déi dem Galaxy Zoo gehollef hunn, ass et staark. Esou konnten d'Fräiwëlleger aggregéiert sinn, qualitativ héichqualifizéiert Klassifikatiounen ze hunn an op enger Skala déi d'Fuerscher net (Lintott et al. 2008) konnten (Lintott et al. 2008) . Tatsächlech, duerch mënschlech Klassifikatiounen fir sou eng grouss Zuel vu Galaxien, Schawinski, Lintott a soss hunn d'Show ze weisen datt nëmmen ongeféier 80% vun de Galaxien der erwarteter Musterblau-Spiralen an rout elliptesch sinn - a vill Dokumenter sinn geschriwwen Dës Entdeckung (Fortson et al. 2011) .

Mat dësem Hintergrund kënnt Dir kucken, wéi d'Galaxis Zoo dem Spalt-Applikat verbënnt Rezept, dee selwechte Rezept, dee fir déi meescht Mënscherechnungsprojekte benotzt gëtt. Eischtens gëtt e grousst Problem op Stécker gespaut . An dësem Fall gouf de Problem vun der Klassifizéierung vun enger Millioun Galaxien op eng Millioun Problemer vun der Klassifizéierung vun enger Galaxis. Nächst, ass eng Operatioun onofhängeg ze all Chunk applizéiert. An dësem Fall hunn d'Fräiwëlleger all Galaxis als entweder Spiral oder Elliptesch klasséiert. Endlech sinn d'Resultater kombinéiert fir e Konsensfolle Resultat ze produzéieren. An dësem Fall waren d'Kombinatiounskricher d'Reinéierung, Debiiléierung a Gewichte fir eng Konsensklassifikatioun fir all Galaxis ze produzéieren. Och wann d'meescht Projeten dëse generellen Rezept benotzen, muss all Schrëtt fir de spezifesche Problem adresséiert ginn. Zum Beispill, am mënschleche Rechnungsprojekt, deen hei ënnendrënner beschriwwe gëtt, gëtt dat selwecht Rezept verfaasst, awer d'Applikatioun a Kombinatioun vu Schrëtt ass ganz anescht.

Fir den Galaxy Zoo Team war dëst éischt Projet just den Ufank. Ganz séier hunn se realiséiert datt och wa se an enger Millioune Galaxien klassifizéiere kënnen, ass dës Skala net genuch fir mat méi neien digitale Sky-Ëmfroen ze schaffen, déi Biller vun ongeféier 10 Milliarde Galaxien produzéieren (Kuminski et al. 2014) . Fir eng Vergréisserung vun 1 Millioun op 10 Milliarden ze féieren - e Faktor vun 10.000-Galaxy Zoo muss ongeféier 10.000-mol méi Participanten rekrutéieren. Och wann d'Zuel vu Fräiwëlleger am Internet grouss ass, ass et net onendlech. Dofir hunn d'Fuerscher realiséiert datt si wa se all ëmmer wuessende Mounts vu Daten handhaben, gouf eng nei, méi skalierbar, Approche gebraucht.

De Manda Banerji schafft mat Schawinski, Lintott an och aner Membere vum Galaxy Zoo Team (2010) gestartete Léierpersonal fir Galaxien ze klassifizéieren. Méi spezifesch mat der menschlech Klassifikatioun vum Galaxy Zoo, huet Banerji e Maschinnmodell gebaut, deen d'mënschlech Klassifizéierung vun enger Galaxie mat der Charakteristike vum Bild virstellen kann. Wann dëst Modell d'mënschlech Klassifikatioun mat héich Genauegkeet reproduzéiere kann, da kann et vun de Galaxis Zoo-Forscher benotzt ginn fir eng onendlech onendlech Nummer vu Galaxien klassifizéieren.

De Kär vum Banerji an d'Kollegen Approche ass eigentlech zimlech ähnlech wéi Techniken, déi allgemeng an der sozialer Fuerschung benotzt ginn, obschonn dës Ähnlechkeet net op den éischte Bléck kloer ass. Fir d'éischt hunn Banerji an Kollegen all Bild an eng Rei vu numeresche Fonktiounen konvertéiert, déi hir Properties summariséiert hunn. Zum Beispill, fir Biller vun Galaxien, kann et dräi Charakteristiken sinn: d'Quantitéit vu blo am Bild, d'Varianz an der Helligkeit vun den Pixelen, an den Undeel vun net-wäiss Pixelen. D'Auswiel vun den korrektene Fonctiounen ass en wichtege Bestanddeel vun dem Problem, an et erfëllt allgemeng Thema Fachwëssen. Dëse éischten Schrëtt, allgemeng genannt Fonktionstechnik , entstinn an enger Matrix mat enger Zeil pro Bild an dann dräi Spalten, déi dësen Bild beschreiwen. Fir d'Matrix vun der Matrix an de gewënschten Output (z. B. datt d'Bild duerch e Mënsch als elliptesch Galaxis klasséiert gouf) entwéckelt de Wëssenschaftler e statisteschen oder Maschinnmodell - zum Beispill logistesch Regressioun - déi de mënschleche Klassifikatioun baséiert op de Fonctiounen vum Bild. Endlech benotze de Fuerscher d'Parameter an dësem statistesche Modell fir geschate Klassifikatiounen vun neie Galaxien ze produzéieren (5.4). An Maschinn Léieren, dës Approche-benotzt Label Beispiller e Modell ze schafen, datt dann neie Label kann Daten-ass iwwerwaachter Léieren genannt.

Figure 5.4: Vereinfachte Beschreiwung vu Banerji et al. (2010) huet d'Galaxie Zoo Klassifikatiounen benotzt fir e Maschinnmodell ze trainéieren, fir d'Galaxiëklassement ze maachen. Biller vun Galaxien goufen an eng Matrix vu Fonctiounen ëmgewandelt. An dësem vereinfachten Exemplar sinn dräi Features (déi blo Betrag am Bild, d'Varianz an der Helligkeit vun den Pixelen, an den Undeel vun nonwhite Pixelen). Dann, fir e Subset vun den Biller, ginn d'Galaxis Zoo Etiketten benotzt fir e Maschinnmodell ze trainéieren. Endlech ass d'Maschinn Léierin benotzt fir Klassifikatiounen fir déi aner Galaxien ze schätzen. Ech nennen et e Computer-Assistent mënschlech Berechtegungsprojet, well anstatt datt d'Mënschen ee Problem léisen, huet d'Mënschen e Dataset erstallt deen benotzt kann fir e Computer ze trainéieren, fir de Problem ze léisen. De Virdeel vun dësem Computer-assistéierte mënschlech Berechnungssystem ass dat et Iech erméiglecht datt et essentiell onendlech Mounts vu Daten gëtt mat enger limitéierter Unzuel vun mënschlechen Effort. Biller vun Galaxien déi mat der Erlaabnes vun der Sloan Digital Sky Survey reproduzéiert goufen.

Figure 5.4: Vereinfachte Beschreiwung vu Banerji et al. (2010) huet d'Galaxie Zoo Klassifikatiounen benotzt fir e Maschinnmodell ze trainéieren, fir d'Galaxiëklassement ze maachen. Biller vun Galaxien goufen an eng Matrix vu Fonctiounen ëmgewandelt. An dësem vereinfachten Exemplar sinn dräi Features (déi blo Betrag am Bild, d'Varianz an der Helligkeit vun den Pixelen, an den Undeel vun nonwhite Pixelen). Dann, fir e Subset vun den Biller, ginn d'Galaxis Zoo Etiketten benotzt fir e Maschinnmodell ze trainéieren. Endlech ass d'Maschinn Léierin benotzt fir Klassifikatiounen fir déi aner Galaxien ze schätzen. Ech nennen et e Computer-Assistent mënschlech Berechtegungsprojet, well anstatt datt d'Mënschen ee Problem léisen, huet d'Mënschen e Dataset erstallt deen benotzt kann fir e Computer ze trainéieren, fir de Problem ze léisen. De Virdeel vun dësem Computer-assistéierte mënschlech Berechnungssystem ass dat et Iech erméiglecht datt et essentiell onendlech Mounts vu Daten gëtt mat enger limitéierter Unzuel vun mënschlechen Effort. Biller vun Galaxien déi mat der Erlaabnes vun der Sloan Digital Sky Survey reproduzéiert goufen.

D'Besoinen vun de Banerji an de Maschinnmodell vun de Kollegen waren méi komplexer wéi déi vu mengem Spillzuch - zum Beispill benotzt si Besëtzer wéi de "Vaucouleurs fit axiale Verhältnis" - an hirem Modell war net logistesch Regressioun, et war e kënschtlesch neural Netz. Mat hir Besoinen, hirem Modell an de Konsens Galaxis Zoo Klassifikatiounen konnt se d'Gewichte bei all Feature kreéieren, an dann benotzt dës Gewichte fir Prognosen iwwer d'Klassifikatioun vun Galaxien ze maachen. Zum Beispill, hir Analyse fonnt datt d'Biller mat nidderegen "de Vaucouleurs axial Verhältnis passen" méi eeler sinn Spiralgalaxien. Wéinst dëser Gewichte konnte se d'mënschlech Klassifikatioun vun enger Galaxis mat vernifizéierter Genauegkeet virstellen.

D'Aarbecht vu Banerji an Kollegen huet den Galaxy Zoo an dat wat ech als Computer-Assistent mënschlech Berechtegungssystem ruffen géifen. Déi bescht Method, iwwer dës Hybridsystemer ze denken, ass dat, anstatt datt d'Mënschen ee Problem léisen. Si hunn d'Mënschheet e Dataset erstallt deen benotzt kann fir e Computer ze trainéieren fir de Problem ze léisen. Heiansdo d'Ausbildung vun engem Computer fir de Problem ze léisen kann vill Beispiller erfuerden, an déi eenzeg Manéier fir eng genuch Beispiller ze produzéieren ass eng masseg Zesummenaarbecht. De Virdeel vun dësem Computer-assistéierte Approche ass, datt et Iech erméiglecht et essentiel onendlech Mounts vun Daten ze manipuléieren, mat nëmmen e finanziellen Ëmfeld vun der mënschlecher Ustrengung. Zum Beispill kann e Fuerscher mat enger Millioun Mënschelokaliséiert Galaxien e prädiktiven Modell bauen, deen dann eng Milliarde oder souguer e Billionen Galaxien klassifizéiere kann. Wann et enorm Zuelen vu Galaxien gëtt, dann ass dës Art vu Mënscherechter Hybrid wierklech d'eenzeg Léisung. Dës onendlech Skalierbarkeet ass net fräi. Fir e Maschinenzuchmodell ze bauen, deen d'mënschlech Klassifikatioun korrekt reproduzéiere kann, ass et e schlechten Problem, awer glécklecherweis sinn et schonn exzellente Bücher, déi dësem Thema gewidmet (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo ass eng gutt Iddi fir wéi vill mënschlech Rechenprojekten evolueieren. Eischtens versprécht e Fuerscher de Projet selwer oder mat engem klengen Team vun de Fuerscher (z. B. Schawinski seng initial Klassifikatioun). Wann dës Approoss net gutt ass, kann de Fuerscher mat villen Participanten zu engem mënschlechen Rechenprojet goen. Mä, fir e gewëssen Undeel vun Daten, gëtt de richtegen Mënsch Effort net genuch. Duerfir mussen d'Fuerscher en Computer-Assistent mënschlech Berechtegungssystem bauen, wou mënschlech Klassifikatiounen benotzt ginn fir e Maschinnmodell ze trainéieren, deen dann op praktesch onbegrenzte Mounts vu Daten applizéiert gëtt.