5.2.1 Galaxy Zoo

Galaxy Zoo vereint die Bemühungen vieler Nicht-Experten Freiwilligen eine Million Galaxien zu klassifizieren.

Galaxy Zoo entstand aus einem Problem konfrontiert von Kevin Schawinski, ein Doktorand in Astronomie an der University of Oxford im Jahr 2007 Vereinfachen ziemlich viel, Schawinski in Galaxien interessiert war, und Galaxien können durch ihre Morphologie-elliptischen klassifiziert werden oder spiral und durch ihre Farbe-blau oder rot. Zu der Zeit war konventionelle Weisheit unter Astronomen, dass Spiralgalaxien wie unsere Milchstraße, in der Farbe (mit Angabe Jugend) blau waren und dass elliptische Galaxien waren in der Farbe rot (unter Angabe Alter). Schawinski zweifelte diese konventionelle Weisheit. Er vermutete, dass während dieses Muster im Allgemeinen wahr sein könnte, gibt es wahrscheinlich eine beträchtliche Anzahl von Ausnahmen waren, und dass von vielen dieser ungewöhnlichen Galaxien-diejenigen studieren, die nicht das passte erwartete Muster-er etwas über den Prozess lernen könnten, durch die Galaxien gebildet.

So benötigt Schawinski was um konventionelle Weisheit zu kippen war eine große Menge von morphologisch klassifizierten Galaxien; das heißt, Galaxien, die als entweder spiralförmig oder elliptisch eingestuft worden waren. Das Problem war jedoch, dass bestehende algorithmische Methoden für die Klassifizierung noch nicht gut genug waren für die wissenschaftliche Forschung verwendet werden; in anderen Worten, Klassifizieren Galaxien war, zu dieser Zeit, ein Problem, das hart für Computer war. Was daher benötigt wurde , war eine große Anzahl von menschlichen klassifiziert Galaxien. Schawinski unterzog sich dieser Klassifizierung Problem mit der Begeisterung eines Student. In einer Marathon-Sitzung von sieben, 12-Stunden-Tag, er war in der Lage 50.000 Galaxien zu klassifizieren. Während 50.000 Galaxien wie viel klingen mag, ist es eigentlich nur etwa 5% der fast eine Million Galaxien, die in der Sloan Digital Sky Survey fotografiert worden war. Schawinski erkannte, dass er einen skalierbaren Ansatz erforderlich.

Glücklicherweise stellt sich heraus, dass die Aufgabe der Klassifizierung von Galaxien nicht Fortbildung in der Astronomie erfordert; Sie kann jemand beibringen, es ist ziemlich schnell zu tun. Mit anderen Worten, obwohl Galaxien ist eine Aufgabe, die Klassifizierung, die schwer für Computer war, war es recht einfach für den Menschen. Also, in einem Pub in Oxford, Schawinski und Kollegen Astronom Chris Lintott beim Sitzen geträumt, eine Website, wo Freiwillige Bilder von Galaxien klassifizieren würde. Ein paar Monate später wurde Galaxy Zoo geboren.

Am Galaxy Zoo-Website, würde Freiwilligen ein paar Minuten Training zu unterziehen; zum Beispiel das Erlernen der Unterschied zwischen einer Spirale und elliptische Galaxie (Abbildung 5.2). Nach diesem Training hatten die Freiwilligen Klassifizierung 11 von 15 Galaxien mit bekannten ein relativ einfaches Quiz-korrekt passieren Einstufungen-und dann würde die Freiwillige wirkliche Klassifikation von unbekannten Galaxien beginnen, durch eine einfache Web-basierte Schnittstelle (Abbildung 5.3). Der Übergang von der Freiwilligen Astronom würde in weniger als 10 Minuten in Anspruch nehmen und nur erforderlich, vorbei am niedrigsten von Hürden, ein einfaches Quiz.

Abbildung 5.2: Beispiele für die zwei Haupttypen von Galaxien: Spiral und elliptisch. Das Galaxy Zoo-Projekt verwendet, um mehr als 100.000 Freiwillige zu den Kategorien mehr als 900.000 Bilder. Quelle: www.galaxyzoo.org.

Abbildung 5.2: Beispiele für die zwei Haupttypen von Galaxien: Spiral und elliptisch. Das Galaxy Zoo-Projekt verwendet, um mehr als 100.000 Freiwillige zu den Kategorien mehr als 900.000 Bilder. Quelle: www.galaxyzoo.org .

Abbildung 5.3: Eingabemaske, wo die Wähler aufgefordert wurden, um ein einzelnes Bild zu klassifizieren. Quelle: www.galaxyzoo.org.

Abbildung 5.3: Eingabemaske, wo die Wähler aufgefordert wurden, um ein einzelnes Bild zu klassifizieren. Quelle: www.galaxyzoo.org .

Galaxy Zoo zog seine ursprüngliche Freiwilligen, nachdem das Projekt in einem Nachrichtenartikel vorgestellt wurde, und in etwa sechs Monaten das Projekt wuchs auf mehr als 100.000 Bürger Wissenschaftler beteiligt, die Menschen, die teilgenommen haben, weil sie die Aufgabe genossen, und sie wollten Voraus Astronomie zu helfen. Zusammen trugen diese 100.000 Freiwilligen insgesamt mehr als 40 Millionen Klassifikationen, mit der Mehrheit der Klassifikationen von einem relativ kleinen Kerngruppe von Teilnehmern kommen (Lintott et al. 2008) .

Forscher, die Erfahrung der Einstellung Wissenschaftliche Assistenten haben könnte sofort über die Datenqualität skeptisch. Während diese Skepsis ist vernünftig, Galaxy Zoo zeigt , dass , wenn freiwillige Beiträge richtig gereinigt werden, debiased und aggregiert, können sie qualitativ hochwertige Ergebnisse produzieren (Lintott et al. 2008) . Ein wichtiger Trick für das Publikum immer professioneller Qualität Daten zu erstellen , ist Redundanz; das heißt, haben die gleiche Aufgabe von vielen verschiedenen Menschen durchgeführt. Im Galaxy Zoo gab es etwa 40 Klassifizierungen pro Galaxie; Forscher Wissenschaftliche Assistenten verwenden nie dieses Niveau der Redundanz leisten könnten und müssen daher mit der Qualität jedes einzelnen Klassifizierung viel mehr betroffen sein. Was die Freiwilligen in der Ausbildung fehlte, machten sie für mit Redundanz auf.

Selbst mit mehreren Klassifikationen pro Galaxie jedoch auf den Satz von freiwilligen Klassifikationen kombiniert erzeugen eine Konsensus-Klassifikation heikel ist. Da sehr ähnlichen Herausforderungen in den meisten menschlichen Rechenprojekte entstehen, ist es hilfreich, kurz die drei Schritte überprüfen, die die Galaxy Zoo Forscher benutzten, um ihre Konsens Einstufungen produzieren. Zunächst werden die Forscher die Daten, die durch das Entfernen falsche Einstufungen "gereinigt". Zum Beispiel Menschen, die die gleiche Galaxie-etwas wiederholt klassifiziert, was passieren würde, wenn sie die zu manipulieren versuchten ergebnis hatten alle ihre Einstufungen verworfen. Diese und andere ähnliche Reinigung entfernt etwa 4% aller Klassifizierungen.

Zweitens, nach der Reinigung, mussten die Forscher systematischer Fehler in Klassifikationen zu entfernen. Durch eine Reihe von Studien Bias - Erkennung innerhalb des ursprünglichen Projekts, zum Beispiel eingebettet, einige Freiwillige die Galaxie in Schwarz - Weiß zeigt anstelle von Farb entdeckten die Forscher mehrere systematischer Fehler, wie eine systematische Verzerrung zu klassifizieren weit weg Spiralgalaxien wie elliptische Galaxien (Bamford et al. 2009) . Bereinigt um diesen systematischer Fehler ist extrem wichtig, weil viele Beiträge von durchschnittlich nicht systematische Verzerrung nicht entfernt; es entfernt nur zufällige Fehler.

Schließlich, nach debiasing mussten die Forscher eine Methode, die einzelnen Klassifikationen kombinieren, um eine Konsensus-Klassifikation zu erzeugen. Der einfachste Weg, Klassifikationen zu kombinieren für jede Galaxie wäre die häufigste Einstufung zu wählen. Allerdings würde dieser Ansatz jeder Freiwillige gleiches Gewicht geben, und die Forscher vermutet, dass einige Freiwillige als andere an Klassifikation besser waren. Deshalb entwickelten die Forscher ein komplexer iterativer Gewichtungsverfahren, das automatisch versucht, die besten Klassifizierer erkennen und ihnen mehr Gewicht geben.

Somit wird nach einem dreistufigen Prozess reinigend, debiasing und Gewichtungs der Galaxy Zoo Forscherteam hatte 40 Millionen Freiwillige Klassifikationen in eine Reihe von Konsens morphologischen Einstufungen umgewandelt. Wenn diese Klassifikationen Galaxy Zoo verglichen wurden drei vorangegangenen kleinere Versuche von professionellen Astronomen, einschließlich der Klassifizierung von Schawinski, die Galaxy Zoo zu inspirieren half, gab es starke Zustimmung. So waren die Freiwilligen in Aggregat Lage , qualitativ hochwertige Klassifikationen zur Verfügung zu stellen und auf einer Skala , die die Forscher nicht mithalten konnte (Lintott et al. 2008) . In der Tat, durch menschliche Einstufungen für eine so große Anzahl von Galaxien mit, Schawinski, Lintott und andere konnten zeigen, dass nur etwa 80% der Galaxien die erwarteten Muster-blaue Spiralen und roten Ellipsen-und zahlreiche Arbeiten geschrieben wurden, folgen über diese Entdeckung (Fortson et al. 2011) .

Vor diesem Hintergrund können wir nun sehen, wie Galaxy Zoo folgt die Split-apply-kombinieren Rezept, das gleiche Rezept, das für die meisten menschlichen Berechnung Projekte verwendet wird. Als erstes wird ein großes Problem in Stücke geteilt. In diesem Fall wird das Problem einer Million Galaxien klassifizieren aufgeteilt in eine Million Probleme einer Galaxie zu klassifizieren. Als nächstes wird eine Operation unabhängig an jeden Chunk angewendet. In diesem Fall würde klassifizieren ein Freiwilliger jede Galaxie als entweder spiralförmig oder elliptisch. Schließlich werden die Ergebnisse kombiniert , um einen Konsens Ergebnis zu erzielen. In diesem Fall enthalten die kombinieren Schritt die Reinigung, debiasing und Gewichtung eine Konsensus-Klassifikation für jede Galaxie zu erzeugen. Auch wenn die meisten Projekte dieser allgemeinen Rezept verwenden, muss jeder der Schritte, um das spezifische Problem angesprochen werden, die gestaltet. Zum Beispiel in der menschlichen Berechnung Projekt weiter unten beschrieben, wird das gleiche Rezept befolgt werden, aber die Anwendung und kombinieren Schritte werden ganz anders sein.

Für das Galaxy Zoo-Team war das erste Projekt erst der Anfang. Sehr schnell erkannten sie , dass , obwohl sie in der Lage waren fast eine Million Galaxien zu klassifizieren, ist diese Waage nicht genug , um mit neueren digitalen Himmelsdurchmusterungen zu arbeiten, die Bilder von etwa 10 Milliarden Galaxien produzieren konnten (Kuminski et al. 2014) . Um einen Anstieg 1.000.000-10000000000-Faktor von 10.000 Galaxy Zoo behandeln müssten rund 10.000 Mal mehr Teilnehmer zu rekrutieren. Auch wenn die Anzahl der Freiwilligen im Internet groß ist, ist es nicht unendlich. Daher stellten die Forscher fest, dass, wenn sie gehen ständig wachsenden Datenmengen zu handhaben, eine neue, noch skalierbare Ansatz benötigt wurde.

Manda Banerji-Arbeit mit Kevin Schawinski, Chris Lintott und andere Mitglieder des Galaxy Zoo-Team-Start Lehre Computer Deshalb, um Galaxien zu klassifizieren. Genauer gesagt verwendet, die menschlichen Klassifizierungen erstellt von Galaxy Zoo, Banerji et al. (2010) gebaut Modell ein maschinelles Lernen, die die menschliche Klassifikation einer Galaxie könnte vorhersagen , basierend auf den Eigenschaften des Bildes. Wenn diese Maschine Lernmodell der menschlichen Klassifizierungen mit hoher Genauigkeit zu reproduzieren könnte, dann könnte es von Galaxy Zoo Forscher verwendet werden, um eine im wesentlichen unbegrenzte Anzahl von Galaxien zu klassifizieren.

Der Kern von Banerji und Kollegen Ansatz ist eigentlich ziemlich ähnlich zu Techniken, die üblicherweise in der Sozialforschung verwendet, obwohl diese Ähnlichkeit auf den ersten Blick nicht klar sein könnten. Zuerst konvertiert Banerji und Kollegen jedes Bild in eine Reihe von numerischen Funktionen , die es Eigenschaften zusammenfassen. Beispielsweise für Bilder von Galaxien könnte es drei Funktionen sein: die Menge von Blau in dem Bild, die Varianz in der Helligkeit der Pixel, und der Anteil der nicht-weißen Pixel. Die Auswahl der richtigen Features ist ein wichtiger Teil des Problems, und es erfordert in der Regel fach Bereich Know-how. Dieser erste Schritt, gemeinsam Feature - Engineering genannt, führt zu einer Datenmatrix mit einer Zeile pro Bild und dann drei Spalten beschreiben das Bild. Angesichts der Datenmatrix und die gewünschte Ausgabe (zum Beispiel, ob das Bild von einem Menschen als einer elliptischen Galaxie eingestuft wurde), der Forscher schätzt die Parameter eines statistischen Modells, zum Beispiel so etwas wie eine logistische Regression-, die die menschliche Klassifikation prognostiziert basierend auf die Eigenschaften des Bildes. Schließlich verwendet der Forscher die Parameter in diesem statistischen Modell geschätzten Klassifikationen neuer Galaxien (Abbildung 5.4) zu erzeugen. Zu denken, eines sozialen analog, vorstellen, dass Sie demografische Informationen über eine Million Studenten hatten, und Sie wissen, ob sie das College abgeschlossen ist oder nicht. Sie könnten eine logistische Regression auf diese Daten passen, und dann könnte man die resultierenden Modellparameter verwenden, um vorherzusagen, ob neue Studenten von der Hochschule zu absolvieren werden. In dem maschinellen Lernen, dieser Ansatz-Hilfe markierter Beispiele ein statistisches Modell zu erstellen , die dann neu beschriften können Daten wird überwacht Lernen genannt (Hastie, Tibshirani, and Friedman 2009) .

Abbildung 5.4: Vereinfachte Beschreibung, wie Banerji et al. (2010) verwendet, um die Galaxy Zoo Klassifikationen eine Maschine Lernmodell zu trainieren Galaxie Klassifizierung zu tun. Bilder von Galaxien wurden in einer Matrix von Funktionen umgewandelt. In diesem vereinfachten Beispiel sind drei Merkmale (die Menge von Blau in dem Bild, die Varianz in der Helligkeit der Pixel, und der Anteil der nicht-weiße Pixel). Dann wird für eine Teilmenge der Bilder werden die Galaxy Zoo-Etiketten verwendet, um eine Maschine Lernmodell zu trainieren. Schließlich wird das maschinelles Lernen zu schätzen Einstufungen für die übrigen Galaxien verwendet. Ich nenne diese Art von Projekt der zweiten Generation menschlichen Rechen Projekt, weil, anstatt den Menschen ein Problem zu lösen, haben sie den Menschen einen Datensatz erstellen, die verwendet werden können, einen Computer zu trainieren, das Problem zu lösen. Der Vorteil dieser computergestützten Ansatz ist, dass es im Wesentlichen unendliche Datenmengen nur eine endliche Menge an menschlicher Anstrengung mit Griff ermöglicht.

Abbildung 5.4: Vereinfachte Beschreibung, wie Banerji et al. (2010) verwendet , um die Galaxy Zoo Klassifikationen eine Maschine Lernmodell zu trainieren Galaxie Klassifizierung zu tun. Bilder von Galaxien wurden in einer Matrix von Funktionen umgewandelt. In diesem vereinfachten Beispiel sind drei Merkmale (die Menge von Blau in dem Bild, die Varianz in der Helligkeit der Pixel, und der Anteil der nicht-weiße Pixel). Dann wird für eine Teilmenge der Bilder werden die Galaxy Zoo-Etiketten verwendet, um eine Maschine Lernmodell zu trainieren. Schließlich wird das maschinelles Lernen zu schätzen Einstufungen für die übrigen Galaxien verwendet. Ich nenne diese Art von Projekt der zweiten Generation menschlichen Rechen Projekt, weil, anstatt den Menschen ein Problem zu lösen, haben sie den Menschen einen Datensatz erstellen, die verwendet werden können, einen Computer zu trainieren, das Problem zu lösen. Der Vorteil dieser computergestützten Ansatz ist, dass es im Wesentlichen unendliche Datenmengen nur eine endliche Menge an menschlicher Anstrengung mit Griff ermöglicht.

Die Merkmale in Banerji et al. (2010) Maschine Lernmodell waren komplexer als die in meinem Spielzeug Beispiel, zum Beispiel sie Funktionen verwendet wie "de Vaucouleurs Axialverhältnisses passen« , und ihr Modell war nicht logistische Regression, war es ein künstliches neuronales Netz. Mit ihren Zügen, ihr Modell und die Konsens Galaxy Zoo Klassifikationen konnte sie Gewichte zu erstellen, die auf die einzelnen Features, und dann diese Gewichte verwenden, um Vorhersagen über die Klassifizierung von Galaxien machen. Zum Beispiel fand ihre Analyse, dass die Bilder mit geringer "de Vaucouleurs passen Axialverhältnisses" Spiralgalaxien zu sein, wahrscheinlicher waren. In Anbetracht dieser Gewichte, konnte sie die menschliche Klassifikation einer Galaxie mit hinreichender Genauigkeit vorherzusagen.

Die Arbeit von Banerji et al. (2010) drehte Galaxy Zoo in das, was ich eine zweite Generation menschlichen Berechnungssystem nennen würde. Der beste Weg, um diese Systeme der zweiten Generation zu denken, dass, anstatt den Menschen ein Problem zu lösen, haben sie den Menschen einen Datensatz erstellen, die verwendet werden können, einen Computer zu trainieren, das Problem zu lösen. Die Menge an Daten benötigt, um den Computer zu trainieren kann so groß sein, dass sie eine menschliche Massen Zusammenarbeit zu schaffen, erfordert. Im Fall von Galaxy Zoo, die neuronalen Netze durch verwendet Banerji et al. (2010) benötigt , um eine sehr große Anzahl von menschlichen markierten Beispiele , um ein Modell zu erstellen , die der Lage war , um zuverlässig die menschliche Klassifizierung reproduzieren.

Der Vorteil dieser computergestützten Ansatz ist, dass es im Wesentlichen unendliche Datenmengen nur eine endliche Menge an menschlicher Anstrengung mit Griff ermöglicht. Zum Beispiel, ein Forscher mit einer Million Menschen klassifiziert Galaxien können ein Vorhersagemodell erstellen, die dann dazu verwendet werden kann, eine Milliarde oder sogar eine Billion Galaxien zu klassifizieren. Wenn es eine enorme Anzahl von Galaxien sind, dann ist diese Art der Mensch-Computer-Hybrid ist wirklich die einzig mögliche Lösung. Diese unendliche Skalierbarkeit ist nicht frei, aber. Der Aufbau eines maschinellen Lernmodell, das die menschliche Klassifikationen korrekt wiedergeben kann , ist selbst ein schwieriges Problem, aber zum Glück gibt es bereits hervorragende Bücher zu diesem Thema gewidmet (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) . .

Galaxy Zoo zeigt die Entwicklung vieler menschlicher Berechnung Projekte. Zunächst versucht ein Forscher das Projekt alleine oder mit einem kleinen Team von wissenschaftlichen Mitarbeitern (zB anfängliche Einstufung Bemühungen der Schawinski). Wenn dieser Ansatz nicht gut skalierbar ist, kann der Forscher zu einem menschlichen Berechnung Projekt bewegen, wo viele Menschen Klassifikationen beitragen. Aber für eine bestimmte Datenmenge, rein menschliche Anstrengung wird nicht genug sein. An diesem Punkt müssen Forscher Systemen der zweiten Generation zu bauen, wo menschliche Einstufungen verwendet werden, eine Maschine Lernmodell zu trainieren, die dann praktisch unbegrenzte Mengen an Daten angewendet werden.