5.2.1 Galaxy Zoo

Galaxy Zoo unisce gli sforzi di molti volontari non esperti per classificare un milione di galassie.

Galaxy Zoo nasce da un problema affrontato da Kevin Schawinski, uno studente laureato in Astronomia presso l'Università di Oxford nel 2007. semplificando un po ', Schawinski era interessato a galassie e le galassie possono essere classificati per la loro morfologia-ellittica o spirale e dal colore blu o rosso. A quel tempo, la saggezza convenzionale tra gli astronomi era che le galassie a spirale, come la nostra Via Lattea, erano di colore blu (giovani che indica) e che le galassie ellittiche erano di colore rosso (che indica la vecchiaia). Schawinski dubitava questa saggezza convenzionale. Sospettava che, mentre questo modello potrebbe essere vero in generale, ci sono stati probabilmente un considerevole numero di eccezioni, e che studiando un sacco di questi insoliti galassie, quelli che non si adattavano l'atteso modello-avrebbe potuto imparare qualcosa circa il processo attraverso il quale galassie formate.

Così, quello che Schawinski necessario al fine di ribaltare la saggezza convenzionale è stato un grande insieme di galassie morfologicamente classificati; cioè galassie che erano stati classificati come sia spirale o ellittica. Il problema, però, era che i metodi algoritmici esistenti per la classificazione non erano ancora abbastanza buono per essere utilizzato per la ricerca scientifica; In altre parole, le galassie classificare era, a quel tempo, un problema che è stato difficile per i computer. Pertanto, ciò che era necessario era un gran numero di galassie classificate umani. Schawinski ha intrapreso questo problema di classificazione con l'entusiasmo di uno studente laureato. In una sessione maratona di sette, 12 ore al giorno, è stato in grado di classificare 50.000 galassie. Mentre 50.000 galassie possono sembrare molto, in realtà è solo il 5% dei quasi un milione di galassie che erano stati fotografati nella Sloan Digital Sky Survey. Schawinski si rese conto che aveva bisogno di un approccio più scalabile.

Per fortuna, si scopre che il compito di galassie che classificano non richiede una formazione avanzata in astronomia; si può insegnare a qualcuno di farlo abbastanza rapidamente. In altre parole, anche se classificare le galassie è un compito che è stato difficile per i computer, è stato abbastanza facile per gli esseri umani. Così, mentre seduto in un pub di Oxford, Schawinski e collega astronomo Chris Lintott sognato un sito web dove i volontari sarebbero classificare le immagini di galassie. Pochi mesi dopo, Galaxy Zoo è nato.

Sul sito Galaxy Zoo, i volontari avrebbero subito un paio di minuti di allenamento; per esempio, imparare la differenza tra una spirale e galassia ellittica (Figura 5.2). Dopo questa formazione, i volontari dovevano passare una relativamente facile quiz-correttamente classificare 11 su 15 galassie con note classificazioni e poi il volontario comincerebbe reale classificazione delle galassie sconosciute attraverso una semplice interfaccia web-based (Figura 5.3). Il passaggio da volontario a astronomo avverrebbe in meno di 10 minuti e richiesto solo passando il più basso di ostacoli, un semplice quiz.

Figura 5.2: Esempi di due tipi principali di galassie: a spirale e ellittiche. Il progetto Galaxy Zoo utilizzato più di 100.000 volontari a categorie più di 900.000 immagini. Fonte: www.galaxyzoo.org.

Figura 5.2: Esempi di due tipi principali di galassie: a spirale e ellittiche. Il progetto Galaxy Zoo utilizzato più di 100.000 volontari a categorie più di 900.000 immagini. Fonte: www.galaxyzoo.org .

Figura 5.3: Schermata di ingresso dove gli elettori è stato chiesto di classificare una singola immagine. Fonte: www.galaxyzoo.org.

Figura 5.3: Schermata di ingresso dove gli elettori è stato chiesto di classificare una singola immagine. Fonte: www.galaxyzoo.org .

Galaxy Zoo ha attratto i suoi volontari iniziali dopo che il progetto è stato descritto in un articolo, e in circa sei mesi il progetto è cresciuto di coinvolgere più di 100.000 cittadini scienziati, le persone che hanno partecipato, perché hanno goduto il compito e volevano aiutare l'astronomia anticipo. Insieme, questi 100.000 volontari hanno contribuito per un totale di oltre 40 milioni di classificazioni, con la maggior parte delle classificazioni provenienti da un relativamente piccolo, nucleo di partecipanti (Lintott et al. 2008) .

I ricercatori che hanno esperienza di assumere assistenti di ricerca universitari potrebbero essere immediatamente scettici circa la qualità dei dati. Mentre questo scetticismo è ragionevole, Galaxy Zoo dimostra che quando i contributi volontari siano correttamente puliti, debiased, e aggregati, possono produrre risultati di qualità elevata (Lintott et al. 2008) . Un trucco importante per ottenere la folla per creare i dati di qualità professionale è la ridondanza; vale a dire, avendo la stessa operazione eseguita da molte persone diverse. In Galaxy Zoo, c'erano circa 40 classificazioni per Galaxy; ricercatori utilizzando assistenti di ricerca universitari non potrebbe mai permettersi questo livello di ridondanza e, pertanto, devono essere molto più interessato con la qualità di ogni singolo classificazione. Quello che i volontari mancava in allenamento, hanno compensato con la ridondanza.

Anche con più classificazioni per galassia, tuttavia, che unisce l'insieme delle classificazioni volontari per produrre una classificazione consenso è difficile. Perché sfide molto simili sorgono nella maggior parte dei progetti di calcolo umano, è utile passare brevemente in rassegna i tre passi che i ricercatori Galaxy Zoo utilizzati per produrre le loro classificazioni di consenso. In primo luogo, i ricercatori hanno "pulito" i dati, eliminando le classificazioni fasulli. Ad esempio, le persone che ripetutamente classificati stessa galassia, cosa che accadrebbe se stavano cercando di manipolare i risultati, hanno tutte le loro classificazioni scartati. Questo e altri simili pulizia rimosso circa il 4% di tutte le classificazioni.

In secondo luogo, dopo la pulizia, i ricercatori hanno bisogno di rimuovere le distorsioni sistematiche nelle classificazioni. Attraverso una serie di studi di rilevamento pregiudizi incorporati nel esempio originale progetto per, mostrando alcuni volontari della galassia in bianco e nero anziché a colori, i ricercatori hanno scoperto diverse distorsioni sistematiche, come ad esempio un errore sistematico per classificare le galassie lontane a spirale come galassie ellittiche (Bamford et al. 2009) . Regolazione per queste distorsioni sistematiche è estremamente importante perché una media di molti contributi non rimuove errore sistematico; si rimuove solo errore casuale.

Infine, dopo debiasing, i ricercatori hanno bisogno di un metodo per combinare i singoli classificazioni per produrre una classificazione consenso. Il modo più semplice per combinare le classificazioni per ogni galassia sarebbe quella di scegliere la classificazione più comune. Tuttavia, questo approccio darebbe ogni volontario peso uguali, ed i ricercatori sospetta che alcuni volontari erano migliori di classificazione di altri. Pertanto, i ricercatori hanno sviluppato una più complessa procedura di ponderazione iterativo che tenta di rilevare automaticamente le migliori classificatori e dare loro più peso.

Così, dopo tre fase del processo di pulizia, debiasing, e ponderazione, il team di ricerca Galaxy Zoo si era convertito 40 milioni di classificazioni di volontariato in una serie di consenso classificazioni morfologiche. Quando queste classificazioni Galaxy Zoo sono stati confrontati con tre precedenti tentativi su scala ridotta di astronomi professionisti, tra cui la classificazione per Schawinski che ha contribuito a ispirare Galaxy Zoo, c'era forte accordo. Così, i volontari, in totale, sono stati in grado di fornire le classificazioni di alta qualità e ad una scala che i ricercatori non hanno potuto corrispondere (Lintott et al. 2008) . Infatti, avendo classificazioni umane per un gran numero di galassie tale, Schawinski, Lintott, e altri sono stati in grado di dimostrare che solo circa il 80% delle galassie seguire le spirali attesi del modello-blu e le ellittiche-e rossi numerosi articoli sono stati scritti su questa scoperta (Fortson et al. 2011) .

Dato questo contesto, possiamo ora vedere come Galaxy Zoo segue la scissione applicare-combinare ricetta, la stessa ricetta che viene utilizzato per la maggior parte dei progetti di calcolo umano. In primo luogo, un grosso problema è diviso in blocchi. In questo caso, il problema della classificazione milione galassie è suddiviso in un milione di problemi di classificare una galassia. Successivamente, l'operazione viene applicata ad ogni blocco indipendente. In questo caso, un volontario sarebbe classificare ogni galassia come sia a spirale o ellittica. Infine, i risultati vengono combinati per produrre un risultato di consenso. In questo caso, la fase di combinare inclusa la pulizia, debiasing, e la ponderazione per produrre una classificazione del consenso per ogni galassia. Anche se la maggior parte dei progetti utilizzano questa ricetta generale, ogni passo deve personalizzato per il problema specifico che viene affrontato. Ad esempio, nel progetto di computazione umana descritto di seguito, la stessa ricetta sarà seguito, ma i passi applicare e combinare sarà molto diverso.

Per la squadra Galaxy Zoo, questo primo progetto è stato solo l'inizio. Molto presto si sono resi conto che, anche se erano in grado di classificare quasi un milione di galassie, questa scala non è sufficiente per lavorare con le indagini Sky Digital più recenti, che potrebbero produrre immagini di circa 10 miliardi di galassie (Kuminski et al. 2014) . Per gestire un aumento da 1 a 10.000 milioni, un fattore di 10.000 Galaxy Zoo avrebbe bisogno di reclutare circa 10.000 volte più partecipanti. Anche se il numero di volontari su Internet è grande, non è infinito. Pertanto, i ricercatori hanno capito che se hanno intenzione di gestire crescenti quantità di dati, è stata necessaria una nuova, ancora più scalabile, approccio.

Pertanto, Manda Banerji-lavorare con Kevin Schawinski, Chris Lintott, e gli altri membri dei computer di insegnamento di squadra a partire Galaxy Zoo di classificare le galassie. Più in particolare, utilizzando le classificazioni umane create da Galaxy Zoo, Banerji et al. (2010) costruito un modello di apprendimento macchina che potrebbe prevedere la classificazione umana di una galassia base alle caratteristiche dell'immagine. Se questo modello di apprendimento macchina potrebbe riprodurre le classificazioni umane con elevata precisione, allora potrebbe essere utilizzato dai ricercatori Galaxy Zoo di classificare un numero sostanzialmente infinito di galassie.

Il nucleo di Banerji e colleghi 'approccio è in realtà abbastanza simile alle tecniche comunemente usate nella ricerca sociale, anche se tale somiglianza potrebbe non essere chiaro a prima vista. In primo luogo, Banerji e colleghi convertiti ogni immagine in una serie di caratteristiche numeriche che riassumono le sue proprietà. Ad esempio, per le immagini di galassie ci potrebbero essere tre caratteristiche: la quantità di blu nell'immagine, la varianza nella luminosità dei pixel, e la percentuale di pixel non bianchi. La selezione delle caratteristiche corrette è una parte importante del problema, e richiede generalmente competenza disciplinare area. Questo primo passo, comunemente chiamato funzione di ingegneria, si traduce in una matrice di dati con una riga per ogni immagine e poi tre colonne che descrivono l'immagine. Data la matrice dei dati e l'uscita desiderata (ad esempio, se l'immagine è stata classificata da un essere umano come una galassia ellittica), il ricercatore stima dei parametri di un esempio statistica modello per, qualcosa come una regressione che logistica prevede la classificazione umana basata sulle caratteristiche dell'immagine. Infine, il ricercatore utilizza i parametri in questo modello statistico per la produzione di classificazioni stimato di nuove galassie (Figura 5.4). Per pensare ad un analogo sociale, immaginare che hai avuto informazioni demografiche circa un milione di studenti, e non si sa se sono laureato o no. Si potrebbe adattare una regressione logistica a questi dati, e quindi è possibile utilizzare i parametri del modello risultante di prevedere se i nuovi studenti stanno per diplomarsi al college. In machine learning, questo approccio, utilizzando esempi etichettati per creare un modello statistico che possono poi etichettare nuovi dati-si chiama supervisionato l'apprendimento (Hastie, Tibshirani, and Friedman 2009) .

Figura 5.4: descrizione semplificata di come Banerji et al. (2010) hanno utilizzato le classificazioni Galaxy Zoo di formare un modello di apprendimento macchina per fare la classificazione galassia. Immagini di galassie sono stati convertiti in una matrice di caratteristiche. In questo esempio semplificato ci sono tre caratteristiche (la quantità di blu nell'immagine, la varianza nella luminosità dei pixel, e la percentuale di pixel non bianchi). Poi, per un sottoinsieme delle immagini, le etichette Galaxy Zoo sono usati per formare un modello di apprendimento automatico. Infine, l'apprendimento automatico è utilizzato per stimare classificazioni per i restanti galassie. Io chiamo questo tipo di progetto un progetto computazionale umana di seconda generazione perché, piuttosto che avere gli esseri umani risolvere un problema, hanno gli esseri umani costruiscono un insieme di dati che può essere utilizzato per addestrare un computer per risolvere il problema. Il vantaggio di questo approccio computer-assistita è che consente di gestire in sostanza infinite quantità di dati utilizzando solo una quantità finita di sforzo umano.

Figura 5.4: descrizione semplificata di come Banerji et al. (2010) utilizzato le classificazioni Galaxy Zoo di formare un modello di apprendimento macchina per fare la classificazione galassia. Immagini di galassie sono stati convertiti in una matrice di caratteristiche. In questo esempio semplificato ci sono tre caratteristiche (la quantità di blu nell'immagine, la varianza nella luminosità dei pixel, e la percentuale di pixel non bianchi). Poi, per un sottoinsieme delle immagini, le etichette Galaxy Zoo sono usati per formare un modello di apprendimento automatico. Infine, l'apprendimento automatico è utilizzato per stimare classificazioni per i restanti galassie. Io chiamo questo tipo di progetto un progetto computazionale umana di seconda generazione perché, piuttosto che avere gli esseri umani risolvere un problema, hanno gli esseri umani costruiscono un insieme di dati che può essere utilizzato per addestrare un computer per risolvere il problema. Il vantaggio di questo approccio computer-assistita è che consente di gestire in sostanza infinite quantità di dati utilizzando solo una quantità finita di sforzo umano.

Le caratteristiche in Banerji et al. (2010) macchina di modello di apprendimento erano più complessi di quelli in mio giocattolo esempio, ad esempio, ha usato funzioni come "de Vaucouleurs adatta rapporto assiale», e il suo modello non è stato di regressione logistica, è stata una rete neurale artificiale. Usando le sue caratteristiche, il suo modello, e il consenso classificazioni Galaxy Zoo, era in grado di creare i pesi su ogni funzione, e quindi utilizzare questi pesi per fare previsioni circa la classificazione delle galassie. Ad esempio, la sua analisi ha rilevato che le immagini con basso "de Vaucouleurs fit rapporto assiale" sono stati più probabilità di essere galassie a spirale. Alla luce di questi pesi, era in grado di prevedere la classificazione umana di una galassia con ragionevole accuratezza.

Il lavoro di Banerji et al. (2010) girato Galaxy Zoo in quello che chiamerei un sistema di calcolo umano di seconda generazione. Il modo migliore per pensare a questi sistemi di seconda generazione è che invece di avere gli esseri umani risolvere un problema, hanno gli esseri umani costruiscono un insieme di dati che può essere utilizzato per addestrare un computer per risolvere il problema. La quantità di dati necessari per addestrare il computer può essere così grande che richiede una collaborazione di massa umana di creare. Nel caso di Galaxy Zoo, le reti neurali utilizzate da Banerji et al. (2010) ha richiesto un gran numero di esempi umane marcato per costruire un modello che è stato in grado di riprodurre in modo affidabile la classificazione umana.

Il vantaggio di questo approccio computer-assistita è che consente di gestire in sostanza infinite quantità di dati utilizzando solo una quantità finita di sforzo umano. Ad esempio, un ricercatore con un milione di galassie classificate umani può costruire un modello predittivo che può quindi essere utilizzato per classificare un miliardo o anche un trilione di galassie. Se ci sono un numero enorme di galassie, allora questo tipo di ibrido uomo-computer è davvero l'unica soluzione possibile. Questa scalabilità infinita non è libero, però. Costruire un modello di apprendimento automatico in grado di riprodurre correttamente le classificazioni umane è di per sé un problema difficile, ma per fortuna ci sono già ottimi libri dedicati a questo argomento (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo mostra l'evoluzione di molti progetti di calcolo umano. In primo luogo, un ricercatore tenta il progetto da sola o con un piccolo gruppo di assistenti di ricerca (ad esempio, lo sforzo classificazione iniziale di Schawinski). Se questo approccio non scala bene, il ricercatore può muoversi ad un progetto di computazione umana dove molte persone contribuiscono classificazioni. Ma, per un certo volume di dati, puro sforzo umano non sarà sufficiente. A quel punto, i ricercatori hanno bisogno di costruire sistemi di seconda generazione in cui le classificazioni umane vengono utilizzate per formare un modello di apprendimento automatico che possono poi essere applicato a quantità virtualmente illimitate di dati.