5.2.1 Galaxy Zoo

Galaxy Zoo v sobě spojuje úsilí mnoha non-odborných dobrovolníků klasifikovat miliónů galaxií.

Galaxy Zoo odrostla problémem Kevin Schawinski, postgraduální student astronomie na univerzitě v Oxfordu v roce 2007. Zjednodušení docela dost, Schawinski se zajímal o galaxií a galaxie mohou být klasifikovány podle jejich morfologie, eliptický nebo spirály a jejich barvy modré nebo červené. V té době, konvenční moudrost mezi astronomy bylo, že spirálních galaxií, jako naše Mléčná dráha, byly modré barvy (označující mládí) a že eliptické galaxie mají červenou barvu (indikující stáří). Schawinski pochyboval tento konvenční moudrost. Měl podezření, že zatímco tento model může být pravda v Obecně platí, že tam byl pravděpodobně značný počet výjimek, a to tím, že studuje mnoho těchto neobvyklých galaxií-ty, které neodpovídaly očekávaný průběh, mohl dozvědět něco o proces, jehož prostřednictvím galaxie vznikají.

To, co Schawinski zapotřebí zvrátit konvenční moudrost byla to velká množina morfologicky klasifikovaných galaxií; to znamená, že galaxie, které byly klasifikovány buď jako spirála nebo eliptické. Problémem však bylo, že stávající algoritmické metody pro klasifikaci ještě nebyly dost dobré, které mají být použity pro vědecký výzkum; Jinými slovy, třídění galaxie byl v té době problém, který bylo těžké pro počítače. Proto to, co bylo zapotřebí byl velký počet lidských klasifikovaných galaxií. Schawinski zavázala Tato klasifikace problém s nadšením postgraduální student. V maraton sedmi, 12-hodinových dnů, byl schopen klasifikovat 50.000 galaxií. Zatímco 50.000 galaxie může znít jako hodně, to je vlastně jen asi 5% z téměř milion galaxií, které byly vyfotografovány v Sloan Digital Sky Survey. Schawinski si uvědomil, že potřebuje více škálovatelné přístup.

Naštěstí se ukázalo, že úkolem klasifikace galaxií nevyžaduje pokročilý výcvik v astronomii; můžete učit někoho, kdo by to docela rychle. Jinými slovy, i když klasifikaci galaxií je úkol, který bylo těžké pro počítače, to bylo docela snadné pro lidi. Takže, když seděl v hospodě v Oxfordu, Schawinski a kolega astronom Chris Lintott vymyslel webové stránky, kde by dobrovolníci zařadit obrazy galaxií. O několik měsíců později, Galaxy Zoo se narodil.

Na webových stránkách Galaxy Zoo, dobrovolníci by podstoupit několik minut školení; Například učení rozdíl mezi spirálou a eliptické galaxie (obr 5.2). Po tomto tréninku, dobrovolníci museli projít poměrně snadné kvíz, správně klasifikaci 11 z 15 galaxií se známými klasifikací, a pak se dobrovolník začne skutečné třídění neznámých galaxií prostřednictvím jednoduchého webového rozhraní (obrázek 5.3). Přechod od dobrovolníka, který by astronoma bude konat v době kratší než 10 minut a vyžaduje pouze předání nejnižší překážek, jednoduchý kvíz.

Obrázek 5.2: Příklady dvou hlavních typů galaxií: spirály a eliptický. Projekt Galaxy Zoo používá více než 100.000 dobrovolníků do kategorií více než 900.000 snímků. Zdroj: www.galaxyzoo.org.

Obrázek 5.2: Příklady dvou hlavních typů galaxií: spirály a eliptický. Projekt Galaxy Zoo používá více než 100.000 dobrovolníků do kategorií více než 900.000 snímků. Zdroj: www.galaxyzoo.org .

Obrázek 5.3: Vstupní obrazovka, kde byli voliči požádáni, aby klasifikovat jeden obraz. Zdroj: www.galaxyzoo.org.

Obrázek 5.3: Vstupní obrazovka, kde byli voliči požádáni, aby klasifikovat jeden obraz. Zdroj: www.galaxyzoo.org .

Galaxy Zoo přilákaly jeho počáteční dobrovolníků po skončení projektu byl uveden v novinový článek, a asi za šest měsíců vzrostl projekt musí zahrnovat více než 100.000 občana vědci, lidé, kteří se podíleli, protože oni si užili úkol a chtěli pomoci předem astronomii. , Tyto 100,000 dobrovolníků přispěly celkem více než 40 milionů klasifikace, s většinou klasifikací pocházejících z relativně malého, základní skupiny účastníků (Lintott et al. 2008) .

Výzkumní pracovníci, kteří mají zkušenosti najímat vysokoškoláka výzkum asistenty by mohl být okamžitě skeptický o kvalitě dat. I když tento skepticismus je rozumné, Galaxy Zoo ukazuje, že když jsou příspěvky dobrovolníka správně čistit, debiased a agregovány, mohou produkovat vysoce kvalitní výsledky (Lintott et al. 2008) . Důležitým trik pro získání dav k vytvoření profesionální kvality dat je redundance; to znamená, že stejný úkol provádět mnoho různých lidí. Galaxy Zoo, tam bylo asi 40 klasifikace za galaxii; Výzkumníci využívající vysokoškoláka výzkum asistenty nikdy nemůže dovolit takovou úroveň redundance, a proto musí být mnohem více zajímají o kvalitu každého jednotlivého klasifikace. Co dobrovolníci chybělo na tréninku, ale vynahradil s redundancí.

Dokonce s více klasifikací na Galaxii, nicméně, který kombinuje řadu dobrovolných klasifikace vyrábět klasifikace konsensus je složité. Vzhledem k tomu, velmi podobnými problémy se potýkají ve většině výpočetních projektů, lidských, je užitečné stručně přezkoumat tři kroky, které výzkumníci Galaxy Zoo používané k výrobě jejich konsensu klasifikace. Za prvé, vědci "vyčistit" data tím, že odstraní falešné klasifikace. Například lidé, kteří opakovaně zařadila stejné Galaxy něco, co by se stalo, kdyby se snažili manipulovat s výsledky, musel všechny jejich klasifikace zlikvidovat. Tato a jiná podobná čištění odstraní asi 4% všech klasifikací.

Za druhé, po očištění, výzkumníci, potřebných k odstranění systematických chyb v klasifikací. Prostřednictvím řady detekčních bias studií vložené v původním projektu, například, které ukazují některé dobrovolníky galaxie černobíle namísto barevně vědci objevili několik systematických chyb, jako je systematické zkreslení klasifikovat daleko spirálních galaxií jako eliptických galaxií (Bamford et al. 2009) . Po očištění o tyto systematických chyb je velmi důležité, protože v průměru mnoho příspěvků neodebere systematické zaujatost; to pouze odstraní náhodné chyby.

Nakonec, po debiasing, vědci potřebovali způsob spojit jednotlivé klasifikace produkovat klasifikaci konsensuální. Nejjednodušší způsob, jak spojit klasifikace pro každou galaxii by bylo zvolit nejběžnější klasifikaci. Nicméně, tento přístup by měl každý dobrovolník stejnou váhu, a vědci podezření, že některé dobrovolníků bylo lepší klasifikaci než ostatní. Proto vědci vyvinuli složitější iterační vážení postup, který se pokouší automaticky detekovat nejlepší klasifikátory a dát jim větší váhu.

Tak, po třístupňový proces čištění, debiasing a váhové výzkumný tým Galaxy Zoo přestavěla 40 miliónů dobrovolných klasifikace do souboru konsensuálních morfologických klasifikací. Když byly tyto klasifikace Galaxy Zoo ve srovnání s předchozí tři pokusy menším měřítku profesionálních astronomů, včetně klasifikace podle Schawinski, který pomáhal inspirovat Galaxy Zoo, tam byla silná shoda. To znamená, že dobrovolníci ve svém součtu byly schopny poskytovat vysoce kvalitní klasifikace a v měřítku, které výzkumníci nemohli odpovídat (Lintott et al. 2008) . Ve skutečnosti tím, že lidské klasifikace pro tak velkého počtu galaxií, Schawinski, Lintott a jiní byli schopni ukázat, že pouze asi 80% galaxií sledovat očekávaný průběh modré spirály a červené eliptických-a četné dokumenty byly psané o tento objev (Fortson et al. 2011) .

Vzhledem k tomuto pozadí, můžeme nyní vidět, jak Galaxy Zoo následuje split-platit-kombinují recept, stejný recept, který se používá u většiny výpočetních projektů v oblasti lidských. Za prvé, velký problém je rozdělena na kusy. V tomto případě je problém klasifikaci milion galaxií je rozdělen na milion problémů klasifikace jednu galaxii. Dále operace se použije na každý kus samostatně. V tomto případě, dobrovolník by klasifikaci každé galaxii buď jako spirály nebo eliptické. A konečně, výsledky jsou kombinovány pro vytvoření výsledku shody. V tomto případě se spojit krok zahrnoval čištění, debiasing a váhu, aby vytvořil klasifikaci konsensu pro každou galaxii. I když většina projektů toto všeobecné receptury, každý z kroků se musí upravit tak, aby specifický problém řeší. Například v lidském výpočetního projektu je popsán níže, stejný recept bude následovat, ale platí i kombinují kroky budou zcela odlišné.

Pro tým Galaxy Zoo, tento první projekt byl jen začátek. Velmi rychle si uvědomili, že i když se jim podařilo zařadit téměř milion galaxií, tato stupnice nestačí pracovat s novějšími průzkumy Digital Sky, které by mohly produkovat obrazy okolo 10 miliard galaxií (Kuminski et al. 2014) . Zvládnout nárůst od 1000000 do 10000000000-faktor 10.000 Galaxy Zoo by musel zaměstnat zhruba 10.000 krát více účastníků. I když je počet dobrovolníků na internetu je velký, že není nekonečná. Proto vědci si uvědomili, že pokud se chystáte zvládnout stále rostoucí objemy dat, bylo zapotřebí nová, ještě větší škálovatelnost, přístup.

Proto Manda Banerji pracující s Kevinem Schawinski, Chris Lintott a dalšími členy týmu při startování výukových počítačích Galaxy Zoo pro klasifikaci galaxií. Přesněji řečeno, za použití lidské klasifikace vytvořené Galaxy Zoo, Banerji et al. (2010) vybudoval vzdělávací model, stroj, který by mohl předpovídat lidské klasifikaci galaxie založené na vlastnostech obrazu. Pokud toto učení modelu stroj mohl reprodukovat lidské klasifikace s vysokou přesností, pak by to mohlo být použita výzkumníky Galaxy Zoo klasifikovat v podstatě nekonečné množství galaxií.

Jádro Banerji a jeho kolegové "přístupu je vlastně docela podobný běžně užívané v oblasti sociálního výzkumu, ačkoli tato podobnost nemusí být jasné na první pohled. Za prvé, Banerji a spol převede každý obrázek do sady číselných funkcí, které shrnují, že je to vlastnosti. Například pro obrazy galaxií by mohla být tři vlastnosti: množství modré barvy v obraze, rozptyl v jasu pixelů, a podíl non-bílých pixelů. Správný výběr správných funkcí je důležitou součástí problému, a to obecně vyžaduje odborné znalosti předmět prostor. Tento první krok, běžně nazývá funkce inženýrství, má za následek matice dat jeden řádek na obrázku a tři sloupce, které popisují, že obraz. Vzhledem k tomu, matice dat a požadovaný výkon (např zda byl obraz klasifikován člověkem jako eliptické galaxie), výzkumník odhaduje parametry statistického modelu, například, něco jako logistické regresní, která předpovídá lidský klasifikace vycházející na vlastnostech obrazu. A konečně, výzkumník využívá parametry tohoto statistického modelu pro výrobu odhadované klasifikace nových galaxií (Obrázek 5.4). Myslet na sociální analogu, představte si, že jste měli demografické informace o milion studentů, a víte, zda vystudoval vysokou školu, nebo ne. Dalo by se vešly logistické regrese k těmto údajům, a pak byste mohli použít výsledné parametry modelu předpovědět, zda noví studenti jdou vystudovat vysokou školu. V strojového učení, tento přístup využívající značených příkladů k vytvoření statistického modelu, který pak může označit nová data, se nazývá učení s učitelem (Hastie, Tibshirani, and Friedman 2009) .

Obrázek 5.4: zjednodušený popis toho, jak Banerji et al. (2010) používané klasifikace Galaxy Zoo trénovat studijní modelu stroje dělat galaxie klasifikaci. Obrazy galaxií byly převedeny v matrici funkcí. V tomto zjednodušeném příkladu existují tři rysy (množství modré barvy v obraze, rozptyl v jasu pixelů, a podíl non-bílých pixelů). Poté, pro podmnožinu obrazů, štítky Galaxy Zoo jsou používány k vlaku modelu strojového učení. A konečně, učení stroje se používá pro odhad klasifikace pro zbývající galaxií. I nazývají tento druh projektu druhé generace lidský výpočetní projekt, protože spíše než lidé vyřešit problém, že mají lidé budovat datovou sadu, která může být použita k vlaku počítač k vyřešení problému. Výhodou tohoto počítačově asistovaných přístupu je, že vám umožní zvládnout v podstatě nekonečné množství dat pomocí pouze omezené množství lidského úsilí.

Obrázek 5.4: zjednodušený popis toho, jak Banerji et al. (2010) používá klasifikace Galaxy Zoo trénovat studijní modelu stroje dělat galaxie klasifikaci. Obrazy galaxií byly převedeny v matrici funkcí. V tomto zjednodušeném příkladu existují tři rysy (množství modré barvy v obraze, rozptyl v jasu pixelů, a podíl non-bílých pixelů). Poté, pro podmnožinu obrazů, štítky Galaxy Zoo jsou používány k vlaku modelu strojového učení. A konečně, učení stroje se používá pro odhad klasifikace pro zbývající galaxií. I nazývají tento druh projektu druhé generace lidský výpočetní projekt, protože spíše než lidé vyřešit problém, že mají lidé budovat datovou sadu, která může být použita k vlaku počítač k vyřešení problému. Výhodou tohoto počítačově asistovaných přístupu je, že vám umožní zvládnout v podstatě nekonečné množství dat pomocí pouze omezené množství lidského úsilí.

Tyto funkce v Banerji et al. (2010) studijní model stroje byly složitější než ty, které ve svém hračku příklad, například použila funkce, jako je "de Vaucouleurs fit poměr os" -a její model nebyl logistická regrese, bylo umělé neuronové sítě. Použití její tvář, její modelu a konsenzuální Galaxy Zoo klasifikace, ona byla schopná vytvořit závaží na každou funkci, a pak použít tyto váhy, aby se předpovědi o klasifikaci galaxií. Například její analýza zjistila, že snímky s nízkou "de Vaucouleurs fit poměr os" byly více pravděpodobné, že bude spirálních galaxií. Vzhledem k tomu, tyto váhy, ona byla schopná předvídat lidské klasifikaci galaxií s dostatečnou přesností.

Práce Banerji et al. (2010) se obrátil Galaxy Zoo na to, co bych nazval lidský výpočetního systému druhé generace. Nejlepší způsob, jak přemýšlet o těchto systémů druhé generace, je to, že spíše než lidé vyřešit problém, že mají lidé budovat datovou sadu, která může být použita k vlaku počítač k vyřešení problému. Množství dat potřebných k trénovat počítač může být tak velký, že vyžaduje masovou spolupráci lidskou vytvořit. V případě Galaxy Zoo, neuronových sítí používaných Banerji et al. (2010) si vyžádalo velké množství příkladů lidských značených s cílem vytvořit model, který byl schopen spolehlivě reprodukovat lidské klasifikaci.

Výhodou tohoto počítačově asistovaných přístupu je, že vám umožní zvládnout v podstatě nekonečné množství dat pomocí pouze omezené množství lidského úsilí. Například, výzkumník s milionem lidí zařazených galaxií může vytvořit prediktivní model, který pak mohou být použity ke klasifikaci miliardu nebo dokonce bilion galaxií. Pokud existuje obrovské množství galaxií, pak tento druh člověka s počítačem hybrid je opravdu jediným možným řešením. Tato nekonečná škálovatelnost není zadarmo, nicméně. Budování vzdělávací model, stroj, který může správně reprodukovat lidské klasifikace je sám o sobě obtížný problém, ale naštěstí již existují vynikající knih věnovaných tomuto tématu (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo ukazuje vývoj mnoha výpočetních projektů, lidských. Za prvé, výzkumník pokusí projekt sama, nebo s malým týmem výzkumných asistentů (např Schawinski počáteční klasifikaci intenzita). Pokud tento přístup není měřítko dobře, výzkumník může pohybovat do výpočetního projektu lidského kde mnozí lidé přispívají klasifikace. Ale pro určitý objem dat, čisté lidské úsilí nebude stačit. V tomto bodě, výzkumníci muset vybudovat systém druhé generace, kde se používají lidské klasifikace trénovat učební typu stroje, které pak mohou být použity prakticky neomezené množství dat.