5.2.1 Galaxy Zoo

Galaxy Zoo v sebe spája úsilie mnohých non-odborných dobrovoľníkov klasifikovať miliónov galaxií.

Galaxy Zoo rástla problémom Kevin Schawinski, postgraduálny študent astronómie na univerzite v Oxforde v roku 2007. Zjednodušenie celkom dosť, Schawinski sa zaujímal o galaxií a galaxie môžu byť klasifikované podľa ich morfológie, eliptický alebo špirály a ich farby modrej alebo červenej. V tej dobe, konvenčné múdrosť medzi astronómami bolo, že špirálových galaxií, ako naša Mliečna dráha, boli modrej farby (označujúce mladosti) a že eliptické galaxie majú červenú farbu (indikujúca starobe). Schawinski pochyboval tento konvenčné múdrosť. Mal podozrenie, že zatiaľ čo tento model môže byť pravda v Všeobecne platí, že tam bol pravdepodobne značný počet výnimiek, a to tým, že študuje mnoho týchto nezvyčajných galaxií-tie, ktoré nezodpovedali očakávaný priebeh, mohol dozvedieť niečo o proces, prostredníctvom ktorého galaxie vznikajú.

To, čo Schawinski potrebné zvrátiť konvenčné múdrosť bola to veľká množina morfologicky klasifikovaných galaxií; to znamená, že galaxie, ktoré boli klasifikované buď ako špirála alebo eliptické. Problémom však bolo, že existujúce algoritmické metódy pre klasifikáciu ešte neboli dosť dobré, ktoré majú byť použité pre vedecký výskum; Inými slovami, triedenie galaxie bol v tej dobe problém, ktorý bolo ťažké pre počítače. Preto to, čo bolo potrebné bol veľký počet ľudských klasifikovaných galaxií. Schawinski zaviazala Táto klasifikácia problém s nadšením postgraduálny študent. V maratón siedmich, 12-hodinových dní, bol schopný klasifikovať 50.000 galaxií. Kým 50.000 galaxie môže znieť ako veľa, to je vlastne len asi 5% z takmer milión galaxií, ktoré boli vyfotografované v Sloan Digital Sky Survey. Schawinski si uvedomil, že potrebuje viac škálovateľné prístup.

Našťastie sa ukázalo, že úlohou klasifikácia galaxií nevyžaduje pokročilý výcvik v astronómii; môžete učiť niekoho, kto by to celkom rýchlo. Inými slovami, aj keď klasifikáciu galaxií je úloha, ktorá bolo ťažké pre počítače, to bolo celkom jednoduché pre ľudí. Takže, keď sedel v krčme v Oxforde, Schawinski a kolega astronóm Chris Lintott vymyslel webové stránky, kde by dobrovoľníci zaradiť obrazy galaxií. O niekoľko mesiacov neskôr, Galaxy Zoo sa narodil.

Na webových stránkach Galaxy Zoo, dobrovoľníci by podstúpiť niekoľko minút školenie; Napríklad učenie rozdiel medzi špirálou a eliptické galaxie (obr 5.2). Po tomto tréningu, dobrovoľníci museli prejsť pomerne ľahké kvíz, správne klasifikáciu 11 z 15 galaxií so známymi klasifikáciou, a potom sa dobrovoľník začne skutočné triedenie neznámych galaxií prostredníctvom jednoduchého webového rozhrania (obrázok 5.3). Prechod od dobrovoľníka, ktorý by astronóma bude konať v čase kratšie ako 10 minút a vyžaduje iba odovzdanie najnižšiu prekážok, jednoduchý kvíz.

Obrázok 5.2: Príklady dvoch hlavných typov galaxií: špirály a eliptický. Projekt Galaxy Zoo používa viac ako 100.000 dobrovoľníkov do kategórií viac ako 900.000 snímok. Zdroj: www.galaxyzoo.org.

Obrázok 5.2: Príklady dvoch hlavných typov galaxií: špirály a eliptický. Projekt Galaxy Zoo používa viac ako 100.000 dobrovoľníkov do kategórií viac ako 900.000 snímok. Zdroj: www.galaxyzoo.org .

Obrázok 5.3: Vstupná obrazovka, kde boli voliči požiadaní, aby klasifikovať jeden obraz. Zdroj: www.galaxyzoo.org.

Obrázok 5.3: Vstupná obrazovka, kde boli voliči požiadaní, aby klasifikovať jeden obraz. Zdroj: www.galaxyzoo.org .

Galaxy Zoo prilákali jeho počiatočnej dobrovoľníkov po skončení projektu bol uvedený v novinový článok, a asi za šesť mesiacov vzrástol projekt musí zahŕňať viac ako 100.000 občana vedci, ľudia, ktorí sa podieľali, pretože oni si užili úlohu a chceli pomôcť vopred astronómiu. , Tieto 100,000 dobrovoľníkov prispeli spolu viac ako 40 miliónov klasifikácie, s väčšinou klasifikáciou pochádzajúcich z relatívne malého, základné skupiny účastníkov (Lintott et al. 2008) .

Výskumní pracovníci, ktorí majú skúsenosti najímať vysokoškoláka výskum asistentov by mohol byť okamžite skeptický o kvalite dát. Aj keď tento skepticizmus je rozumné, Galaxy Zoo ukazuje, že keď sú príspevky dobrovoľníka správne čistiť, debiased a agregujú, môžu produkovať vysoko kvalitné výsledky (Lintott et al. 2008) . Dôležitým trik pre získanie dav k vytvoreniu profesionálnej kvality dát je redundancia; to znamená, že rovnaký úlohu vykonávať veľa rôznych ľudí. Galaxy Zoo, tam bolo asi 40 klasifikácie za galaxii; Výskumníci využívajúci vysokoškoláka výskum asistentmi nikdy nemôže dovoliť takú úroveň redundancie, a preto musí byť oveľa viac zaujímajú o kvalitu každého jednotlivého klasifikácie. Čo dobrovoľníci chýbalo na tréningu, ale vynahradil s redundanciou.

Dokonca s viac klasifikáciou na Galaxii, však, ktorý kombinuje množstvo dobrovoľných klasifikácie vyrábať klasifikácia konsenzus je zložité. Vzhľadom k tomu, veľmi podobnými problémami sa stretávajú vo väčšine výpočtových projektov, ľudských, je užitočné stručne preskúmať tri kroky, ktoré výskumníci Galaxy Zoo používané na výrobu ich konsenzu klasifikácie. Po prvé, vedci "vyčistiť" dáta tým, že odstráni falošné klasifikácie. Napríklad ľudia, ktorí opakovane zaradila rovnaké Galaxy niečo, čo by sa stalo, keby sa snažili manipulovať s výsledkami, musel všetky ich klasifikácia zlikvidovať. Táto a iné podobné čistenie odstráni asi 4% všetkých klasifikácií.

Po druhé, po očistení, výskumníci, potrebných na odstránenie systematických chýb v klasifikácií. Prostredníctvom série detekčných bias štúdií vložené v pôvodnom projekte, napríklad, ktoré ukazujú niektoré dobrovoľníkmi galaxie čiernobielo namiesto farebne vedci objavili niekoľko systematických chýb, ako je systematické skreslenie klasifikovať ďaleko špirálových galaxií ako eliptických galaxií (Bamford et al. 2009) . Po očistení o tieto systematických chýb je veľmi dôležité, pretože v priemere mnoho príspevkov neodoberie systematické zaujatosť; to len odstráni náhodné chyby.

Nakoniec, po debiasing, vedci potrebovali spôsob spojiť jednotlivé klasifikácie produkovať klasifikácii konsenzuálne. Najjednoduchší spôsob, ako spojiť klasifikácia pre každú galaxiu by bolo zvoliť najbežnejšie klasifikáciu. Avšak, tento prístup by mal každý dobrovoľník rovnakú váhu, a vedci podozrenie, že niektoré dobrovoľníkov bolo lepšie klasifikácii ako ostatní. Preto vedci vyvinuli zložitejší iteračné váženie postup, ktorý sa pokúša automaticky detekovať najlepšie klasifikátormi a dať im väčšiu váhu.

Tak, po trojstupňový proces čistenia, debiasing a váhové výskumný tím Galaxy Zoo prestavala 40 miliónov dobrovoľných klasifikácie do súboru konsenzuálnych morfologických klasifikácií. Keď boli tieto klasifikácie Galaxy Zoo v porovnaní s predchádzajúcou tri pokusy menšom meradle profesionálnych astronómov, vrátane klasifikácie Schawinski, ktorý pomáhal inšpirovať Galaxy Zoo, tam bola silná zhoda. To znamená, že dobrovoľníci vo svojom súčte boli schopné poskytovať vysoko kvalitné klasifikácie a v mierke, ktoré výskumníci nemohli odpovedať (Lintott et al. 2008) . V skutočnosti tým, že ľudské klasifikácia pre tak veľkého počtu galaxií, Schawinski, Lintott a iní boli schopní ukázať, že len asi 80% galaxií sledovať očakávaný priebeh modrej špirály a červenej eliptických-a početné dokumenty boli písané o tento objav (Fortson et al. 2011) .

Vzhľadom k tomuto pozadia, môžeme teraz vidieť, ako Galaxy Zoo nasleduje split-platiť-kombinujú recept, rovnaký recept, ktorý sa používa pri väčšine výpočtových projektov v oblasti ľudských. Po prvé, veľký problém je rozdelená na kusy. V tomto prípade je problém klasifikáciu milión galaxií je rozdelený na milión problémov klasifikácie jednu galaxiu. Ďalej operácie sa uplatňuje na každý kus samostatne. V tomto prípade, dobrovoľník by klasifikáciu každej galaxii buď ako špirály alebo eliptické. A konečne, výsledky sú kombinované pre vytvorenie výsledku zhody. V tomto prípade sa spojiť krok zahŕňal čistenie, debiasing a váhu, aby vytvoril klasifikácii konsenzu pre každú galaxiu. Aj keď väčšina projektov toto všeobecné receptúry, každý z krokov sa musí upraviť tak, aby špecifický problém rieši. Napríklad v ľudskom výpočtového projektu je popísaný nižšie, rovnaký recept bude nasledovať, ale platí aj kombinujú kroky budú úplne odlišné.

Pre tím Galaxy Zoo, tento prvý projekt bol len začiatok. Veľmi rýchlo si uvedomili, že aj keď sa im podarilo zaradiť takmer milión galaxií, táto stupnica nestačí pracovať s novšími prieskumy Digital Sky, ktoré by mohli produkovať obrazy okolo 10 miliárd galaxií (Kuminski et al. 2014) . Zvládnuť nárast od 1000000 do 10000000000-faktor 10.000 Galaxy Zoo by musel zamestnať približne 10.000 krát viac účastníkov. Aj keď je počet dobrovoľníkov na internete je veľký, že nie je nekonečná. Preto vedci si uvedomili, že ak sa chystáte zvládnuť stále rastúce objemy dát, bolo potrebné nové, ešte väčšiu škálovateľnosť, prístup.

Preto Manda Baner pracujúci s Kevinom Schawinski, Chris Lintott a ďalšími členmi tímu pri štartovaní výučbových počítačoch Galaxy Zoo pre klasifikáciu galaxií. Presnejšie povedané, za použitia ľudskej klasifikácie vytvorené Galaxy Zoo, Banerji et al. (2010) vybudoval vzdelávací model, stroj, ktorý by mohol predpovedať ľudské klasifikáciu galaxie založené na vlastnostiach obrazu. Pokiaľ toto učenie modelu stroj mohol reprodukovať ľudskej klasifikácie s vysokou presnosťou, potom by to mohlo byť použitá výskumníkmi Galaxy Zoo klasifikovať v podstate nekonečné množstvo galaxií.

Jadro banery a jeho kolegovia "prístupu je vlastne celkom podobný bežne používané v oblasti sociálneho výskumu, hoci táto podobnosť nemusí byť jasné na prvý pohľad. Po prvé, banery a spol prevedie každý obrázok do sady číselných funkcií, ktoré zhŕňajú, že je to vlastnosti. Napríklad pre obrazy galaxií by mohla byť tri vlastnosti: množstvo modrej farby v obraze, rozptyl v jase pixelov, a podiel non-bielych pixelov. Správny výber správnych funkcií je dôležitou súčasťou problému, a to všeobecne vyžaduje odborné znalosti predmet priestor. Tento prvý krok, bežne nazýva funkcie inžinierstva, má za následok matice dát jeden riadok na obrázku a tri stĺpce, ktoré opisujú, že obraz. Vzhľadom k tomu, matice dát a požadovaný výkon (napr či bol obraz klasifikovaný človekom ako eliptické galaxie), výskumník odhaduje parametre štatistického modelu, napríklad, niečo ako logistické regresnej, ktorá predpovedá ľudský klasifikácie vychádzajúce na vlastnostiach obrazu. A konečne, výskumník využíva parametre tohto štatistického modelu pre výrobu odhadovanej klasifikácie nových galaxií (Obrázok 5.4). Myslieť na sociálne analógu, predstavte si, že ste mali demografické informácie o milión študentov, a viete, či vyštudoval vysokú školu, alebo nie. Dalo by sa zmestili logistické regresia k týmto údajom, a potom by ste mohli použiť výsledné parametre modelu predpovedať, či noví študenti idú vyštudovať vysokú školu. V strojového učenia, tento prístup využívajúci značených príkladov na vytvorenie štatistického modelu, ktorý potom môže označiť nové dáta, sa nazýva učenie s učiteľom (Hastie, Tibshirani, and Friedman 2009) .

Obrázok 5.4: zjednodušený opis toho, ako banery et al. (2010) používané klasifikácie Galaxy Zoo trénovať študijné modelu stroja robiť galaxie klasifikáciu. Obrazy galaxií boli prevedené v matrici funkcií. V tomto zjednodušenom príklade existujú tri črty (množstvo modrej farby v obraze, rozptyl v jase pixelov, a podiel non-bielych pixelov). Potom, pre podmnožinu obrazov, štítky Galaxy Zoo sú používané k vlaku modelu strojového učenia. A konečne, učenie stroje sa používa pre odhad klasifikácie pre zostávajúce galaxií. Aj nazývajú tento druh projektu druhej generácie ľudský výpočtovej projekt, pretože skôr než ľudia vyriešiť problém, že majú ľudia budovať sadu dát, ktorá môže byť použitá k vlaku počítač na vyriešenie problému. Výhodou tohto počítačovo asistovaných prístupu je, že vám umožní zvládnuť v podstate nekonečné množstvo dát pomocou iba obmedzené množstvo ľudského úsilia.

Obrázok 5.4: zjednodušený opis toho, ako Banerji et al. (2010) používa klasifikácia Galaxy Zoo trénovať študijné modelu stroja robiť galaxie klasifikáciu. Obrazy galaxií boli prevedené v matrici funkcií. V tomto zjednodušenom príklade existujú tri črty (množstvo modrej farby v obraze, rozptyl v jase pixelov, a podiel non-bielych pixelov). Potom, pre podmnožinu obrazov, štítky Galaxy Zoo sú používané k vlaku modelu strojového učenia. A konečne, učenie stroje sa používa pre odhad klasifikácie pre zostávajúce galaxií. Aj nazývajú tento druh projektu druhej generácie ľudský výpočtovej projekt, pretože skôr než ľudia vyriešiť problém, že majú ľudia budovať sadu dát, ktorá môže byť použitá k vlaku počítač na vyriešenie problému. Výhodou tohto počítačovo asistovaných prístupu je, že vám umožní zvládnuť v podstate nekonečné množstvo dát pomocou iba obmedzené množstvo ľudského úsilia.

Tieto funkcie v Banerji et al. (2010) študijné model stroja boli zložitejšie ako tie, ktoré vo svojom hračku príklad, napríklad použila funkcie, ako je "de Vaucouleurs fit pomer osí" -a jej model nebol logistická regresia, bolo umelé neurónové siete. Použitie jej tvár, jej modelu a konsenzuálny Galaxy Zoo klasifikácie, ona bola schopná vytvoriť závažia na každú funkciu, a potom použiť tieto váhy, aby sa predpovede o klasifikácii galaxií. Napríklad jej analýza zistila, že snímky s nízkou "de Vaucouleurs fit pomer osí" boli viac pravdepodobné, že bude špirálových galaxií. Vzhľadom k tomu, tieto váhy, ona bola schopná predvídať ľudské klasifikácii galaxií s dostatočnou presnosťou.

Práca Banerji et al. (2010) sa obrátil Galaxy Zoo na to, čo by som nazval ľudský výpočtového systému druhej generácie. Najlepší spôsob, ako premýšľať o týchto systémov druhej generácie, je to, že skôr ako ľudia vyriešiť problém, že majú ľudia budovať sadu dát, ktorá môže byť použitá k vlaku počítač na vyriešenie problému. Množstvo dát potrebných na trénovať počítač môže byť tak veľký, že vyžaduje masovú spoluprácu ľudskou vytvoriť. V prípade Galaxy Zoo, neurónových sietí používaných Banerji et al. (2010) si vyžiadalo veľké množstvo príkladov ľudských značených s cieľom vytvoriť model, ktorý bol schopný spoľahlivo reprodukovať ľudskej klasifikáciu.

Výhodou tohto počítačovo asistovaných prístupu je, že vám umožní zvládnuť v podstate nekonečné množstvo dát pomocou iba obmedzené množstvo ľudského úsilia. Napríklad, výskumník s miliónom ľudí zaradených galaxií môže vytvoriť prediktívne model, ktorý potom môžu byť použité ku klasifikácii miliardu alebo dokonca bilión galaxií. Ak existuje obrovské množstvo galaxií, potom tento druh človeka s počítačom hybrid je naozaj jediným možným riešením. Táto nekonečná škálovateľnosť nie je zadarmo, však. Budovanie vzdelávací model, stroj, ktorý môže správne reprodukovať ľudskej klasifikácie je sám o sebe ťažký problém, ale našťastie už existujú vynikajúce kníh venovaných tejto téme (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo ukazuje vývoj mnohých výpočtových projektov, ľudských. Po prvé, výskumník pokúsi projekt sama, alebo s malým tímom výskumných asistentov (napr Schawinski východiskovú klasifikáciu intenzita). Pokiaľ tento prístup nie je meradlo dobre, výskumník môže pohybovať do výpočtového projektu ľudského kde mnohí ľudia prispievajú klasifikácie. Ale pre určitý objem dát, čisté ľudské úsilie nebude stačiť. V tomto bode, výskumníci musieť vybudovať systém druhej generácie, kde sa používajú ľudské klasifikácia trénovať učebné typu stroja, ktoré potom môžu byť použité prakticky neobmedzené množstvo dát.