5.2.1 Galaxy Zoo

Galaxia Zoo kombinovala úsilie mnohých ne-odborných dobrovoľníkov o zaradenie miliónov galaxií.

Galaxia Zoo vyrastala z problému, ktorým čelil Kevin Schawinski, vysokoškolský študent v oblasti astronómie na Oxfordskej univerzite v roku 2007. Schawinski sa trochu zjednodušil, zaujímal sa o galaxie a galaxie môžu byť klasifikované podľa ich morfológie - eliptických alebo špirálových - a ich farba modrá alebo červená. V tom čase bola bežnou múdrosťou medzi astronómami to, že špirálové galaxie, ako naša Mliečna dráha, boli modrej farby (označujúce mládež) a eliptické galaxie boli červené (indikujúce starnutie). Schawinski pochyboval o tejto bežnej múdrosti. Predpokladal, že hoci tento vzor mohol byť všeobecne pravdivý, pravdepodobne to bolo značné množstvo výnimiek a že štúdiom veľa týchto neobvyklých galaxií - tých, ktoré nezodpovedali očakávanému vzoru - sa mohol dozvedieť niečo o procese, cez ktorý vytvorené galaxie.

To, čo potreboval Schawinski na prekonanie bežnej múdrosti, bol veľký súbor morfologicky klasifikovaných galaxií; to znamená, galaxie, ktoré boli klasifikované ako špirálové alebo eliptické. Problémom však bolo, že existujúce algoritmické metódy klasifikácie ešte neboli dosť dobré na to, aby sa mohli použiť na vedecký výskum. inými slovami klasifikácia galaxií bola v tom čase problémom, ktorý bol pre počítače ťažký. Preto bolo potrebné veľké množstvo galaxií klasifikovaných pre človeka . Schawinski vykonal tento klasifikačný problém s nadšením absolventa. V maratónskom sedemnástich dvanásťhodinových dňoch dokázal zaradiť 50 000 galaxií. Zatiaľ čo 50 000 galaxií môže znieť ako veľa, je to vlastne iba asi 5% z takmer milióna galaxií, ktoré boli vyfotografované v Sloan Digital Sky Survey. Schawinski si uvedomil, že potrebuje viac škálovateľný prístup.

Našťastie sa ukázalo, že úlohou klasifikácia galaxií nevyžaduje pokročilý výcvik v astronómii; môžete učiť niekoho, kto by to celkom rýchlo. Inými slovami, aj keď klasifikáciu galaxií je úloha, ktorá bolo ťažké pre počítače, to bolo celkom jednoduché pre ľudí. Takže, keď sedel v krčme v Oxforde, Schawinski a kolega astronóm Chris Lintott vymyslel webové stránky, kde by dobrovoľníci zaradiť obrazy galaxií. O niekoľko mesiacov neskôr, Galaxy Zoo sa narodil.

Na webstránke Galaxy Zoo dobrovoľníci absolvovali niekoľko minút odbornej prípravy; napríklad naučiť sa rozdiel medzi špirálovou a eliptickou galaxií (obrázok 5.2). Po tomto tréningu každý dobrovoľník musel prejsť pomerne jednoduchým kvízom - správne klasifikovať 11 z 15 galaxií so známymi klasifikáciami - a potom začne skutočnú klasifikáciu neznámych galaxií prostredníctvom jednoduchého webového rozhrania (obrázok 5.3). Prechod od dobrovoľníka k astronómu sa uskutoční za menej ako 10 minút a vyžaduje len absolvovanie najmenších prekážok, jednoduchý kvíz.

Obrázok 5.2: Príklady dvoch hlavných typov galaxií: špirála a eliptika. Projekt Galaxy Zoo používal viac ako 100 000 dobrovoľníkov na kategorizáciu viac ako 900 000 obrázkov. Reprodukované na základe povolenia od http://www.GalaxyZoo.org a Sloan Digital Sky Survey.

Obrázok 5.2: Príklady dvoch hlavných typov galaxií: špirála a eliptika. Projekt Galaxy Zoo používal viac ako 100 000 dobrovoľníkov na kategorizáciu viac ako 900 000 obrázkov. Reprodukované na základe povolenia od http://www.GalaxyZoo.org a Sloan Digital Sky Survey .

Obrázok 5.3: Vstupná obrazovka, na ktorej boli dobrovoľníci vyzvaní, aby klasifikovali jeden obrázok. Reprodukcia na základe povolenia od Chris Lintott založená na snímke z prieskumu Sloan Digital Sky Survey.

Obrázok 5.3: Vstupná obrazovka, na ktorej boli dobrovoľníci vyzvaní, aby klasifikovali jeden obrázok. Reprodukcia na základe povolenia od Chris Lintott založená na snímke z prieskumu Sloan Digital Sky Survey .

Galaxia Zoo prilákala svojich počiatočných dobrovoľníkov po tom, čo sa projekt objavil v novinovom článku a za približne šesť mesiacov sa do projektu zapojilo viac ako 100 000 vedcov občanov, ktorí sa zúčastnili, pretože sa im táto práca tešila a chceli pomôcť pokročiť v astronómii. Spolu týchto 100 000 dobrovoľníkov prispelo celkovo viac ako 40 miliónov klasifikácií, pričom väčšina klasifikácií pochádza z pomerne malej, hlavnej skupiny účastníkov (Lintott et al. 2008) .

Výskumníci, ktorí majú skúsenosti s prijímaním vysokoškolských asistentov v oblasti výskumu, môžu byť okamžite skeptickí v súvislosti s kvalitou údajov. Zatiaľ čo táto skepticizácia je rozumná, Galaxy Zoo dokazuje, že ak sú príspevky dobrovoľníkov správne vyčistené, znížené a agregované, môžu produkovať vysokokvalitné výsledky (Lintott et al. 2008) . Dôležitým trikom na získanie davu na vytvorenie údajov o profesionálnej kvalite je nadbytočnosť , to znamená, že má rovnakú úlohu vykonávanú mnohými rôznymi ľuďmi. V Galaxy Zoo bolo okolo 40 klasifikácií na galaxiu; výskumníci využívajúci vysokoškolské výskumné asistentky by si nikdy nemohli dovoliť túto úroveň prepúšťania, a preto by sa museli oveľa viac zaoberať kvalitou každej individuálnej klasifikácie. Čo dobrovoľníkom chýbalo v odbornej príprave, vynaložili s redundanciou.

Aj pri mnohých klasifikáciách na jednu galaxiu však kombinácia množstva dobrovoľníckych klasifikácií za účelom vytvorenia konsenzuálnej klasifikácie bola zložitá. Vzhľadom na to, že vo väčšine ľudských výpočtových projektov vznikajú veľmi podobné výzvy, je užitočné stručne preskúmať tri kroky, ktoré výskumníci ZOO Galaxy používali na prípravu svojich konsenzuálnych klasifikácií. Po prvé, vedci "vyčistili" údaje odstránením falošných klasifikácií. Napríklad ľudia, ktorí opakovane klasifikovali tú istú galaxiu - niečo, čo by sa stalo, keby sa pokúšali manipulovať s výsledkami - sa všetky ich klasifikácie zlikvidovali. Toto a ďalšie podobné čistenie odstránili približne 4% všetkých klasifikácií.

Po druhé, po vyčistení výskumníci museli odstrániť systematické predsudky v klasifikáciách. Prostredníctvom série štúdií zameraných na detekciu predsudkov, ktoré sú zakomponované v pôvodnom projekte - napríklad ukazujú niektorých dobrovoľníkov galaxiu v monochromatickom prostredí namiesto farby - výskumníci objavili niekoľko systematických predsudkov, ako napríklad systematické predsudky klasifikovať vzdialené špirálové galaxie ako eliptické galaxie (Bamford et al. 2009) . Úprava týchto systematických predsudkov je mimoriadne dôležitá, pretože redundancia automaticky neodstraňuje systematické predsudky; pomáha odstrániť náhodné chyby.

Nakoniec, po debizovaní výskumníci potrebovali metódu kombinácie jednotlivých klasifikácií s cieľom dosiahnuť konsenzuálnu klasifikáciu. Najjednoduchší spôsob kombinácie klasifikácií pre každú galaxiu by bol výber najbežnejšej klasifikácie. Tento prístup by však dal každému dobrovoľníkovi rovnakú váhu a výskumní pracovníci sa domnievali, že niektorí dobrovoľníci majú lepšiu klasifikáciu ako ostatní. Preto výskumníci vyvinuli komplexnejší iteračný postup váženia, ktorý sa pokúšal odhaliť najlepších klasifikátorov a dať im väčšiu váhu.

Po troch krokoch čistenia, odstraňovania a váženia procesov výskumný tím Galaxy Zoo konvertoval 40 miliónov dobrovoľných klasifikácií do súboru konsenzuálnych morfologických klasifikácií. Keď boli tieto klasifikácie Galaxy Zoo porovnávané s tromi predchádzajúcimi pokusmi menších mier profesionálnych astronómov, vrátane klasifikácie zo strany Schawinski, ktoré pomohli inšpirovať Galaxy Zoo, existovala silná zhoda. Dobrovoľníci teda boli schopní poskytnúť vysoko kvalitné klasifikácie av rozsahu, ktorý výskumníci nemohli porovnať (Lintott et al. 2008) . V skutočnosti ľudské klasifikácie pre taký veľký počet galaxií dokázali Schawinski, Lintott a iní dokázať, že len asi 80% galaxií sleduje očakávané modré špirály a červené eliptikály - tento objav (Fortson et al. 2011) .

Vzhľadom na tieto poznatky môžete teraz vidieť, ako Galaxy Zoo sleduje recept split-apply-combine, rovnaký recept, ktorý sa používa pre väčšinu ľudských výpočtových projektov. Po prvé, veľký problém je rozdelený na kúsky. V tomto prípade bol problém klasifikácie miliónov galaxií rozdelený na milión problémov klasifikácie jednej galaxie. Potom sa operácia aplikuje na každý blok nezávisle. V tomto prípade dobrovoľníci klasifikovali každú galaxiu ako špirálovú alebo eliptickú. Nakoniec sú výsledky kombinované, aby sa dosiahlo konsenzus. V tomto prípade kombinácia zahŕňala čistenie, odstraňovanie debien a váženie, aby sa vytvorila klasifikácia konsenzu pre každú galaxiu. Hoci väčšina projektov používa tento všeobecný recept, každý krok musí byť prispôsobený špecifickému problému, ktorému sa venujeme. Napríklad v nižšie popísanom projekte ľudského výpočtu bude nasledovať ten istý recept, ale aplikovateľné a kombinované kroky budú úplne odlišné.

Pre tím Galaxy Zoo bol tento prvý projekt len ​​začiatkom. Veľmi rýchlo si uvedomili, že aj keď boli schopní klasifikovať takmer milión galaxií, táto miera nestačí na to, aby mohli pracovať s novšími prieskumami digitálnych (Kuminski et al. 2014) , ktoré dokážu vytvoriť obrazy približne 10 miliárd galaxií (Kuminski et al. 2014) . Ak chcete zvládnuť nárast z 1 milióna na 10 miliárd - faktor 10 000-Galaxy Zoo by musel prijať približne 10 000-krát viac účastníkov. Aj keď je počet dobrovoľníkov na internete veľký, nie je nekonečný. Preto si vedci uvedomili, že keby sa pokúšali zvládnuť čoraz väčšie množstvo údajov, bol by potrebný nový, dokonca škálovateľný prístup.

Preto Manda Banerji - pracujúca so spoločnosťami Schawinski, Lintott a ďalšími členmi tímu Galaxy Zoo (2010) začala učiť počítače na klasifikáciu galaxií. Konkrétnejšie, použitím ľudských klasifikácií, ktoré vytvoril Galaxy Zoo, Banerji postavil strojový model, ktorý by mohol predpovedať ľudskú klasifikáciu galaxie na základe vlastností obrazu. Ak by tento model mohol reprodukovať ľudské klasifikácie s vysokou presnosťou, mohol by to využiť výskumníci Galaxy Zoo na klasifikáciu v podstate nekonečného počtu galaxií.

Jadro prístupu Banerji a kolegov je v skutočnosti veľmi podobné technikám bežne používaným v sociálnom výskume, hoci táto podobnosť nemusí byť na prvý pohľad jasná. Po prvé, Banerji a kolegovia premenili každý obrázok na súbor číselných prvkov, ktoré zhrnuli jeho vlastnosti. Napríklad obrázky galaxií môžu obsahovať tri funkcie: množstvo modrej v obraze, rozdiel v jasnosti pixelov a podiel nebilých pixelov. Výber správnych funkcií je dôležitou súčasťou problému a vo všeobecnosti si vyžaduje odborné znalosti z oblasti. Tento prvý krok, bežne nazývaný inžinierske funkcie , má za následok vytvorenie dátovej matice s jedným riadkom na jeden obrázok a potom tri stĺpce popisujúce tento obrázok. Vzhľadom na matricu údajov a požadovaný výstup (napr. Či bol obraz klasifikovaný človekom ako eliptická galaxia), výskumník vytvorí model štatistického alebo strojového učenia - napríklad logistickú regresiu - ktorá predpovedá klasifikáciu ľudí na základe funkcií obrazu. Nakoniec výskumník používa parametre v tomto štatistickom modeli na vytvorenie odhadovaných klasifikácií nových galaxií (obrázok 5.4). V strojovom vzdelávaní sa tento prístup - pomocou označených príkladov na vytvorenie modelu, ktorý potom môže označovať nové údaje - nazýva supervidované učenie .

Obrázok 5.4: Zjednodušený opis toho, ako Banerji et al. (2010) použil klasifikáciu Galaxy Zoo na výcvik modelu strojového učenia, aby vykonal klasifikáciu galaxií. Obrazy galaxií boli premenené na maticu vlastností. V tomto zjednodušenom príklade existujú tri funkcie (množstvo modrej v obraze, odchýlka v jasnosti pixelov a podiel netieknutých pixelov). Potom pre podmnožinu obrázkov sa značky Galaxy Zoo používajú na výcvik modelu strojového učenia. Napokon, strojové učenie sa používa na odhad klasifikácií pre zostávajúce galaxie. Tento projekt nazývam ľudským výpočtovým projektom s podporou počítača, lebo ľudia majú namiesto toho, aby ľudia vyriešili problém, vytvorili súbor údajov, ktorý možno použiť na výcvik počítača na vyriešenie problému. Výhodou tohto počítačovo podporovaného počítačového systému je to, že umožňuje pracovať s nekonečnými množstvami údajov s použitím len obmedzeného množstva ľudského úsilia. Obrázky galaxií reprodukované na základe povolenia od Sloan Digital Sky Survey.

Obrázok 5.4: Zjednodušený opis toho, ako Banerji et al. (2010) použil klasifikáciu Galaxy Zoo na výcvik modelu strojového učenia, aby vykonal klasifikáciu galaxií. Obrazy galaxií boli premenené na maticu vlastností. V tomto zjednodušenom príklade existujú tri funkcie (množstvo modrej v obraze, odchýlka v jasnosti pixelov a podiel netieknutých pixelov). Potom pre podmnožinu obrázkov sa značky Galaxy Zoo používajú na výcvik modelu strojového učenia. Napokon, strojové učenie sa používa na odhad klasifikácií pre zostávajúce galaxie. Tento projekt nazývam ľudským výpočtovým projektom s podporou počítača, lebo ľudia majú namiesto toho, aby ľudia vyriešili problém, vytvorili súbor údajov, ktorý možno použiť na výcvik počítača na vyriešenie problému. Výhodou tohto počítačovo podporovaného počítačového systému je to, že umožňuje pracovať s nekonečnými množstvami údajov s použitím len obmedzeného množstva ľudského úsilia. Obrázky galaxií reprodukované na základe povolenia od Sloan Digital Sky Survey .

Funkcie v modeli strojového učenia Banerji a kolegov boli zložitejšie ako v príklade mojich hračiek - používala napríklad funkcie ako "de Vaucouleurs fit axial ratio" - a jej model nebol logistická regresia, bola to umelá neurónová sieť. S využitím jej vlastností, modelu a klasifikácie Galaxy Zoo dokázala vytvoriť záťaž pre každú funkciu a potom použila tieto váhy na predpovedanie klasifikácie galaxií. Napríklad v jej analýze sa zistilo, že obrázky s nízkym "axiálnym pomerom de Vaucouleurs fit" boli pravdepodobnejšie špirálovité galaxie. Vzhľadom na tieto váhy dokázala predpovedať ľudskú klasifikáciu galaxie s primeranou presnosťou.

Práca spoločnosti Banerji a jej kolegovia zmenila Zoo Galaxy na to, čo by som nazval počítačovým systémom ľudského výpočtu . Najlepší spôsob, ako premýšľať o týchto hybridných systémoch, je, že namiesto toho, aby ľudia vyriešili problém, ľudia vytvoria súbor údajov, ktorý možno použiť na školenie počítača na vyriešenie problému. Niekedy školenie počítača na vyriešenie problému môže vyžadovať veľa príkladov a jediný spôsob, ako vytvoriť dostatočný počet príkladov, je masová spolupráca. Výhodou tohto prístupu podporovaného počítačom je to, že vám umožňuje pracovať s nekonečným množstvom údajov s použitím iba obmedzeného množstva ľudského úsilia. Napríklad výskumný pracovník s miliónmi klasifikovaných galaxií môže vytvoriť prediktívny model, ktorý potom môže byť použitý na klasifikáciu miliárd alebo dokonca biliónov galaxií. Ak existuje obrovské množstvo galaxií, takýto druh hybridného počítača človek-počítač je naozaj jediným možným riešením. Táto nekonečná škálovateľnosť však nie je zadarmo. Vytváranie modelu strojového učenia, ktoré môže správne reprodukovať ľudské klasifikácie, je samo osebe ťažkým problémom, ale našťastie už existujú vynikajúce knihy venované tejto téme (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Zoo Galaxy je dobrým príkladom vývoja ľudských výpočtových projektov. Po prvé, výskumník sa pokúsi o projekt sám alebo s malým tímom výskumných asistentov (napr. Schawinskiho prvotné úsilie o klasifikáciu). Ak sa tento prístup nezmení dobre, výskumník sa môže s mnohými účastníkmi presunúť do projektu ľudského výpočtu. Ale pre určitý objem údajov nebude dosť čisté ľudské úsilie. V tomto bode výskumníci potrebujú vytvoriť počítačovo podporovaný ľudský výpočtový systém, v ktorom sa používajú ľudské klasifikácie na výcvik modelu strojového učenia, ktorý potom môže byť aplikovaný na prakticky neobmedzené množstvo údajov.