5.2.1 Galaxy Zoo

Galaxy Zoo sameinuðu viðleitni margra annarra sjálfboðaliða sem ekki eru sérfræðingar til að flokka milljón vetrarbrautir.

Galaxy dýragarðurinn óx úr vandræðum með Kevin Schawinski, framhaldsnámsmaður í stjörnufræði við Oxford-háskóla árið 2007. Einföldun, Schawinski hafði áhuga á vetrarbrautum og vetrarbrautir geta verið flokkaðar eftir formgerð þeirra elliptical eða spiral-og með litbláum eða rauðum. Á þeim tíma var venjuleg visku meðal stjörnufræðinga að spíral vetrarbrautir, eins og Vetrarbrautin okkar, voru bláir í lit (sem bentu til æskulýðsmála) og sporöskjulaga vetrarbrautir voru rauðir (sem bentu til elli). Schawinski efast um þessa hefðbundna visku. Hann grunaði að á meðan þetta mynstur gæti verið satt almennt, voru líklega umtalsverður fjöldi undantekninga og að með því að læra fullt af þessum óvenjulegum vetrarbrautum - þeim sem ekki passa væntanlegt mynstur - hann gæti lært eitthvað um ferlið þar sem vetrarbrautir myndast.

Þannig, það sem Schawinski þurfti til að koma í veg fyrir hefðbundna visku var stórt sett af formfræðilega flokkuð vetrarbrautum; það er vetrarbrautir sem höfðu verið flokkaðar sem annaðhvort spíral eða sporöskjulaga. Vandamálið var hins vegar að núverandi reikniritunaraðferðir fyrir flokkun voru ekki enn nógu góð til að nota til vísindarannsókna; með öðrum orðum var flokkun vetrarbrauta á þeim tíma vandamál sem var erfitt fyrir tölvur. Þess vegna þurfti mikið af mannavöldum í vetrarbrautum. Schawinski skuldbatti þetta flokkunarvandamál með áhugasviðum nemanda. Í marathon fundi sjö 12 klukkustunda daga, var hann fær um að flokka 50.000 vetrarbrautir. Þó að 50.000 vetrarbrautir megi hljóma eins og mikið, þá er það í raun aðeins um 5% af næstum einum milljón vetrarbrautum sem höfðu verið ljósmyndaðar í Sloan Digital Sky Survey. Schawinski áttaði sig á því að hann þurfti meiri stigstærð.

Sem betur fer, það kemur í ljós að það verkefni að flokka vetrarbrauta þarf ekki háþróaður þjálfun í stjörnufræði; þú getur kennt einhverjum að gera það ansi hratt. Með öðrum orðum, jafnvel þótt flokkun vetrarbrauta er verkefni sem var erfitt fyrir tölvur, það var frekar auðvelt fyrir menn. Svo, á meðan situr í krá í Oxford, Schawinski og náungi stjörnufræðingurinn Chris Lintott dreymt upp vefsíðu þar sem sjálfboðaliðar myndi flokka myndir af vetrarbrautum. Nokkrum mánuðum síðar, Galaxy Zoo fæddist.

Á heimasíðu Galaxy Zoo myndi sjálfboðaliðar fara í nokkrar mínútur af þjálfun; til dæmis að læra muninn á spíral og sporöskjulaga vetrarbrautinni (mynd 5.2). Eftir þessa þjálfun þurftu allir sjálfboðaliðar að fara í tiltölulega auðvelt próf, rétt flokkun 11 af 15 vetrarbrautum með þekktum flokkum, og þá hefst raunveruleg flokkun óþekktra vetrarbrauta með einföldum vefviðmótum (mynd 5.3). Umskipti frá sjálfboðaliðum til stjörnufræðings myndu eiga sér stað á innan við 10 mínútum og þarf aðeins að fara framhjá lægstu hindrunum, einfalt próf.

Mynd 5.2: Dæmi um tvær helstu gerðir vetrarbrauta: Spíral og sporöskjulaga. Galaxy Zoo verkefnið notaði meira en 100.000 sjálfboðaliðar til að flokka meira en 900.000 myndir. Afleiða með leyfi frá http://www.GalaxyZoo.org og Sloan Digital Sky Survey.

Mynd 5.2: Dæmi um tvær helstu gerðir vetrarbrauta: Spíral og sporöskjulaga. Galaxy Zoo verkefnið notaði meira en 100.000 sjálfboðaliðar til að flokka meira en 900.000 myndir. Afleiða með leyfi frá http://www.GalaxyZoo.org og Sloan Digital Sky Survey .

Mynd 5.3: Innsláttarskjár þar sem sjálfboðaliðar voru beðnir um að flokka eina mynd. Afritað með leyfi frá Chris Lintott byggt á mynd frá Sloan Digital Sky Survey.

Mynd 5.3: Innsláttarskjár þar sem sjálfboðaliðar voru beðnir um að flokka eina mynd. Afritað með leyfi frá Chris Lintott byggt á mynd frá Sloan Digital Sky Survey .

Galaxy Zoo vakti upphaflega sjálfboðaliða sína eftir að verkefnið var birt í fréttagrein og um sex mánuði varð verkefnið meira en 100.000 íbúar vísindamenn, fólk sem tók þátt vegna þess að þeir notuðu verkefni og þeir vildu hjálpa til við framhaldsnám. Samanlagðu þessar 100.000 sjálfboðaliðar samanlagt meira en 40 milljónir flokkana, þar sem meirihluti flokkana kom frá tiltölulega litlum kjarna hópi þátttakenda (Lintott et al. 2008) .

Vísindamenn sem hafa reynslu af að ráða grunnnámi í rannsóknaraðstoð gætu strax verið efins um gagnagæði. Þó að þessi tortryggni sé sanngjarnt, sýnir Galaxy dýragarðurinn að þegar sjálfboðaliðastofnanir eru rétt hreinsaðar, deformaðar og samanlagðar geta þeir framleitt hágæða niðurstöður (Lintott et al. 2008) . Mikilvægt bragð til að fá mannfjöldann til að búa til gagna af faglegum gæðum er offramboð , það er að hafa sama verkefni sem mörg mismunandi fólk framkvæmir. Í Galaxy dýragarðinum voru um 40 flokkanir á vetrarbrautinni; Vísindamenn sem nota grunnnám við rannsóknaraðferðir gætu aldrei efni á þessu ofbeldi og þyrfti því að hafa meiri áhyggjur af gæðum hverrar flokkunar. Það sem sjálfboðaliðarnir skortu á þjálfun, gerðu þeir uppi með offramboð.

Jafnvel með fjölmörgum flokkum á vetrarbrautinni var það þó erfiður að sameina flokkun sjálfboðaliða til að framleiða samstöðuflokkun. Vegna þess að mjög svipaðar áskoranir eiga sér stað í flestum mönnum reikningsverkefnum, er það gagnlegt að skoða stuttlega þrjá skrefin sem Galaxy Zoo vísindamenn notuðu til að framleiða samstöðuflokkana sína. Í fyrsta lagi vísindamenn "hreinsuðu" gögnin með því að fjarlægja svikinn flokkun. Til dæmis, fólk sem endurtekið flokkaði sömu vetrarbrautina - eitthvað sem myndi gerast ef þeir voru að reyna að vinna úr niðurstöðum - höfðu öll flokkun þeirra fargað. Þessi og önnur svipuð hreinsun fjarlægðist um 4% af öllum flokkunum.

Í öðru lagi, eftir að hafa hreinsað, þurftu vísindamenn að fjarlægja kerfisbundnar hlutdrægni í flokkunum. Í gegnum röð rannsókna á hlutdrægni uppgötvun sem byggð var á upprunalegu verkefninu, til dæmis með því að sýna sjálfboðaliðum vetrarbrautina í einlita lit í stað litar, uppgötvuðu vísindamenn nokkur kerfisbundin hlutdrægni, svo sem kerfisbundið hlutdrægni til að flokka fjarlæga spíral vetrarbrautir sem sporöskjulaga vetrarbrautir (Bamford et al. 2009) . Aðlagast þessum kerfisbundnu hlutdrægni er afar mikilvægt vegna þess að offramboð sjálfkrafa fjarlægir kerfisbundið hlutdrægni; Það hjálpar aðeins við að fjarlægja handahófi villa.

Að lokum, eftir debiasing, þurftu vísindamenn aðferð til að sameina einstaka flokkanir til að framleiða samstöðuflokkun. Einfaldasta leiðin til að sameina flokkanir fyrir hvert vetrarbraut hefði verið að velja algengustu flokkunina. Hins vegar hefði þessi nálgun gefið hverjum sjálfboðaliði jafnvægi og vísindamenn grunuðu um að sumir sjálfboðaliðar voru betur flokkaðir en aðrir. Þess vegna þróuðu vísindamenn flóknari endurteknar þyngdaraðgerðir sem reyndu að uppgötva bestu flokkunarmenn og gefa þeim meiri þyngd.

Þannig, eftir þriggja skrefa hreinsunarvinnslu, debiasing og weighting-rannsóknarhóp Galaxy Zoo hafði umbreytt 40 milljón sjálfboðaliða flokkanir í hóp samkomulags morphological flokkanir. Þegar þessi Galaxy Zoo flokkun var borin saman við þrjár fyrri smærri tilraunir af faglegum stjörnufræðingum, þar á meðal flokkun Schawinski sem hjálpaði til að hvetja Galaxy Zoo, var sterk samstaða. Þannig fengu sjálfboðaliðar í heild sinni hágæða flokkanir og í mælikvarða sem vísindamenn gætu ekki passa við (Lintott et al. 2008) . Reyndar, með því að hafa mannleg flokkun fyrir svo mikinn fjölda vetrarbrautir, voru Schawinski, Lintott og aðrir fær um að sýna að aðeins um 80% vetrarbrauta fylgi væntanlegu mynsturbláum spíralum og rauðum sporöskjulaga - og fjölmargir ritgerðir hafa verið skrifaðar um Þessi uppgötvun (Fortson et al. 2011) .

Í ljósi þessarar bakgrunnar geturðu nú séð hvernig Galaxy Zoo fylgir split-apply-combine uppskriftina, sama uppskrift sem er notað fyrir flestar mannlegar útreikningsverkefni. Í fyrsta lagi er stórt vandamál skipt í klumpur. Í þessu tilfelli var vandamálið að flokka milljón vetrarbrautir skipt í milljón vandamál að flokka eitt vetrarbraut. Næst er aðgerð beitt á hvert klump sjálfstætt. Í þessu tilviki flokkuðu sjálfboðaliðar hverja vetrarbraut sem annaðhvort spíral eða sporöskjulaga. Að lokum eru niðurstöðurnar sameinuð til að framleiða samstöðu niðurstöðu. Í þessu tilfelli, sameina skrefið með hreinsun, debiasing og vægi til að búa til samstöðuflokkun fyrir hvert vetrarbraut. Þrátt fyrir að flestir verkefnum noti þessa almennu uppskrift þarf hvert skref að vera sérsniðið að því tilteknu vandamáli sem fjallað er um. Til dæmis, í mannlegri útreikningsverkefninu sem lýst er hér að neðan, mun sama uppskrift fylgja, en beitingin og sameining skrefin verða nokkuð mismunandi.

Fyrir Galaxy Zoo liðið, þetta fyrsta verkefni var bara upphafið. Mjög fljótt sáust þeir að jafnvel þótt þeir hafi getað flokkað nærri milljón vetrarbrautir, þá er þessi mælikvarði ekki nóg til að vinna með nýrri stafrænar (Kuminski et al. 2014) sem geta myndað myndir um 10 milljarða vetrarbrautir (Kuminski et al. 2014) . Til að takast á við aukningu frá 1 milljón til 10 milljarða-þáttur 10.000-Galaxy Zoo þurfti að ráða u.þ.b. 10.000 sinnum fleiri þátttakendur. Þó að fjöldi sjálfboðaliða á Netinu sé stór, þá er það ekki óendanlegt. Þess vegna uppgötvuðu vísindamenn að ef þeir voru að takast á við sífellt vaxandi magn gagna var þörf á nýrri, enn meiri stigstærð.

Þess vegna, Manda Banerji-samstarf við Schawinski, Lintott og aðra meðlimi Galaxy Zoo liðsins (2010) byrjaði að kenna tölvum til að flokka vetrarbrautir. Nánar tiltekið, með því að nota mannaflokkana búin til af Galaxy Zoo, byggði Banerji vélinámsmódel sem gæti spáð mannlegri flokkun á vetrarbraut byggt á eiginleikum myndarinnar. Ef þetta líkan gæti endurskapað mannlegar flokkanir með mikilli nákvæmni, þá gæti það verið notað af Galaxy Zoo vísindamenn að flokka í raun óendanlega fjölda vetrarbrauta.

Kjarninn í nálgun Banerji og samstarfsmanna er í raun nokkuð svipuð að tækni sem almennt er notaður í félagslegum rannsóknum, þó að líkur gætu ekki verið ljóst við fyrstu sýn. Í fyrsta lagi breytti Banerji og samstarfsmenn hverja mynd í tölulegum eiginleikum sem samantekti eiginleikum þess. Til dæmis, fyrir myndir af vetrarbrautum, það gæti verið þrjár aðgerðir: magn af bláu í myndinni, afbrigðið í birtustigi punkta og hlutfallið af ekki hvítum punktum. Val á rétta eiginleika er mikilvægur þáttur í vandamálinu, og það krefst yfirleitt á sviði sérsviðs. Þetta fyrsta skrefið, sem kallast almennt verkfræði , leiðir til gagnasafns með einum línu á mynd og síðan þrjár dálkar sem lýsa þessari mynd. Í ljósi gagnasafnsins og viðkomandi framleiðsla (td hvort myndin var flokkuð af mönnum sem sporöskjulaga vetrarbraut), skapar vísindamaður tölfræðilegan eða vélanámsmodil - til dæmis, logistic regression-sem spáir fyrir mannlegri flokkun á grundvelli eiginleika af myndinni. Að lokum notar vísindamaður breytur í þessari tölfræðilegu líkani til að framleiða áætlaða flokkun nýrra vetrarbrauta (mynd 5.4). Í nám í vélinni er þetta nálgun með því að nota merkt dæmi til að búa til fyrirmynd sem getur síðan merkt ný gögn - kallast undir eftirliti með námi .

Mynd 5.4: Einfölduð lýsing á því hvernig Banerji o.fl. (2010) notaði Galaxy dýragarðinn flokkunina til að þjálfa vélnemann til að gera vetrarbrautarflokkun. Myndir af vetrarbrautum voru breytt í fylki af eiginleikum. Í þessu einfölduðu dæmi eru þrjár aðgerðir (magn af bláu í myndinni, afbrigði í birtustigi punkta og hlutfall nonwhite pixla). Þá, fyrir undirhóp af myndunum, eru Galaxy Zoo merki notuð til að þjálfa vél námsmódel. Að lokum er vélin nám notuð til að meta flokkanir fyrir aðrar vetrarbrautir. Ég kalla þetta tölvuaðstoðað mannlegt útreikningsverkefni vegna þess að í stað þess að fá fólk til að leysa vandamál, hefur það mannfólk að byggja upp gagnasafni sem hægt er að nota til að þjálfa tölvu til að leysa vandamálið. Kosturinn við þetta tölvuaðstoðaða tölvukerfi er að það gerir þér kleift að takast á við í meginatriðum óendanlega magn af gögnum með því að nota aðeins endanlegt magn af mannlegri vinnu. Myndir af vetrarbrautum endurspeglast með leyfi frá Sloan Digital Sky Survey.

Mynd 5.4: Einfölduð lýsing á því hvernig Banerji et al. (2010) notaði Galaxy dýragarðinn flokkunina til að þjálfa vélnemann til að gera vetrarbrautarflokkun. Myndir af vetrarbrautum voru breytt í fylki af eiginleikum. Í þessu einfölduðu dæmi eru þrjár aðgerðir (magn af bláu í myndinni, afbrigði í birtustigi punkta og hlutfall nonwhite pixla). Þá, fyrir undirhóp af myndunum, eru Galaxy Zoo merki notuð til að þjálfa vél námsmódel. Að lokum er vélin nám notuð til að meta flokkanir fyrir aðrar vetrarbrautir. Ég kalla þetta tölvuaðstoðað mannlegt útreikningsverkefni vegna þess að í stað þess að fá fólk til að leysa vandamál, hefur það mannfólk að byggja upp gagnasafni sem hægt er að nota til að þjálfa tölvu til að leysa vandamálið. Kosturinn við þetta tölvuaðstoðaða tölvukerfi er að það gerir þér kleift að takast á við í meginatriðum óendanlega magn af gögnum með því að nota aðeins endanlegt magn af mannlegri vinnu. Myndir af vetrarbrautum endurspeglast með leyfi frá Sloan Digital Sky Survey .

Aðgerðirnar í Banerji og vinnustofunni frá samstarfsfólki voru flóknari en þær sem voru í leikfangi mínu, til dæmis notaði hún eiginleika eins og "de Vaucouleurs passa axial hlutfallið" og módelið hennar var ekki rökrétt afturhvarf, það var tilbúið taugakerfi. Með því að nota eiginleika hennar, líkan hennar og samkomulag um Galaxy dýragarðinn, gat hún búið til lóða á hvern eiginleiki og notaðu síðan þessar lóðir til að spá fyrir um flokkun vetrarbrauta. Til dæmis kom fram að greining hennar hafi leitt til þess að myndir með litla "de Vaucouleurs passa axial hlutfallið" væru líklegri til að vera spíral vetrarbrautir. Í ljósi þessara þyngdar gat hún sagt til um mannleg flokkun vetrarbrautar með sanngjörnu nákvæmni.

Verkefni Banerji og samstarfsmanna sneru Galaxy Zoo inn í það sem ég myndi hringja í tölvuaðstoðaðan tölvukerfi . Besta leiðin til að hugsa um þessi blendingarkerfi er að í stað þess að hafa menn leysa vandamál, þá eru menn að byggja upp gagnasöfn sem hægt er að nota til að þjálfa tölvu til að leysa vandamálið. Stundum getur þjálfun á tölvu til að leysa vandamálið krafist fjölda dæmi og eina leiðin til að framleiða nægjanlegt fjölda dæma er fjöldamiðlun. Kosturinn við þessa tölvuaðstoð er sú að það gerir þér kleift að takast á við í meginatriðum óendanlega magn af gögnum með því að nota aðeins endanlegt magn af mannauðum. Til dæmis getur vísindamaður með milljón mannaflokkuð vetrarbrautir byggt upp fyrirsjáanlegt líkan sem síðan er hægt að nota til að flokka milljarða eða jafnvel þrjátíu vetrarbrautir. Ef það er gríðarlegt fjöldi vetrarbrauta, þá er þessi tegund af mannvirki tölvusnúpur eini eini mögulegur lausnin. Þessi óendanlega sveigjanleiki er hins vegar ekki frjáls. Að byggja upp námsmódel í vélinni sem er hægt að endurskapa mannlegar flokkanir á réttan hátt er (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) vandamál, en sem betur fer eru nú þegar framúrskarandi bækur sem henta þessu efni (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo er góð mynd af því hversu margar menntunarverkefni þróast. Í fyrsta lagi reynir rannsóknir verkefnið sjálf eða með litlum hópi rannsóknaraðstoðar (td upphaflega flokkunaraðgerð Schawinski). Ef þessi aðferð skilar ekki vel, getur rannsóknaraðilinn farið í mannlegt útreikningsverkefni með mörgum þátttakendum. En fyrir tiltekið magn af gögnum mun hreint mannlegt átak ekki vera nóg. Á þeim tímapunkti þurfa vísindamenn að byggja upp tölvuaðstoðaðan mannleg útreikningarkerfi þar sem mannleg flokkun er notuð til að þjálfa tölvuþjálfunarlíkan sem síðan er hægt að beita á nánast ótakmarkaðan fjölda gagna.