5.2.1 Galaxy Zoo

Galaxy Zoo аб'ядноўвае намаганні многіх добраахвотнікаў нявопытных класіфікаваць мільёнаў галактык.

Галактычны заапарк вырас з праблем, з якой сутыкаюцца Кевін Schawinski, аспірант астраноміі ў Оксфардскім універсітэце ў 2007 годзе спрошчаны зусім няшмат, Schawinski быў зацікаўлены ў галактыках і галактык могуць быць класіфікаваны па іх марфалогіі-эліптычныя або спіральна-і іх колер-сіні ці чырвоны. У той час, звычайная мудрасць сярод астраномаў у тым, што спіральныя галактыкі, як наш Млечны Шлях, былі сіняга колеру (з указаннем моладзі) і што эліптычныя галактыкі былі чырвонага колеру (з указаннем сталага ўзросту). Schawinski сумняваўся ў гэтым агульнапрынятай пункце гледжання. Ён падазраваў, што ў той час як гэтая мадэль можа быць дакладна ў цэлым, верагодна, былі значная колькасць выключэнняў, і што, вывучаючы мноства гэтых незвычайных галактык-тыя, якія не ўпісваліся чаканы патэрн-ён мог даведацца нешта пра працэс, праз які галактыкі ўтворацца.

Такім чынам, тое, што Schawinski неабходна для таго, каб перакуліць агульнапрынятую быў вялікі набор марфалагічна класіфікаваных галактык; то ёсць галактыкі, якія былі класіфікаваны як небудзь спіралі або эліптычныя. Праблема, аднак, у тым, што існуючыя алгарытмічныя метады класіфікацыі яшчэ не былі дастаткова добрыя, каб быць выкарыстаны для правядзення навуковых даследаванняў; Іншымі словамі, Класіфікуючы галактык, у той час, праблема, якую было цяжка для кампутараў. Таму тое , што было неабходна , была вялікая колькасць чалавечых што класіфікуюцца галактык. Schawinski распачаў гэтую праблему класіфікацыі з энтузіязмам аспіранта. У марафонскай сесіі сямі, 12-гадзіннага працоўнага дня, ён быў у стане класіфікаваць 50000 галактык. У той час як 50000 галактык можа гучаць як шмат, гэта на самай справе ўсяго толькі каля 5% з амаль аднаго мільёна галактык, якія былі сфатаграфаваныя ў Sky Survey Sloan Digital. Schawinski зразумеў, што яму патрэбен больш маштабуецца падыход.

На шчасце, аказалася, што задача класіфікацыйных галактык не патрабуе павышэння кваліфікацыі ў галіне астраноміі; вы можаце навучыць кагосьці зрабіць гэта даволі хутка. Іншымі словамі, нягледзячы на ​​тое, класіфікацыі галактык з'яўляецца задачай, якую было цяжка для кампутараў, гэта было даволі лёгка для людзей. Такім чынам, седзячы ў бары ў Оксфардзе, Schawinski і малы астраном Крыс Lintott марыў стварыць сайт, дзе валанцёры будуць класіфікаваць выявы галактык. Праз некалькі месяцаў, Galaxy Zoo нарадзіўся.

На сайце Galaxy Zoo, валанцёры будуць праходзіць некалькі хвілін навучання; напрыклад, вывучаючы розніцу паміж спіральнымі і эліптычнай галактыкі (мал 5.2). Пасля гэтага трэнінгу, добраахвотнікі павінны былі прайсці адносна лёгка віктарыны правільна Класіфікуючы 11 з 15 галактык з вядомымі класіфікацыі, а потым добраахвотнікам пачне рэальную класіфікацыю невядомых галактык праз просты вэб-інтэрфейс (Малюнак 5.3). Пераход ад добраахвотніка астраном будзе праходзіць менш чым за 10 хвілін, і патрабуецца толькі праходзячы самы нізкі з перашкод, з дапамогай простага тэсту.

Малюнак 5.2: Прыклады двух асноўных тыпаў галактык: спіральныя і эліптычныя. Праект Galaxy Zoo выкарыстоўваецца больш 100000 добраахвотнікаў катэгорый больш чым 900000 малюнкаў. Крыніца: www.galaxyzoo.org.

Малюнак 5.2: Прыклады двух асноўных тыпаў галактык: спіральныя і эліптычныя. Праект Galaxy Zoo выкарыстоўваецца больш 100000 добраахвотнікаў катэгорый больш чым 900000 малюнкаў. Крыніца: www.galaxyzoo.org .

Малюнак 5.3: Уваходны экран, на якім выбаршчыкі прасілі класіфікаваць адзін малюнак. Крыніца: www.galaxyzoo.org.

Малюнак 5.3: Уваходны экран, на якім выбаршчыкі прасілі класіфікаваць адзін малюнак. Крыніца: www.galaxyzoo.org .

Galaxy Zoo прыцягнуў сваіх першапачатковых добраахвотнікаў пасля таго, як праект быў прадстаўлены ў артыкуле навін, і на працягу шасці месяцаў праект вырас прыцягнуць больш 100000 грамадзян навукоўцаў, людзі, якія ўдзельнічалі, таму што яны карысталіся задачу, і яны хацелі, каб спрыяць прасоўванню астраноміі. Разам гэтыя 100.000 добраахвотнікаў , ўнесла ў агульнай складанасці больш за 40 мільёнаў класіфікацый, з большасцю класіфікацый , якія паступаюць з адносна невялікі, асноўнай групай удзельнікаў (Lintott et al. 2008) і (Lintott et al. 2008) .

Даследчыкі, якія маюць вопыт найму старшакурсніка навуковых супрацоўнікаў можа неадкладна скептычна ставіцца да якасці дадзеных. У той час як гэты скептыцызм з'яўляецца разумным, Galaxy Zoo , паказвае , што , калі ўклад добраахвотнікаў правільна чысціць, debiased і агрэгуе, яны могуць вырабляць высакаякасныя вынікі (Lintott et al. 2008) і (Lintott et al. 2008) . Важны трук для атрымання натоўпу , каб ствараць прафесійныя дадзеныя якасці з'яўляецца надмернасць; Гэта значыць, тая ж задача, якую выконвае многімі рознымі людзьмі. У Galaxy Zoo, там было каля 40 класіфікацый у галактыцы; даследчыкі, якія выкарыстоўваюць старшакурсніка асістэнтаў ніколі не маглі дазволіць сабе такі ўзровень надмернасці і, такім чынам, павінны быць значна больш заклапочаныя якасцю кожнай асобнай класіфікацыі. Тое, што добраахвотнікі не хапала ў працэсе навучання, яны кампенсавалі з надмернасцю.

Нават з некалькімі класіфікацыі ў галактыцы, аднак, спалучаючы набор добраахвотнікаў класіфікацый для атрымання кансенсусу класіфікацыі складана. З-за вельмі падобныя праблемы ўзнікаюць у большасці праектаў вылічэнняў чалавека, карысна коратка разгледзець тры крокі, якія даследчыкі Galaxy Zoo, якія выкарыстоўваюцца для атрымання іх класіфікацыі на аснове кансенсусу. Па-першае, даследчыкі "ачысціць" дадзеныя шляхам выдалення фіктыўных класіфікацыі. Напрыклад, людзі, якія неаднаразова класіфікуюцца адной галактыкі-то, што здарылася б, калі б яны спрабавалі маніпуляваць вынікамі, былі ўсе іх класіфікацыі адкідаюцца. Гэта і іншыя аналагічныя ачысткі выдаляецца каля 4% ад усіх класіфікацый.

Па-другое, пасля ачысткі, даследчыкі неабходна выдаліць сістэматычныя памылкі ў класіфікацыі. Праз шэраг даследаванняў па выяўленні зрушэння ўбудаваных ў межах першапачатковага праекта, напрыклад, паказваючы некаторыя добраахвотнікаў галактыка ў манахромным замест колеру, даследчыкі выявілі некалькі сістэматычных памылак, такіх як сістэматычнае зрушэнне класіфікацыі далёка спіральных галактык , як эліптычныя галактыкі (Bamford et al. 2009) і (Bamford et al. 2009) . Налада гэтых сістэматычных памылак надзвычай важна, таму што ў сярэднім шмат укладаў не здымае сістэматычнага зрушэння; ён выдаляе толькі выпадковую памылку.

Нарэшце, пасля таго, як устараненне Зрушэнне, даследчыкі патрэбен спосаб, каб аб'яднаць асобныя класіфікацыі для стварэння класіфікацыі на аснове кансенсусу. Самы просты спосаб аб'яднаць класіфікацыі для кожнай галактыкі было б выбраць найбольш распаўсюджаную класіфікацыю. Тым не менш, гэты падыход даў бы кожны добраахвотнік роўны вага, і даследчыкі падазраюць, што некаторыя добраахвотнікі былі лепш, чым іншыя класіфікацыі. Такім чынам, даследчыкі распрацавалі больш складаную ітэрацыйныя працэдуру ўзважвання, якая спрабуе аўтаматычна вызначаць лепшыя класіфікатары і даць ім больш вагі.

Такім чынам, пасля таго, як тры стадыі працэсу чысткі, ліквідацыя Зрушэнне і вагавых-даследчай каманды Galaxy Zoo канвертавалі 40 мільёнаў добраахвотнікаў класіфікацыі ў набор кансэнсусны марфалагічных класіфікацый. Калі гэтыя класіфікацыі Galaxy Zoo былі ў параўнанні з трыма папярэднімі спробамі меншага маштабу прафесійнымі астраномамі, у тым ліку класіфікацыі па Schawinski, якія дапамаглі натхніць Galaxy Zoo, было дасягнута шырокае згоду. Такім чынам, добраахвотнікі, у сукупнасці, былі ў стане забяспечыць высокую якасць і класіфікацыі ў маштабе , што даследчыкі не маглі адпавядаць (Lintott et al. 2008) і (Lintott et al. 2008) . На самай справе, маючы чалавечыя класіфікацыі для такога вялікага ліку галактык, Schawinski, Lintott, і іншыя былі ў стане паказаць, што толькі каля 80% галактык вынікаюць меркаванай схемы-блакітныя спіралі і чырвоны эліпсаў-і шматлікіх артыкулаў былі напісаныя аб гэта адкрыццё (Fortson et al. 2011) і (Fortson et al. 2011) .

На гэтым фоне, зараз мы можам убачыць, як Galaxy Zoo варта спліт-ўжыць-спалучаюць рэцэпт, адзін і той жа рэцэпт, які выкарыстоўваецца для большасці праектаў вылічэнняў чалавека. Ва- першых, вялікая праблема разбіваецца на кавалкі. У гэтым выпадку задача класіфікацыі мільёна галактык падзяляецца на мільён праблем класіфікацыі адной галактыкі. Далей, аперацыя прымяняецца да кожнай часткі незалежна адзін ад аднаго. У гэтым выпадку добраахвотнік б класіфікаваць кожную галактыку альбо як спіраль або эліптычныя. І, нарэшце, вынікі аб'ядноўваюцца для атрымання выніку на аснове кансенсусу. У гэтым выпадку этап скамбінаваны уключаў у сябе чыстку, ліквідацыі Зрушэнне, і ўзважванне для атрымання кансенсусу класіфікацыі для кожнай галактыкі. Нягледзячы на ​​тое, што большасць праектаў выкарыстоўваюць гэты агульны рэцэпт, кожны з этапаў трэба наладзіць на канкрэтны вырашаемай праблемы. Напрыклад, у праекце вылічэнні чалавека, якое апісана ніжэй, той жа самы рэцэпт будзе прытрымлівацца, але ўжываць і камбінуюць крокі будуць моцна адрознівацца.

Для каманды Galaxy Zoo, гэты першы праект быў толькі пачаткам. Вельмі хутка яны зразумелі , што нават калі б яны былі ў стане класіфікаваць каля мільёна галактык, гэты маштаб не дастаткова , каб працаваць з новымі абследаванняў лічбавага неба, якія маглі б вырабляць малюнка каля 10 мільярдаў галактык (Kuminski et al. 2014) і (Kuminski et al. 2014) . Каб справіцца з павелічэнне ў параўнанні з 1 мільёна да 10 мільярдаў фактар-10000 Galaxy Zoo спатрэбіцца набраць прыкладна ў 10000 разоў больш удзельнікаў. Нават нягледзячы на ​​тое колькасць добраахвотнікаў у Інтэрнэце вялікая, то ён не з'яўляецца бясконцым. Такім чынам, даследчыкі зразумелі, што калі яны збіраюцца апрацоўваць пастаянна растуць аб'ёмы дадзеных, неабходны новы, яшчэ больш маштабуецца падыход.

Таму Манда Банерджи-работы з Kevin Schawinski, Крыс Lintott і іншых членаў каманды Galaxy Zoo-пачынаючы навучальных кампутараў для класіфікацыі галактык. Больш канкрэтна, выкарыстоўваючы чалавечыя класіфікацыі , створаныя Galaxy Zoo, Banerji et al. (2010) і Banerji et al. (2010) пабудавалі мадэль машыннага навучання , якія маглі б прадказаць чалавечую класіфікацыю галактык , заснаваную на характарыстыках малюнка. Калі гэтая мадэль машыннага навучання можа прайграць чалавечыя класіфікацыі з высокай ступенню дакладнасці, то яна можа быць выкарыстана даследчыкамі Galaxy Zoo класіфікаваць па сутнасці бясконцую колькасць галактык.

Ядро Банерджи і яго калегі "падыход на самай справе вельмі падобныя на метады, якія выкарыстоўваюцца ў сацыяльных даследаваннях, хоць гэта падабенства можа быць не ясна, на першы погляд. Ва- першых, Банерджи і яго калегі ператвараюць кожнае малюнак у набор лікавых функцый , якія сумуюць яго ўласцівасці. Напрыклад, для малюнкаў галактык магло быць тры характарыстыкі: колькасць сіняга колеру ў малюнку, дысперсія ў яркасці пікселяў, а доля небела кропак. Выбар правільных функцый з'яўляецца важнай часткай праблемы, і гэта як правіла, патрабуе прадметна-вобласці ведаў. Гэта першы крок, які звычайна называюць асаблівасць інжынернага, прыводзіць да матрыцы дадзеных па адным радку на малюнку , а затым тры слупка , якія апісваюць гэты вобраз. Улічваючы матрыцу дадзеных і жаданы вынік (напрыклад, ці быў малюнак класіфікуецца чалавекам як эліптычнай галактыкі), даследчык ацэньвае параметры статыстычнай мадэлі, напрыклад, нешта накшталт лагістычнай рэгрэсіі, якая прадказвае чалавечую класіфікацыю, заснаваную пра асаблівасці малюнка. Нарэшце, даследчык выкарыстоўвае параметры ў гэтай статыстычнай мадэлі для атрымання разліковых класіфікацыі новых галактык (мал 5.4). Для таго, каб думаць аб сацыяльнай аналага, уявіце сабе, што вы мелі дэмаграфічную інфармацыю каля мільёна студэнтаў, і вы ведаеце, скончыў Ці яны з каледжа ці не. Вы маглі б адпавядаць лагістычнай рэгрэсіі да гэтых дадзеных, а затым вы можаце выкарыстоўваць атрыманыя параметры мадэлі, каб прадказаць, ці будзе новыя студэнты збіраюцца скончыць каледж. У машынным навучанні, гэты падыход, з выкарыстаннем пазначаных прыкладаў , каб стварыць статыстычную мадэль , якая затым можа маркіраваць новыя дадзеныя, называецца наглядам навучання (Hastie, Tibshirani, and Friedman 2009) .

Малюнак 5.4: Спрошчаная апісанне таго, як Банерджи і інш. (2010) выкарыстоўвалі класіфікацыю Galaxy Zoo, каб падрыхтаваць мадэль машыннага навучання, каб зрабіць класіфікацыю галактык. Выявы галактык былі ператвораныя ў матрыцы функцый. У гэтым спрошчаным прыкладзе ёсць тры функцыі (колькасць сіняга колеру ў малюнку, дысперсія ў яркасці пікселяў, а доля небела кропак). Тады для падмноства малюнкаў, этыкеткі Galaxy Zoo выкарыстоўваюцца для навучання мадэлі машыннага навучання. І, нарэшце, навучанне машыны выкарыстоўваецца для ацэнкі класіфікацыі для астатніх галактык. Я называю такі праект другога пакалення чалавечага вылічальны праект, таму што, замест таго, людзі вырашаюць праблему, у іх ёсць людзі пабудаваць набор дадзеных, які можа быць выкарыстаны для падрыхтоўкі кампутара, каб вырашыць гэтую праблему. Перавага гэтага камп'ютэрнага падыходу заключаецца ў тым, што яна дазваляе апрацоўваць па сутнасці бясконцая колькасць дадзеных, выкарыстоўваючы толькі канечны колькасць чалавечых намаганняў.

Малюнак 5.4: Спрошчаная апісанне таго , як Banerji et al. (2010) і Banerji et al. (2010) выкарыстоўвалі класіфікацыю Galaxy Zoo , каб падрыхтаваць мадэль машыннага навучання , каб зрабіць класіфікацыю галактык. Выявы галактык былі ператвораныя ў матрыцы функцый. У гэтым спрошчаным прыкладзе ёсць тры функцыі (колькасць сіняга колеру ў малюнку, дысперсія ў яркасці пікселяў, а доля небела кропак). Тады для падмноства малюнкаў, этыкеткі Galaxy Zoo выкарыстоўваюцца для навучання мадэлі машыннага навучання. І, нарэшце, навучанне машыны выкарыстоўваецца для ацэнкі класіфікацыі для астатніх галактык. Я называю такі праект другога пакалення чалавечага вылічальны праект, таму што, замест таго, людзі вырашаюць праблему, у іх ёсць людзі пабудаваць набор дадзеных, які можа быць выкарыстаны для падрыхтоўкі кампутара, каб вырашыць гэтую праблему. Перавага гэтага камп'ютэрнага падыходу заключаецца ў тым, што яна дазваляе апрацоўваць па сутнасці бясконцая колькасць дадзеных, выкарыстоўваючы толькі канечны колькасць чалавечых намаганняў.

Асаблівасці ў Banerji et al. (2010) і Banerji et al. (2010) мадэль навучання машыны былі больш цяжкія , чым тыя , у маёй цаццы прыклад, напрыклад, яна выкарыстала такія функцыі , як "дэ Вокулер падыходзяць восевы стаўленне" -І яе мадэль не была лагістычнай рэгрэсіі, гэта была штучная нейронных сетку. Выкарыстоўваючы свае асаблівасці, яе мадэль, і кансэнсус Galaxy Zoo класіфікацыі, яна была ў стане стварыць вагі на кожнай функцыі, а затым выкарыстоўваць гэтыя вагі, каб рабіць прагнозы аб класіфікацыі галактык. Напрыклад, яе аналіз паказаў, што малююнкі з нізкім "Вокулер падыходзяць восевы стаўленне", хутчэй за ўсё, будуць спіральныя галактыкі. Прымаючы пад увагу гэтыя вагі, яна была ў стане прадказаць чалавечую класіфікацыю галактыкі з дастатковай ступенню дакладнасці.

Праца Banerji et al. (2010) і Banerji et al. (2010) звярнуўся Galaxy Zoo у той , што я б назваў сістэму чалавечага вылічэнні другога пакалення. Лепшы спосаб думаць аб гэтых сістэмах другога пакалення з'яўляецца тое, што замест таго, людзі вырашаюць праблему, у іх ёсць людзі пабудаваць набор дадзеных, які можа быць выкарыстаны для падрыхтоўкі кампутара, каб вырашыць гэтую праблему. Аб'ём дадзеных, неабходных для падрыхтоўкі кампутара можа быць настолькі вялікая, што патрабуе супрацоўніцтва масавага чалавека для стварэння. У выпадку Galaxy Zoo, нейронавых сетак , якія выкарыстоўваюцца Banerji et al. (2010) і Banerji et al. (2010) патрабуецца вельмі вялікая колькасць прыкладаў чалавечых мечаных для таго , каб пабудаваць мадэль , якая была ў стане дакладна прайграць чалавечую класіфікацыю.

Перавага гэтага камп'ютэрнага падыходу заключаецца ў тым, што яна дазваляе апрацоўваць па сутнасці бясконцая колькасць дадзеных, выкарыстоўваючы толькі канечны колькасць чалавечых намаганняў. Напрыклад, даследчык мільёна чалавечых што класіфікуюцца галактык можна пабудаваць прагнастычныя мадэль, якая затым можа быць выкарыстана для класіфікацыі мільярд ці нават трыльёнаў галактык. Калі ёсць велізарная колькасць галактык, то такога роду чалавек-кампутар гібрыд сапраўды адзіна магчымым рашэннем. Гэтая бясконцая маштабаванасць не з'яўляецца бясплатным, аднак. Пабудова мадэлі навучання машыны , які можа правільна прайграваць чалавечыя класіфікацыі само па сабе з'яўляецца цяжкай задачай, але , да шчасця , ужо ёсць выдатныя кнігі , прысвечаныя гэтай тэме (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) і (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo паказвае эвалюцыю многіх праектаў вылічэнняў чалавека. Па-першае, даследчык спрабуе праект самастойна або з невялікай групай навуковых супрацоўнікаў (напрыклад, першапачатковыя намаганні класіфікацыі Schawinski в). Калі гэты падыход не вельмі добра маштабуецца, даследчык можа перайсці да чалавечага праекту вылічэнні, дзе многія людзі спрыяюць класіфікацыі. Але для пэўнага аб'ёму дадзеных, чыста чалавечых намаганняў будзе недастаткова. У гэты момант, даследчыкі павінны будаваць сістэмы другога пакалення, дзе чалавечыя класіфікацыі выкарыстоўваюцца для навучання мадэлі навучання машыны, які затым можа быць ужыты да практычна неабмежаваным колькасцю дадзеных.