5.2.1 Galaxy Zoo

Гэты пераклад быў створаны з дапамогай кампутара. ×

5.2.1 Galaxy Zoo

Galaxy Zoo аб'яднаў намаганні многіх добраахвотнікаў нявопытных класіфікаваць мільёна галактык.

Galaxy Zoo вырас з праблем, з якой сутыкаюцца Кевін Шавински, аспірант астраноміі ў Оксфардскім універсітэце ў 2007 годзе спрошчаны зусім няшмат, Schawinski быў зацікаўлены ў галактыках і галактык можна класіфікаваць па іх марфалогію-эліптычныя або спіральна і іх колер-сіні ці чырвоны колер. У той час, агульнапрынятая сярод астраномаў, што спіральныя галактыкі, як Млечны Шлях, былі сіняга колеру (з указаннем моладзі) і эліптычныя галактыкі былі чырвоныя (з указаннем старасці). Schawinski сумняваўся агульнапрыняты. Ён падазраваў, што ў той час як гэтая мадэль можа быць праўдай, увогуле, там, верагодна, значная колькасць выключэнняў, і што, вывучаючы мноства гэтых незвычайных галактык-тыя, якія не адпавядаюць чаканай карціны, ён мог бы даведацца сёе-тое пра працэс, праз які галактыкі ўтворацца.

Такім чынам, тое, што Schawinski неабходна для таго, каб перакуліць агульнапрынятую быў вялікі набор марфалагічна класіфікаваных галактык; то ёсць галактыкі, якія былі класіфікаваны як небудзь спіралі або эліптычнай. Праблема, аднак, у тым, што існуючыя алгарытмічныя метады класіфікацыі яшчэ не былі дастаткова добрыя, каб быць выкарыстаны для навуковых даследаванняў; Іншымі словамі, Класіфікуючы галактык, у той час, праблема, якую было цяжка для кампутараў. Таму тое , што было патрэбна вялікая колькасць -classified галактык чалавека. Schawinski распачаў гэтую праблему класіфікацыі з энтузіязмам аспіранта. У марафоне сесіі сем 12-гадзіннага працоўнага дня, ён быў у стане класіфікаваць 50000 галактык. У той час як 50000 галактык можа гучаць як шмат, гэта на самай справе толькі каля 5% з амаль аднаго мільёна галактык, якія былі сфатаграфаваныя ў Sky Survey Sloan Digital. Schawinski зразумеў, што яму патрэбен больш маштабуецца падыход.

На шчасце, аказалася, што задача класіфікацыйных галактык не патрабуе павышэння кваліфікацыі ў галіне астраноміі; вы можаце навучыць кагосьці зрабіць гэта даволі хутка. Іншымі словамі, нягледзячы на тое, класіфікацыі галактык з'яўляецца задачай, якую было цяжка для кампутараў, гэта было даволі лёгка для людзей. Такім чынам, седзячы ў бары ў Оксфардзе, Schawinski і малы астраном Крыс Lintott марыў стварыць сайт, дзе валанцёры будуць класіфікаваць выявы галактык. Праз некалькі месяцаў, Galaxy Zoo нарадзіўся.

На сайце Galaxy Zoo, валанцёры будуць праходзіць праз некалькі хвілін навучання; напрыклад, вывучаючы розніцу паміж спіраллю і эліптычнай галактыкі (малюнак 5.2). Пасля гэтага трэнінгу, кожны добраахвотнік павінен быў прайсці параўнальна лёгка віктарыны правільна Класіфікуючы 11 з 15 галактык з вядомымі класіфікацыі, а потым пачне рэальную класіфікацыю невядомых галактык праз просты вэб-інтэрфейс (малюнак 5.3). Пераход ад добраахвотніка астранома будзе праходзіць менш чым за 10 хвілін, і толькі патрабуецца праходжанне самага нізкага перашкод, просты тэст.

Малюнак 5.2: Прыклады двух асноўных тыпаў галактык: спіралі і эліптычныя. Праект Galaxy Zoo выкарыстоўваецца больш чым 100000 добраахвотнікам класіфікаваць больш чым 900,000 малюнкаў. Прайграваецца з дазволу http://www.GalaxyZoo.org і Sloan Digital Survey Sky .

Малюнак 5.3: Экран ўводу, дзе добраахвотнікі прасілі класіфікаваць адзін малюнак. Прайграваецца з дазволу ад Крыса Lintott на аснове малюнка ад Sky Survey Sloan Digital .

Galaxy Zoo прыцягнуў свае першапачатковыя добраахвотнік пасля таго, як праект быў прадстаўлены ў артыкуле навін, і на працягу шасці месяцаў праекта вырас прыцягнуць больш 100000 грамадзянін навукоўцаў, чалавек, якія прымалі ўдзел, таму што яны карыстаюцца задачамі, і яны хацелі, каб спрыяць прасоўванню астраноміі. Разам гэтыя 100.000 добраахвотнікаў спрыялі ў агульнай складанасці больш за 40 мільёнаў класіфікацый, большасць класіфікацый , якія паступаюць з адносна невялікі, асноўнай групы ўдзельнікаў (Lintott et al. 2008) і (Lintott et al. 2008) .

Даследчыкі, якія маюць вопыт найму старшакурсніка асістэнтаў могуць адразу скептычна з нагоды якасці дадзеных. У той час як гэты скептыцызм з'яўляецца разумным, Галактыкі заапарк паказвае , што , калі ўклад добраахвотнікаў правільна ачышчаны, debiased і агрэгуецца, яны могуць вырабляць высакаякасныя вынікі (Lintott et al. 2008) і (Lintott et al. 2008) . Важны трук для атрымання натоўпу , каб стварыць прафесійныя якасці дадзеных з'яўляецца надмернасць, гэта значыць, маючы тую ж задачу , якая выконваецца многімі рознымі людзьмі. У Galaxy заапарку налічвалася каля 40 класіфікацый у галактыцы; Даследчыкі, якія выкарыстоўваюць старшакурсніка асістэнтаў не маглі дазволіць сабе такі ўзровень надмернасці і, такім чынам, павінны былі б быць значна больш заклапочаныя якасцю кожнай асобнай класіфікацыі. Тое, што добраахвотнікі не хапае ў навучанні, яны кампенсавалі з надмернасцю.

Нават з некалькімі класіфікацыі ў галактыцы, аднак, які спалучае ў сабе набор добраахвотнікаў класіфікацый, каб вырабіць класіфікацыю кансенсусу было складана. З-за вельмі падобныя праблемы ўзнікаюць у большасці праектаў вылічальнага чалавека, карысна коратка разгледзець тры крокі, якія даследчыкі Galaxy Zoo, якія выкарыстоўваюцца для атрымання іх кансенсус класіфікацыі. Па-першае, даследчыкі «ачысціць» дадзеныя шляхам выдалення фіктыўных класіфікацыі. Напрыклад, людзі, якія неаднаразова класіфікуюцца той жа галактыка-то, што здарылася б, калі б яны спрабавалі маніпуляваць вынікі, былі ўсе іх класіфікацыі адкідаюцца. Гэтыя і іншыя аналагічныя ачысткі выдаленыя каля 4% ад усіх класіфікацый.

Па-другое, пасля ачысткі, даследчыкі неабходна выдаліць сістэматычныя памылкі ў класіфікацыі. Праз шэраг даследаванняў па выяўленні зрушэння укаранёных у межах першапачатковага праекта, напрыклад, паказваючы некаторыя добраахвотнікаў галактыка у манахромным замест колеру, даследчыкі выявілі некалькі сістэматычных памылак, такіх як сістэматычнае зрушэнне класіфікацыі далёкіх спіральных галактык , як эліптычныя галактыкі (Bamford et al. 2009) і (Bamford et al. 2009) і (Bamford et al. 2009) . Настройка гэтых сістэматычных памылак з'яўляецца надзвычай важным, паколькі надмернасць ня аўтаматычна выдаляе сістэматычную памылку; гэта толькі дапамога ліквідуе выпадковую памылку.

Нарэшце, пасля ўхілення Зрушэнне, даследчыкі патрэбен спосаб, каб аб'яднаць асобныя класіфікацыі для стварэння класіфікацыі на аснове кансенсусу. Самы просты спосаб аб'яднаць класіфікацыі для кожнай галактыкі было б выбраць найбольш распаўсюджаную класіфікацыю. Тым не менш, гэты падыход даў бы кожны добраахвотнік роўны вага, і даследчыкі падазраюць, што некаторыя добраахвотнікі былі лепш, чым іншыя класіфікацыі. Такім чынам, даследчыкі распрацавалі больш складаныя ітэрацыйныя працэдуры ўзважвання, што спробы выявіць лепшыя класіфікатары і даць ім больш вагі.

Такім чынам, пасля трох этапаў працэсу чысткі, ліквідацыя Зрушэнне і вагавой-даследчай каманды Galaxy Zoo канвертаваў 40 мільёнаў добраахвотнікаў класіфікацыі ў набор кансенсус марфалагічных класіфікацый. Калі гэтыя класіфікацыі Galaxy Zoo параўноўваліся з трыма папярэднімі спробамі меншага маштабу прафесійнымі астраномамі, у тым ліку класіфікацыі па Schawinski, якія дапамаглі натхніць Galaxy Zoo, было цвёрдае згоду. Такім чынам, добраахвотнікі, у сукупнасці, былі ў стане забяспечыць высокую якасць класіфікацыі і ў маштабах, даследчыкі не маглі адпавядаць (Lintott et al. 2008) і (Lintott et al. 2008) . На самай справе, маючы чалавечыя класіфікацыі для такога вялікага ліку галактык, Schawinski, Lintott, і іншыя былі ў стане паказаць, што толькі каля 80% галактык вынікаюць меркаванай схема-блакітны спіралі і чырвоныя эліпса-і шматлікія артыкулах былі напісана пра гэта адкрыццё (Fortson et al. 2011) і (Fortson et al. 2011) .

На гэтым фоне, зараз вы можаце ўбачыць, як Galaxy Zoo варта расшчапленне прымяніць-скамбінаваны рэцэпт, адзін і той жа рэцэпт, які выкарыстоўваецца для большасці праектаў вылічальнага чалавека. Ва- першых, вялікая праблема разбіваецца на кавалкі. У гэтым выпадку задача класіфікацыі мільёна галактык была падзелена на мільён праблем класіфікацыі адной галактыкі. Далей, аперацыя прымяняецца да кожнай порцыі незалежна адзін ад аднаго. У гэтым выпадку добраахвотнікі класіфікавана кожную галактыку альбо спіралі або эліптычнай. Нарэшце, вынікі аб'ядноўваюцца для атрымання выніку кансенсусу. У гэтым выпадку этап аб'яднаць уключаў у сябе чыстку, ліквідацыя Зрушэнне і ўзважванне для атрымання кансенсусу класіфікацыі для кожнай галактыкі. Нягледзячы на тое, што большасць праектаў выкарыстоўваюць гэты агульны рэцэпт, кожны крок павінен быць наладжаны на канкрэтныя вырашаемай праблемы. Напрыклад, у праекце вылічэнні чалавека, якое апісана ніжэй, той жа самы рэцэпт будзе прытрымлівацца, але ўжываюцца і аб'ядноўваюць крокі будуць зусім розныя.

Для каманды Galaxy Zoo, гэты першы праект быў толькі пачаткам. Вельмі хутка яны зразумелі , што нават калі б яны былі ў стане класіфікаваць каля мільёна галактык, гэтая шкала не дастаткова , каб працаваць з новымі абследаваннямі лічбавага неба, якія могуць вырабляць малюнка каля 10 мільярдаў галактык (Kuminski et al. 2014) і (Kuminski et al. 2014) . Каб справіцца з павелічэннем ў параўнанні з 1 млн да 10 млрд фактару 10000 Galaxy Zoo спатрэбіцца набраць прыкладна ў 10000 разоў больш удзельнікаў. Нават калі колькасць добраахвотнікаў у Інтэрнэце вялікая, яна не бясконцая. Такім чынам, даследчыкі зразумелі, што калі яны збіраюцца апрацоўваць пастаянна растуць аб'ёмы дадзеных, неабходны новы, яшчэ больш маштабуецца падыход.

Таму, Манда Банерджи-працы з Schawinski, Lintott і іншымі членамі каманды Galaxy Zoo (2010) -started навучаць кампутары класіфікаваць галактыкі. Больш канкрэтна, выкарыстоўваючы чалавечыя класіфікацыі, створаныя Galaxy Zoo, Банерджи пабудаваў мадэль навучання машыны, якія маглі б прадказаць чалавечую класіфікацыю галактык, заснаваную на характарыстыках малюнка. Калі гэтая мадэль можа прайграваць чалавечыя класіфікацыі з высокай ступенню дакладнасці, то яна можа быць выкарыстана даследчыкамі Galaxy Zoo класіфікаваць па сутнасці бясконцую колькасць галактык.

Ядро Банерджи і яго калегі падыход на самай справе вельмі падобныя на метады, якія выкарыстоўваюцца ў сацыяльных даследаваннях, хоць гэта падабенства можа быць не ясна, на першы погляд. Ва- першых, Банерджи і яго калегі ператвараюць кожнае малюнак у набор лікавых функцый , якія абагульнены яго ўласцівасці. Напрыклад, для малюнкаў галактык, там можа быць тры функцыі: колькасць сіняга колеру ў малюнку, дысперсія ў яркасці пікселяў, а доля ня-белых пікселяў. Выбар правільных функцый з'яўляецца важнай часткай праблемы, і гэта, як правіла, патрабуе прадметна-вобласці ведаў. Гэты першы крок, які звычайна называюць асаблівасцю тэхнікі, прыводзіць да матрыцы дадзеных па адным радку на малюнку , а затым тры слупкоў , якія апісваюць гэты вобраз. Улічваючы матрыцу дадзеных і жаданы вынік (напрыклад, ці быў вобраз класіфікавана чалавекам як эліптычная галактыка), даследчык стварае статыстычную або навучанне мадэлі машыны, напрыклад, лагістычную рэгрэсію, якая прадказвае чалавечую класіфікацыю, заснаваную на асаблівасцях малюнка. Нарэшце, даследчык выкарыстоўвае параметры ў гэтай статыстычнай мадэлі для вытворчасці ацэньваных класіфікацыі новых галактык (мал 5,4). У машынным навучанні, гэты падыход, з выкарыстаннем пазначаных прыкладаў , каб стварыць мадэль , якая затым можа маркіраваць новыя дадзеныя, называецца наглядам навучання.

Малюнак 5.4: Спрошчаная апісанне таго, як Банерджи і соавт. (2010) выкарыстоўвалі класіфікацыю Galaxy Zoo, для навучання мадэлі навучання машыны, каб зрабіць галактыку класіфікацыю. Выявы галактык былі ператвораныя ў матрыцы функцый. У гэтым спрошчаным прыкладзе, ёсць тры асаблівасці (колькасць сіняга колеру ў малюнку, дысперсія ў яркасці пікселяў, а доля небела пікселяў). Тады для падмноства малюнкаў, этыкеткі Galaxy Zoo выкарыстоўваюцца для навучання мадэлі машыннага навучання. Нарэшце, якія навучаюцца машына выкарыстоўваецца для ацэнкі класіфікацыі для астатніх галактык. Я называю гэты праект з дапамогай кампутара чалавека вылічэнняў, таму што, замест таго, каб людзі вырашыць праблему, у яго ёсць людзі, пабудаваць набор дадзеных, які можа быць выкарыстаны для падрыхтоўкі кампутара, каб вырашыць гэтую праблему. Перавага гэтага камп'ютэрнага вылічальнай сістэмы чалавека з'яўляецца тое, што яна дазваляе апрацоўваць па сутнасці бясконцая колькасць дадзеных, выкарыстоўваючы толькі канчатковае колькасць чалавечых намаганняў. Выявы галактык адноўленых дазволаў Sloan Digital Sky Survey.

Малюнак 5.4: Спрошчаная апісанне таго , як Banerji et al. (2010) і Banerji et al. (2010) выкарыстоўвалі класіфікацыю Galaxy Zoo , для навучання мадэлі навучання машыны , каб зрабіць галактыку класіфікацыю. Выявы галактык былі ператвораныя ў матрыцы функцый. У гэтым спрошчаным прыкладзе, ёсць тры асаблівасці (колькасць сіняга колеру ў малюнку, дысперсія ў яркасці пікселяў, а доля небела пікселяў). Тады для падмноства малюнкаў, этыкеткі Galaxy Zoo выкарыстоўваюцца для навучання мадэлі машыннага навучання. Нарэшце, якія навучаюцца машына выкарыстоўваецца для ацэнкі класіфікацыі для астатніх галактык. Я называю гэты праект з дапамогай кампутара чалавека вылічэнняў, таму што, замест таго, каб людзі вырашыць праблему, у яго ёсць людзі, пабудаваць набор дадзеных, які можа быць выкарыстаны для падрыхтоўкі кампутара, каб вырашыць гэтую праблему. Перавага гэтага камп'ютэрнага вылічальнай сістэмы чалавека з'яўляецца тое, што яна дазваляе апрацоўваць па сутнасці бясконцая колькасць дадзеных, выкарыстоўваючы толькі канчатковае колькасць чалавечых намаганняў. Выявы галактык адноўленых дазволаў Sloan Digital Sky Survey .

Асаблівасці ў Банерджи і яго калегі мадэлі машыннага навучання былі больш складанымі, чым тыя, у маёй цаццы прыклад, напрыклад, яна выкарыстоўвала такія функцыі, як "Вокулер падыходзіць восевы суадносінах" й яе мадэль не была лагістычная рэгрэсіі, гэта была штучная нейронных сетку. Выкарыстоўваючы свае магчымасці, яе мадэль, і кансэнсус Galaxy Zoo класіфікацыю, яна была ў стане стварыць вагі на кожную функцыю, а затым выкарыстоўваць гэтыя вагі, каб рабіць прагнозы аб класіфікацыі галактык. Напрыклад, яе аналіз паказаў, што малююнкі з нізкім «Вокулер падыходзіць восевы стаўленне», хутчэй за ўсё, будуць спіральныя галактыкамі. Улічваючы гэтыя вагі, яна была ў стане прадказаць чалавечую класіфікацыю галактык з дастатковай ступенню дакладнасці.

Праца Банерджи і калегаў апынулася Galaxy Zoo у той , што я б назваў дапамогай кампутара вылічальнай сістэмы чалавека. Лепшы спосаб думаць аб гэтых гібрыдных сістэм з'яўляецца тое, што замест таго, каб людзі вырашыць праблему, у іх ёсць людзі пабудаваць набор дадзеных, які можа быць выкарыстаны для падрыхтоўкі кампутара, каб вырашыць гэтую праблему. Часам, навучанне, кампутара, каб вырашыць гэтую праблему можа запатрабаваць шмат прыкладаў, і адзіным спосабам, каб вырабіць дастатковую колькасць прыкладаў з'яўляецца масавым супрацоўніцтвам. Перавага гэтага камп'ютэрнага падыходу заключаецца ў тым, што яна дазваляе апрацоўваць па сутнасці бясконцая колькасць дадзеных, выкарыстоўваючы толькі канчатковае колькасць чалавечых намаганняў. Напрыклад, даследчык мільёна чалавечых што класіфікуюцца галактык можна пабудаваць прагнозную мадэль, якая затым можа быць выкарыстана для класіфікацыі мільярдаў ці нават трыльён галактык. Калі ёсць велізарная колькасць галактык, то такога роду чалавек-кампутар гібрыд сапраўды адзіна магчымым рашэннем. Гэтая бясконцая маштабаванасць не з'яўляецца бясплатнай, аднак. Пабудова мадэлі навучання машыны , якія могуць правільна прайграць чалавечыя класіфікацыі сам па сабе з'яўляецца цяжкай задачай, але , да шчасця , ужо ёсць выдатныя кнігі , прысвечаныя гэтую тэма (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) і (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) . .

Galaxy Zoo з'яўляецца добрай ілюстрацыяй таго, як шмат праектаў вылічэнняў чалавека эвалюцыянаваць. Па-першае, даследчык спрабуе праект самастойна або з невялікай групай навуковых супрацоўнікаў (напрыклад, пачатковую высілак класіфікацыі Schawinski в). Калі гэты падыход не вельмі добра маштабуецца, даследчык можа перайсці да чалавечага праекту вылічэнняў з многімі ўдзельнікамі. Але, для пэўнага аб'ёму дадзеных, чыста чалавечых намаганняў будзе недастаткова. У той момант, даследчыкам неабходна пабудаваць сістэму чалавека вылічэнняў з дапамогай кампутара, у якім чалавечыя класіфікацыі выкарыстоўваюцца для навучання мадэлі навучання машыны, які затым можа быць ужыты да практычна неабмежаваным колькасцю дадзеных.