5.2.1 Galaxy хайуанаттар

Galaxy Zoo көптеген сарапшы емес волонтерлердің миллиондаған галактикаларды жіктеуге күш-жігерін біріктірді.

Galaxy Zoo 2007 жылы Оксфорд университетіндегі астрономия бойынша аспирант Кевин Свавинскийдің алдында тұрған проблемадан туындады. Шавински галактикаларға қызығушылық танытты, ал галактикалар олардың морфологиясы - эллипсикалық немесе спиральды және олардың түсі - көк немесе қызыл. Сол кезде астрономдардың дәстүрлі даналығы біздің Сүт жолы сияқты спиральдық галактикалар көк түске боялған (жасты көрсететін) және эллиптикалық галактикалар қызыл болды (қарттықты көрсететін). Шварински бұл әдеттегі даналыққа күмән келтірді. Ол осы үлгіні тұтастай шындыққа айналдыра алса да, көптеген ерекше жағдайлардың болуы мүмкін деп күдіктенді және бұл күтпеген үлгіге сай келмеген ерекше галактикалардың көптігін зерттеп, ол арқылы процесс туралы бірдеңе біле алды. галактикалар пайда болды.

Осылайша, әдеттегі даналықты бұзу үшін Швейнски қандай морфологиялық секілді галактикалардың үлкен жиынтығы болды; яғни спираль немесе эллиптикалық ретінде жіктелген галактикалар. Мәселе, алгоритмдеудің қолданыстағы әдістерін ғылыми зерттеулер үшін қолдануға жеткілікті болған жоқ; басқа сөзбен айтқанда, галактикаларды классификациялау сол кезде компьютерлер үшін қиын болатын мәселе болды. Сондықтан адам санатындағы галактикалардың саны көп болды. Сваинский бұл жіктеу мәселесін магистранттың ынта-жігерімен қабылдады. Жетінші 12 сағаттық марафон сессиясында ол 50 000 галактиканы жіктеді. 50 000 галактикалар көп естілуі мүмкін болса да, Sloan Digital Sky Survey-да суретке түсірілген миллиондаған галактикалардың шамамен 5% -ы ғана. Шваринский оған ауқымды көзқарас қажет екенін түсінді.

Бақытымызға орай, бұл галактика жіктеу міндеті астрономия біліктілігін талап етпейді екен; Егер сіз өте тез істеуге біреуді үйрету мүмкін. жіктеу галактикалар компьютерлер үшін қиын болды міндеті, тіпті Басқаша айтқанда, ол адам үшін өте оңай болды. Сондықтан, Оксфорд, Schawinski және сенімдегі астрономы Крис Lintott жылы пабе отырғанда еріктілер Галактикалардың суреттерді жіктеуге болар еді веб-сайт дейін армандаған. Бірнеше ай өткен соң, Galaxy хайуанаттар дүниеге келген.

Галактика хайуанаттарының веб-сайтында еріктілер бірнеше минут жаттығулардан өтеді; мысалы, спираль мен эллипстік галактиканың арасындағы айырмашылықты білу (5.2-сурет). Осы тренингтен кейін әрбір волонтер белгілі бір классификациялары бар 15 галактиканың 11-ін дұрыс жіктеуді оңай өткізді, содан кейін қарапайым веб-интерфейс арқылы белгісіз галактикалардың нақты жіктелуін бастайды (5.3-сурет). Волонтерден астрономға көшу 10 минуттан аз уақытта өтеді және қарапайым викторинаға ең төменгі кедергілерден өтуді талап етеді.

5.2-сурет: Галактиканың екі негізгі түрінің мысалдары: спираль және эллиптикалық. Галактика хайуанаттар бағының жобасы 90000-нан астам бейнені санаттауға 100 000-нан астам еріктілерді пайдаланды. Http://www.GalaxyZoo.org және Sloan Digital Sky Survey рұқсатымен шығарылды.

5.2-сурет: Галактиканың екі негізгі түрінің мысалдары: спиральды және эллиптикалық. Галактикалық хайуанаттар бағының жобасы 90000-нан астам бейнені санаттауға арналған 100 000-нан астам еріктілерді пайдаланды. Http://www.GalaxyZoo.org және Sloan Digital Sky Survey рұқсатымен шығарылды.

Сурет 5.3: Волонтерлерге бір суретті жіктеу сұралған енгізу экраны. Sloan Digital Sky Survey-тан алынған сурет негізінде Крис Линтоттың рұқсатымен шығарылды.

Сурет 5.3: Волонтерлерге бір суретті жіктеу сұралған енгізу экраны. Sloan Digital Sky Survey- тан алынған сурет негізінде Крис Линтоттың рұқсатымен шығарылды.

Галактика хайуанаттар өздерінің алғашқы еріктілерін жобаның жаңалықтар мақаласында көрсеткеннен кейін тартты және шамамен алты айдан астам уақыт ішінде жоба 100 мыңнан астам азамат ғалымдарды тартты, олар өз міндеттерін орындағандықтан қатысып, астрономияны жетілдіруге тырысты. Осы 100 000 еріктілердің барлығы 40 миллионнан астам классификацияға үлес қосты, олардың көпшілігінің салыстырмалы түрде кішігірім, негізгі топтардан (Lintott et al. 2008)

Бакалавриаттың ғылыми қызметкерлерін жалдауға тәжірибесі бар зерттеушілер деректердің сапасына күмәндануы мүмкін. Бұл скептицизм ақылға қонымды болғанымен, Galaxy Zoo волонтерлік жарналар дұрыс тазаланған, бұзылған және жинақталған кезде жоғары сапалы нәтижелерге қол жеткізе алады (Lintott et al. 2008) . Кәсіби сапалы деректерді құру жұртты алу үшін маңызды трюк көптеген әр түрлі адамдар арқылы жүзеге сол тапсырманы бар, яғни, резервтеу табылады. Галактикалық хайуанаттар бағында галактиканың әрқайсысында 40-тан жуығы болды; бакалавриаттың ғылыми қызметкерлерін қолдана отырып, зерттеушілер осы деңгейдің жоғарылығын ешқашан қамтамасыз ете алмайды, сондықтан әр жеке жіктеудің сапасына көп көңіл бөлінуі керек. Волонтерлер оқытудан бас тартты, олар артық жұмысқа тартылды.

Алайда, галактикаға бірнеше классификация бойынша да, консенсустың жіктелуін қалыптастыру үшін еріктілер классификациясы жиынтығын біріктіру қиын болды. Көптеген адам есептеу жобаларында ұқсас қиындықтар туындағандықтан, Galaxy Zoo зерттеушілерінің консенсустың жіктелуін жасау үшін қолданған үш қадамын қысқаша қарастыруға болады. Біріншіден, зерттеушілер деректерді «жасанды» жіктеуді жою арқылы «тазалады». Мысалы, бірдей галактиканы бірнеше мәрте сыныптаған адамдар, олар нәтижелерді басқаруға тырысса, барлық классификациялары жойылды. Осы және басқа ұқсас тазалау барлық жіктеудің 4% -ын жойды.

Екіншіден, тазалаудан кейін зерттеушілер жіктеу кезінде жүйелі қиянатуларды жоюға тура келді. Бастапқы жобаға кіріктірілген бірқатар алдын ала анықтамалық зерттеулер арқылы, мысалы, кейбір волонтерлерді монохромды түстердің орнына монохромды көрсете отырып, зерттеушілер бірнеше жүйелі көзқарастарды анықтады, мысалы, қашықтағы спираль галактикаларды эллиптикалық галактикалар (Bamford et al. 2009) . (Bamford et al. 2009) . Бұл жүйелік қиянаттарды түзету өте маңызды, себебі артықшылық автоматты түрде жүйелі қиғаштықты жоймайды; ол кездейсоқ қатені жояды.

Ақырында, зерттеушілерге консенсустың жіктелуі үшін жекелеген жіктемелерді біріктіру әдісі қажет болды. Әрбір галактика үшін жіктеуді біріктірудің ең қарапайым жолы ең көп таралған жіктеуді таңдау еді. Дегенмен, бұл әдіс әрбір волонтердің тең салмағына ие болар еді, ал зерттеушілер кейбір еріктілер басқаларға қарағанда жіктеуде жақсы деп күдіктенген. Сондықтан, зерттеушілер ең жақсы классификаторларды табуға тырысып, салмағын арттыруға тырысатын күрделі итеративті масштабтау процедурасын жасады.

Осылайша, үш сатылы технологиялық процесті тазалаудан, дебиациялаудан және масштабтаудан кейін Galaxy Zoo зерттеу тобы 40 миллион еріктілер сыныптамасын консенсус морфологиялық классификациялар жиынтығына айналдырды. Бұл Galaxy Zoo классификациясы кәсіби астрономдардың үш бұрынғы кішігірім әрекеттерімен салыстырылған кезде, оның ішінде Galaxy Zoo-ға шабыттандыруға көмектескен Шваинскидің жіктелуі қатты келісімге келді. Осылайша, еріктілер жиынтығында жоғары сапалы жіктелімдерді және зерттеушілердің сәйкес келмейтін масштабта қамтамасыз ете алды (Lintott et al. 2008) . Осындай көптеген галактикалар үшін Свейнски, Линтотт және басқалары үшін галактикалардың шамамен 80% -ы көк түсті спиральдар мен қызыл эллиптиктердің шамамен 80% -ын ғана көрсеткенін көрсетті. бұл ашылым (Fortson et al. 2011) .

Осы фондық жағдайды ескере отырып, сіз Galaxy Zoo-дің бөлектелген қолдануға арналған комбайн рецептісін ұстанатындығын көре аласыз, адамның есептеу жобаларының көпшілігінде пайдаланылатын сол рецепт. Біріншіден, үлкен мәселе бөліктерге бөлінеді . Бұл жағдайда миллион галактиканы классификациялау мәселесі бір галактиканы классификациялаудың миллион проблемасына бөлінді. Содан кейін, әрбір бөлікке дербес операция қолданылады . Бұл жағдайда ерікті әр галактиканы спираль немесе эллиптикалық деп жіктеді. Соңында, нәтиже консенсус нәтижесін шығару үшін біріктіріледі . Бұл жағдайда комбинаттың қадамы әрбір галактика үшін консенсустың жіктелуін алу үшін тазалауды, дезациялауды және өлшеуді қамтиды. Көптеген жобалар осы жалпы рецептті қолданса да, әр қадамды нақты проблемаға қарай бейімдеу қажет. Мысалы, төменде сипатталған адам есеп-қисап жобасында сол рецепт орындалады, бірақ қолдану мен біріктіру қадамдары әртүрлі болады.

Galaxy Zoo командасы үшін бұл алғашқы жоба тек бастамасы болды. Олар миллион галактикаға жақын жіктелсе де, бұл ауқым жаңа цифрлы аспан зерттеулерімен жұмыс істеу үшін жеткіліксіз екенін түсінді, олар шамамен 10 миллиард галактиканың бейнесін шығара алады (Kuminski et al. 2014) . 1 миллионнан 10 миллиардқа дейін ұлғайту үшін 10 000-ға жуық галактика хайуанаттарының саны шамамен 10 мың есе көп қатысушыларды тартуы керек еді. Интернеттегі еріктілердің саны үлкен болса да, бұл шексіз емес. Сондықтан, зерттеушілер, егер олар әрдайым өсіп келе жатқан деректерді өңдеуге дайын болса, жаңа, одан да ауқымды, әдіс қажет болды.

Сондықтан, Манда Банерджи - Шварински, Линтот және басқа да Galaxy Zoo командасының мүшелері (2010) галактикаларды сыныптау үшін компьютерлерді оқытуды бастады. Нақтырақ айтқанда, Galaxy Zoo жасаған адамдық жіктелімдерді пайдалану арқылы Банерджи кескін сипаттамаларына негізделген галактиканың адамдық жіктелуін болжай алатын машина үлгісін жасады. Егер бұл модель адамдық классификацияны жоғары дәлдікпен шығара алса, онда оны Galaxy Zoo зерттеушілері галактикалардың шексіз сандарын жіктеу үшін қолдануы мүмкін.

Банерджидің негізі және әріптестердің көзқарасы шын мәнінде әлеуметтік зерттеулерде қолданылатын әдiстерге өте ұқсас, бiрақ бұл ұқсастығы бiрiншiден айқын болмауы мүмкiн. Біріншіден, Banerji және әріптестер әр суретті өздерінің қасиеттерін жинақтайтын сандық сипаттар жиынына айналдырды. Мысалы, галактикалардың суреттері үшін үш ерекшелігі болуы мүмкін: суреттегі көк түстің саны, пикселдердің жарықтығындағы дисперсия және ақ емес пикселдердің үлесі. Дұрыс ерекшеліктерді таңдау мәселенің маңызды бөлшегі болып табылады және әдетте пәндік салада сараптама жүргізуді талап етеді. Әдетте ерекшелігі инженерлік, имиджін бір қатарда бар деректер матрицада нәтижелері және осы суретті сипаттайтын, содан кейін үш бағандары деп аталатын бұл алғашқы қадам. Деректер матрицасы мен қалаған нәтижені ескере отырып (мысалы, сурет адам эллипті галактика ретінде жіктелді ме), зерттеуші статистикалық немесе машина жасау моделін жасайды, мысалы, логистикалық регрессия - сурет. Ақырында, зерттеуші жаңа галактикалардың бағаланған классификацияларын шығару үшін осы статистикалық модельдегі параметрлерді пайдаланады (5.4-сурет). Машинада бұл әдіс жаңа деректерді белгілей алатын үлгі жасау үшін таңбаланған мысалдарды қолданып, бақыланатын оқыту деп аталады.

5.4 сур.: Банерджи және басқаларының қалай оңайлатылған сипаттамасы. (2010) Галактик классификациясын жасау үшін машина моделін үйрету үшін Galaxy Zoo классификациясын қолданды. Галактиканың бейнелері функциялардың матрицасына айналды. Бұл жеңілдетілген мысалда үш мүмкіндік бар (суреттегі көк түстің мөлшері, пикселдердің жарықтығындағы дисперсия және келмейтін пикселдердің үлесі). Содан кейін суреттердің жиынтығы үшін Galaxy Zoo жапсырмалары машина оқыту моделін үйрету үшін қолданылады. Ақырында, машинада қалған галактикалардың жіктелуін бағалау үшін пайдаланылады. Мен мұны компьютермен есептелетін адам есептемесі деп атаймын, себебі адамдар проблеманы шешпей, адамдарға проблеманы шешу үшін компьютерді үйрету үшін пайдаланылатын деректер жиынтығын салады. Бұл компьютерді қолдана алатын адам есептеу жүйесінің артықшылығы - адамның күш-жігерінің тек соңғы мөлшерін пайдаланып, шексіз деректер көлемін өңдеуге мүмкіндік береді. Sloan Digital Sky Survey рұқсатымен шығарылған галактикалардың суреттері.

5.4 сур.: Banerji et al. (2010) қалай оңайлатылған сипаттамасы Banerji et al. (2010) Галактик классификациясын жасау үшін машина моделін үйрету үшін Galaxy Zoo классификациясын қолданды. Галактиканың бейнелері функциялардың матрицасына айналды. Бұл жеңілдетілген мысалда үш мүмкіндік бар (суреттегі көк түстің мөлшері, пикселдердің жарықтығындағы дисперсия және келмейтін пикселдердің үлесі). Содан кейін суреттердің жиынтығы үшін Galaxy Zoo жапсырмалары машина оқыту моделін үйрету үшін қолданылады. Ақырында, машинада қалған галактикалардың жіктелуін бағалау үшін пайдаланылады. Мен мұны компьютермен есептелетін адам есептемесі деп атаймын, себебі адамдар проблеманы шешпей, адамдарға проблеманы шешу үшін компьютерді үйрету үшін пайдаланылатын деректер жиынтығын салады. Бұл компьютерді қолдана алатын адам есептеу жүйесінің артықшылығы - адамның күш-жігерінің тек соңғы мөлшерін пайдаланып, шексіз деректер көлемін өңдеуге мүмкіндік береді. Sloan Digital Sky Survey рұқсатымен шығарылған галактикалардың суреттері.

Банерджи мен әріптестердің машина оқыту моделінің мүмкіндіктері менің ойыншық үлгісіндегіге қарағанда күрделі болды, мысалы, «Va Vauleres аксиальная коэффициентке» сияқты функцияларды пайдаланды - және оның моделі логистикалық регрессия емес, бұл жасанды нейрондық желі болды. Оның мүмкіндіктерін, моделін және консенсусы арқылы Galaxy Zoo классификациясын пайдалана отырып, ол әрбір ерекшелігі бойынша салмақты құрып, одан кейін галактикалардың классификациясы туралы болжам жасау үшін осы салмақты қолданды. Мысалы, оның анализі «де Vaucouleurs» осьтік қатынасына сәйкес келетін суреттер спиральды галактикалар болу ықтималдығын анықтады. Осы салмақты ескере отырып, ол галактиканың адамдық жіктелуін ақылға қонымды дәлдікпен болжай алды.

Банерджи мен әріптестерінің жұмысы Galaxy Zoo-ді компьютермен жұмыс істейтін адам есептеу жүйесі деп атайтын нәрсеге айналды. Бұл гибридтік жүйелер туралы ойланудың ең жақсы жолы - бұл адамдар мәселені шешпей, адамдарға мәселені шешу үшін компьютерді үйрету үшін пайдаланылатын деректер жиынтығын салады. Кейде проблеманы шешу үшін компьютерді оқыту көптеген мысалдарды талап етеді және мысалдардың жеткілікті мөлшерін жасаудың жалғыз жолы - жаппай ынтымақтастық. Бұл компьютерлік тәсілдің артықшылығы - адамның күш-жігерінің тек соңғы мөлшерін пайдаланып, шексіз деректерді өңдеуге мүмкіндік береді. Мәселен, миллиондаған адамның құпия галактикалары бар зерттеуші болжамды модельді құра алады, ол кейін миллиардтаған немесе тіпті триллион галактиканы сыныптау үшін қолданыла алады. Егер көптеген галактикалар бар болса, онда адам-компьютерлік гибридтің бұл түрі шын мәнінде мүмкін шешім болып табылады. Алайда, бұл шексіз ауқымдылық тегін емес. Адамдарды жіктеуді дұрыс түрде жасай алатын машина үлгісін құру - бұл қиын мәселе, бірақ бақытымызда осы тақырыпқа арналған тамаша кітаптар бар (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) . (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Галактика хайуанесі - бұл есептеудің қанша адамның жобалары дамитынын көрнекі мысал. Біріншіден, зерттеуші жобаны өзін-өзі немесе шағын кіші ғылыми қызметкер тобымен (мысалы, Свавинскийдің бастапқы жіктеу бойынша күш-жігері) әрекет жасайды. Егер бұл əдіс жақсы деңгейде болмаса, зерттеуші көптеген қатысушылары бар адам есеп-қисап жобасына ауыса алады. Бірақ белгілі бір көлемдегі деректер үшін адамның таза әрекеті жеткіліксіз болады. Осы сәтте зерттеушілер машинада оқыту моделін үйрету үшін пайдаланылатын адамға арналған компьютерлік индивидуалды есептеу жүйесін құруы керек, ол дерлік шексіз көлемде деректерге қолданыла алады.