5.2.1 Galaxy хайуанаттар

Galaxy хайуанаттар миллион галактика жіктеу үшін көптеген емес сараптамалық еріктілер күш-жігерін біріктіреді.

Galaxy хайуанаттар Кевин Schawinski, біраз оңайлату 2007 жылы Оксфорд университетінде Астрономия жылы аспирант алдында тұрған мәселенің жүзеге өсті, Schawinski Галактикалардың мүдделі болды, мен галактикалар олардың морфологиясын-эллипс немесе жіктеуге болады спираль-мен олардың түсі-көк немесе қызыл арқылы. уақытта, Астрономия арасында дәстүрлі даналығы деп спираль галактикалар, біздің Құс жолы сияқты, (жастар көрсете) түсті көк болған және эллипс галактикалар (қарттық көрсете) түсте қызыл болды. Schawinski осы дәстүрлі даналық бiлдi. Ол осы ерекше Галактикалардың-сұлбасын-өзі ол арқылы процесс туралы бірдеңе біле алатын сай емес болып көп оқу арқылы осы үлгісі жалпы шынайы болуы мүмкін, ал ерекше айтарлықтай саны, бәлкім, бар екенін күдікті, және бұл галактикалар қалыптасады.

Осылайша, қандай Schawinski дәстүрлі даналық талқандай үшін қажет морфологиялық құпия Галактикалардың үлкен жиынтығы болды; бұл, спираль немесе эллипс ретінде жіктелген болатын галактикалар болып табылады. мәселе, алайда, жіктеу үшін қолданыстағы алгоритмдік әдістер әлі ғылыми-зерттеу үшін пайдаланылатын жеткілікті жақсы емес болды, бұл болатын; басқа сөзбен айтқанда, жіктеу галактикалар, сол уақытта, компьютерлер үшін қиын болды проблема болды. Сондықтан, қандай қажет адам құпия Галактикалардың үлкен саны болды. Schawinski аспирант ынта жіктеудің осы мәселені қолға алды. жеті, 12-сағаттық күн марафон отырысында, ол 50,000 галактика жіктеу алды. 50000 галактикалар лот сияқты көрінуі мүмкін, ал, ол шын мәнінде Sloan Digital Sky Survey суретке болатын дерлік бір миллион Галактикалардың тек шамамен 5% құрайды. Schawinski ол неғұрлым масштабталатын тәсіл қажет екенін түсінді.

Бақытымызға орай, бұл галактика жіктеу міндеті астрономия біліктілігін талап етпейді екен; Егер сіз өте тез істеуге біреуді үйрету мүмкін. жіктеу галактикалар компьютерлер үшін қиын болды міндеті, тіпті Басқаша айтқанда, ол адам үшін өте оңай болды. Сондықтан, Оксфорд, Schawinski және сенімдегі астрономы Крис Lintott жылы пабе отырғанда еріктілер Галактикалардың суреттерді жіктеуге болар еді веб-сайт дейін армандаған. Бірнеше ай өткен соң, Galaxy хайуанаттар дүниеге келген.

Galaxy хайуанаттар веб-сайтында еріктілер оқыту бірнеше минут өтуі еді; мысалы, спираль және эллипс галактикадан (сурет 5.2) арасындағы айырмашылықты оқыту. Осы оқыту кейін еріктілер белгілі жіктеу және 11 15 галактикалар жіктеу, содан кейін еріктілер қарапайым веб-интерфейсі (сурет 5.3) арқылы белгісіз Галактикалардың нақты жіктеу басталады еді салыстырмалы оңай викторина-дұрыс өтуге тура келді. еріктілер астроном көшу кем дегенде 10 минут өтеді және тек, қарапайым викторина кедергілердің ең төменгі өту қажет еді.

спираль және эллипс: Галактикалардың екі негізгі түрлеріне мысалдар: 5.2 сурет. Galaxy хайуанаттар Жоба санаттарына астам 100,000-нан астам еріктілер 900000 суреттер пайдаланылады. Дереккөз: www.galaxyzoo.org.

спираль және эллипс: Галактикалардың екі негізгі түрлеріне мысалдар: 5.2 сурет. Galaxy хайуанаттар Жоба санаттарына астам 100,000-нан астам еріктілер 900000 суреттер пайдаланылады. Дереккөз: www.galaxyzoo.org .

Сурет 5.3: сайлаушылар бір суретті жіктеу ұсынылды Кіріс экран. Дереккөз: www.galaxyzoo.org.

Сурет 5.3: сайлаушылар бір суретті жіктеу ұсынылды Кіріс экран. Дереккөз: www.galaxyzoo.org .

Жоба жаңалықтары репортажға кейін Galaxy хайуанаттар оның бастапқы еріктілер тартылды, және шамамен алты ай ішінде жоба-ден астам 100,000 азаматы ғалымдар, олар тапсырманы ұнады және олар бойынша аванстық астрономия көмектескім келді, өйткені қатысты адамдарды тарту өсті. Бірге, осы 100000 еріктілер жіктеу көпшілігі қатысушылардың салыстырмалы түрде аз, негізгі топтан келіп, 40 млн астам жіктеу жалпы үлес қосты (Lintott et al. 2008) .

тәжірибесі бакалавриат ғылыми қызметкерлер жалдауға бар Зерттеушілер дереу деректердің сапасын күмәнмен болуы мүмкін. Осы шүбә ақылға қонымды болып табылады, ал, Galaxy хайуанаттар волонтерлік жарналары дұрыс, тазартылған debiased және жиынтық кезде, олар жоғары сапалы нәтиже алатынын көрсетеді (Lintott et al. 2008) . Кәсіби сапалы деректерді құру үшін жұртты алу үшін маңызды трюк резервтеу болып табылады; бұл көптеген әр түрлі адамдар арқылы жүзеге сол тапсырманы бар болып табылады. Galaxy хайуанаттар жылы ғаламнан бір шамамен 40 жіктеулер болды; бакалавриат зерттеу көмекшілер пайдаланып зерттеушілер резервтеу осы деңгейін мүмкіндік, сондықтан әрбір жеке жіктеу сапасына әлдеқайда мүдделі болуы қажет ешқашан мүмкін. еріктілер даярлау жетпей қандай, олар резервртеумен үшін құрады.

Тіпті ғаламнан бір бірнеше жіктеу бар, алайда, консенсус жіктелуін өндіруге волонтерлік жіктеу жиынтығын үйлестіре зұлымды. өте ұқсас проблемалар ең адам есептеу жобалар туындауы болғандықтан, ол қысқаша Galaxy хайуанаттар зерттеушілер олардың консенсус сыныптамалар өндіру үшін пайдаланылатын, бұл үш қадамды қайта қарауға пайдалы болып табылады. Біріншіден, зерттеушілер жалған жіктеу алып тастау арқылы деректер «тазартылған». Мысалы, адам қайта-қайта сол Galaxy-бір нәрсе, олар нәтиже-болды, олардың барлық жіктеулер керексіз айлалы тырысады болған еді, егер жіктелген кім. Бұл және басқа да осыған ұқсас тазалау барлық жіктеу шамамен 4% алып тастады.

Екіншіден, тазалау кейін, зерттеушілер жіктелген жүйелі қателерді жою үшін қажетті. Орнына бастапқы жобасының мысалы шеңберінде ендірілген өтемі анықтау зерттеулер сериясы арқылы, монохромды кейбір еріктілер галактика көрсететін түсті-зерттеушілер алыс эллипс Галактикалардың ретінде спираль галактика жіктеу осындай жүйелі еңісі ретінде бірнеше жүйелі қателерді тауып (Bamford et al. 2009) . көптеген жарналары орта есеппен жүйелі-ала алып тастау емес, өйткені бұл жүйелі қателерді түзету өте маңызды болып табылады; ол тек кездейсоқ қатені жояды.

Соңында, debiasing кейін, зерттеушілер консенсус жіктелуін өндіруге жеке сыныптамалар біріктіруге әдісін қажет. Әр ғаламнан жіктеу біріктіру оңай жолы ең көп таралған жіктелуін таңдауға болар еді. Алайда, бұл тәсіл әрбір еріктісі тең салмағы берер еді, мен зерттеушілер кейбір еріктілер басқаларға қарағанда жіктелуі жақсы екенін күдікті. Сондықтан, зерттеушілер автоматты түрде үздік классификаторларды анықтау және оларға одан салмағы беруге тырысады неғұрлым күрделі итерациялық салмақтық тәртібін әзірледі.

Осылайша, үш қадамдық процесс-тазалау кейін debiasing, және салмақтық-Galaxy хайуанаттар зерттеу тобы консенсус морфологиялық жіктеу жиынтығы 40 млн волонтерлық сыныптамалар түрлендіріледі еді. Осы Galaxy хайуанаттар жіктеулер Galaxy Zoo шабыттандыру көмектесті Schawinski жіктеуі, оның ішінде кәсіби Астрономия үш алдыңғы аз ауқымды әрекет, салыстырылды кезде, күшті келісімге болды. Осылайша, еріктілер, жиынтығында, жоғары сапалы жіктеу қамтамасыз етуге қабілетті және зерттеушілер сәйкес емес еді деп масштабты болды (Lintott et al. 2008) . Шын мәнінде, Галактикалардың осындай үлкен саны үшін адам сыныптамалар арқылы, Schawinski, Lintott, және т.б. Галактикалардың ғана шамамен 80% болады деп күтілуде үлгісі-көк және қызыл спиральдың ellipticals-мен көптеген еңбектер туралы жазылған болатын ұстануға екенін көрсету мүмкіндігіне ие болды Бұл жаңалық (Fortson et al. 2011) .

Осы фондық ескере отырып, біз қазір Galaxy хайуанаттар сплит-қолданылады-біріктіруге рецепт, ең адам есептеу жобалар үшін пайдаланылады ұқсас рецепті мынадай қалай көруге болады. Біріншіден, үлкен проблема дәмдісін бөлінеді. Бұл жағдайда, бір миллион галактика жіктеу проблемасы бір галактика жіктеу миллион проблемаларды бөлінеді. Келесі, операция дербес әрбір орына қолданылады. Бұл жағдайда, ерікті спираль немесе эллипс ретінде әр галактики жіктеуге болар еді. Соңында, нәтижелері консенсус нәтиже біріктіріледі. Бұл жағдайда, біріктіру қадам тазалау, debiasing, және әрбір галактикадан үшін консенсус жіктелуін өндіруге мөлшерлеуді енгізілген. Ең жобалар осы жалпы рецепті пайдаланыңыз Тіпті, қадамдар әрбір шешілуде нақты мәселеге теңшелген қажет. Мысалы, төменде сипатталған адам есептеу жобаға, сол рецепт жалғасады, бірақ қолдануға және біріктіру қадамдар мүлдем басқаша болады.

Galaxy хайуанаттар командасы үшін бұл алғашқы жоба басы ғана еді. Өте тез олар миллион Галактикалардың жақын жіктеу алдық, тіпті осы ауқымды шамамен 10 млрд Галактикалардың суреттер шығарады мекен жаңарақ Digital Sky зерттеулер, олармен жұмыс істеу үшін жеткілікті емес екенін түсіндім (Kuminski et al. 2014) . 10000-Galaxy хайуанаттар 10 1 млн ұлғайтуды өңдеуге млрд-факторы шамамен 10000 есе көп қатысушыларды тартуға қажет еді. Интернетте еріктілер саны үлкен болса да, ол шексіз емес. Сондықтан, зерттеушілер, олар бұрын-соңды деректердің өсіп сомаларын өңдеуге болсаңыз түсіндім, жаңа, одан да ауқымды, тәсіл қажет.

Сондықтан, Manda галактика жіктеуге Кевин Schawinski, Крис Lintott және Galaxy Zoo командалық-оқытушылық бастап компьютерлер басқа мүшелерімен Banerji-жұмыс. Нақтырақ айтқанда, Galaxy Хайуанаттар құрылған адам жіктеу пайдалана Banerji et al. (2010) бейнесі сипаттамалары негізінде галактикадан адам жіктелуін болжауға мүмкін машина оқыту моделін салынды. бұл машина оқыту моделі жоғары дәлдікпен адам жіктеу жаңғырта мүмкін болса, онда ол Галактикалардың мәнi бойынша шексіз санын жіктеу Galaxy Zoo зерттеушілер пайдаланылуы мүмкін.

бұл ұқсастық бірінші қарағанда анық болмауы мүмкін, бірақ Banerji негізгі және әріптестерінің тәсіл, іс жүзінде әдетте әлеуметтік зерттеулер пайдаланылатын әдістемелер өте ұқсас. Біріншіден, Banerji мен әріптестер, бұл қасиеттері Қорытындылай сандық мүмкіндіктердің жиынтығы әр суретті түрлендіріледі. суреттегі көк сомасы, пиксель жарықтық Дисперсия және емес ақ пиксель үлесі: Мысалы, Галактикалардың суреттер үш ерекшеліктері бар болуы мүмкін. Дұрыс ерекшеліктерін таңдау проблеманың маңызды бөлігі болып табылады, және ол, әдетте, пәндік-ауданы сараптама талап етеді. Әдетте ерекшелігі инженерлік, имиджін бір қатарда бар деректер матрицада нәтижелері және осы суретті сипаттайтын, содан кейін үш бағандары деп аталатын Бұл бірінші қадам. деректер матрица және керекті шығысын ескере (мысалы, сурет эллипс ғаламнан ретінде адам бойынша жіктеледі ма), зерттеуші статистикалық моделі мысалы параметрлерін бағалайды, логистикалық Регрессияның-адам жіктелуін негізделген болжайды тәрізді нәрсе кескіннің ерекшеліктері туралы. Соңында, зерттеуші жаңа галактик (сурет 5.4) есептік жіктеу шығару үшін осы статистикалық моделін параметрлерді қолданады. әлеуметтік аналогты ойлауға, сіз миллион студенттер туралы демографиялық ақпаратты болды, және сіз олар колледж бітірді ма, жоқ па білеміз делік. Сіз бұл деректер үшін логистикалық регрессиялық сыятын, содан кейін сіз жаңа студенттер колледж бітірген жиналады ма болжау нәтижесінде алынған модель параметрлерін пайдалана алар еді. Машина оқыту, осы тәсіл-пайдаланып, содан кейін жаңа деректер-отыр оқыту қадағалаусыз деп аталатын жапсырманы болады статистикалық моделін құру мысалдар, таңбаланған (Hastie, Tibshirani, and Friedman 2009) .

Сурет 5.4: қалай Banerji соавт жеңілдетілген сипаттамасы. (2010) Galaxy жіктеуді істеу үшін машина оқыту моделін оқытуға Galaxy хайуанаттар жіктеу қолданылады. Галактикалардың Суреттер ерекшеліктерін матрицада ауыстырылды. Бұл оңайлатылған мысалда үш ерекшеліктері (суреттегі көк сомасы, пиксель жарықтық Дисперсия және емес ақ пиксель үлесі) бар. Содан кейін, суреттер ішкі жиынына арналған, Galaxy хайуанаттар жапсырмалар машина оқыту моделін даярлау үшін пайдаланылады. Соңында, машина оқыту қалған Галактикалардың жіктеу бағалау үшін пайдаланылады. орнына адамдар мәселені шешу ие қарағанда, олар адамдар мәселені шешу үшін компьютерді үйрету үшін пайдаланылуы мүмкін деректер жиынын салу бар, өйткені мен екінші буын адам есептеу жоба осы түрін атайды. Бұл компьютер көмегімен тәсілдің артықшылығы адам күш тек ақырлы мөлшерін пайдаланып деректер, негізінен, шексіз сомаларды өңдеуге мүмкіндік береді, бұл.

Сурет 5.4: қалай жеңілдетілген сипаттамасы Banerji et al. (2010) Galaxy жіктеуді істеу үшін машина оқыту моделін оқытуға Galaxy хайуанаттар жіктеу қолданылады. Галактикалардың Суреттер ерекшеліктерін матрицада ауыстырылды. Бұл оңайлатылған мысалда үш ерекшеліктері (суреттегі көк сомасы, пиксель жарықтық Дисперсия және емес ақ пиксель үлесі) бар. Содан кейін, суреттер ішкі жиынына арналған, Galaxy хайуанаттар жапсырмалар машина оқыту моделін даярлау үшін пайдаланылады. Соңында, машина оқыту қалған Галактикалардың жіктеу бағалау үшін пайдаланылады. орнына адамдар мәселені шешу ие қарағанда, олар адамдар мәселені шешу үшін компьютерді үйрету үшін пайдаланылуы мүмкін деректер жиынын салу бар, өйткені мен екінші буын адам есептеу жоба осы түрін атайды. Бұл компьютер көмегімен тәсілдің артықшылығы адам күш тек ақырлы мөлшерін пайдаланып деректер, негізінен, шексіз сомаларды өңдеуге мүмкіндік береді, бұл.

Жылы ерекшеліктері Banerji et al. (2010) , машина оқыту моделі менің ойыншық үлгісі мысалы қарағанда неғұрлым күрделі болды, ол «де Vaucouleurs осьтік коэффициентін қиыстыру» сияқты мүмкіндіктерді пайдаланды оның моделі логистикалық регрессиялық емес еді күйге ұшырайды, ол жасанды нейрондық желі болды. оның мүмкіндіктерін, оның моделі, және консенсус Galaxy хайуанаттар сыныптамалар пайдалану, ол әрбір мүмкіндігін салмағы жасап, содан кейін Галактикалардың жіктеу туралы болжам жасау үшін осы салмағы пайдалануға мүмкіндік алды. Мысалы, оның талдау төмен суреттер «де Vaucouleurs осьтік коэффициентін қиыстыру» спираль галактикалар болу ықтималдығы деп табылды. Осы салмағы ескере отырып, ол ақылға қонымды дәлдікпен галактики адам жіктелуін болжауға қабілетті болды.

Жұмыс Banerji et al. (2010) Мен екінші буын адам есептеу жүйесін соғып еді ішіне Galaxy хайуанаттар бағына айналды. Осы екінші буын жүйелерінің туралы ойлануға ең жақсы жолы емес, адамдар мәселесін шешуге бар қарағанда, яғни, олар адамдар мәселені шешу үшін компьютерді үйрету үшін пайдаланылуы мүмкін деректер жиынын салу бар. компьютерді оқыту үшін қажетті деректердің көлемі, ол құруға адам жаппай ынтымақтастықты талап етеді, сондықтан үлкен болуы мүмкін. Galaxy хайуанаттар, пайдаланылатын нейрондық желілер жағдайда Banerji et al. (2010) сенімді адам жіктеуді жаңғырта алатын болды үлгісін құру үшін адам-таңбаланған мысалдар өте көп қажет.

Бұл компьютер көмегімен тәсілдің артықшылығы адам күш тек ақырлы мөлшерін пайдаланып деректер, негізінен, шексіз сомаларды өңдеуге мүмкіндік береді, бұл. Мысалы, миллион адам жіктелген Галактикалардың бар зерттеуші содан кейін млрд немесе тіпті триллион галактика жіктеу үшін пайдаланылуы мүмкін болжалды моделін құруға болады. Галактикалардың үлкен санының бар болса, онда адам компьютерлік гибридтік осы түрі шын мәнінде ғана мүмкін шешім болып табылады. Бұл шексіз ауқымдылығы, алайда, тегін емес. Дұрыс адам сыныптамалар ойнатуға болады құру машина оқыту моделі қатты проблема өзі болып табылады, бірақ Бақытымызға орай осы тақырыпқа арналған тамаша кітаптар қазірдің өзінде бар (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy хайуанаттар көптеген адам есептеу жобаларды эволюциясын көрсетеді. Біріншіден, зерттеуші өзі немесе ғылыми-зерттеу көмекшілері (мысалы, Schawinski алғашқы жіктеу күш) шағын командасымен жобаны тырысады. Бұл тәсіл-ақ масштабтауға істемесе, зерттеуші көптеген адамдар жіктеу ықпал ететін адам есептеу жобасына жылжытуға болады. Бірақ, деректердің белгілі бір көлемі үшін, таза адами күш жеткілікті болмайды. Сол сәтте, зерттеушілер адам жіктеу, содан кейін деректер жүзінде шексіз сомаларды қолданылуы мүмкін машина оқыту моделін даярлау үшін пайдаланылады екінші буын жүйелерін салу қажет.