5.2.1 Galaxy hayvonot bog'i

Bu tarjima kompyuter tomonidan yaratilgan. ×

5.2.1 Galaxy hayvonot bog'i

Galaxy hayvonot bog'i ko'plab ko'ngilli ko'ngillilarning bir million galaktikalarni tasniflash borasidagi sa'y-harakatlarini birlashtirdi.

Galaxy hayvonot bog'i 2007 yilda Oksford Universitetining Astronomiya fakultetida aspirant Kevin Schawinski oldida turgan muammolardan xoli edi. Schawinski galaktikalar bilan qiziqdi va galaktikalar morfologik-elliptik yoki spiral-va ularning rang-ko'k yoki qizil ranglari bilan. O'sha paytda astronomlar o'rtasida an'anaviy donolik, bizning Somon yo'li kabi spiral galaktikalar (yashillikni ko'rsatuvchi) va elliptik galaktikalar qizil (qari yoshni ko'rsatgan) edi. Schawinski bu an'anaviy donolikka shubha bilan qaradi. Bu model umuman to'g'ri bo'lishi mumkin bo'lsa-da, ehtimol katta miqdorda istisnolar bor edi va bu g'ayritabiiy galaktikalarning ko'pchiligini - kutilgan naqshga mos bo'lmagan narsalarni o'rganish orqali u shubhali jarayonlar haqida biror narsa o'rganishi mumkin, deb o'yladi. hosil bo'lgan galaktikalar.

Shunday qilib, Schawinski an'anaviy donolikni yo'q qilish uchun zarur bo'lgan morfologik jihatdan tasniflangan galaktikalarning katta majmui edi; ya'ni spiral yoki eliptik deb tasniflangan galaktikalar. Biroq, muammolar, tasniflash uchun mavjud algoritmik usullar ilmiy tadqiqotlar uchun etarli darajada etarli emas edi; boshqacha aytganda, galaktikalarni tasniflash o'sha paytda kompyuterlar uchun qiyin bo'lgan muammo edi. Shuning uchun zarur bo'lgan narsalar ko'plab insoniy tasniflangan galaktikalar edi. Schawinski bu klassifikatsiya muammosini aspirantning g'ayrati bilan amalga oshirdi. Yigirma yetti soatlik marafon sessiyasida u 50 000 ta galaktikani tasniflashi mumkin edi. 50.000 galaktikalar juda ko'p ovozli bo'lishi mumkin bo'lsa-da, aslida Sloan Digital Sky Surveyda suratga olingan deyarli bir million galaktikaning taxminan 5% ni tashkil etadi. Schawinski, uni yanada keng ko'lamli yondashishga muhtojligini tushundi.

Yaxshiyamki, u tasniflash galaktika vazifasi astronomiya ilg'or ta'lim talab qilmaydi chiqadi; Agar juda tez buni kimgadir ta'lim mumkin. maqoladir tasniflash kompyuterlar uchun qiyin edi bir vazifa bo'lsa-da, boshqa so'z bilan aytganda, ham, u insonlar uchun juda oson edi. Shunday qilib, Oksford, Schawinski va vatandoshi astronom Chris Lintott bir pub o'tirib ko'ngillilar galaktikalar tasvirlarni tasnifi sayt orzu. Bir necha oy o'tgach, Galaxy hayvonot bog'i tug'ilgan.

Galaxy hayvonot bog'ining veb-saytida ko'ngillilar bir necha daqiqa mashg'ulotlarga o'tishlari kerak edi; Masalan, spirali va elliptik galaktika o'rtasidagi farqni o'rganish (5.2-rasm). Ushbu mashg'ulotdan so'ng har bir ko'ngilli oddiy klassifikatsiyaga ega bo'lgan 15 ta galaktikaning 11 tasini to'g'ri tasnifga berishi kerak edi, keyin esa oddiy veb-interfeys orqali noma'lum galaktikalarning haqiqiy tasnifini boshlaydi (5.3-rasm). Kerakli odamdan astronomga o'tish 10 daqiqadan kamroq vaqt ichida amalga oshirilishi kerak edi va faqat eng kam to'siqlardan o'tishi kerak edi, oddiy viktorina.

Shakl 5.2: Ikkita asosiy galaktikalar turiga misollar: spiral va elliptik. Galaxy hayvonot bog'i loyihasida 900 000 dan ortiq tasvirni tasniflash uchun 100 mingdan ortiq ko'ngillilar foydalangan. Http://www.GalaxyZoo.org va Sloan Digital Sky Survey-ning ruxsatisiz chiqarildi.

Shakl 5.3: ko'ngillilarning yagona tasvirni tasniflashlari so'ralgan kirish ekrani. Sloan Digital Sky Survey- dan olingan surat asosida Chris Lintottning ruxsatisiz chiqarildi.

Galaxy haykali dastlabki ko'ngillilarni loyihani bir yangilik maqolasida yoritganidan so'ng jalb qildi va taxminan olti oy ichida loyiha 100 mingdan ortiq fuqarolar olimlarini jalb qildi, ular bu vazifani bajarishgani uchun ishtirok etishdi va astronomiyani rivojlantirishga yordam berishni xohladilar. Birgalikda bu 100,000 ko'ngilli 40 milliondan ortiq tasnifga ega bo'ldi, ularning ko'pchiligi nisbatan kichik, yadro ishtirokchilar guruhidan kelib chiqdi (Lintott et al. 2008) .

Litsenziya tadqiqotchilarini ishga qabul qilish tajribasiga ega bo'lgan tadqiqotchilar darhol ma'lumot sifatiga shubha bilan qarashlari mumkin. Ushbu skeptitsizm aqlga sig'maydigan bo'lsa-da, Galaxy hayvonot bog'i, ko'ngilli yordamlarning to'g'ri tozalanishi, ajralib chiqishi va to'planishi bilan birga yuqori sifatli natijalarga erishishi mumkinligini ko'rsatadi (Lintott et al. 2008) . Professional sifatli ma'lumotlarni yaratish olomonni olish uchun muhim hiyla ko'p turli odamlar tomonidan amalga oshiriladi shu vazifani ega, deb ortiqcha, deb. Galaxy hayvonot bog'ida galaktikalar uchun taxminan 40 ta tasnif mavjud edi; bakalavr tadqiqotchilaridan foydalangan tadqiqotchilar bu darajadan ortiqcha ish tutmasliklari mumkin, shuning uchun har bir tasnifning sifatiga nisbatan ko'proq narsa kerak bo'ladi. Ko'ngillilar mashg'ulotlarda etishmasligidan, ular ortiqcha ish bilan mashg'ul bo'lishdi.

Biroq, galaktikalar uchun bir nechta tasniflashlar mavjud bo'lsa ham, konsensus tasnifini ishlab chiqarish uchun ko'ngillilar tasniflarini birlashtirib qo'yish qiyin edi. Ko'pgina insoniy hisoblash loyihalarida shunga o'xshash muammolar yuzaga kelganligi sababli, Galaxy hayvonot olami tadqiqotchilarining konsensus tasnifi ishlab chiqishda foydalanadigan uchta bosqichni qisqacha ko'rib chiqish foydali bo'ladi. Birinchidan, tadqiqotchilar soxta tasniflarni olib tashlash orqali ma'lumotlarni "tozaladilar". Misol uchun, bir xil galaktikani qayta-qayta tasniflaydigan odamlar - agar natijalarni o'zgartirishga harakat qilsalar, sodir bo'lishi mumkin bo'lgan narsalar - ularning barcha tasniflarini yo'q qilishgan. Bu va boshqa shunga o'xshash tozalash barcha tasniflarning taxminan 4% ni yo'qotdi.

Ikkinchidan, tozalashdan so'ng, tadqiqotchilar tasniflashda sistematik xulosa chiqarishni talab qildilar. Masalan, original loyihada ko'milgan bir qator noto'g'ri aniqlash ishlari orqali, masalan, ayrim ixtiyoriylarni rangning o'rniga bitta rangli galaktika ko'rsatgan holda, tadqiqotchilar uzoqdagi spiral galaktikalarni elliptik galaktikalar sifatida tasniflash uchun muntazam bir (Bamford et al. 2009) . (Bamford et al. 2009) . Ushbu sistematik qarama-qarshiliklarni tartibga solish juda muhimdir, chunki ortiqcha ishlamaylik sistematik tanqislikni avtomatik ravishda yo'q qiladi; bu faqat tasodifiy xatolikni bartaraf etishga yordam beradi.

Nihoyat, qarzni to'lashdan so'ng, tadqiqotchilar konsensus tasnifini ishlab chiqarish uchun individual tasniflarni birlashtiradigan usulga muhtoj edilar. Har bir galaktikaning tasniflarini birlashtirishning eng oddiy yo'li eng keng tarqalgan tasnifni tanlash edi. Biroq, bu yondashuv har bir volonterga teng og'irlik berishi mumkin edi va tadqiqotchilar ba'zi ixtiyoriylarning boshqalarga nisbatan tasnifida yaxshiroq ekanliklaridan shubha qilishgan. Shu sababli, tadqiqotchilar eng yaxshi tasniflagichlarni aniqlashga va ularga ko'proq og'irlikni berishga urinayotgan murakkab iterativ og'irlik tartibini ishlab chiqdilar.

Shunday qilib, uch bosqichli jarayonlarni tozalash, saralash va og'irlikni sarflashdan so'ng Galaxy hayvonot bog'i tadqiqot guruhi 40 million ko'ngillilik tasnifini konsensus morfologik tasniflar majmuasiga aylantirdi. Galaxy hayvonot bog'i tasniflari professional astronomlar tomonidan ilgari uchta kichik miqyosdagi urinishlar bilan taqqoslanganda, shu jumladan, Galaxy hayvonot bog'iga ilhom berishga yordam bergan Schawinski tasnifi, kuchli kelishuvga erishildi. Shunday qilib, ko'ngillilar, jami bo'lib, yuqori sifatli tasniflashni ta'minladilar va tadqiqotchilarga mos kelmaydigan darajada (Lintott et al. 2008) . Aslida, juda ko'p miqdordagi galaktikalar uchun inson tasnifiga ega bo'lib, Schawinski, Lintott va boshqalar galaktikalarning taxminan 80% kutilgan naqshli-ko'k spirallarga va qizil elliptikalarga ergashganini ko'rsatdi va bu haqda ko'plab maqolalar yozildi Bu kashfiyot (Fortson et al. 2011) .

Ushbu fonni hisobga olgan holda, hozirda Galaxy hayvonot bog'ining split-amaliyot-kombinat retsepti, inson hisob-kitoblarining aksariyat loyihalari uchun ishlatiladigan retsepti qanday ta'riflanganligini ko'rishingiz mumkin. Birinchidan, bir katta muammo qismlar bo'linadi. Bunday holda, millionlab galaktikalarni tasniflash muammosi bir galaktikani tasniflashning millionlab muammosiga aylandi. So'ngra, har bir bog 'uchun mustaqil ravishda amaliyot qo'llaniladi . Bunday holda, ixtiyoriy galaktikalar spiral yoki eliptik sifatida tasniflangan. Nihoyat, natijalar konsensus natijalarini ishlab chiqarish uchun birlashtirilgan . Bunday holda, kombinatsiya bosqichi har bir galaktika uchun konsensus tasnifini ishlab chiqarish uchun tozalash, ajratishni va og'irlikni o'z ichiga oladi. Aksariyat loyihalar ushbu umumiy retseptdan foydalansa ham, har bir qadam muayyan muammoni hal qilish uchun moslashtirilishi kerak. Misol uchun, quyida tasvirlangan inson hisoblash loyihasida bir xil retseptga amal qilinadi, ammo amal va birlashma bosqichlari juda boshqacha bo'ladi.

Galaxy hayvonot bog'i jamoasi uchun bu birinchi loyiha faqat boshlanish edi. Juda tez ular bir million (Kuminski et al. 2014) yaqin tasniflash imkoniyatiga ega bo'lishsa-da, bu miqyosda yangi raqamli osmon tadqiqotlari bilan ishlash uchun etarli emas, bu taxminan 10 milliard galaktikaning tasvirini yaratishi mumkin edi (Kuminski et al. 2014) . 1 milliondan 10 milliardga ko'paytirish uchun 10,000 Galaxy hayvonot bog'i omili qariyb 10 ming marta ko'proq ishtirokchilarni jalb qilishlari kerak. Internetda ko'ngillilar soni katta bo'lsa-da, u cheksiz emas. Shuning uchun, tadqiqotchilar, agar ular o'sib borayotgan ma'lumotlarga ishlov berishni rejalashtirayotgan bo'lsa, yangi, yanada kengroq miqyosli yondashuvga ehtiyoj sezilgan.

Shuning uchun, Manda Banerji - Schawinski, Lintott va Galaxy hayvonot bog'ining boshqa a'zolari (2010) ishlaydigan - galaktikalarni tasniflash uchun kompyuterlarni o'rgatishadi. Ayniqsa, Galaxy hayvonot bog'i tomonidan yaratilgan insoniy tasniflardan foydalanib, Banerji tasvirning xususiyatlariga asoslangan galaktikaning inson tasnifini prognozlashi mumkin bo'lgan kompyuterni o'rganish modelini yaratdi. Agar ushbu model insoniy tasniflarni yuqori aniqlik bilan o'zgartirsa, Galaxy hayvonot bog'i tadqiqotchilari tomonidan asosan cheksiz miqdordagi galaktikalarni tasniflash uchun foydalanilishi mumkin.

Banerji va uning hamkasblarining yondashuvi aslida ijtimoiy tadqiqotda keng qo'llaniladigan texnikaga juda o'xshash, biroq bu o'xshashlik birinchi qarashda aniq bo'lmasligi mumkin. Birinchidan, Banerji va uning hamkasblari har bir tasvirni xususiyatlarini jamlagan raqamli xususiyatlar to'plamiga aylantirdilar. Misol uchun, galaktikalar tasvirlari uchun uchta xususiyat bo'lishi mumkin: tasvirdagi ko'k rang, piksellarning nashrida farq va oq bo'lmagan piksellar nisbati. To'g'ri funktsiyalarni tanlash muammoning muhim qismidir va odatda mavzu bo'yicha mutaxassislik talab qiladi. Ushbu birinchi qadam, xususan, xususiyatni muhandislik deb nomlanadi, har bir tasvir uchun bitta qator va undan keyin tasvirni tasvirlaydigan uchta ustunli ma'lumotlar matritsasini hosil qiladi. Ma'lumot matritsasi va kerakli chiqimlarni (masalan, tasvir elliptik galaktika sifatida inson tomonidan tasniflanganmi) nazarda tutgan holda, tadqiqotchi statistika yoki mashinani o'rganish modelini yaratadi - masalan, logistika regressiyasi - bu xususiyatlar asosida inson tasnifini tasvirning Nihoyat, tadqiqotchi ushbu yangi statistikaga asoslangan yangi galaktikalarni tasniflash uchun parametrlardan foydalanadi (5.4-rasm). Mashinani o'rganishda, bu yondashuv - yangi ma'lumotlarga ishora etadigan model yaratish uchun etiketlenmiş misollar - bu boshqariladigan o'rganish deb ataladi.

5.4-rasm: Banerji va boshq. (2010) Galaxy hayvonot dunyosining tasniflarini galaktika tasnifini bajarish uchun mashinani o'rganish modelini o'qitish uchun ishlatgan. Galaktikalar tasvirlari matritsalarga aylantirildi. Ushbu soddalashtirilgan misolda uchta xususiyat mavjud (rasmda ko'k miqdori, piksellarning yorqinligi va rangsiz piksellarning nisbati). Keyinchalik, Galaxy hayvonot bog'ida tasvirlarning bir to'plami uchun mashinani o'rganish modelini o'qitish uchun foydalaniladi. Nihoyat, mashina o'rganish qolgan galaktikalar uchun tasniflarni baholash uchun ishlatiladi. Men buni kompyuter yordamidagi inson hisoblash loyihasi deb atayman, chunki odamlar muammoga duch kelmaslikdan ko'ra, odamlarni muammoni hal qilish uchun kompyuterni tayyorlash uchun ishlatilishi mumkin bo'lgan ma'lumotlar to'plamini yaratadi. Ushbu kompyuter yordamidagi inson hisob-kitob tizimining afzalligi shundan iboratki, siz insonning juda ko'p miqdordagi ma'lumotlarini ishlatishingiz mumkin. Sloan Digital Sky Survey-ning ruxsatisiz olingan galaktikalar.

5.4-rasm: Banerji et al. (2010) Galaxy hayvonot dunyosining tasniflarini galaktika tasnifini bajarish uchun mashinani o'rganish modelini o'qitish uchun ishlatgan. Galaktikalar tasvirlari matritsalarga aylantirildi. Ushbu soddalashtirilgan misolda uchta xususiyat mavjud (rasmda ko'k miqdori, piksellarning yorqinligi va rangsiz piksellarning nisbati). Keyinchalik, Galaxy hayvonot bog'ida tasvirlarning bir to'plami uchun mashinani o'rganish modelini o'qitish uchun foydalaniladi. Nihoyat, mashina o'rganish qolgan galaktikalar uchun tasniflarni baholash uchun ishlatiladi. Men buni kompyuter yordamidagi inson hisoblash loyihasi deb atayman, chunki odamlar muammoga duch kelmaslikdan ko'ra, odamlarni muammoni hal qilish uchun kompyuterni tayyorlash uchun ishlatilishi mumkin bo'lgan ma'lumotlar to'plamini yaratadi. Ushbu kompyuter yordamidagi inson hisob-kitob tizimining afzalligi shundan iboratki, siz insonning juda ko'p miqdordagi ma'lumotlarini ishlatishingiz mumkin. Sloan Digital Sky Survey-ning ruxsatisiz olingan galaktikalar.

Banerji va uning hamkasblarining mashinani o'rganish modelidagi funktsiyalar mening o'yinchog'imdagi misollarga qaraganda ancha murakkab bo'lgan. Masalan, "de Vaucoulerurs aksiya nisbati" kabi xususiyatlardan foydalangan va uning modeli logistika regressiya emas edi, bu sun'iy neyron tarmoq edi. Uning xususiyatlarini, modelini va Galaxy hayvonot bog'i tasniflarini ishlatib, u har bir xususiyat bo'yicha og'irliklar yaratishga muvaffaq bo'ldi va so'ngra ushbu og'irliklar galaktikalar tasnifi haqida bashorat qilish uchun foydalangan. Misol uchun, uning tahlillari pastki "de Vaucouireurs" eksenel nisbatlarga ega bo'lgan rasmlarni spiral galaktikalar bo'lish ehtimoli ko'proq bo'lganligini aniqladi. Bu og'irliklarni hisobga olgan holda, u aniq bir aniqlik bilan insonning galaktikasi tasnifini taxmin qilishga muvaffaq bo'ldi.

Banerji va uning hamkasblari Galaxy hayvonot bog'ini kompyuter yordamida yordamchi hisoblash tizimiga aylantirgan narsaga aylantirdi. Ushbu gibrid tizimlar haqida o'ylashning eng yaxshi usuli, odamlarni muammoni hal qilmasdan emas, balki ular odamlarni muammoni hal qilish uchun kompyuterni o'rgatish uchun ishlatilishi mumkin bo'lgan ma'lumotlar to'plamini yaratishi. Ba'zan muammoni hal qilish uchun kompyuterni tayyorlash ko'plab misollarni talab qilishi mumkin va etarli miqdordagi misollarni ishlab chiqarishning yagona yo'li ommaviy hamkorlikdir. Ushbu kompyuter yordamidagi yondashuvning afzalligi shundan iboratki, u faqat insoniy harakatlarning cheklangan miqdoridan foydalangan holda, asosan cheksiz miqdorda ma'lumotlar bilan ishlashga imkon beradi. Misol uchun, millionlab inson tasnifidagi galaktikalar bilan tadqiqotchi bir milliard yoki hatto trillion galaktikalarni tasniflash uchun ishlatilishi mumkin bo'lgan bashorat modelini yaratishi mumkin. Agar juda ko'p miqdordagi galaktikalar mavjud bo'lsa, unda bunday inson-kompyuter gibridi, albatta, yagona echimdir. Biroq, bu cheksiz o'lchovni bepul emas. Inson tasnifini to'g'ri shakllantiradigan kompyuterni o'rganish modelini yaratish juda murakkab muammo, lekin baxtga ko'ra, bu mavzuga bag'ishlangan ajoyib kitoblar mavjud (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy hayvonot bog'i inson hisob-kitoblarining qancha loyihasi rivojlanayotgani haqida yaxshi tasavvurga ega. Birinchidan, tadqiqotchi o'zi yoki kichik tadqiqotchi yordamchilari bilan loyihani (masalan, Schawinskiyning dastlabki tasnifi) amalga oshiradi. Agar bu yondashuv yaxshi taraqqiy etmasa, tadqiqotchi ko'plab ishtirokchilar bilan inson hisoblash loyihasiga o'tishi mumkin. Ammo ma'lum bir ma'lumot uchun, insonning sof ishlashi etarli bo'lmaydi. Shu nuqtada, tadqiqotchilar kompyuterda yordamchi inson hisoblash tizimini yaratishlari kerak, unda odamlar tasniflashlari kompyuter modelini o'qitishda foydalaniladi, keyinchalik deyarli cheksiz miqdorda ma'lumotlarga qo'llanilishi mumkin.