5.2.1 Galaxy hayvonot bog'i

Galaxy Zoo bir million maqoladir tasniflash uchun ko'p non-ekspert ko'ngillilar sa'y-harakatlarini birlashtiradi.

Galaxy hayvonot bog'i, Schawinski galaktikalar manfaatdor edi 2007 bir oz soddalashtirish yilda Kevin Schawinski, Oksford universitetida Astronomiya bir talabasi duch muammo chiqib o'sdi va galaktikalar tomonidan tasniflangan mumkin ularning morfologiyasi-elliptik yoki spiral-va ularning rang-ko'k yoki qizil tomonidan. bilan birga, astronomlari orasida an'anaviy donolik spiral galaktika, bizning Somon yo'li kabi, rangi (ko'rsatgan yoshlar) ko'k edi va elliptik galaktikalar (keksalikka ko'rsatgan) rangi qizil edi. Schawinski bu an'anaviy hikmatni shubha. U bu shaklning umuman to'g'ri bo'lishi mumkin bo'lsa, u erda ehtimol istisno bir katta soni edi va o'sha gumon bu g'ayrioddiy galaktikalar-mos emas edi kishilarning qur'a o'rganish orqali pattern-u jarayoni haqida biror narsa o'rganish mumkin kutilmoqda orqali galaktikalar shakllangan.

Shunday qilib, nima Schawinski an'anaviy hikmatni bekor qilish uchun zarur bo'lgan morfologik, maxfiy galaktika katta majmui edi; deb, spiral yoki kinematikasini yo deb tasniflangan edi galaktikalar hisoblanadi. Ammo, muammo, tasnifi uchun mavjud algoritmik usullari hali etarlicha yaxshi ilmiy tadqiqot uchun foydalanish uchun emas edi; Boshqa so'zlar bilan aytganda, tasniflash galaktikalar kompyuterlar uchun qiyin edi, bir muammo, bu vaqtda edi. Shuning uchun, zarur narsaga inson tasniflangan galaktika katta soni. Schawinski bir aspirant g'ayrati bilan bu tasnifi muammoni olib borildi. etti, 12-soat kun marafoni majlisida, u 50000 maqoladir tasnifi ega bo'ldi. 50000 galaktikalar bir poda kabi tuyulishi mumkin-da, bu Sloan Digital Sky tadqiqotida suratga edi deyarli bir million galaktikalar nafaqat taxminan 5% aslida. Schawinski u yanada ölçeklenebilir bir yondashuv zarur ekanini tushundi.

Yaxshiyamki, u tasniflash galaktika vazifasi astronomiya ilg'or ta'lim talab qilmaydi chiqadi; Agar juda tez buni kimgadir ta'lim mumkin. maqoladir tasniflash kompyuterlar uchun qiyin edi bir vazifa bo'lsa-da, boshqa so'z bilan aytganda, ham, u insonlar uchun juda oson edi. Shunday qilib, Oksford, Schawinski va vatandoshi astronom Chris Lintott bir pub o'tirib ko'ngillilar galaktikalar tasvirlarni tasnifi sayt orzu. Bir necha oy o'tgach, Galaxy hayvonot bog'i tug'ilgan.

Galaxy hayvonot bog'i saytida, ko'ngillilar tayyorlash bir necha daqiqa o'tishi edi; Misol uchun, bir spiral va elliptik galaktika (rasm 5.2) o'rtasidagi farqni o'rganish. Ushbu ta'lim so'ng, ko'ngilli ma'lum bir nisbatan oson Viktorina-to'g'ri tasniflash 11 15 maqoladir o'tishi kerak edi sinflar va keyin ko'ngilli oddiy veb-asoslangan interfeysi (rasm 5.3) orqali noma'lum galaktika real tasnifi boshlardi. astronomi uchun ko'ngilli o'tish 10 daqiqadan kamroq bo'lib o'tadi va faqat to'siq, oddiy viktorinada eng o'tib zarur edi.

Rasm 5,2: spiral va elliptik: galaktikalar ikki asosiy turlari misollar. Galaxy hayvonot bog'i loyiha 900.000 tasvirlar ko'ra ko'proq toifalariga 100,000 dan ortiq ko'ngillilarni ishlatiladi. Manba: www.galaxyzoo.org.

Rasm 5,2: spiral va elliptik: galaktikalar ikki asosiy turlari misollar. Galaxy hayvonot bog'i loyiha 900.000 tasvirlar ko'ra ko'proq toifalariga 100,000 dan ortiq ko'ngillilarni ishlatiladi. Manba: www.galaxyzoo.org .

Rasm 5.3: saylovchilar bitta tasvirni tasniflash uchun berildi Kirish ekran. Manba: www.galaxyzoo.org.

Rasm 5.3: saylovchilar bitta tasvirni tasniflash uchun berildi Kirish ekran. Manba: www.galaxyzoo.org .

Loyiha yangiliklari maqolada xususiyatli va taxminan olti oy ichida loyiha 100,000 dan ortiq fuqaro olimlar, ular vazifani zavq va ular oldindan astronomiya yordam so'radim, chunki ishtirok odamlarni jalb qilish o'sdi keyin Galaxy hayvonot bog'i dastlabki ko'ngilli uyg'otdi. Birgalikda bu 100,000 ko'ngillilar ishtirokchilari nisbatan kichik, asosiy guruh kelayotgan sinflar ko'pchilik bilan, 40 dan ortiq million sinflar jami hissa (Lintott et al. 2008) .

tajribasi yollash bakalavriat tadqiqot o'rinbosari tadqiqotchilar, darhol ma'lumotlar sifati haqida shubha bo'lishi mumkin. Bu Skeptitsizm oqilona bo'lsa-da, Galaxy hayvonot bog'i ko'ngilli hissasi to'g'ri, tozalanadi debiased va yig'iladi, ular yuqori sifatli natijalar ishlab chiqarish mumkin, deb ko'rsatadi (Lintott et al. 2008) . Professional sifatli ma'lumotlarni yaratish olomonni olish uchun muhim hiyla ortiqcha bo'ladi; ya'ni, bir xil vazifa juda ko'p turli odamlar tomonidan amalga etgan. Galaxy hayvonot bog'i yilda galaktika taxminan 40 sinflar bor edi; Shuning uchun ishdan bu darajada ko'zga va hech qachon mumkin bakalavriat tadqiqot assistentlar yordamida tadqiqotchilar har bir individual tasnifi sifati bilan ancha manfaatdor bo'lishi kerak. ko'ngillilar ta'lim mahrum nima, ular ishdan bilan tashkil etdi.

Hatto galaktika boshiga bir necha sinflar bilan birga, ko'ngilli sinflar majmuini birlashtirgan bir konsensus tasnifi qiyin bo'lgan ishlab chiqarish. juda o'xshash muammolar eng inson hisoblash loyihalar yuzaga Chunki, u qisqacha Galaxy Zoo tadqiqotchilar o'z konsensus sinflar ishlab chiqarish uchun ishlatiladigan uch qadam ko'rib foydali bo'ladi. Birinchidan, tadqiqotchilar soxta sinflar olishdan tomonidan ma'lumotlarni "tozalandi". Misol uchun, bir necha marta ular manipulyatsiya harakat bo'lsa bo'ladi Shu galaxy-narsa tasniflanadi odamlar ularning barcha sinflar tashlanadi natijalarini-bor edi. Bu va shunga o'xshash boshqa tozalash barcha sinflar 4% olib tashlandi.

Ikkinchidan, tozalash keyin, tadqiqotchilar tasniflash sistematik xatolar olib tashlash uchun zarur. Original loyiha, masalan ichida ko'milgan qiyshiq va yomonni tadqiqotlar, o'rniga monoxrom Galaxy ayrim ko'ngilli ko'rsatgan bir qator rang-tadqiqotchilar bunday elliptik galaktika kabi uzoq spiral galaktika tasnifi uchun tizimli tarafkashlik kabi bir necha sistematik xatolar, kashf (Bamford et al. 2009) . ko'p hissa o'rtacha tizimli noto'g'ri olib tashlash emas, chunki bu sistematik xatolar uchun sozlash juda muhim; u faqat tasodifiy xato ketkazadi.

Nihoyat, debiasing keyin, tadqiqotchilar bir konsensus tasnifi ishlab chiqarish individual sinflar birlashtirish uchun bir usul zarur. Har bir galaktika uchun sinflar birlashtirish oson yo'li eng keng tarqalgan tasnifi tanlash bo'lardi. Biroq, bu yondashuv har bir ko'ngilli teng og'irlik berish edi, va tadqiqotchilar ayrim ko'ngilli boshqalardan ko'ra tasniflash da yaxshiroq edi gumon. Shuning uchun, tadqiqotchilar avtomatik ravishda eng yaxshi klassifikatorlari aniqlash va ularga ko'proq e'tibor berish harakat yanada murakkab iterativ tarozida tartibi ishlab chiqildi.

Shunday qilib, uch qadam jarayon-tozalash, debiasing va og'irlik-Galaxy Zoo tadqiqot jamoasi keyin konsensus morfologik sinflar majmui ichiga 40 million ko'ngilli sinflar aylanadi edi. Bu Galaxy hayvonot bog'i sinflar Galaxy parti ilhom yordam Schawinski tomonidan tasniflash, shu jumladan, kasb-hunar astronomlar tomonidan avvalgi uch kichik ko'lamli urinishlar bilan solishtirganda, kuchli kelishuv bor edi. Shunday qilib, ko'ngillilar, jami, yuqori sifatli sinflar ko'rsatish imkoniyatiga ega bo'ldi va tadqiqotchilar mos olmaydigan miqyosda (Lintott et al. 2008) . Aslida, galaktika kabi bir qator inson sinflar ega, Schawinski, Lintott, va boshqalar galaktikalar faqat 80% haqida yozilgan kutilmoqda pattern-ko'k spiral va qizil ellipticals-va ko'plab hujjatlari amal ekanini ko'rsatish imkoniyatiga ega bo'ldi bu kashfiyot (Fortson et al. 2011) .

bu fon hisobga olib, biz endi Galaxy Zoo quyidagicha qanday ko'rish mumkin split-amal-birlashtirish retseptini, eng inson hisoblash loyihalari uchun ishlatiladi Shu retseptini. Birinchidan, katta muammo qismlar bo'linadi. Bu holda, bir million maqoladir tasniflash muammosi bir galaktika tasniflash bir million muammolar bo'linadi. Keyingi, operatsiya mustaqil har bir qismi uchun qo'llaniladi. Bu holda, bir ko'ngilli spiral yoki kinematikasini yo har bir galaktikasini tasnifi. Nihoyat, natija bir konsensus natija ishlab chiqarish uchun birlashtiriladi. Bu holda, birlashtirish qadam Har bir galaktika uchun konsensus tasnifi ishlab chiqarish tozalash, debiasing va og'irlik kiritilgan. eng loyihalar bu umumiy retseptini foydalanish bo'lsa-da, har bir bosqichni xos muammo murojaat qilinmoqda uchun tayyorlangan kerak. Misol uchun, quyidagi ta'rif inson hisoblash loyihada, xuddi shu retsept ta'qib qilinadi, lekin amal va birlashtirish qadamlar juda boshqacha bo'ladi.

Galaxy hayvonot bog'i jamoasi uchun, bu birinchi loyiha faqat boshlanishi edi. Juda tez, ular ham, ular bir million galaktikalar yaqin tasniflashda ega ekanligini anglab, bu ko'lamli haqida 10 milliard galaktikalar tasvirlar ishlab chiqarish mumkin yangi raqamli osmon anketalar, bilan ishlash uchun etarli emas (Kuminski et al. 2014) . 1 million 10 dan ortishi qondirish uchun milliard-a 10000-Galaxy hayvonot bog'i omili taxminan 10,000 marta ko'proq ishtirokchilarni jalb qilish kerak. Internetda ko'ngillilar soni katta bo'lsa-da, u cheksiz emas. Shuning uchun, tadqiqotchilar amalga ular yangi, yanada ko'proq ölçeklenebilir, yondashuv zarur edi ma'lumotlar, tobora o'sib borayotgan miqdorda idora qilish boryapmiz.

Shuning uchun, bormidi Banerji-ishchi Kevin Schawinski, Chris Lintott va Galaxy hayvonot bog'i jamoasi-boshlang'ich ta'lim berish kompyuterlar boshqa a'zolari bilan galaktika tasnifi. Batafsil ravishda, Galaxy hayvonot bog'i, yaratgan inson sinflar yordamida Banerji et al. (2010) , tasvir xarakteristikalariga asoslanib bir galaktika inson tasnifi oldindan mumkin bo'lgan mashina ta'lim modelini qurilgan. bu mashina ta'lim modeli yuksak aniqlik bilan inson sinflar qayta mumkin bo'lsa, u galaktikalar bir aslida cheksiz qator tasnifi Galaxy Zoo tadqiqotchilar tomonidan foydalanish mumkin.

bu o'xshashlik birinchi qarashda aniq bo'lmasligi mumkin bo'lsa-da, Banerji va hamkasblari "yondashuv asosiy, aslida, tez-tez ijtimoiy tadqiqotlarda ishlatiladigan texnik go'zal o'xshaydi. Birinchidan, Banerji va hamkasblari u xususiyatlari ekan sarhisob raqamli xususiyatlari majmui har bir tasvirni aylanadi. suratida ko'k miqdori, piksel yorqinligi ham ziddiyat, va nooziq-oq piksel nisbati: Misol uchun, galaktikalar rasmlar uchun uch xususiyatlari bo'lishi mumkin. to'g'ri xususiyatlar tanlash muammosi muhim qismi hisoblanadi, va u odatda mavzu-joy tajriba talab qiladi. Tez-tez xususiyati muhandislik deb nomlangan bu birinchi qadam, tasvir boshiga bir qatorga va tasvirni tasvirlab, keyin uch ustunli bir ma'lumot matritsasi olib keladi. logistika regresyon-huquq tasnifi bashorat kabi Data Matrix va kerakli ishlab chiqarish (masalan, tasvir elliptik galaktika kabi inson tomonidan tasniflangan yo'qmi), tadqiqotchi statistik model, masalan parametrlarini hisob-kitoblariga ko'ra, bir narsani hisobga olib tasvir xususiyatlariga. Nihoyat, tadqiqotchisi yangi galaktikalar hisoblab sinflar (rasm 5.4) ishlab chiqarish uchun, bu statistik modeli parametrlarini foydalanadi. ijtimoiy analog o'ylash, siz million talabalar haqida demografik ma'lumotlar borligini tasavvur, va siz ular kollejni yoki yo'q tamomlagan bilish. Siz bu ma'lumotlarni bir logistika tushish mos edi, va keyin siz yangi talabalar kollejini bitiradi boryapmiz bo'lsin bashorat qilish natijasida model parametrlarini foydalanishingiz mumkin. Mashina ta'lim, bu yondashuv-yordamida etiketlenebilir misollar keyin, yangi yorliq mumkin statistik model yaratish ma'lumotlarni-etiladi o'rganish nazorat deb nomlangan (Hastie, Tibshirani, and Friedman 2009) .

Shakl 5.4: qanday Banerji boshq sodda bayoni. (2010) Galaxy tasnifi qilish mashina ta'lim modelini o'rgatish Galaxy hayvonot bog'i sinflar ishlatiladi. galaktikalarning tasvirlar xususiyatlari matritsa aylanadi qilindi. Bu soddalashtirilgan misol uch xususiyatlari (suratida ko'k miqdori, piksel yorqinligi ham ziddiyat, va nooziq-oq piksel nisbati) bor. So'ngra, tasvirlar, bir kichik uchun, Galaxy hayvonot bog'i teglar bir mashina ta'lim modelini tayyorlash uchun ishlatiladi. Nihoyat, mashina ta'lim qolgan galaktikalar uchun sinflar tasavvur qilish uchun ishlatiladi. Men loyiha bunday qo'ng'iroq bo'lgan insonlar bir muammoni hal qilish o'rniga, ular insonlar muammosini hal qilish uchun bir kompyuter o'rgatish uchun foydalanish mumkin bo'lgan ma'lumotlar majmui qurish bor, chunki ikkinchi avlod inson hisoblash loyiha. Bu kompyuter-yordam yondashuv afzalligi siz inson harakat faqat chekli miqdorda yordamida ma'lumotlar aslida cheksiz miqdorda idora qilish imkonini beradi, deb hisoblanadi.

Shakl 5.4: qanday qilib sodda bayoni Banerji et al. (2010) Galaxy tasnifi qilish mashina ta'lim modelini o'rgatish Galaxy hayvonot bog'i sinflar ishlatiladi. galaktikalarning tasvirlar xususiyatlari matritsa aylanadi qilindi. Bu soddalashtirilgan misol uch xususiyatlari (suratida ko'k miqdori, piksel yorqinligi ham ziddiyat, va nooziq-oq piksel nisbati) bor. So'ngra, tasvirlar, bir kichik uchun, Galaxy hayvonot bog'i teglar bir mashina ta'lim modelini tayyorlash uchun ishlatiladi. Nihoyat, mashina ta'lim qolgan galaktikalar uchun sinflar tasavvur qilish uchun ishlatiladi. Men loyiha bunday qo'ng'iroq bo'lgan insonlar bir muammoni hal qilish o'rniga, ular insonlar muammosini hal qilish uchun bir kompyuter o'rgatish uchun foydalanish mumkin bo'lgan ma'lumotlar majmui qurish bor, chunki ikkinchi avlod inson hisoblash loyiha. Bu kompyuter-yordam yondashuv afzalligi siz inson harakat faqat chekli miqdorda yordamida ma'lumotlar aslida cheksiz miqdorda idora qilish imkonini beradi, deb hisoblanadi.

Xususiyatlari Banerji et al. (2010) mashina ta'lim modeli misol, masalan, u kabi xususiyatlarga ishlatiladigan mening o'yinchoq qaraganda ancha murakkab edi "de Vaucouleurs aksiyal nisbati mos» deb atalgan, uni model logistika regresyon emas edi, u sun'iy asab tarmog'i edi. uning xususiyatlari, uning model va konsensus Galaxy hayvonot bog'i sinflar foydalanib, u har bir xususiyati haqida og'irliklari yaratish, keyin esa galaktikalar tasnifi haqida taxmin qilish uchun, bu og'irliklari foydalanish imkoniyatiga ega edi. Misol uchun, uning tahlili "Vaucouleurs aksiyal nisbati mos de" past bilan tasvirlar spiral galaktika bo'lishi ehtimoli ko'proq edi, deb topildi. Bu og'irliklari hisobga olib, u oqilona aniqlik bilan bir galaktika inson tasnifi bashorat qilish ega edi.

Ish Banerji et al. (2010) , men ikkinchi avlod inson hisoblash tizimi deb ataydigan narsaga Galaxy parti o'girdi. Bu ikkinchi avlod tizimlari haqida o'ylab uchun eng yaxshi yo'l ega insonlar bir muammoni hal qilish o'rniga, ular insonlar muammosini hal qilish uchun bir kompyuter o'rgatish uchun foydalanish mumkin bo'lgan ma'lumotlar majmui qurish bor, deb. kompyuter o'rgatish uchun zarur bo'lgan ma'lumotlar miqdori yaratish uchun inson ommaviy hamkorlik talab qiladi, shuning uchun katta bo'lishi mumkin. Galaxy hayvonot bog'i tomonidan ishlatiladigan nerv tarmoqlari holda Banerji et al. (2010) ishonchli inson tasnifi qayta muvaffaq bo'ldi modelini qurish uchun inson bilan belgilangan misollar juda ko'plab talab.

Bu kompyuter-yordam yondashuv afzalligi siz inson harakat faqat chekli miqdorda yordamida ma'lumotlar aslida cheksiz miqdorda idora qilish imkonini beradi, deb hisoblanadi. Misol uchun, bir million inson tasniflangan galaktika bilan tadqiqotchi, keyin bir milliard yoki hatto bir trillion maqoladir tasniflash uchun ishlatilishi mumkin bo'lgan bashoratli modelini qurish mumkin. galaktikalarning ulkan raqamlari mavjud bo'lsa, u holda inson-kompyuter devqomat bunday, albatta, faqat iloji hal. Bu cheksiz ölçeklenebilirlik Biroq, bepul emas. O'zi qiyin muammo bo'lib to'g'ri inson sinflar qayta mumkin mashina ta'lim modelini qurish, lekin mayli, bu mavzuga bag'ishlangan ajoyib kitoblar allaqachon mavjud (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy hayvonot bog'i ko'p inson hisoblash loyihalarni evolyutsiyasi ko'rsatadi. Birinchidan, tadqiqotchi o'zi tomonidan yoki tadqiqot yordamchilari kichik jamoa (masalan, Schawinski ning dastlabki tasnifi harakat) bilan loyihani harakat qiladi. Bu yondashuv yaxshi o'lchovni bo'lmasa, tadqiqotchi ko'p odamlar sinflar hissa inson hisoblash loyiha ko'chib mumkin. Lekin, ma'lumotlar ma'lum bir hajmi uchun, sof inson harakat etarli bo'lmaydi. Ushbu nuqtada, tadqiqotchilar inson sinflar keyin ma'lumotlar deyarli cheklanmagan miqdorda qo'llanilishi mumkin bo'lgan mashina ta'lim modelini tayyorlash uchun ishlatiladi, ikkinchi avlod tizimlari qurish kerak.