5.2.1 Galaxy Zoo

Galaxy Zoo миллион галактикаларды жашыруун көп эмес эксперттик ыктыярдуу аракетин бириктирет.

Galaxy Zoo Nadira-Schawinski жаткан көйгөй чыгып, өсүп, 2007-жылы Граждандык атындагы астрономия боюнча магистратура изилдеген бир аз Жөнөкөйүрөөк, Schawinski галактикалар жана галактика жана спираль алардын микроорганизмдер-эллиптикалык же жашыруун болот кызыкдар болгон алардын түс-көк же кызыл менен. убакта, спираль галактикалардын астрономдору арасында кадимки акылмандык эле, биздин Саманчынын жолундай болгон, түсү көк болуп (көрсөтүлүп жаш) жана эллиптикалык галактикалар түсү кызыл болгон (карылык көрсөтүү). Schawinski бул шарттуу акылмандык шектенген эмес. Анын айтымында, бул үлгү жалпы чыныгы болушу мүмкүн, ал эми иш жөнүндө бир нерсе бар, балким тышкары басымдуу эле, бул туура эмес, бул өзгөчө галактикаларга адамдар көп изилдөө менен күтүлгөн үлгүгө ал ала турган аркылуу шектүү галактикалар пайда болгон.

Ошентип, кандай Schawinski кадимки акылмандык талкалаш үчүн зарыл morphologically жашыруун галактикалар бир чоң топтому бар эле; деп, бушайман же эллиптикалык деп табылат болчу галактикалар бар. Маселе, бирок, жашыруун колдонуудагы алгоритмдик ыкмалары азырынча жакшы жетиштүү илимий-изилдөө үчүн пайдаланылышы мүмкүн эмес болчу; башкача айтканда, жашыруун галактикалардын болчу, ошол убакта, эсептөө машиналары үчүн кыйын болгон бир көйгөй. Ошондуктан, эмне зарыл болгон адам жашыруун галактикалардын саны көп эле. Schawinski бүтүрүүчүсү окуучу толкундануу менен бул классификация маселени өткөрүштү. жети, 12 саат бою бир чуркоо сессияга, ал 50000 галактикаларды жашыруун алган. 50,000 галактикалар бир сандай көрүнүшү мүмкүн, ал эми иш жүзүндө Слоун Digital Sky изилдёёдё сүрөткө келген дээрлик бир миллион галактиканын болгону 5% түзөт. Schawinski ал, бир кыйла арымдуу мамиле керек экенин түшүндүм.

Бактыга жараша, ал жашыруун галактикалардын милдети астрономия боюнча жогорку билим талап кылынбайт экен; сиз тез эле аны аткарууга бирөөгө үйрөтө алышат. галактикаларды жашыруун эсептөө машиналары үчүн кыйын болгон милдети болсо да, башкача айтканда, анын ичинде, аны адамдар үчүн абдан жеңил болгон. Ошондуктан, Граждандык, Schawinski жана башка астроном Chris Lintott бир да жолу пабда отурган ыктыярдуу галактика сүрөттөрүн жашыруун турган сайтты кыялданган. Бир нече ай өткөндөн кийин, Galaxy Zoo туулган.

Galaxy Zoo сайтынан, ыктыярдуу окутуу бир нече мүнөт дуушар болмок; Мисалы, бир чырмооктой жана эллиптикалык галактикада айырмасын үйрөнүү (5.2-сүрөт). тренингден кийин, ыктыярдуу салыштырмалуу жеңил Тест-туура-жашырындуулуктун жана белгилүү 15 галактикаларды 11 жашыруун анда ыктыярдуу жөнөкөй желе негизинде иштей аркылуу белгисиз галактикалар реалдуу көз караш баштамак өтүүгө тийиш эле (Figure 5.3). астрономдорго ыктыярдуу өтүү аз 10 мүнөт ичинде орун алып, бир гана тоскоолдуктар төмөн, жөнөкөй Тест өтүп зарыл болмок.

5.2-сүрөт: галактикалар эки негизги түрлөрүн мисалдары: чырмооктой жана эллиптикалык. Galaxy Zoo долбоору 900000ден сүрөттөрдү караганда категорияларына 100000ден ашуун ыктыярдуу колдонулат. Source: www.galaxyzoo.org.

5.2-сүрөт: галактикалар эки негизги түрлөрүн мисалдары: чырмооктой жана эллиптикалык. Galaxy Zoo долбоору 900000ден сүрөттөрдү караганда категорияларына 100000ден ашуун ыктыярдуу колдонулат. Source: www.galaxyzoo.org .

Figure 5.3: шайлоочулар бир сүрөттү жашыруун суралды Input экран. Source: www.galaxyzoo.org.

Figure 5.3: шайлоочулар бир сүрөттү жашыруун суралды Input экран. Source: www.galaxyzoo.org .

Долбоор кабар макалада чыккан, жана алты айдын ичинде долбоор 100000ден ашуун жаран окумуштууларды тартуу өсүп, алар ишти жана алдын ала астрономияны жардам бергиси келген жакты, анткени катышкан адамдарды кийин Galaxy Zoo алгачкы ыктыярчылар тартылган. Бирге, бул 100000 ыктыярдуу катышуучуларынын салыштырмалуу аз, негизги топтун келе жашырындуулуктун көпчүлүк добушу менен, 40 миллион жашырындуулуктун жалпы суммасы (Lintott et al. 2008) .

тажрыйбасы Жумушка студенттер изилдөө жардамчылары бар изилдөөчүлөр дароо маалымат сапаты жөнүндө ишенбей болушу мүмкүн. Бул шек акылга сыярлык болсо, Galaxy Zoo ыктыярдуу салымдары туура, тазалап debiased жана жалпыланган көрүнүп тургандай, алар жогорку сапаттуу жемиштерди алып келиши мүмкүн (Lintott et al. 2008) . Кесиптик сапаттуу маалыматтарды түзүү үчүн элди алуу үчүн маанилүү куулук кыскартуу болуп саналат; башкача айтканда, бир эле маселе ар кандай адамдар менен жасаган. Менен Galaxy зоопаркына, галактикаларга күнүнө 40 баскычтар бар эле; Ошондуктан ашыкча ушул даражага бере жана эч качан студенттер изилдөө жардамчылары менен изилдөөчүлөр ар бир жашыруун сапаты менен ого бетер кызыкдар болушубуз керек. ыктыярдуу окутууга жок эмне, алар кыскартуу менен түздү.

Да галактикада бир нече жашырындуулуктун, бирок, ыктыярдуу жашырындуулуктун топтомун бириктирип, бир пикирге классификация алдамчы өндүрүү. абдан окшош көйгөйлөр көп адам эсептеп долбоорлорду чыгат, анткени ал кыскача Galaxy Zoo изилдөөчүлөрдүн бир пикирге жиктелиши өндүрүү үчүн колдонулган үч кадамды карап чыгуу пайдалуу болот. Биринчиден, изилдөөчүлөр «тазаланган» жалган жиктелиши алып салуу боюнча маалыматтарды. Мисалы, алар бурмалоого аракет кылган болсо, кайра-кайра эмне болмок эле галактикадан нерсе жашыруун адам бүт баскычтар Кыйылган жыйынтыктарын болушкан. Бул жана башка ушул сыяктуу тазалоо бардык жашырындуулуктун 4% алынып салынды.

Экинчиден, тазалагандан кийин, изилдөөчүлөр жашырындуулуктун системалуу проблемалар жана аны четтетүү үчүн зарыл болгон. Ордуна түстүү бир ыктыярдуу галактика көрсөтүү баштапкы долбоор мисалы ичинде киргизилген катасын аныктоо изилдөөлөрдүн бир катар аркылуу түс-изилдөөчүлөр сыяктуу эллиптикалык галактикалар алыс спираль галактикаларды жашыруун системалуу бир көз-караш катары бир нече системалуу проблемалар, табылган (Bamford et al. 2009) . көп салым орточо системалуу жан жок кылбайт, себеби бул системалуу кайдыгер үчүн эске алуу абдан маанилүү болуп саналат; ал гана кокустук ката жок.

Акыр-аягы, debiasing кийин, изилдөөчүлөр бир пикирге системага өндүрүү үчүн жеке жиктелиши айкалыштырып ыкмасын керек. Ар бир галактика үчүн жиктелиши айкалыштырууга жөнөкөй жол менен таралган категорияны тандап алууга болот. Бирок, мындай мамиле ар бир ыктыярдуу бирдей салмакта бермек, жана изилдөөчүлөр айрым ыктыярдуу башкаларга караганда жашыруун жакшы эле го деп ойлодум. Ошондуктан, изилдөөчүлөр жазуусу мыкты Classifiers аныктоо жана аларга көбүрөөк берүүгө аракет кылган бир кыйла татаал каттамды салмак жол-жобосун иштеп чыккан.

Ошентип, үч кадам иш-тазалоо кийин, debiasing жана салмак-Galaxy Zoo изилдөө командасы консенсус morphological жашырындуулуктун топтому кирген 40 миллион ыктыярдуу жиктелиши динин кабыл алган. Бул Galaxy Zoo баскычтар Galaxy персонал шыктандырат жардам Schawinski менен жашыруун, анын ичинде мурдагы үч кесиптик астрономдору кичирээк масштабдагы аракет, салыштырмалуу кийин, бекем келишим бар эле. Ошентип, өз ыктыяры менен, чогуу алганда, изилдөөчүлөр жогорку сапаттагы жиктелиши камсыз кылуу жана шкала алдык дал алган эмес (Lintott et al. 2008) . Чынында, галактикалар мындай көп сандагы адам жиктелиши менен, Schawinski, Lintott жана башка галактикалар бир гана 80% күтүлүүдө үлгү-көк, буралган жана кызыл ellipticals жана көп сандаган документтерди ылайык эсептээрин көрсөтө алышмак жазылган жөнүндө бул ачылыш (Fortson et al. 2011) .

Бул маалымат берилген, биз азыр Galaxy Zoo бөлүүчү-колдонууга биригүү салышы төмөнкүдөй көпчүлүгү адам эсептеп долбоорлорду ишке ашыруу үчүн колдонулган бир эле салышы кантип көрө алат. Биринчиден, чоң маселе жетиден бөлүнөт. Мындай учурда, бир миллион галактикаларды жашыруун маселеси бир галактиканын, жашыруун бир миллион көйгөйлөрдү бөлүнөт. Кийинки бир операция ар бир чычала алып өз алдынча колдонулат. Бул учурда, ыктыярдуу батып же эллиптикалык, же ар бир галактиканын, жашыруун калмак. Акыр-аягы, жыйынтыгы бир пикирге натыйжа үчүн биригишет. бул учурда, кадам ар бир галактикада бир пикирге системага өндүрүү үчүн тазалоо, debiasing жана салмагы камтылган бириктиребиз. көп долбоорлор бул жалпы салышы колдонуп болсо да, кадамдардын бири каралып жаткан белгилүү бир маселе боюнча жекече керек. Мисалы, төмөндө айтылган адам эсептеп долбоорунда, бир рецепт кийин болот, ал эми кадамдар колдонууга жана комбайн таптакыр башкача болот.

Galaxy Zoo командасынын, бул биринчи долбоордун башталышы гана болчу. Абдан тез эле, алар да бир миллион галактикаларга чейин жакын жашыруун алдык да түшүндү, бул масштабдуу 10 миллиард галактика сүрөттөрдү өндүрүү мүмкүн акыркы санариптик асман изилдөөлөр менен иштеп чыгуу жетиштүү эмес (Kuminski et al. 2014) . 1 млн 10 көбөйтүүнү чече миллиард 10.000 Galaxy зоопаркында бир нерсе, болжол менен 10000 эсе көп катышуучуларды тартуу керек. Интернетте ыктыярчылардын саны көп болсо да, ал чексиз эмес. Ошондуктан, изилдөөчүлөр, алар да маалыматтардын көлөмүн өстүрүү чече турган болсо, жаңы, мындан да эскертүү, мамиле экенин түшүндүм зарыл болгон.

Ошондуктан, Manda Banerji-жумуш менен Nadira-Schawinski, Крис Lintott жана башка Galaxy Zoo команда-жылдан баштап окуу эсептөө галактикаларды жашыруун мүчөлөрү. Тактап айтканда, Galaxy зоопаркына, жараткан адам жиктелиши колдонуп Banerji et al. (2010) Айкелдин мүнөздөмөлөрүнүн негизинде галактикага адам категорияны алдын ала айтуу мүмкүн машина окуу моделин курду. Бул машина үйрөнүү модель жогорку тактык менен адам жиктелиши чыгарууга мүмкүн болсо, анда ал Galaxy Zoo изилдөөчүлөр менен галактикалар бир олуттуу чексиз сандагы жашыруун үчүн колдонулушу мүмкүн.

окшоштук караганда так эмес болушу мүмкүн, бирок Banerji жана кесиптештери «мамиленин негизги иш жүзүндө жалпы коомдук изилдөөлөрдө колдонулган ыкмалар эле окшош болот. Биринчиден, Banerji жана кесиптештери бул касиеттери болгон кыскача сандык белгилери бир катар ар бир сүрөттү айланттык. Мисалы, галактикалардын сүрөттөрү үчүн үч өзгөчөлүктөрү болушу ыктымал: бейнеси боюнча көк өлчөмү пиксел жаркырап дисперсиясы, жана ак пиксел үлүшү. туура белгилеринин тандоо маселенин маанилүү бөлүгү болуп саналат, ал көбүнчө предметтик-аймак экспертизаны талап кылат. Бул биринчи кадам, жалпы өзгөчөлүгү инженердик, бул сүрөттү сүрөттөгөн айкелдин, андан кийин үч катардан бир катар маалымат мат- натыйжасы деп атады. маалымат бакчалары берген жана каалаган өндүрүш (мисалы, сүрөт эллиптикалык галактикасында эле адам тарабынан жашыруун болобу), изилдөөчү статистикалык модель, мисалы параметрлерин эсептеп чыккан, негизделген адамдык көз караш алдын ала турган материалдык-регрессия сыяктуу сүрөттөлүш өзгөчөлүктөрү. Акыр-аягы, илимий жаңы галактикалар эсептелген жиктелиши өндүрүү үчүн бул статистикалык моделдин параметрлери (Figure 5.4) колдонот. коомдук аналогунун ойлонуп, бир миллион студенттер жөнүндө калкынын маалымат бар дейли, жана алар бул колледжде же жок аяктаган же жокпу, билбейм. Эгер бул маалыматтар кайсы бир логистикалык кетүү туура болот, анан сиз жаңы студенттери окуусун бүтүрүп жаткан жокпу, алдын ала натыйжасында модель параметрлерин тийиши мүмкүн. Машина окууга, бул билим көзөмөлү астында ыкма колдонуп анан деп аталат-маалыматтарды жаңы белгилей алат статистикалык моделин түзүү үчүн үлгү деп аташкан (Hastie, Tibshirani, and Friedman 2009) .

Figure 5.4: Изилдөө кантип сүрөттөлүшү Banerji калар. (2010-жылдын) галактика системага эмне үчүн машина окуу моделин окутуу Galaxy Zoo жиктелиши колдонулат. галактика сүрөттөр белгилеринин мат- кайрылышкан. Бул жөнөкөйлөтүлгөн Мисалы (бейнеси боюнча көк өлчөмү пиксел жаркырап дисперсиясы, жана ак пиксел үлүшү) үч жактары бар. Демек, сүрөттөрдүн бир затка, Galaxy Zoo этикеткалары машина окуу моделин даярдоо үчүн колдонулат. Акыр-аягы, Машина үйрөнүү калган галактикалар үчүн жиктелиши баалоо үчүн колдонулат. Мен экинчи муундагы адамдардын эсептөө долбоор ушундай деп аташат, анткени, ээ адамдар маселени чечүү эмес, алар адамдар маселени чечүү үчүн компүтерди окутуу үчүн колдонсо болот танышуусуна курууга бар. Бул компьютер-жардам ыкманын артыкчылыгы бул адамдын гана өлчөмдө колдонуу менен маалыматтарды олуттуу чексиз сандагы чечүүгө мүмкүндүк берет деп.

Figure 5.4: Изилдөө кантип сүрөттөлүшү Banerji et al. (2010) галактика системага эмне үчүн машина окуу моделин окутуу Galaxy Zoo жиктелиши колдонулат. галактика сүрөттөр белгилеринин мат- кайрылышкан. Бул жөнөкөйлөтүлгөн Мисалы (бейнеси боюнча көк өлчөмү пиксел жаркырап дисперсиясы, жана ак пиксел үлүшү) үч жактары бар. Демек, сүрөттөрдүн бир затка, Galaxy Zoo этикеткалары машина окуу моделин даярдоо үчүн колдонулат. Акыр-аягы, Машина үйрөнүү калган галактикалар үчүн жиктелиши баалоо үчүн колдонулат. Мен экинчи муундагы адамдардын эсептөө долбоор ушундай деп аташат, анткени, ээ адамдар маселени чечүү эмес, алар адамдар маселени чечүү үчүн компүтерди окутуу үчүн колдонсо болот танышуусуна курууга бар. Бул компьютер-жардам ыкманын артыкчылыгы бул адамдын гана өлчөмдө колдонуу менен маалыматтарды олуттуу чексиз сандагы чечүүгө мүмкүндүк берет деп.

Рубрикалар Banerji et al. (2010) Машина үйрөнүү модель дагы, мисалы, менин оюнчук мисалы үчүн караганда татаал болчу, ал «Vaucouleurs де окко катышына туура келет» сыяктуу өзгөчөлүктөрдү пайдалануу учун анын модель логистикалык регрессия болгон эмес, ал эми жасалма нейрон тармак болгон. анын өзгөчөлүктөрүн колдонуп, анын моделин, биримдиги Galaxy Zoo жиктелиши, ал ар бир өзгөчөлүгү, андан кийин галактикалардын жашыруун жөнүндө алдын ала төлөп турууга кадак боюнча тараза менен кыла алдым. Мисалы, анын анализи «Vaucouleurs окко катышы дал де» төмөн сүрөттөр спираль галактикалар болушу мүмкүн деп табылган. Бул тараза эске алганда, ал тактык менен галактикасынын адам категорияны алдын ала алган.

Иши Banerji et al. (2010) , мен экинчи муундагы адамдардын эсептөө системасы кандай атай тургандыгын эске Galaxy персонал болду. Бул экинчи муундагы системалар жөнүндө ойлонуп мыкты жолу бар адамдар бир көйгөйдү чечүү эмес, алар адамдар маселени чечүү үчүн компүтерди окутуу үчүн колдонсо болот танышуусуна куруу ээ. компүтерди окутуу үчүн зарыл болгон маалыматтардын суммасы аны түзүү үчүн бир адамдын массалык кызматташтыкты талап ушунчалык чоң болушу мүмкүн. Galaxy зоопаркында учурда колдонгон нейрон тармактары Banerji et al. (2010) ишенимдүү адамдын системага кайра алган моделин куруу үчүн адам белгиленген мисалдар абдан көп талап кылынган.

Бул компьютер-жардам ыкманын артыкчылыгы бул адамдын гана өлчөмдө колдонуу менен маалыматтарды олуттуу чексиз сандагы чечүүгө мүмкүндүк берет деп. Мисалы, бир миллион адам жашыруун галактикалар бир изилдөөчү бир миллиард, ал тургай, бир триллион галактикаларды жашыруун сактоого колдонулушу мүмкүн жарыш моделин курууга болот. галактика ири саны бар болсо, анда адам компьютер аралаш бул түрү чындыгында гана мүмкүн чечим болуп саналат. Бул чексиз өлчөмдүүлүк Бирок, бекер эмес. Машина окуу моделин куруу туура адам жиктелиши чыгарууга болот өзү оор көйгөй болуп саналат, бирок, бактыга жараша бул темага арналган буга чейин жакшы китептер бар (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo көп адам эсептеп долбоорлордун өнүгүшүн көрсөтөт. Биринчиден, илимий изилдөө жардамчыларды өзү же турган чакан команда менен долбоорду (мисалы, Schawinski баштапкы классификация аракети) аракеттери. бул ыкма жакшы жарып жок болсо, изилдөөчү көптөгөн адамдар жиктелиши салым адам эсептеп долбоорго түрткү бериши мүмкүн. Бирок, маалыматтар белгилүү бир көлөмдө, таза адам күч жетиштүү болбойт. Ошол учурда, изилдөөчүлөр адам баскычтар анда маалыматтын дээрлик чексиз өлчөмдө колдонулушу мүмкүн машина окуу моделин даярдоо үчүн колдонулган экинчи муундагы системасын куруу керек.