5.2.1 Galaxy Zoo

Galaxy Zoo миллион галактикаларды жашыруун көп эмес эксперттик ыктыярдуу аракеттерин бириктиришти.

Galaxy Zoo Nadira-Schawinski туш болгон көйгөй чыгып, өсүп, 2007-жылы Граждандык атындагы астрономия бир бүтүрүүчү студенти кыйла бир аз Жөнөкөйүрөөк, Schawinski галактикалар жана галактика жана спираль алардын микроорганизмдер-эллиптикалык же жашыруун болот кызыкдар болгон алардын түс-көк же кызыл. учурда, астрономдордун арасында кадимки акылмандык спираль галактикалардын, биздин Саманчынын жолундай болгон, түсү көк (жаштардын көрсөтүү менен) жана эллиптикалык галактикалар кызыл болгон (карылык көрсөтүү) болгон. Schawinski бул шарттуу акылмандык күмөн. Ал үлгү жалпы чындык болушу мүмкүн, ал эми иш жөнүндө бир нерсе бар, балким тышкары барбайт эле, бул туура эмес, бул адаттан тыш галактикалар-адамдар көп изилдөө менен күтүлгөн үлгүгө ал ала турган аркылуу шектүү галактикалар пайда болгон.

Ошентип, кандай Schawinski кадимки акылмандыкты талкалай үчүн зарыл morphologically жашыруун галактика ири коюлган; деп, бушайман же эллиптикалык деп табылат болчу галактикалар бар. Маселе, бирок, жашыруун колдонуудагы алгоритмдик ыкмалары азырынча жакшы жетиштүү илимий-изилдөө үчүн пайдаланылышы мүмкүн эмес болчу; башкача айтканда, жашыруун галактикалар болчу, ошол убакта, эсептөө машиналары үчүн кыйын болгон бир көйгөй. Ошон үчүн, эмне зарыл болгон адам -classified галактикалардын саны көп эле. Schawinski бүтүрүүчүсү окуучунун жигердүүлүк менен бул классификация маселени алган. жети 12 саат бою бир чуркоо жыйынында, ал 50000 галактикаларды жашыруун алган. 50,000 галактикалар бир сандай көрүнүшү мүмкүн, ал эми иш жүзүндө Sloan Digital Sky изилдёёдё сүрөткө келген дээрлик бир миллион галактиканын болгону 5% түзөт. Schawinski ал, бир кыйла арымдуу мамиле керек экенин түшүндүм.

Бактыга жараша, ал жашыруун галактикалардын милдети астрономия боюнча жогорку билим талап кылынбайт экен; сиз тез эле аны аткарууга бирөөгө үйрөтө алышат. галактикаларды жашыруун эсептөө машиналары үчүн кыйын болгон милдети болсо да, башкача айтканда, анын ичинде, аны адамдар үчүн абдан жеңил болгон. Ошондуктан, Граждандык, Schawinski жана башка астроном Chris Lintott бир да жолу пабда отурган ыктыярдуу галактика сүрөттөрүн жашыруун турган сайтты кыялданган. Бир нече ай өткөндөн кийин, Galaxy Zoo туулган.

Galaxy Zoo сайтынан, ыктыярдуу окутуу бир нече мүнөт дуушар болмок; Мисалы, бир чырмооктой жана эллиптикалык галактикаларга ортосундагы айырманы үйрөнүү (5.2-сүрөт). тренингден кийин, ар бир ыктыярдуу салыштырмалуу жеңил Тест-туура белгилүү-жашырындуулуктун менен 15 галактикаларды 11 жашыруун анда жөнөкөй желе негизиндеги иштей аркылуу белгисиз галактикаларды реалдуу категорияны баштамак өтүүгө тийиш эле (сүрөт 5.3). астрономдорго ыктыярдуу өтүү кеминде 10 мүнөт ичинде орун алып, бир гана тоскоолдуктар төмөн, жөнөкөй Пакистанга өтүп, талап кылынган эле.

5.2-сүрөт: галактикалардын эки негизги түрлөрүн, мисалы: чырмооктой жана эллиптикалык. Galaxy Zoo долбоордун жыйынтыктары 900000дей сүрөттөрдү категорияга үчүн 100000ден ашуун ыктыярдуу колдонулат. http://www.GalaxyZoo.org жана Слоун Digital Sky алынган уруксаты менен кайра.

5.2-сүрөт: галактикалардын эки негизги түрлөрүн, мисалы: чырмооктой жана эллиптикалык. Galaxy Zoo долбоордун жыйынтыктары 900000дей сүрөттөрдү категорияга үчүн 100000ден ашуун ыктыярдуу колдонулат. Уруксаты менен кайра http://www.GalaxyZoo.org жана Sloan Digital Sky изилдөө .

Figure 5.3: ыктыярдуу бир сүрөттү жашыруун суралды Киргизүү экран. Chris Lintott уруксаты менен кайра Sloan Digital Sky алынган бир сүрөттөлүш негизделген.

Figure 5.3: ыктыярдуу бир сүрөттү жашыруун суралды Киргизүү экран. Chris Lintott уруксаты менен кайра келген бир сүрөттөлүш негизинде Sloan Digital Sky изилдөө .

Долбоор кабар макалада чыккан, жана болжол менен алты айдын ичинде долбоор 100000ден ашуун жаран илимпоздорду тартууга өсүп, алар ишти жана алдын ала астрономияны жардам берүүнү каалаган ээ, анткени катышкан адамдарды кийин Galaxy Zoo алгачкы ыктыярчылар тартылган. Жалпысынан, бул 100000 ыктыярдуу катышуучуларынын салыштырмалуу аз, негизги топтун келе жашырындуулуктун көпчүлүк добушу менен, 40 миллион жашырындуулуктун жалпы суммасы (Lintott et al. 2008) .

тажрыйбасы Жумушка студенттер изилдөө жардамчылары бар окумуштуулар дароо маалыматтардын сапаты жөнүндө ишенбөөчүлүк болушу мүмкүн. Бул шек акылга сыярлык болсо, Galaxy Zoo ыктыярдуу салымдары туура, тазалап debiased жана жалпыланган кийин турат, алар жогорку сапаттуу жемиштерди алып келиши мүмкүн (Lintott et al. 2008) . Кесиптик-сапаттуу маалыматтарды түзүү үчүн элди алуу үчүн маанилүү куулук ар кандай адамдар тарабынан жүзөгө бир милдети болуп саналат кыскартуу болуп саналат. Жылы Galaxy зоопаркына, галактикаларга күнүнө 40 баскычтар бар эле; Дипломго чейинки изилдөө жардамчылары аркылуу кыскартуу ушул даражага бере алган эмес, ошондуктан окумуштуулар ар бир жашыруун сапатына көбүрөөк кызыкдар болушу керек. ыктыярдуу окутууга жок эмне, алар кыскартуу менен түздү.

Ал тургай галактикада бир нече жашырындуулуктун менен, бирок бир пикирге системага өндүрүү үчүн ыктыярдуу жашырындуулуктун топтомун айкалыштырган татаал болду. абдан окшош көйгөйлөр көп адам эсептөө долбоорлор пайда болгондуктан, ал кыскача Galaxy Zoo изилдөөчүлөрдүн консенсус жиктелиши өндүрүү үчүн колдонулат, үч тепкич менен карап чыгуу пайдалуу болот. Биринчиден, изилдөөчүлөр "тазалап" жалган жиктелиши алып салуу боюнча маалыматтарды. Мисалы, алар бурмалоого аракет кылган болсо, бир нече жолу, эмне болмок эле галактикадан нерсе жашыруун адамдар бүт баскычтар жарактан жыйынтыктарын болушкан. Бул жана башка ушул сыяктуу тазалоо Бардык жашырындуулуктун 4% алынып салынды.

Экинчиден, тазалагандан кийин, изилдөөчүлөр жашырындуулуктун системалуу проблемалар арылышы керек. Ордуна түстүү бир баштапкы долбоор мисалы кыналган катасын аныктоо изилдөө катар, кээ бир ыктыярдуу көрсөтүү галактика аркылуу түс-изилдөөчүлөр мындай эллиптикалык галактикалар сыяктуу алыскы спираль галактикаларды жашыруун системалуу бир көз-караш катары бир нече системалуу проблемалар, табылган (Bamford et al. 2009) . кыскартуу жазуусу системалуу жан жок кылбайт, себеби бул системалуу кызыкчылыктардан үчүн жөнгө салуу өтө маанилүү болуп саналат; гана жардам кокустук ката жок.

Акыр-аягы, debiasing кийин, изилдөөчүлөр бир пикирге системага өндүрүү үчүн жеке жиктелиши айкалыштыруу ыкма керек. Ар бир галактика үчүн жиктелиши айкалыштырууга жөнөкөй жолу көбүнчө категорияны тандап болмок. Бирок, мындай мамиле ар бир ыктыярдуу бирдей салмакта болмок, жана изилдөөчүлөр айрым ыктыярдуу башкаларга караганда жашыруун жакшы эле го деп ойлодум. Ошондуктан, изилдөөчүлөр мыкты Classifiers аныктоо жана аларга көбүрөөк берүүгө аракет кылган бир кыйла татаал каттамды салмак жол-жобосун иштеп чыккан.

Ошентип, үч кадам-тазалоо кийин, debiasing жана салмак-Galaxy Zoo изилдөө командасы консенсус түркүмдөрүнүн жашырындуулуктун жыйындысы ичине 40 млн ыктыярдуу жиктелиши динин кабыл алган. Бул Galaxy Zoo баскычтар Galaxy персонал шыктандырат жардам Schawinski тарабынан жашыруун, анын ичинде мурдагы үч кесиптик астрономдордун кичирээк масштабдагы аракет менен салыштырганда кеткенде, бекем келишим бар эле. Ошентип, өз ыктыяры менен, чогуу алганда, жогорку сапаттагы жиктелиши жана изилдөөчүлөр бир масштабда бере алышкан дал алган эмес (Lintott et al. 2008) . Чындыгында, галактикалар мындай көп сандагы адам жиктелиши менен, Schawinski, Lintott жана башка галактикалар бир гана 80% күтүлүүдө үлгү-көк, буралган кызыл ellipticals жана көп сандаган документтерди жолун көрсөтө алдык жазылган жөнүндө бул ачылыш (Fortson et al. 2011) .

Бул маалымат эске алып, сиз азыр Galaxy Zoo бөлүүчү-колдонуу-комбайн салышы төмөнкүдөй кантип көрө алат, көпчүлүк адамдардын эсептөө долбоорлор үчүн колдонулат да салышы. Биринчиден, бир чоң көйгөй жетиден бөлүнөт. Бул учурда, бир миллион галактикаларды жашыруун көйгөйү бир галактиканын, жашыруун бир миллион көйгөйлөр бөлүнгөн. Андан кийин, ар бир операция чычала алып өз алдынча колдонулат. Бул учурда, ыктыярдуу бушайман же эллиптикалык же ар бир галактиканын, жашыруун. Акыр-аягы, жыйынтыгы бир пикирге натыйжа үчүн биригишет. Бул учурда, ар бир кадам галактикада бир пикирге системага өндүрүү үчүн тазалоо, debiasing жана салмагы киргизилген айкалыштыруу. көп долбоорлор бул жалпы салышы колдонуп болсо да, ар бир кадам, белгилүү бир маселе чечиле турган болуш керек. Мисалы, төмөндө айтылган адам эсептөө долбоорунда, бир рецепт туура келет, ал эми кадамдар колдонууга жана комбайн таптакыр башкача болот.

Galaxy Zoo командасы үчүн бул биринчи долбоор башталышы гана болчу. Абдан тез эле, алар да бир миллион галактикаларга чейин жакын жашыруун алдык да түшүндү, бул масштабдуу 10 миллиард галактика сүрөттөрдү өндүрө алышат башка санариптик асман изилдөөлөр менен иштеп чыгуу жетиштүү эмес (Kuminski et al. 2014) . 1 млн 10 көбөйтүүнү караштырууга миллиард 10.000 Galaxy зоопаркында бир себеби болжол менен 10000 эсе көп катышуучуларды тартуу керек. Интернеттен ыктыярчылардын саны көп болсо да, ал чексиз эмес. Ошондуктан, изилдөөчүлөр, алар маалыматтарды уламдан-улам көбөйүп бараткан суммаларды чечүү үчүн бир жаңы, мындан да жокбуз, мамиле зарыл бара турган болсо, түшүндүм.

Ошондуктан, Manda Banerji-сапары менен Schawinski, Lintott жана Galaxy Zoo команданын башка мүчөлөрү (2010) галактикаларды жашыруун техниканы окутуу -started. Galaxy зоопаркында жараткан адам жиктелиши менен, тагыраак айтканда, Banerji айкелдин мүнөздөмөлөрүнүн негизинде галактикасынын адам категорияны алдын ала турган Машина үйрөнүү моделин курду. Бул модель жогорку тактык менен адам жиктелиши кайра ала турган болсо, анда ал Galaxy Zoo изилдөөчүлөр менен галактикалар бир олуттуу чексиз сандагы жашыруун үчүн колдонулушу мүмкүн.

окшоштук караганда так эмес болушу мүмкүн, бирок Banerji жана кесиптештери "мамиленин негизги иш жүзүндө жалпы коомдук изилдөөлөрдө колдонулган ыкмалар эле окшош болот. Биринчиден, Banerji жана кесиптештери анын өзгөчөлүктөрүн кыскача сандык белгилеринин жыйындысы ар бир сүрөттөлүш айландырылат. бейнеси боюнча көк өлчөмү пиксел жаркырап дисперсиясы, жана ак пиксел үлүшү: Мисалы, галактикаларды Сүрөттөрдү, үч өзгөчөлүктөрү болушу ыктымал. туура белгилеринин тандоо маселенин маанилүү бөлүгү болуп саналат, ал көбүнчө аты-аймак экспертизаны талап кылат. Бул биринчи кадам, жалпы өзгөчөлүгү инженердик, бул айкелди сүрөттөгөндө бейнеси, андан кийин үч катардан бир катар маалымат булагына натыйжасы деп атады. маалымат булагы берген жана каалаган өндүрүш (мисалы, сүрөт эллиптикалык галактикада бир адам тарабынан жашыруун болобу), изилдөөчү статистикалык же машиналык-окуу модель үчүн үлгү, логистикалык регрессия-белгилеринин негизинде адам категорияны алдын ала жаратат сүрөттөлүш. Акыр-аягы, илимий жаңы галактикалар (көрсөткүч 5,4) эсептелген жиктелиши өндүрүү үчүн бул статистикалык моделдин параметрлери колдонот. Машина окуу-жылы, андан кийин жаңы белгилей алат моделин түзүү үчүн ушул ыкма колдонуп белгиленген мисалдар маалыматтарды-жатат көзөмөлдөгү окуу деп аталат.

Figure 5.4: Изилдөө кантип сүрөттөлүшү Banerji ж.б.. (2010-жылдын) галактика категорияны эмне үчүн Машина үйрөнүү моделин үйрөтүүгө Galaxy Zoo жиктелиши колдонулат. галактика Images өзгөчөлүктөрдүн матриксиндеги динин кабыл алынган. Бул жөнөкөйлөтүлгөн мисалда, (бейнеси боюнча көк өлчөмү пиксел жаркырап дисперсиясы жана nonwhite пиксел үлүшү) үч өзгөчөлүктөрү бар. Андан кийин, бир катар сүрөттөрдү затка, Galaxy Zoo бренд машина окуу моделин даярдоо үчүн колдонулат. Акыр-аягы, Машина үйрөнүү калган галактикалар үчүн жиктелиши баалоо үчүн колдонулат. ээ адамдар маселени чечүү эмес, аны адамдар маселени чечүү үчүн компүтерди окутуу үчүн колдонсо болот, бир танышуусуна кура элек, анткени мен бул компьютер жардамы менен адам эсептөө долбоорун деп аташат. Бул компьютер жардамы менен адам эсептөө системасынын артыкчылыгы бул адамдын гана өлчөмдө колдонуу менен маалыматтарды олуттуу чексиз сандагы чечүүгө жардам берет деп. Слоун Digital Sky алынган уруксаты менен кайра галактика Images.

Figure 5.4: Изилдөө кантип сүрөттөлүшү Banerji et al. (2010) галактика категорияны эмне үчүн Машина үйрөнүү моделин үйрөтүүгө Galaxy Zoo жиктелиши колдонулат. галактика Images өзгөчөлүктөрдүн матриксиндеги динин кабыл алынган. Бул жөнөкөйлөтүлгөн мисалда, (бейнеси боюнча көк өлчөмү пиксел жаркырап дисперсиясы жана nonwhite пиксел үлүшү) үч өзгөчөлүктөрү бар. Андан кийин, бир катар сүрөттөрдү затка, Galaxy Zoo бренд машина окуу моделин даярдоо үчүн колдонулат. Акыр-аягы, Машина үйрөнүү калган галактикалар үчүн жиктелиши баалоо үчүн колдонулат. ээ адамдар маселени чечүү эмес, аны адамдар маселени чечүү үчүн компүтерди окутуу үчүн колдонсо болот, бир танышуусуна кура элек, анткени мен бул компьютер жардамы менен адам эсептөө долбоорун деп аташат. Бул компьютер жардамы менен адам эсептөө системасынын артыкчылыгы бул адамдын гана өлчөмдө колдонуу менен маалыматтарды олуттуу чексиз сандагы чечүүгө жардам берет деп. Уруксаты менен кайра галактика Images Sloan Digital Sky изилдөө .

Banerji жана кесиптештери "Машина үйрөнүү моделинин өзгөчөлүктөрү көп, мисалы, менин оюнчук үлгү-жылга караганда татаал болуп, ал" Vaucouleurs де октук катышын ылайык "сыяктуу өзгөчөлүктөрдү пайдалануу учун анын модель логистикалык регрессия эмес, ал жасалма нейрон тармак болчу. анын мүмкүнчүлүктөрүн колдонуп, анын моделин, биримдиги Galaxy Zoo жиктелиши, ал ар бир өзгөчөлүгү, андан кийин галактикалардын жашыруун тууралуу алдын ала мындай кадак боюнча тараза менен кыла алдым. Мисалы, анын анализи "Vaucouleurs октук катыш дал де" төмөн сүрөттөр спираль галактикалардын болушу мүмкүн деп табылган. Бул тараза эске алып, ал тактык менен галактикасынын адам категорияны алдын ала алган жок.

Banerji жана кесиптештеримдин иши бир компьютер жардамы менен адам эсептөө системасы кандай атай тургандыгын эске Galaxy персонал бурулуп. бул гибрид системасы жөнүндө ойлонууга мыкты жолу бар адамдар бир көйгөйдү чечүү эмес, алар адамдар маселени чечүү үчүн компүтерди окутуу үчүн колдонсо болот, бир танышуусуна куруу ээ. Кээде, маселени чечүү үчүн компүтерди окутуу мисалдар көп талап кылышы мүмкүн, ошондой эле мисал жетиштүү санын өндүрүү үчүн бир гана жол бар массалык кызматташуу болуп саналат. Бул компьютер-жардам ыкманын артыкчылыгы бул адамдын гана өлчөмдө колдонуу менен маалыматтарды олуттуу чексиз сандагы чечүүгө жардам берет деп. Мисалы, бир миллион адам жашыруун галактикалар бир изилдөөчү бир миллиард, ал тургай, бир триллион галактикаларды түрлөрүнүн колдонулушу мүмкүн жарыш моделин курууга болот. галактика ири саны бар болсо, анда адам компьютер аралаш бул түрү чындыгында гана мүмкүн чечим болуп саналат. Бул чексиз башкаруучулугун Бирок, бекер эмес. Бир машина үйрөнүү моделин куруу туура адам жиктелиши көбөйө алат өзү оор көйгөй болуп саналат, бирок, бактыга жараша, бул темага арналган буга чейин жакшы китептер бар (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo көп адам эсептөө долбоорлор өнүгүп кандай жакшы мисалы болуп саналат. Биринчиден, илимий-изилдөө жардамчыларды өзү же чакан тобу менен долбоорду (мисалы, Schawinski баштапкы классификация аракети) аракет кылды. Бул ыкма, ошондой эле масштабдуу жок болсо, анда изилдөөчү көптөгөн катышуучулар менен бир адамдын эсептөө долбоорго түрткү берет. Бирок, маалыматтар белгилүү бир көлөмдө, таза адам күч жетиштүү болбойт. Ошол учурда, изилдөөчүлөр адамдын баскычтар анда маалыматтын дээрлик чексиз өлчөмдө колдонулушу мүмкүн болгон Машина үйрөнүү моделин даярдоо үчүн колдонулат турган бир компьютер жардамы менен адам эсептөө системасын куруу керек.