5.2.1 Galaxy Zoo

Galaxy зоо сая галактик ангилах бус шинжээч олон сайн дурын ажлыг хослуулсан.

тэдний морфологи, зууван, эсвэл спираль ба Galaxy зоо, Schawinski галактикийн сонирхож байсан 2007 оны нэлээн хялбарчлах Кевин Schawinski, Оксфордын их сургуулийн одон орон онд төгссөн оюутан тулгарч буй асуудал гарч өсч, галактикууд ангилсан болно тэдний өнгө нь цэнхэр болон улаан байна. Тэр үед, одон орон судлаачдын дунд уламжлалт ухаан спираль галактик манай Сүүн зам шиг өнгөтэй (зааж залуучуудын) цэнхэр байсан гэж байсан бөгөөд энэ зууван галактик (хуучин нас зааж) өнгө нь улаан байсан юм. Schawinski энэ нь уламжлалт мэргэн ухааныг эргэлзэж байлаа. Тэр энэ хэв маяг нь ерөнхийдөө үнэн байж болох юм, харин тэнд байж үл хамаарах нь нилээд тоо байсан ба гэж сэжиглэж эдгээр ер бусын галактик-зохих биш үү хүмүүс маш их судалж, хэв маяг нь тэр бол үйл явцын талаар ямар нэг юм мэдэж болох төлөвтэй дамжуулан галактикууд бий болсон юм.

Тиймээс ямар Schawinski уламжлалт мэргэн ухааныг унах тулд шаардлагатай морфологийн нууц галактикийн том багц юм; гэж спираль буюу зууван ч гэж ангилдаг байсан галактик юм. асуудал хэдий ч, ангилал одоогийн алгоритмын аргууд хангалттай ч сайн шинжлэх ухааны судалгаанд ашиглаж болох биш байсан юм, Өөрөөр хэлбэл, ангилах галактик, тэр үед, компьютер нь хэцүү байсан нь асуудал байсан юм. Тиймээс хэрэгтэй юу хүний ​​ангилалд галактикийн том тоо юм. Schawinski төгссөн оюутан урам зориг энэ ангилал нь асуудлыг хийсэн. Долоон 12 цагийн хоногийн марафон хуралдаан онд тэрээр 50,000 галактик ангилах боломжтой болсон юм. 50,000 галактикууд маш их мэт сонсогдож болох ч, энэ нь Слоан Digital Sky судалгааны гэрэл зурагчин байсан бараг нэг сая галактикийн зөвхөн 5% орчим нь үнэндээ юм. Schawinski тэр нь илүү өргөтгөх арга хэрэгтэй гэдгийг ойлгосон.

Аз болоход энэ нь ангилах галактикуудын зорилго одон дэвшилтэт сургалт шаардлагатай биш гэдгийг болж, та нэлээн хурдан үүнийг хийх хэн нэгнийг зааж чадна. Өөрөөр хэлбэл галактик ангилах компьютеруудын хувьд хэцүү байсан ажил юм ч, энэ нь хүний ​​хувьд маш хялбар байсан юм. Тиймээс Оксфорд, Schawinski, залуу одон орон судлаач Крис Lintott-д паб-д сууж байхдаа сайн дурынхан галактикуудын зургийг ангилж болно вэб хуудас руу зүүдэлжээ. Хэдэн сарын дараа, Galaxy зоо төржээ.

Galaxy зоо вэб сайт дээр сайн дурын сургалт нь хэдэн минут хамрагдах болно; Жишээ нь, эргүүлэг болон эллипс галактик (Зураг 5.2) ялгааг сурах. Энэ сургалтын дараа сайн дурынхан мэдэгдэж байгаа нь харьцангуй хялбар асуулт хариултын-зөв ангилах 11 15 галактик өгөх ёстой байсан ангилалд-, дараа нь сайн дурын энгийн вэб-д суурилсан интерфэйс (Зураг 5.3) дамжуулан үл мэдэгдэх галактик бодит ангиллыг эхлэх юм. астрономич нь сайн дурын шилжих нь 10-аас доошгүй минут хийж байсан ба зөвхөн халхалттай гүйлтийн төрөлд, энгийн таавар хамгийн бага өнгөрөх шаардлагатай.

Зураг 5.2: эргүүлэг болон зууван: Улсын галактик хоёр үндсэн төрлийн жишээ. Galaxy зоо төсөл нь 900,000 зураг илүү ангилалд 100,000 гаруй сайн дурын ажилтан байсан. Эх сурвалж: www.galaxyzoo.org.

Зураг 5.2: эргүүлэг болон зууван: Улсын галактик хоёр үндсэн төрлийн жишээ. Galaxy зоо төсөл нь 900,000 зураг илүү ангилалд 100,000 гаруй сайн дурын ажилтан байсан. Эх сурвалж: www.galaxyzoo.org .

Зураг 5.3: Оролтын дэлгэц нь сонгогчид нь нэг дүрсийг ангилах асуусан юм. Эх сурвалж: www.galaxyzoo.org.

Зураг 5.3: Оролтын дэлгэц нь сонгогчид нь нэг дүрсийг ангилах асуусан юм. Эх сурвалж: www.galaxyzoo.org .

төсөл нь мэдээ зүйлд боломжуудтай дараа болж, зургаан сарын дотор төсөл нь 100,000 гаруй иргэн эрдэмтэд, тэдний ажлыг дуртай, тэд урьдчилан одон туслахыг хүссэн учраас оролцсон хүмүүсийг оролцуулах өссөн Galaxy зоо анхны сайн дурын татсан. Эдгээр 100,000 сайн дурынхан оролцсон нь харьцангуй жижиг, үндсэн бүлгийн ирж ангилалд ихэнх нь, 40 гаруй сая ангилалд нийт хувь нэмрээ оруулсан (Lintott et al. 2008) .

туршлага ажилд бакалаврын эрдэм шинжилгээний туслах байх судлаачид нэн даруй мэдээллийн чанартай эргэлзэж байж болох юм. Энэ эргэлзэх үндэслэлтэй байдаг боловч, Galaxy зоо сайн дурын хандив зөв цэвэрлэж байгаа үед debiased ба нэгтгэж, тэд өндөр чанартай үр дүн гаргаж чаддаг гэдгийг харуулж байна (Lintott et al. 2008) . Мэргэжлийн чанарын мэдээллийг бий болгох олныг олж авах нь чухал трик цомхотгол юм; Өөрөөр хэлбэл, ижил зорилго нь олон янзын хүмүүсийн гүйцэтгэсэн учир. Galaxy амьтны хүрээлэнд онд галактикийн нэг 40 орчим ангилал байв; бакалаврын эрдэм шинжилгээний туслах ашиглан халагдсан энэ түвшинг төлж тул хэзээ ч юм судлаачид бие даасан ангилал тус бүрийн чанар нь илүү анхаардаг байх хэрэгтэй. сайн дурынхан сургалт дутмаг гэж юу вэ, тэд халагдсан нь хүртэл хийсэн байна.

Тэр ч байтугай галактикийн нэг хэд хэдэн ангилалд нь хэдий нь зөвшилцөлд ангилал төвөгтэй байдаг үйлдвэрлэх сайн дурын ангиллын багц хослуулах. маш төстэй асуудал хамгийн их хүн тооцоолох төслүүдэд гарч тул товчхон Galaxy зоо судлаачид өөрсдийн зөвшилцөлд ангиллыг бий ашиглаж гурван алхам хянах нь тустай юм. Нэгдүгээрт, судлаачид эргэлзээтэй ангилал арилгах замаар "цэвэрлэсэн" өгөгдөл. Жишээ нь, удаа дараа тэд ажиллахын тулд оролдож байсан бол юу болох ижил галактик-ямар нэгэн зүйл ангилсан ард түмэн үр дүнд байсан тэдний бүх ангилал устгана. Энэ болон бусад ижил төстэй цэвэрлэх бүх ангиллын 4% -ийг арилгасан.

Хоёрдугаарт, цэвэрлэх дараа судлаачид ангилал дахь системтэй гажуудлыг арилгахын тулд хэрэгтэй. Анхны төслийн жишээ дотор суулгагдсан хэвийсэн илрүүлэх судалгаа, зарим нь сайн дурын оронд хар, цагаан нь галактик харагдаж байгаа цуврал дамжуулан өнгө, судлаачид зэрэг зууван галактик гэх мэт хол спираль галактик ангилах системтэй хэвийсэн зэрэг хэд хэдэн системтэй алдааг илрүүлсэн (Bamford et al. 2009) . олон хувь нэмэр дунджаар системтэй алдааг арилгах биш юм, учир нь эдгээр системтэй хэвийх зориулж тохируулах нь маш чухал юм; энэ нь зөвхөн санамсаргүй алдааг устгана.

Эцэст нь хэлэхэд, debiasing дараа судлаачид зөвшилцөлд ангиллыг гаргаж бие даасан ангилалыг хослуулах аргыг хэрэгтэй. галактикийн бүрийн ангилал нэгтгэх хамгийн энгийн арга бол хамгийн түгээмэл ангиллыг сонгох явдал юм. Гэсэн хэдий ч энэ арга нь сайн дурын тэнцүү жин тус бүрт өгч байсан, судлаачид зарим нэг сайн дурынхан бусдаас илүү ангилалд илүү сайн байсан гэж сэжиглэсэн. Тиймээс судлаачид нь автоматаар хамгийн шилдэг ангилагч илрүүлж, тэдэнд илүү их ач холбогдол өгөх оролдлого нь илүү цогц давтагдах жингийн журмыг боловсруулсан байна.

Тиймээс гурван алхам үйл явц, цэвэрлэх, debiasing болон жингийн-Galaxy зоо судалгааны багийн дараа зөвшилцөлд морфологи ангилалд нь багц болгон 40 сая сайн дурын ангиллыг хөрвүүлсэн юм. Эдгээр Galaxy зоо ангилал Galaxy Zoo урам зориг тусалсан Schawinski өөр ангиллын гэх мэт мэргэжлийн одон гурван өмнөх жижиг хэмжээний оролдлого, харьцуулахад байсан үед хүчтэй гэрээ байв. Тиймээс, сайн дурынхан, дүүргэгч онд өндөр чанартай ангилал хангах боломжтой байсан бөгөөд судлаачид таарахгүй чадахгүй байсан нь масштабтай (Lintott et al. 2008) . Үнэн хэрэгтээ, галактикийн ийм тооны хүний ​​ангилал байснаар, Schawinski, Lintott болон бусад галактикийн зөвхөн 80% орчим нь тухай бичсэн байгаа гэдэгт найдаж хэв маяг нь цэнхэр спираль, улаан ellipticals ба олон тооны баримт бичиг дагах гэдгийг харуулж чадсан энэ нээлт нь (Fortson et al. 2011) .

Энэ суурь учраас бид одоо Galaxy зоо хэрхэн дараах харж болно хагалах хэрэглэнэ-нэгтгэх жор, ихэнх хүний ​​тооцоолон бодох төслүүдийн ашиглаж байгаа ижил жор. Нэгдүгээрт, том асуудал хуваагддаг байна. Энэ тохиолдолд, нэг сая галактик ангилах асуудал нэг галактик ангилах нь сая асуудал болгон хуваасан байна. Дараа нь, үйл ажиллагаа нь бие даан зүсэм бүрийг хэрэглэж байна. Энэ тохиолдолд, сайн дурын галактик бүрийн эргүүлэг буюу эллипс хэлбэрээр ангилж болно. Эцэст нь хэлэхэд, үр дүн нь зөвшилцөлд үр дүнг гаргах нэгтгэж байна. Энэ тохиолдолд, нэгтгэх алхам цэвэрлэх, debiasing болон галактикийн бүрийн хувьд зөвшилцөлд ангиллыг гаргаж жингийн багтсан байна. Хамгийн төсөл энэ ерөнхий жор ашиглаж ч, алхам бүрт тодорхой асуудал шийдвэрлэх байгаа нь өөрчилж хэрэгтэй. Жишээ нь, доор тайлбарласан хүний ​​тооцоолох төсөлд ижил жор дагаж болно, харин хэрэглэж, нэгтгэх алхам бүр өөр өөр байх болно.

Galaxy зоо багийн хувьд энэ нь анхны төсөл бол зөвхөн эхлэл байсан юм. Маш хурдан тэд ч гэсэн тэд нэг сая галактик ойр ангилах боломжтой байсан гэдгийг ойлгосон, энэ хэмжээний шинэ дижитал тэнгэр судалгаа, 10 орчим тэрбум галактикийн зургийг гаргаж болох хамтран ажиллах хангалттай биш байна (Kuminski et al. 2014) . 1 сая 10-аас нэмэгдсэн зохицуулах тэрбум нь 10,000-Galaxy амьтны хүрээлэнгийн хүчин зүйл нь ойролцоогоор 10000 дахин их оролцогчдыг сонгон шалгаруулж авах хэрэгтэй болно. Интернэт дэх сайн дурынхны тоо их байдаг ч энэ нь хязгааргүй биш юм. Тиймээс судлаачид ойлгосон гэж тэд мэдээлэл, шинэ, илүү өргөтгөх, арга барил шаардлагатай байсан өсөн нэмэгдэх хэмжээгээр зохицуулах гэж байгаа бол.

Тиймээс Мандал Banerji-ажлын галактик ангилах Кевин Schawinski, Крис Lintott болон Galaxy зоо багийн эхлэн заах компьютер нь бусад гишүүдтэй. Тодруулбал, Galaxy амьтны хүрээлэнд, бий болгосон хүний ​​ангиллыг ашиглан Banerji et al. (2010) дүрс шинж чанар дээр үндэслэн галактик хүний ​​ангиллыг урьдчилан чадах машин сургалтын загвар барьсан. Энэ машин сургалтын загвар нь өндөр нарийвчлал бүхий хүний ​​ангиллыг төрүүлэх юм бол, энэ нь галактикийн нь үндсэндээ хязгааргүй тооны ангилах Galaxy зоо судлаачид ашиглаж болох юм.

Banerji болон түүний хамтрагчид "хандлагын цөм гэж төстэй анх харахад тодорхой байж болох хэдий ч, ихэвчлэн нийгмийн судалгаанд ашигласан техник нэлээн төстэй үнэндээ юм. Нэгдүгээрт, Banerji болон хамт олон энэ шинж чанар юм дүгнэх тоон онцлог нь багц болгон дүрсийг тус бүр хөрвүүлсэн. дүр төрхөөр цэнхэр хэмжээ, пиксел гялбаанд вариац, төрийн бус цагаан цэгээр эзлэх хувь: Жишээ нь, галактикуудын зураг тэнд гурван онцлог байж болох юм. зөв онцлог сонгон шалгаруулах асуудлын нэг чухал хэсэг юм, энэ нь ерөнхийдөө асуудал бүсийн туршлага шаарддаг. Энэ нь эхний алхам, нийтлэг шинж чанар инженерийн гэж нэрлэдэг, дүрс бүр нэг эгнээнд, дараа нь гурван багана гэж дүр төрхийг дүрсэлсэн нь мэдээлэл матриц нь үр дүн байдаг. нь логик регрессийн суурилсан хүний ​​ангилал таамаглаж байна гэх мэт мэдээлэл матриц, хүссэн үр дүнг (жишээ нь, дүрс нь зууван галактик гэх мэт хүний ​​ангилсан байсан эсэх), судлаач статистик загвар, жишээ нь параметрүүдийг тооцоо, ямар нэгэн зүйл өгсөн Зургийн онцлог байна. Эцэст нь хэлэхэд, судлаач шинэ галактик нь тооцоолсон ангилал (Зураг 5.4) үйлдвэрлэх энэ статистик загварт үзүүлэлтүүдийг ашигладаг. Нийгмийн аналог бодож тулд, та нэг сая оюутнуудын талаар хүн ам зүйн мэдээлэл байсан гэж төсөөлж, та тэд коллеж, үгүй ​​төгссөн эсэхийг мэднэ. Та энэ мэдээллийг нь логик регрессийн багтах болно, дараа нь та шинэ оюутнууд коллеж төгссөн гэж байгаа эсэхийг таамаглахад үр дүнд загвар үзүүлэлтүүдийг ашиглаж болох юм. Сурах хяналт машин сурах, энэ арга ашиглахаас хаяглагдсан жишээг дараа нь шинэ хаяглаж болох статистик загварыг бий болгох мэдээллийг-гэж нэрлэдэг (Hastie, Tibshirani, and Friedman 2009) .

Зураг 5.4: хэрхэн Banerji нар нь хялбаршуулсан тодорхойлолт. (2010) галактик ангилалыг хийх машин сургалтын загвар сургах Galaxy зоо ангиллыг ашигласан. галактикийн Images онцлог нь матриц нь хөрвүүлсэн байна. Энэ хялбаршуулсан жишээн дээр гурван онцлог (дүр төрхөөр цэнхэр хэмжээ, пиксел гялбаанд вариац, төрийн бус цагаан пиксел хувь) байна. Дараа нь, зураг нь дэд олонлог нь Galaxy зоо хаяг нь машин сургалтын загвар сургах ашиглаж байна. Эцэст нь хэлэхэд, машин сургалтын үлдсэн галактик ангилал, тооцох ашиглаж байна. Би төслийн энэ төрлийн гэж нэрлэдэг нь хоёр дахь үеийн хүний ​​тооцооллын төсөл, учир нь бүхий хүмүүс нь асуудлыг шийдэх биш, харин тэд хүн төрөлхтөн асуудлыг шийдвэрлэхийн тулд компьютер сургах ашиглаж болох мэдээллийн санг бий болгох юм. Энэ компьютерийн тусламжтайгаар аргын давуу тал нь та нар хүний ​​хүчин чармайлт зөвхөн хязгаарлагдмал хэмжээний ашиглан өгөгдөл нь үндсэндээ хязгааргүй хэмжээгээр зохицуулах боломжийг олгодог юм.

Зураг 5.4: хэрхэн хялбарчилсан тайлбар Banerji et al. (2010) галактик ангилалыг хийх машин сургалтын загвар сургах Galaxy зоо ангиллыг ашигласан. галактикийн Images онцлог нь матриц нь хөрвүүлсэн байна. Энэ хялбаршуулсан жишээн дээр гурван онцлог (дүр төрхөөр цэнхэр хэмжээ, пиксел гялбаанд вариац, төрийн бус цагаан пиксел хувь) байна. Дараа нь, зураг нь дэд олонлог нь Galaxy зоо хаяг нь машин сургалтын загвар сургах ашиглаж байна. Эцэст нь хэлэхэд, машин сургалтын үлдсэн галактик ангилал, тооцох ашиглаж байна. Би төслийн энэ төрлийн гэж нэрлэдэг нь хоёр дахь үеийн хүний ​​тооцооллын төсөл, учир нь бүхий хүмүүс нь асуудлыг шийдэх биш, харин тэд хүн төрөлхтөн асуудлыг шийдвэрлэхийн тулд компьютер сургах ашиглаж болох мэдээллийн санг бий болгох юм. Энэ компьютерийн тусламжтайгаар аргын давуу тал нь та нар хүний ​​хүчин чармайлт зөвхөн хязгаарлагдмал хэмжээний ашиглан өгөгдөл нь үндсэндээ хязгааргүй хэмжээгээр зохицуулах боломжийг олгодог юм.

-Д онцлог Banerji et al. (2010) машин сургалтын загвар нь жишээ нь, жишээлбэл, тэр боломжуудыг шиг ашиглаж миний тоглоом-д зааснаас илүү нарийн төвөгтэй байсан "де Vaucouleurs тэнхлэгийн харьцаа багтах" -гэж тэр загвар нь логик регрессийн биш байсан, энэ нь хиймэл мэдрэлийн сүлжээ юм. түүний шинж чанар, түүний загвар болон зөвшилцөл Galaxy зоо ангиллыг ашиглах, тэр онцлог бүр дээр жинг үүсгэж, дараа нь галактикийн ангиллын тухай таамаглал хийх нь эдгээр жинг ашиглах боломжтой болсон юм. Жишээ нь, түүний шинжилгээ багатай "Vaucouleurs тэнхлэгийн харьцаа тохирсон-де-" зургийг спираль галактик болох магадлал илүү өндөр байсан нь тогтоогджээ. Эдгээр жин өгсөн, тэр үндэслэлтэй үнэн зөв нь галактикийн хүний ​​ангиллыг урьдчилан таамаглах боломжгүй юм.

Ажил Banerji et al. (2010) би хоёр дахь үеийн хүний ​​тооцоолох систем гэж нэрлэдэг руу Galaxy Zoo болсон. Эдгээр хоёр дахь үеийн системийн талаар бодох хамгийн сайн арга байх хүмүүс нь асуудлыг шийдэх биш, харин тэд хүн төрөлхтөн асуудлыг шийдвэрлэхийн тулд компьютер сургах ашиглаж болох мэдээллийн санг бий болгох гэж байна. компьютер сургах шаардлагатай өгөгдлийн хэмжээ нь бий болгох нь хүний ​​олон нийтийн хамтын ажиллагаа шаарддаг болохоор их байж болно. Galaxy амьтны хүрээлэнд, хэрэглэсэн мэдрэлийн сүлжээний тохиолдолд Banerji et al. (2010) найдвартай хүний ​​ангиллыг төрүүлэх боломжтой болсон нь загварыг бий болгохын тулд хүний ​​хаяглагдсан жишээ нь маш олон тооны шаардлагатай.

Энэ компьютерийн тусламжтайгаар аргын давуу тал нь та нар хүний ​​хүчин чармайлт зөвхөн хязгаарлагдмал хэмжээний ашиглан өгөгдөл нь үндсэндээ хязгааргүй хэмжээгээр зохицуулах боломжийг олгодог юм. Жишээ нь, нэг сая хүний ​​ангилсан галактикийн нь судлаач, дараа нь тэрбум, бүр их наяд галактик ангилах ашиглаж болох урьдчилсан загварыг бий болгох болно. галактик асар их тоо байгаа бол, дараа нь хүний ​​компьютер холимог энэ төрлийн цорын ганц боломжтой шийдэл үнэхээр юм. Энэ нь хязгааргүй өргөтгөх боломж хэдий ч, чөлөөт биш юм. Өөрөө хэцүү асуудал юм зөв хүний ​​ангилалыг төрүүлэх болно машин сургалтын загварыг бий болгох, гэхдээ азаар энэ сэдэв зориулсан маш сайн ном аль хэдийн байдаг (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy зоо олон хүний ​​тооцоолох төсөл хувьслыг харуулж байна. Нэгдүгээрт, судлаач өөрөө буюу эрдэм шинжилгээний туслах нь бага багаар (жишээ нь, Schawinski анхны ангилал хүчин чармайлт) нь төслийг оролддог. Энэ арга нь сайн масштабаар байгаа бол судлаач олон хүн ангилалыг хувь нэмэр нь хүний ​​тооцоолох төсөлд хөдөлгөж болно. Гэхдээ мэдээлэл нь тодорхой хэмжээгээр нь цэвэр хүний ​​хүчин чармайлт хангалттай биш байх болно. Тэр үед судлаачид хүний ​​ангилал дараа нь мэдээлэл бараг хязгааргүй хэмжээгээр хэрэглэж болно машин сургалтын загвар сургах ашиглаж байгаа хоёр дахь үеийн системийг бий болгох хэрэгтэй байна.