5.2.1 Galaxy Zoo

Galaxy Zoo сая сая галактикийн ангилалд багтах олон мэргэжилтэн бус сайн дурынхны хүчин чармайлтыг нэгтгэсэн.

Galaxy Zoo 2007 онд Оксфордын Их Сургуульд одон орон судлалын чиглэлээр суралцаж байсан оюутан Kevin Schawinski-т тулгарч байсан бэрхшээлийг бүтээсэн. Schawinski галактикийн сонирхлыг татдаг байсан бөгөөд галактикууд нь морфологи-эллипс эсвэл спираль хэлбэрээр ангилагдаж, Тэдгээр нь хөх, улаан өнгөтэй. Тухайн үед одон орон судлаачдын уламжлалт мэргэн ухаан бол Манай Сүүн зам шиг спираль галактикууд (цэнхэр өнгөтэй), эллипс галактикууд нь улаан өнгөтэй (хөгшрөлтийг харуулсан) байсан юм. Schawinski энэ уламжлалт мэргэн ухааныг эргэлзэж байв. Энэ загвар ерөнхийдөө үнэн байж магадгүй гэж таамаглаж байсан ч магадгүй маш олон тооны үл хамаарах зүйлс байж болох талтай, мөн ийм ер бусын галактикийн олон тооны судалгаагаар хүлээгдэж буй загварт таарч чаддаггүй зүйлсийг судалж, тэрхүү процесс Галактикууд үүссэн.

Тиймээс уламжлалт мэргэн ухааныг нураахын тулд Schawinski хэрэгтэй байсан нь морфологийн ангилалд багтах том галактикийн томоохон хэсэг байсан юм. Энэ нь спираль эсвэл зууван хэлбэртэй гэж ангилагдсан галактикууд юм. Гэсэн хэдий ч одоо байгаа алгоритмын аргууд нь шинжлэх ухааны судалгаа хийхэд хангалттай сайн биш байна. Өөрөөр хэлбэл, галактикуудыг ангилах нь компьютер дээр хэцүү байсан асуудал байсан юм. Тиймээс, хүн төрөлхтөний галактикууд асар олон тооны галактикууд хэрэгтэй байв. Schawinski төгсөлтийн дараах оюутны урам зоригоор энэхүү ангиллын асуудлыг авч үзсэн. 12 цагийн долоо хоногийн марафоны хуралд 50 мянган галактикийн ангиллыг хийж чаджээ. 50,000 галактикийн хувьд иймэрхүү сонсогдож байгаа ч энэ нь Слян Дижитал Скай Survey-тэй гэрэл зурганд бараг сая сая галактикийн ойролцоогоор 5% -ийг эзэлдэг. Schawinski илүү өргөн хүрээтэй арга барил хэрэгтэй гэдгийг ойлгосон.

Аз болоход энэ нь ангилах галактикуудын зорилго одон дэвшилтэт сургалт шаардлагатай биш гэдгийг болж, та нэлээн хурдан үүнийг хийх хэн нэгнийг зааж чадна. Өөрөөр хэлбэл галактик ангилах компьютеруудын хувьд хэцүү байсан ажил юм ч, энэ нь хүний ​​хувьд маш хялбар байсан юм. Тиймээс Оксфорд, Schawinski, залуу одон орон судлаач Крис Lintott-д паб-д сууж байхдаа сайн дурынхан галактикуудын зургийг ангилж болно вэб хуудас руу зүүдэлжээ. Хэдэн сарын дараа, Galaxy зоо төржээ.

Galaxy Zoo вэбсайт дээр сайн дурын ажилтнууд хэдэн минутын сургалтанд хамрагдах болно. Жишээлбэл, спираль болон эллипсийн галактикийн хоорондын ялгааг судлах (зураг 5.2). Энэхүү сургалтын дараа сайн дурынхан сайн дурынхныг харьцангуй амархан шалгаж, 15 ангиллын галактикийн 11-ийн ангиллыг тодорхойлсон бөгөөд дараа нь үл мэдэгдэх галактикийн бодит ангиллыг энгийн вэб-д суурилсан интерфэйсээр (зураг 5.3) эхэлнэ. Сайн дурын ажилтанаас одон орон судлаач руу шилжих нь 10 минутаас бага хугацаанд явагдах бөгөөд гагцхүү хамгийн бага бэрхшээлийг даван туулах шаардлагатай.

Зураг 5.2. Галактикын хоёр үндсэн төрлүүдийн жишээ: спираль ба эллипс. Galaxy Zoo төсөл нь 100,000 гаруй сайн дурынхан 900,000 гаруй зургийг ангилж ашигласан. Http://www.GalaxyZoo.org болон Слян Дижитал Скай Судлалаас зөвшөөрсөн.

Зураг 5.2. Галактикын хоёр үндсэн төрлүүдийн жишээ: спираль ба эллипс. Galaxy Zoo төсөл нь 100,000 гаруй сайн дурынхан 900,000 гаруй зургийг ангилж ашигласан. Http://www.GalaxyZoo.org болон Слян Дижитал Скай Судлалаас зөвшөөрсөн.

Зураг 5.3. Сайн дурынхан нэг дүрсийг ангилахыг хүссэн оролтын дэлгэц. Слян Дижитал Sky Survey-ийн зургийг үндэслэн Крис Линкоттоос зөвшөөрөл авсан.

Зураг 5.3. Сайн дурынхан нэг дүрсийг ангилахыг хүссэн оролтын дэлгэц. Слян Дижитал Sky Survey -ийн зургийг үндэслэн Крис Линкоттоос зөвшөөрөл авсан.

Төслийн танилцуулга болсноос хойш Galaxy Zoo анхны сайн дурын ажилчдыг татан авч, 6 сарын хугацаанд 100,000 гаруй иргэний эрдэмтэд оролцож, одон орон судлалыг дэмжихийг хүссэн тул оролцсон хүмүүсийг оролцуулсан юм. Эдгээр 100,000 сайн дурынхан нийт 40 сая гаруй ангилалд оролцож, харьцангуй бага, үндсэн бүлгийн оролцогчийн ангиллаас (Lintott et al. 2008) байна.

Бакалавр эрдэм шинжилгээний туслах ажилтнуудыг ажилд авсан туршлагатай судлаачид мэдээллийн чанарыг нэн даруй мэдэж болно. Энэ үл итгэх байдал нь боломжийн ч гэсэн Galaxy Zoo нь сайн дурынхны хувь нэмрийг зохих ёсоор цэвэрлэж, гажуудуулсан, нэгтгэсэн, өндөр чанартай үр дүн гаргаж чадна гэдгийг харуулж байна (Lintott et al. 2008) . Мэргэжлийн чанартай мэдээллийг бий болгох олныг олж авах нь чухал трик цомхотгол, олон хүн гүйцэтгэсэн ижил даалгавар байх юм байна. Galaxy Zoo-д нэг галактикт 40 орчим ангилал ногдож байсан. Бакалавр судлаач эрдэмтэд ашиглан судлаачид энэ түвшний давуу талыг хэзээ ч төлж чадахгүй тул ангилал тус бүрийн чанарыг илүү анхаарч үзэх хэрэгтэй болно. Сургалтанд сайн дурынхан дутагдаж байсан зүйл нь тэднээс илүү нөөцтэй болсон.

Нэг галактик тус ​​бүрт хэд хэдэн ангиллуудтай байсан ч сайн дурын ангилалыг нэгтгэхийн тулд зөвшилцлийн ангилал үүсгэх нь төвөгтэй байв. Хүний тооцооллын ихэнх төслүүдэд үүнтэй төстэй сорилтууд тулгардаг тул Galaxy Zoo судлаачид өөрсдийн зөвшилцлийн ангиллыг гаргахад ашигладаг гурван алхмыг товчхон авч үзэх нь зүйтэй юм. Нэгдүгээрт, судлаачид богус ангиллыг устгаж өгөгдлөө "цэвэрлэж" байна. Жишээ нь, нэг галакта дахин давтаж ангилсан хүмүүс-үр дүнг удирдахыг оролдож байгаа бол ямар нэг зүйл тохиолдоход тэдгээрийн ангиллыг бүгдийг нь хассан. Энэ болон бусад ижил төстэй цэвэрлэгээ бүх ангиллын 4% -ийг хассан.

Хоёрдугаарт, цэвэрлэгээ хийсний дараа судлаачид ангилалд системтэй хазайлтыг арилгах шаардлагатай болсон. Анхны төсөл дотор суурилсан хэд хэдэн алдааг илрүүлэх судалгаануудаар дамжуулан зарим сайн дурынхан хар цагаан бус өнгөт галактикийн заримыг харуулав. Судлаачид зууван спираль галактикууд нь эллипсийн галактикуудыг ангилах системчилт алдаа гэх мэт системчилсэн хэвийх утгыг илрүүлсэн (Bamford et al. 2009) . Эдгээр системчилсэн хазайлтыг тохируулах нь туйлын чухал юм. Учир нь нөөцийн зарцуулалт нь системчилсэн хазайлтыг автоматаар арилгадаггүй; Энэ нь санамсаргүй алдааг арилгахад тусалдаг.

Эцэст нь хэлэхэд, судлаачид нэгдмэл ангиллыг бий болгохын тулд тусдаа ангиллыг нэгтгэх аргыг судлаачид хэрэгтэй байв. Глобал тус бүрийн ангиллыг нэгтгэх хамгийн хялбар арга бол хамгийн нийтлэг ангиллыг сонгох явдал байлаа. Гэсэн хэдий ч энэ арга нь сайн дурын ажилтан бүрийн жинг адилтгаж болох бөгөөд судлаачид зарим сайн дурынхан бусад ангиллаас илүү сайн байсан гэж үзсэн. Тиймээс судлаачид хамгийн сайн ангиллыг илрүүлэх, илүү жинтэй болгохыг оролдсон илүү нарийн төвөгтэй жигнэх аргыг боловсруулсан.

Тиймээс гурван шаттай үйл явцыг цэвэрлэх, гажуудуулах, хүндрүүлэх зэргээр Galaxy Zoo судалгааны баг 40 сая сайн дурын ангилалыг зөвшилцлийн морфологийн ангиллаар хөрвүүлжээ. Эдгээр Galaxy Zoo ангиллыг мэргэжлийн одон орон судлаачдын өмнөх жижиг хэмжээний оролдлогуудтай харьцуулж үзэхэд Galaxy Zoo-ыг урамшуулахад Schawinski-ийн ангилалыг багтаасан байдаг. Тиймээс сайн дурынхан сайн чанарын ангиллыг, судлаачид таарахгүй байж чаддаг (Lintott et al. 2008) . Үнэн хэрэгтээ ийм олон тооны галактикийн хувьд хүн төрөлхтөний ангиллаар Schawinski, Lintott, болон бусад хүмүүс одоогоор зөвхөн 80 орчим галактикийн одон оронтой, хөх өнгийн спираль, улаан муллитикуудыг дагадаг гэж үздэг бөгөөд олон тооны баримт бичиг энэ нээлт (Fortson et al. 2011) .

Үүний үр дүнд Galaxy Zoo хуваах-хэрэглээний-жороор, ихэнх хүний ​​тооцооллын төслүүдэд хэрэглэгддэг жортой танилцаж байгааг харж болно. Нэгдүгээрт, том асуудал нь хуваагдах болно. Энэ тохиолдолд нэг галактикийг ангилах асуудал нэг галактикыг ангилах сая сая асуудал болж хувирсан. Дараа нь, үйл ажиллагаа нь бие даан зүсэм бүрийг хэрэглэж байна. Энэ тохиолдолд сайн дурынхан галактик тус ​​бүрийг спираль эсвэл зууван хэлбэртэй гэж ангилдаг. Эцэст нь үр дүн нь нэгдмэл байдлын үр дүнд бий болдог. Энэ тохиолдолд цэвэрлэгээ, гажуудал, жинлэлтийг тус тусад нь галакс бүр нэгтгэн дүгнэх ангиллыг бий болгохын тулд нэгтгэсэн алхамыг оруулсан. Ихэнх теслууд энэ еренхий жорыг ашигладаг боловч еер еер шатанд анхаарал хандуулах хэрэгтэй. Жишээ нь, доорх хүний ​​тооцооллын төсөл дээр ижил жорыг дагаж мөрдөх боловч алхам алхмуудыг хэрэглэж, нэгтгэх нь өөр өөр байх болно.

Galaxy Zoo багийн хувьд энэ анхны төсөл нь зөвхөн эхлэл байсан юм. Тэд сая сая галактикийн ангилалд багтах боломжтой байсан ч (Kuminski et al. 2014) шинэ дижитал тэнгэрийн судалгааг хийхэд хангалтгүй бөгөөд энэ нь ойролцоогоор 10 тэрбум галактикийн зураг (Kuminski et al. 2014) . 10,000-галзуу амьтны хүрээлэнгээс 1 саяас 10 тэрбум хүртэлх өсөлттэй ажиллахын тулд 10000 гаруй хүн оролцдог. Интернетэд сайн дурынхны тоо их боловч энэ нь хязгааргүй биш юм. Тиймээс судлаачид улам бүр өсөн нэмэгдэж буй өгөгдлийг зохицуулахын тулд шинэ, улам бүр өргөжиж болохуйц арга барил хэрэгтэй болохыг судлаачид олж мэдсэн юм.

Тиймээс Мандал Banerji-ажлын Schawinski, Lintott болон Galaxy зоо багийн бусад гишүүдийн хамт (2010) галактик ангилах компьютер заах -started. Ялангуяа Galaxy Zoo-ээр бүтээсэн хүний ​​ангиллыг ашиглан Банержи нь дүрсний шинж чанарт тулгуурлан галактикийн хүний ​​ангиллыг таамаглаж болох машины сургалтын загварыг бүтээжээ. Хэрэв энэ загвар хүний ​​ангиллыг өндөр нарийвчлалтайгаар гаргаж чадвал Galaxy Zoo судлаачид хязгааргүй тооны галактикийн ангиллыг ашиглаж болно.

Банержи болон хамтрагчдын хандлагын гол цөм нь нийгмийн судалгаанд түгээмэл хэрэглэгддэг аргуудтай төстэй юм. Энэ төстэй байдал нь эхний үед тодорхойгүй байж болох юм. Нэгдүгээрт, Банержи болон бусад хамт олон дүр төрхийг өөртөө нэгтгэсэн тоон шинж чанарыг хөрвүүлэв. Жишээ нь, галактикийн зургуудын хувьд гурван онцлог шинж чанар байж болно: зураг дээрх цэнхэр хэмжээ, пикселийн тод байдал, цагаан бус пикселийн харьцаа. Зөв функцийг сонгох нь асуудлын чухал хэсэг бөгөөд энэ нь ерөнхийдөө сэдэвчилсэн талбарын мэдлэгийг шаарддаг. Энэхүү эхний шатанд инженерчлэл гэж нэрлэгддэг, өгөгдлийн матрицыг нэг мөрөнд, дараа нь тухайн зургийг дүрсэлсэн гурван багана гарч ирдэг. Өгөгдлийн матриц болон хүссэн гаралт (жишээлбэл, дүр төрхийг эллипсаль галактикийн хувьд хүн гэж ангилдаг эсэх) судлаач статистик эсвэл машин сургалтын загварыг бий болгодог - жишээ нь, логистик регресс - хүний ​​онцлогийг шинж чанар дээр тулгуурлан таамаглах зураг дээр. Эцэст нь судлаач энэ галактикийн статистикийн загварыг ашиглан шинэ галактикийн ангиллын хэмжээг тогтооно (Зураг 5.4). Машины суралцах явцад шинэ өгөгдлийг хаяглах загварыг бий болгохоор шошготой жишээг ашиглан хяналттай сургалт гэж нэрлэдэг.

Зураг 5.4: Банержи ба бусад (2010) Galaxy Zoo ангилалыг ашиглан галактик ангилалын машиныг сургах загварыг сургахад ашигладаг. Галактикуудын зургийг матрикс хэлбэрээр хөрвүүлэв. Энэхүү хялбаршуулсан жишээнд гурван шинж чанар (зураг дээрх цэнхэр тоо, пикселийн тодорч байгаа байдал, цагаан өнгийн пикселийн харьцаа) байдаг. Дараа нь зурагны нэг хэсэг болох Galaxy Zoo шошго машин сургалтын загварыг сургахад ашигладаг. Эцэст нь, машин судлах нь үлдсэн галактикийн ангиллыг тооцоолоход хэрэглэгддэг. Хүний тооцооллын төсөл гэж нэрлэдэг энэ компьютерийг хүнээр асуудлыг шийдэхээсээ илүүтэйгээр компьютерийг сургахад ашиглаж болох мэдээллийн санг бий болгодог. Компьютер дээр тулгуурласан хүний ​​тооцооллын системийн давуу тал нь зөвхөн хүний ​​хязгаарлагдмал хүчин чармайлтыг ашигласнаар хязгааргүй их хэмжээний өгөгдлийг удирдах боломжийг танд олгодог. Sloan Digital Sky Survey-ийн зөвшөөрлөөр хувилж авсан галактикийн зургууд.

Зураг 5.4: Banerji et al. (2010) Galaxy Zoo ангилалыг ашиглан галактик ангилалын машиныг сургах загварыг сургахад ашигладаг. Галактикуудын зургийг матрикс хэлбэрээр хөрвүүлэв. Энэхүү хялбаршуулсан жишээнд гурван шинж чанар (зураг дээрх цэнхэр тоо, пикселийн тодорч байгаа байдал, цагаан өнгийн пикселийн харьцаа) байдаг. Дараа нь зурагны нэг хэсэг болох Galaxy Zoo шошго машин сургалтын загварыг сургахад ашигладаг. Эцэст нь, машин судлах нь үлдсэн галактикийн ангиллыг тооцоолоход хэрэглэгддэг. Хүний тооцооллын төсөл гэж нэрлэдэг энэ компьютерийг хүнээр асуудлыг шийдэхээсээ илүүтэйгээр компьютерийг сургахад ашиглаж болох мэдээллийн санг бий болгодог. Компьютер дээр тулгуурласан хүний ​​тооцооллын системийн давуу тал нь зөвхөн хүний ​​хязгаарлагдмал хүчин чармайлтыг ашигласнаар хязгааргүй их хэмжээний өгөгдлийг удирдах боломжийг танд олгодог. Sloan Digital Sky Survey-ийн зөвшөөрлөөр хувилж авсан галактикийн зургууд.

Банержи болон түүний хамтран зүтгэгчдийн машины сургалтын загвар нь миний тоглоомын жишээнээс илүү төвөгтэй байсан. Тухайлбал, "Ду Воулоулеурс тэнхлэгийн харьцаатай" гэх мэт функцийг ашиглаж байсан бөгөөд түүний загвар нь логистик регресс биш, хиймэл мэдрэлийн сүлжээ байсан. Түүний онцлог, түүний загвар, Galaxy Zoo ангилалын тохиргоог ашиглан тэрээр тус бүр дээр жинг үүсгэх чадвартай болсон бөгөөд дараа нь тэдгээрийн жинг галактикийн ангиллын талаарх таамаглалыг гаргах боломжтой болсон. Жишээ нь, түүний дүн шинжилгээ нь "Ду Ваулouleurs бага тэнхлэгийн харьцаатай" дүрс нь спираль галактик байж магадгүй гэж үзжээ. Эдгээрийн жинг үндэслэн тэрээр галактикийн хүний ​​ангилалыг боломжийн нарийвчлалтайгаар таамаглаж чаджээ.

Банержи болон түүний хамтрагчид Galaxy Zoo-ыг компьютерийн тусламжтайгаар хүний ​​тооцооллын систем гэж нэрлэх болсон. Эдгээр холимог системүүдийн талаар бодох хамгийн сайн арга бол хүмүүс асуудлыг шийдэхээс илүүтэйгээр асуудлыг шийдэхийн тулд компьютерийг сургахад ашиглаж болох мэдээллийн санг бий болгодог. Заримдаа, асуудлыг шийдэхийн тулд компьютерийг сургах нь олон жишээг шаарддаг бөгөөд хангалттай тооны жишээг бий болгох цорын ганц арга зам бол массын хамтын ажиллагаа юм. Компьютер дээр тулгуурласан аргын давуу тал нь хязгаарлагдмал хэмжээний хүний ​​хүчин чармайлтыг ашигласнаар хязгааргүй хэмжээний өгөгдлийг хязгаарлах боломжийг олгодог. Жишээлбэл, нэг сая хүний ​​биеийн галактикийн судлаач тэрбум доллар ч, тэр ч байтугай нэг триллион галактикийг ангилахад ашиглаж болох таамаглалын загварыг бий болгож чадна. Хэрэв асар олон тооны галактикууд байгаа бол энэ төрлийн компьютерийн эрлийз нь үнэхээр цорын ганц шийдэл юм. Гэхдээ энэ хязгааргүй чадамж нь үнэ төлбөргүй биш юм. Хүний ангиллыг зөв хуулбарлах машины сургалтын загварыг бий болгох нь өөрөө хэцүү асуудал боловч аз болоход энэ сэдэвт зориулагдсан сайн номууд байдаг (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo бол хүний ​​тооцоолох хэдэн төслийг хэрхэн хөгжүүлэх тухай сайн жишээ юм. Нэгдүгээрт, судлаач төсөл өөрөө буюу судалгааны туслах жижиг багийг (жишээ нь Schawinski анхны ангилал хийх оролдлого) оролдохыг оролддог. Хэрэв энэ арга нь сайн биш бол судлаач хүний ​​тооцооллын төсөлд шилжиж болно. Гэхдээ тодорхой тооны өгөгдлийн хувьд хүний ​​цэвэр хүчин чармайлт хангалтгүй болно. Тухайн үед судлаачид компьютерын тусламжтайгаар хүний ​​тооцооллын системийг бий болгох хэрэгтэй бөгөөд ингэснээр хүний ​​ангиллыг машин сургалтын загварыг сургахад ашигладаг бөгөөд энэ нь бараг хязгааргүй хэмжээний өгөгдөлд хамаатай байж болох юм.