5.2.1 Zoo Galaxy

ການແປພາສານີ້ໄດ້ສ້າງຕັ້ງຂື້ນໂດຍຄອມພິວເຕີ. ×

5.2.1 Zoo Galaxy

Galaxy Zoo ລວມເອົາຄວາມພະຍາຍາມຂອງຫຼາຍໆອາສາສະຫມັກທີ່ບໍ່ແມ່ນຜູ້ຊ່ຽວຊານເພື່ອຈັດປະເພດຫນຶ່ງລ້ານ galaxies.

Galaxy Zoo ໄດ້ອອກມາຈາກບັນຫາທີ່ Kevin Schawinski, ນັກຮຽນຈົບໃນວິທະຍາສາດຂອງມະຫາວິທະຍາໄລອໍຟອດໃນປີ 2007 ໄດ້ປະເຊີນກັບບັນຫາທີ່ທ້າວ Schawinski ສົນໃຈໃນ galaxies, ແລະ galaxies ສາມາດແບ່ງອອກໄດ້ໂດຍຮູບຮ່າງຂອງຮູບວົງຂອງເຂົາເຈົ້າ. ໂດຍສີຟ້າຫຼືສີແດງຂອງພວກເຂົາ. ໃນເວລານັ້ນ, ປັນຍາປະຕິບັດລະຫວ່າງບັນດານັກດາລາສາດແມ່ນວ່າກາແລກຊວນຂອງວົງວຽນ, ຄື Milky Way ຂອງພວກເຮົາ, ແມ່ນສີຟ້າທີ່ມີສີສັນ (ສະແດງໃຫ້ເຫັນໄວຫນຸ່ມ) ແລະກາຊ້າງ elliptical ແມ່ນສີແດງ (ສະແດງອາຍຸເກົ່າ). Schawinski ສົງໃສວ່າປັນຍາປະກະຕິນີ້. ລາວສົງໃສວ່າໃນຂະນະທີ່ຮູບແບບນີ້ອາດຈະເປັນຄວາມຈິງໂດຍທົ່ວໄປແລ້ວອາດມີຂໍ້ຍົກເວັ້ນຈໍານວນຫລາຍແລະວ່າໂດຍການສຶກສາຫລາຍໆ galaxies ເຫຼົ່ານີ້ທີ່ບໍ່ເຫມາະສົມກັບຮູບແບບທີ່ຄາດໄວ້ - ລາວສາມາດຮຽນຮູ້ກ່ຽວກັບຂະບວນການທີ່ຜ່ານມາ galaxies ສ້າງຕັ້ງຂຶ້ນ.

ດັ່ງນັ້ນ, ສິ່ງທີ່ Schawinski ຕ້ອງການເພື່ອ overturn ປັນຍາປົກກະຕິແມ່ນຊຸດໃຫຍ່ຂອງ galaxies ຈັດລຽງຮູບແບບ morphologically; ນັ້ນແມ່ນ, galaxies ທີ່ໄດ້ຖືກຈັດປະເພດເປັນກ້ຽວວຽນຫຼື elliptical. ບັນຫາແມ່ນ, ແຕ່ວ່າວິທີການວິທີການທີ່ມີຢູ່ແລ້ວສໍາລັບການຈັດປະເພດແມ່ນຍັງບໍ່ດີພໍທີ່ຈະໃຊ້ສໍາລັບການຄົ້ນຄວ້າວິທະຍາສາດ; ໃນແງ່ຄໍາເວົ້າ, ການແບ່ງປັນກາແລກຊີຢູ່ໃນນັ້ນແມ່ນບັນຫາທີ່ຍາກສໍາລັບຄອມພິວເຕີ້. ເພາະສະນັ້ນ, ສິ່ງທີ່ຈໍາເປັນຕ້ອງແມ່ນຈໍານວນຫລາຍຂອງ galaxies ທີ່ມີຊີວິດຂອງ ມະນຸດ . Schawinski ໄດ້ປະຕິບັດບັນຫາການຈັດປະເພດນີ້ດ້ວຍຄວາມກະຕືລືລົ້ນຂອງນັກຮຽນຈົບ. ໃນກອງປະຊຸມ marathon ຂອງເຈັດມື້ 12 ຊົ່ວໂມງ, ເຂົາສາມາດຈັດແບ່ງ 50,000 galaxies. ໃນຂະນະທີ່ 50,000 galaxies ອາດຈະຄ້າຍຄືກັນຫຼາຍ, ມັນກໍ່ແມ່ນປະມານ 5% ຂອງເກືອບຫນຶ່ງລ້ານ galaxies ທີ່ໄດ້ຖືກຖ່າຍໃນ Sloan Digital Sky Survey. Schawinski ຮູ້ວ່າລາວຕ້ອງການວິທີການທີ່ສາມາດປັບປຸງໄດ້ຫຼາຍຂຶ້ນ.

Fortunately, ມັນ turns ໃຫ້ເຫັນວ່າວຽກງານຂອງ galaxies ການຈັດປະເພດທີ່ບໍ່ໄດ້ຮຽກຮ້ອງໃຫ້ມີການຝຶກອົບຮົມແບບພິເສດໃນດາລາສາດ; ທ່ານສາມາດສອນຄົນທີ່ຈະເຮັດ pretty ຢ່າງວ່ອງໄວ. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ເຖິງແມ່ນວ່າການຈັດປະເພດ galaxies ແມ່ນວຽກງານທີ່ຍາກຫຼາຍສໍາລັບຄອມພິວເຕີ, ມັນແມ່ນການ pretty ງ່າຍສໍາລັບມະນຸດ. ດັ່ງນັ້ນ, ໃນຂະນະທີ່ນັ່ງຢູ່ໃນ pub ໃນ Oxford, Schawinski ແລະອື່ນໆນັກດາລາສາດ Chris Lintott ຝັນຢາກເວັບໄຊທ໌ທີ່ອາສາສະຫມັກຈະຈັດຮູບພາບຂອງ galaxies ໄດ້. A ບໍ່ເທົ່າໃດເດືອນຕໍ່ມາ, ສວນສັດ Galaxy ໄດ້ເກີດມາ.

ໃນເວັບໄຊທ໌ Galaxy Zoo, ອາສາສະຫມັກຈະໄດ້ຮັບການຝຶກອົບຮົມຈໍານວນຫນ້ອຍຫນຶ່ງ; ຕົວຢ່າງ, ການຮຽນຮູ້ຄວາມແຕກຕ່າງກັນລະຫວ່າງກ້ອງວົງວຽນແລະແກະສະຫຼັກ elliptical (ຮູບ 5.2). ຫຼັງຈາກການຝຶກອົບຮົມຄັ້ງນີ້, ແຕ່ລະອາສາສະຫມັກຕ້ອງຜ່ານການສອບຖາມງ່າຍໆ 11 ຂອງ 15 galaxies ທີ່ມີປະເພດທີ່ຮູ້ຈັກ, ແລະຫຼັງຈາກນັ້ນຈະເລີ່ມການຈັດປະເພດຂອງ galaxies ທີ່ບໍ່ຮູ້ຈັກຜ່ານທາງອິນເຕີເນັດທີ່ງ່າຍດາຍ (ຮູບ 5.3). ການປ່ຽນແປງຈາກອາສາສະຫມັກໄປຫານັກດາລາສາດຈະເກີດຂື້ນໃນເວລາຫນ້ອຍກວ່າ 10 ນາທີແລະຕ້ອງມີການຕອບສະຫນອງຫນ້ອຍທີ່ສຸດ, ການສອບເສັງງ່າຍດາຍ.

ຮູບພາບ 52: ຕົວຢ່າງຂອງສອງຊະນິດຂອງ galaxies: spiral ແລະ elliptical. ໂຄງການ Zoo Galaxy ໄດ້ນໍາໃຊ້ຫຼາຍກວ່າ 100.000 ຄົນອາສາສະຫມັກເພື່ອຈັດຫມວດຫມູ່ຫຼາຍກ່ວາ 900.000 ຮູບ. Reproduced by permission from http://www.GalaxyZoo.org ແລະ Sloan Digital Sky Survey .

ຮູບທີ 5.3: ຫນ້າຈໍເຂົ້າທີ່ນັກອາສາສະຫມັກຖືກຮຽກຮ້ອງໃຫ້ຈັດຮູບພາບດຽວ. reproduced ໂດຍການອະນຸຍາດຈາກ Chris Lintott ໂດຍອີງໃສ່ຮູບພາບຈາກ Sloan Digital Sky Survey .

Galaxy Zoo ໄດ້ດຶງດູດນັກອາສາສະຫມັກໃນເບື້ອງຕົ້ນຫຼັງຈາກໂຄງການດັ່ງກ່າວໄດ້ສະແດງໃນບົດຂ່າວແລະໃນໄລຍະຫົກເດືອນໂຄງການດັ່ງກ່າວໄດ້ພັດທະນາຫຼາຍກວ່າ 100,000 ວິທະຍາສາດພົນລະເມືອງ, ຜູ້ທີ່ເຂົ້າຮ່ວມກິດຈະກໍາຍ້ອນວ່າພວກເຂົາມັກວຽກແລະພວກເຂົາຕ້ອງການທີ່ຈະຊ່ວຍໃຫ້ນັກດາລາສາດກ້າວຫນ້າ. ໂດຍລວມແລ້ວ, ບັນດານັກອາສາສະຫມັກເຫຼົ່ານີ້ 100,000 ຄົນໄດ້ປະກອບສ່ວນຫຼາຍກວ່າ 40 ລ້ານລາຍປະເພດ, ສ່ວນໃຫຍ່ຂອງການຈັດປະເພດແມ່ນມາຈາກບັນດາກຸ່ມທີ່ສໍາຄັນຂອງກຸ່ມຜູ້ເຂົ້າຮ່ວມ (Lintott et al. 2008) .

ນັກຄົ້ນຄວ້າຜູ້ທີ່ມີປະສົບການຈ້າງຜູ້ຊ່ວຍການຄົ້ນຄວ້າລະດັບປະລິນຍາຕີກໍ່ອາດຈະຄຶກຄັກກ່ຽວກັບຄຸນນະພາບຂອງຂໍ້ມູນ. ໃນຂະນະທີ່ຄວາມສົງໄສນີ້ສົມເຫດສົມຜົນ, ສວນສັດສວນສັດສະແດງໃຫ້ເຫັນວ່າເມື່ອການປະກອບສ່ວນຂອງອາສາສະຫມັກຖືກອະນາໄມຢ່າງຖືກຕ້ອງ, debiased ແລະລວມ, ພວກເຂົາສາມາດຜະລິດຜົນທີ່ມີຄຸນນະພາບສູງ (Lintott et al. 2008) . ເປັນ trick ທີ່ສໍາຄັນສໍາລັບການໃຫ້ຝູງຊົນສ້າງຂໍ້ມູນທີ່ມີຄຸນນະພາບເປັນມືອາຊີບແມ່ນ ຄວາມຜິດພາດ , ທີ່ມີວຽກງານດຽວກັນປະຕິບັດໂດຍປະຊາຊົນທີ່ແຕກຕ່າງກັນຫຼາຍ. ໃນສວນສັດສວນສັດ, ມີປະມານ 40 ປະເພດໃນແຕ່ລະກາແລກຊີ; ນັກຄົ້ນຄວ້າທີ່ໃຊ້ວິຊາການຄົ້ນຄ້ວາຂອງມະຫາວິທະຍາໄລບໍ່ສາມາດຈ່າຍເງິນຊົດເຊີຍນີ້ໄດ້ແລະດັ່ງນັ້ນຈຶ່ງຈໍາເປັນຕ້ອງມີຄວາມກັງວົນກ່ຽວກັບຄຸນນະພາບຂອງການຈັດປະເພດຂອງແຕ່ລະບຸກຄົນ. ສິ່ງທີ່ນັກອາສາສະຫມັກຂາດໃນການຝຶກອົບຮົມ, ພວກເຂົາໄດ້ເຮັດສໍາລັບການ redundancy.

ເຖິງແມ່ນວ່າມີການຈໍາແນກຫຼາຍຕໍ່ຫນຶ່ງ galaxy, ແຕ່, ການສົມທົບຊຸດຂອງການຈັດປະເພດຂອງອາສາສະຫມັກເພື່ອຜະລິດການຈັດແບ່ງການປະສົມກັນແມ່ນ tricky. ເນື່ອງຈາກວ່າສິ່ງທ້າທາຍທີ່ຄ້າຍຄືກັນຫຼາຍທີ່ເກີດຂື້ນໃນໂຄງການຄອມພິວເຕີ້ມະນຸດສ່ວນຫຼາຍ, ມັນເປັນປະໂຫຍດຕໍ່ການທົບທວນຂັ້ນຕອນສາມຂັ້ນຕອນທີ່ນັກວິທະຍາສາດທີ່ໃຊ້ໃນ Galaxy Zoo ນໍາໃຊ້ໃນການຜະລິດເຂົ້າກັນ. ຫນ້າທໍາອິດ, ນັກຄົ້ນຄວ້າ "ອະນາໄມ" ຂໍ້ມູນໂດຍການຖອນປະເພດການຄາດຄະເນ. ສໍາລັບຕົວຢ່າງ, ຜູ້ທີ່ມັກແບ່ງປັນວິທີການ galaxy ດຽວກັນ - ບາງສິ່ງບາງຢ່າງທີ່ຈະເກີດຂຶ້ນຖ້າຫາກວ່າພວກເຂົາເຈົ້າໄດ້ພະຍາຍາມທີ່ຈະປະຕິບັດຜົນໄດ້ຮັບ - ມີການຈໍາແນກປະເພດຂອງພວກເຂົາທັງຫມົດ. ນີ້ແລະທໍາຄວາມສະອາດທີ່ຄ້າຍຄືກັນອື່ນໆທີ່ຖືກລົບອອກປະມານ 4% ຂອງປະເພດທັງຫມົດ.

ຄັ້ງທີສອງ, ຫຼັງຈາກທໍາຄວາມສະອາດ, ນັກຄົ້ນຄວ້າຈໍາເປັນຕ້ອງເອົາຄວາມລໍາບາກລະບົບໃນການຈັດປະເພດ. ຕົວຢ່າງ, ສະແດງໃຫ້ເຫັນນັກອາສາສະຫມັກຈໍານວນຫນຶ່ງໃນວິທີດຽວ, ແທນທີ່ຈະເປັນສີ, ນັກຄົ້ນຄວ້າໄດ້ຄົ້ນພົບຄວາມແຕກຕ່າງທາງດ້ານລະບົບຕ່າງໆ, ເຊັ່ນ: ການກະທໍາທາງດ້ານລະບົບເພື່ອຈັດແບ່ງ galaxies ຫ່າງໄກສອກຫລີກເປັນ galaxies elliptical (Bamford et al. 2009) ການດັດປັບສໍາລັບຄວາມບໍ່ສະຖຽນລະພາບລະບົບເຫຼົ່ານີ້ແມ່ນສໍາຄັນທີ່ສຸດເນື່ອງຈາກວ່າການລົບລ້າງຄວາມຜິດພາດບໍ່ໄດ້ຮັບການລົບລ້າງໂດຍອັດຕະໂນມັດ; ມັນພຽງແຕ່ຊ່ວຍໃຫ້ລົບຂໍ້ຜິດພາດທີ່ຜິດພາດ.

ສຸດທ້າຍ, ຫຼັງຈາກ debiasing, ນັກຄົ້ນຄວ້າຈໍາເປັນຕ້ອງມີວິທີການປະສົມປະສານການຈັດປະເພດບຸກຄົນເພື່ອຜະລິດການແບ່ງປັນຄວາມເຄົາລົບ. ວິທີທີ່ງ່າຍທີ່ສຸດທີ່ຈະສົມທົບການຈັດປະເພດສໍາລັບແຕ່ລະກາແລກຊີ່ຈະໄດ້ເລືອກເອົາການຈັດປະເພດທົ່ວໄປທີ່ສຸດ. ຢ່າງໃດກໍຕາມ, ວິທີການນີ້ຈະໃຫ້ແຕ່ລະຄົນອາຍຸເທົ່າທຽມກັນເທົ່າທຽມກັນ, ແລະນັກຄົ້ນຄວ້າສົງໃສວ່າບາງຄົນອາສາສະຫມັກແມ່ນດີກວ່າເກົ່າໃນການຈັດປະເພດ. ດັ່ງນັ້ນ, ນັກຄົ້ນຄວ້າໄດ້ພັດທະນາຂະບວນການນ້ໍາຫນັກທີ່ສະລັບສັບຊ້ອນທີ່ພະຍາຍາມຊອກຫາການຈັດປະເພດທີ່ດີທີ່ສຸດແລະໃຫ້ນ້ໍາຫນັກຫຼາຍຂຶ້ນ.

ດັ່ງນັ້ນ, ຫຼັງຈາກສາມຂັ້ນຕອນການທໍາຄວາມສະອາດ, debiasing, ແລະນ້ໍາ, ທີມງານຄົ້ນຄວ້າ Galaxy Zoo ໄດ້ປ່ຽນແປງ 40 ລ້ານການຈັດປະເພດອາສາສະຫມັກເຂົ້າໄປໃນຊຸດຂອງການຈັດປະເພດ morphological ເປັນການໂຕ້ວາທີ. ໃນເວລາທີ່ການຈັດລຽງ Zoo Galaxy ເຫຼົ່ານີ້ໄດ້ຖືກປຽບທຽບກັບສາມຄວາມພະຍາຍາມຂະຫນາດນ້ອຍກ່ອນຫນ້ານີ້ໂດຍນັກດາລາສາດທີ່ເປັນມືອາຊີບ, ລວມທັງການຈັດປະເພດໂດຍ Schawinski ທີ່ຊ່ວຍໃຫ້ດົນໃຈ Zoo Galaxy, ມີຂໍ້ຕົກລົງທີ່ເຂັ້ມແຂງ. ດັ່ງນັ້ນ, ອາສາສະຫມັກທັງຫມົດແມ່ນສາມາດສະຫນອງການຈັດປະເພດທີ່ມີຄຸນນະພາບສູງແລະໃນລະດັບທີ່ນັກຄົ້ນຄວ້າບໍ່ສາມາດແຂ່ງຂັນ (Lintott et al. 2008) . ໃນຄວາມເປັນຈິງ, ໂດຍມີການຈັດປະເພດຂອງມະນຸດສໍາລັບຈໍານວນຂອງ galaxies ດັ່ງກ່າວ, Schawinski, Lintott, ແລະອື່ນໆສາມາດສະແດງໃຫ້ເຫັນວ່າມີພຽງແຕ່ 80% ຂອງກາແລກຊີຕາມຮູບວົງວຽນສີຟ້າຄາດຫວັງແລະສີແດງ elliptical- ແລະເອກະສານຈໍານວນຫລາຍໄດ້ຖືກຂຽນກ່ຽວກັບ ການຄົ້ນພົບນີ້ (Fortson et al. 2011) .

ເນື່ອງຈາກພື້ນຖານດັ່ງກ່າວນີ້, ທ່ານສາມາດເບິ່ງວິທີການ Galaxy Zoo ປະຕິບັດຕາມສູດການແບ່ງປັນ - ນໍາໃຊ້, ສົມທົບ, ສູດດຽວກັນທີ່ຖືກນໍາໃຊ້ສໍາລັບໂຄງການຄອມພິວເຕີ້ຫຼາຍທີ່ສຸດຂອງມະນຸດ. ຫນ້າທໍາອິດ, ບັນຫາໃຫຍ່ແມ່ນ ແບ່ງອອກ ເປັນຕ່ອນ. ໃນກໍລະນີນີ້, ບັນຫາຂອງການຈໍາແນກຫນຶ່ງລ້ານ galaxies ໄດ້ຖືກແບ່ງອອກເປັນລ້ານບັນຫາຂອງການຈໍາແນກຫນຶ່ງຂອງ galaxy. ຕໍ່ໄປ, ການປະຕິບັດງານແມ່ນຖືກ ນໍາໃຊ້ ໃນແຕ່ລະກຸ່ມໂດຍແຍກອອກເປັນອິສະລະ. ໃນກໍລະນີນີ້, ນັກອາສາສະຫມັກຈັດແບ່ງປັນຍາແຕ່ລະ galaxy ເປັນກ້ຽວວຽນຫຼື elliptical. ສຸດທ້າຍ, ຜົນໄດ້ຮັບແມ່ນ ລວມກັນ ເພື່ອຜະລິດຜົນໄດ້ຮັບທີ່ເຫັນໄດ້ຊັດເຈນ. ໃນກໍລະນີນີ້, ຂັ້ນຕອນລວມໄດ້ລວມເອົາການທໍາຄວາມສະອາດ, debiasing, ແລະນ້ໍາຫນັກເພື່ອຜະລິດການແບ່ງປັນການຕະກະລົງສໍາລັບແຕ່ລະກາແລກຊີ. ເຖິງແມ່ນວ່າໂຄງການສ່ວນໃຫຍ່ໃຊ້ສູດນີ້ໂດຍທົ່ວໄປ, ແຕ່ລະບາດກ້າວຕ້ອງໄດ້ຮັບການປັບແຕ່ງເພື່ອແກ້ໄຂບັນຫາສະເພາະ. ຕົວຢ່າງ, ໃນໂຄງການຄອມພິວເຕີ້ຂອງມະນຸດທີ່ໄດ້ອະທິບາຍຂ້າງລຸ່ມນີ້, ສູດດຽວກັນຈະໄດ້ຮັບການປະຕິບັດ, ແຕ່ວ່າການນໍາໃຊ້ແລະສົມທົບຂັ້ນຕອນຈະແຕກຕ່າງກັນ.

ສໍາລັບທີມງານ Galaxy Zoo, ໂຄງການຄັ້ງທໍາອິດນີ້ແມ່ນພຽງແຕ່ການເລີ່ມຕົ້ນ. ຢ່າງໄວວາພວກເຂົາຮູ້ວ່າເຖິງວ່າພວກເຂົາສາມາດຈັດປະເພດໃກ້ກັບລ້ານ galaxies, ຂະຫນາດນີ້ບໍ່ພຽງພໍທີ່ຈະເຮັດວຽກກັບການສໍາຫຼວດເຄົ້າດິຈິຕອນໃຫມ່, ເຊິ່ງສາມາດຜະລິດຮູບພາບປະມານ 10 ຕື້ galaxies (Kuminski et al. 2014) . ເພື່ອຈັດການການເພີ່ມຂຶ້ນຈາກ 1 ລ້ານຫາ 10 ຕື້ - ປັດໃຈຂອງ 10,000 -Gallery Zoo ຈະຕ້ອງໄດ້ທົດແທນປະມານ 10,000 ເທື່ອຜູ້ເຂົ້າຮ່ວມຫຼາຍກວ່າ. ເຖິງແມ່ນວ່າຈໍານວນຂອງອາສາສະຫມັກໃນອິນເຕີເນັດມີຂະຫນາດໃຫຍ່, ມັນກໍ່ບໍ່ແມ່ນນິລັນດອນ. ດັ່ງນັ້ນ, ນັກຄົ້ນຄວ້າໄດ້ຮັບຮູ້ວ່າຖ້າຫາກວ່າພວກເຂົາເຈົ້າຈະຈັດການກັບຂໍ້ມູນທີ່ມີການຂະຫຍາຍຕົວຢ່າງຕໍ່ເນື່ອງ, ວິທີການໃຫມ່ທີ່ມີຄວາມຍືດຫຍຸ່ນແມ່ນຕ້ອງການ.

ດັ່ງນັ້ນ, Manda Banerji - ເຮັດວຽກຮ່ວມກັບ Schawinski, Lintott ແລະສະມາຊິກອື່ນໆຂອງທີມງານ Galaxy Zoo (2010) ເລີ່ມຕົ້ນການສອນຄອມພິວເຕີ້ເພື່ອຈັດແບ່ງ galaxies. ໂດຍສະເພາະແມ່ນການນໍາໃຊ້ການຈັດປະເພດຂອງມະນຸດທີ່ສ້າງໂດຍ Galaxy Zoo, Banerji ກໍ່ສ້າງຮູບແບບການຮຽນຮູ້ເຄື່ອງທີ່ສາມາດຄາດຄະເນການຈັດປະເພດຂອງມະນຸດຂອງ galaxy ໂດຍອີງໃສ່ຄຸນລັກສະນະຂອງຮູບພາບ. ຖ້າຮູບແບບນີ້ສາມາດຜະລິດປະເພດຂອງມະນຸດທີ່ມີຄວາມຖືກຕ້ອງສູງແລ້ວ, ມັນກໍ່ສາມາດນໍາໃຊ້ໂດຍນັກວິທະຍາສາດເພື່ອຊອກຫາຈໍານວນ galaxies ຈໍານວນຈໍາກັດ.

ຫຼັກການຂອງ Banerji ແລະວິທີການຂອງເພື່ອນຮ່ວມງານແມ່ນມີຄວາມຄ້າຍຄືກັນກັບເຕັກນິກທີ່ນໍາໃຊ້ທົ່ວໄປໃນການຄົ້ນຄວ້າທາງດ້ານສັງຄົມ, ເຖິງແມ່ນວ່າຄວາມຄ້າຍຄືກັນນີ້ອາດຈະບໍ່ມີຄວາມຊັດເຈນເທື່ອ. ຫນ້າທໍາອິດ, Banerji ແລະເພື່ອນຮ່ວມງານໄດ້ປ່ຽນແປງແຕ່ລະຮູບພາບເປັນຊຸດຂອງ ຄຸນລັກສະນະ ຈໍານວນຫລາຍທີ່ສະຫຼຸບຄຸນສົມບັດຂອງມັນ. ຕົວຢ່າງ: ສໍາລັບຮູບພາບຂອງ galaxies, ມີສາມລັກສະນະ: ຈໍານວນສີຟ້າໃນຮູບ, ຄວາມແຕກຕ່າງໃນຄວາມສະຫວ່າງຂອງ pixels ແລະອັດຕາສ່ວນຂອງ pixels ທີ່ບໍ່ແມ່ນສີຂາວ. ການຄັດເລືອກລັກສະນະທີ່ຖືກຕ້ອງແມ່ນສ່ວນຫນຶ່ງທີ່ສໍາຄັນຂອງບັນຫາແລະໂດຍທົ່ວໄປມັນຮຽກຮ້ອງໃຫ້ມີຄວາມຊໍານານໃນພື້ນທີ່. ຂັ້ນຕອນທໍາອິດນີ້, ເອີ້ນວ່າ ວິສະວະກໍາຄຸນນະສົມບັດທີ່ ເອີ້ນວ່າທົ່ວໄປ, ຜົນໃນ matrix ຂໍ້ມູນທີ່ມີຫນຶ່ງແຖວຕໍ່ພາບແລະຫຼັງຈາກນັ້ນສາມຄໍລໍາອະທິບາຍພາບນັ້ນ. ຍ້ອນວ່າຕາຕະລາງຂໍ້ມູນແລະຜົນຜະລິດທີ່ຕ້ອງການ (ຕົວຢ່າງເຊັ່ນວ່າຮູບພາບໄດ້ຖືກແບ່ງອອກເປັນມະນຸດເປັນ galaxy elliptical), ນັກຄົ້ນຄວ້າກໍ່ສ້າງຮູບແບບການຮຽນແບບທາງສະຖິຕິຫຼືເຄື່ອງຈັກເຊັ່ນ: ການສະຖຽນລະພາບທາງດ້ານ logistic ເຊິ່ງຄາດຄະເນການຈັດປະເພດຂອງມະນຸດໂດຍອີງໃສ່ລັກສະນະຕ່າງໆ ຂອງຮູບພາບ. ສຸດທ້າຍ, ນັກຄົ້ນຄວ້າໃຊ້ຕົວກໍານົດໃນຕົວແບບສະຖິຕິນີ້ເພື່ອຜະລິດການຄາດຄະເນຄາດຄະເນຂອງ galaxies ໃຫມ່ (ຮູບ 5.4). ໃນການຮຽນຮູ້ຂອງເຄື່ອງຈັກ, ວິທີການນີ້ - ການນໍາໃຊ້ຕົວຢ່າງທີ່ໄດ້ຮັບການຕິດສະຫຼາກເພື່ອສ້າງຮູບແບບທີ່ສາມາດສະແດງຂໍ້ມູນໃຫມ່ - ແມ່ນເອີ້ນວ່າ ການຮຽນການເບິ່ງແຍງ .

ຮູບພາບ 5.4: ລາຍລະອຽດຂອງວິທີການ Banerji et al. (2010) ໄດ້ນໍາໃຊ້ການຈັດປະເພດຂອງສັດປະເພດ Galaxy ເພື່ອຝຶກອົບຮົມຮູບແບບການຮຽນເຄື່ອງທີ່ຈະເຮັດການຈັດປະເພດ galaxy. ຮູບພາບຂອງ galaxies ໄດ້ຖືກປ່ຽນແປງໃນ matrix ຂອງລັກສະນະເປັນ. ໃນຕົວຢ່າງງ່າຍດາຍນີ້, ມີສາມລັກສະນະ (ຈໍານວນສີຟ້າໃນຮູບພາບ, ຄວາມແຕກຕ່າງໃນຄວາມສະຫວ່າງຂອງ pixels ແລະອັດຕາສ່ວນຂອງ pixels ທີ່ບໍ່ແມ່ນສີຂາວ). ຫຼັງຈາກນັ້ນ, ສໍາລັບຊຸດຂອງຮູບພາບ, ປ້າຍ Galaxy Zoo ໄດ້ຖືກນໍາໃຊ້ເພື່ອຝຶກອົບຮົມຮູບແບບການຮຽນເຄື່ອງ. ສຸດທ້າຍ, ການຮຽນຮູ້ຂອງເຄື່ອງຈັກແມ່ນໄດ້ຖືກນໍາໃຊ້ເພື່ອປະມານການຄາດຄະເນສໍາລັບ galaxies ທີ່ຍັງເຫຼືອ. ຂ້າພະເຈົ້າເອີ້ນວ່າໂຄງການຄອມພິວເຕີ້ທີ່ຊ່ວຍໃຫ້ຄອມພິວເຕີຊ່ວຍເຫຼືອເພາະວ່າ, ແທນທີ່ຈະມີມະນຸດແກ້ໄຂບັນຫາ, ມັນກໍ່ມີມະນຸດສ້າງຊຸດຂໍ້ມູນທີ່ສາມາດນໍາໃຊ້ຄອມພິວເຕີເພື່ອແກ້ໄຂບັນຫາໄດ້. ປະໂຫຍດຂອງລະບົບການຄິດໄລ່ຂອງມະນຸດທີ່ຊ່ວຍໃຫ້ຄອມພິວເຕີ້ນີ້ແມ່ນມັນຊ່ວຍໃຫ້ທ່ານສາມາດຈັດການຂໍ້ມູນທີ່ບໍ່ຈໍາກັດຈໍານວນຂໍ້ມູນໂດຍໃຊ້ພຽງແຕ່ຄວາມພະຍາຍາມຂອງມະນຸດເທົ່ານັ້ນ. ຮູບພາບຂອງ galaxies reproduced ໂດຍການອະນຸຍາດຈາກ Sloan Digital Sky Survey.

ຮູບພາບ 5.4: ລາຍລະອຽດຂອງວິທີການ Banerji et al. (2010) ນໍາໃຊ້ການຈັດປະເພດຂອງສັດປະເພດ Galaxy ເພື່ອຝຶກອົບຮົມຮູບແບບການຮຽນເຄື່ອງທີ່ຈະເຮັດການຈັດປະເພດ galaxy. ຮູບພາບຂອງ galaxies ໄດ້ຖືກປ່ຽນແປງໃນ matrix ຂອງລັກສະນະເປັນ. ໃນຕົວຢ່າງງ່າຍດາຍນີ້, ມີສາມລັກສະນະ (ຈໍານວນສີຟ້າໃນຮູບພາບ, ຄວາມແຕກຕ່າງໃນຄວາມສະຫວ່າງຂອງ pixels ແລະອັດຕາສ່ວນຂອງ pixels ທີ່ບໍ່ແມ່ນສີຂາວ). ຫຼັງຈາກນັ້ນ, ສໍາລັບຊຸດຂອງຮູບພາບ, ປ້າຍ Galaxy Zoo ໄດ້ຖືກນໍາໃຊ້ເພື່ອຝຶກອົບຮົມຮູບແບບການຮຽນເຄື່ອງ. ສຸດທ້າຍ, ການຮຽນຮູ້ຂອງເຄື່ອງຈັກແມ່ນໄດ້ຖືກນໍາໃຊ້ເພື່ອປະມານການຄາດຄະເນສໍາລັບ galaxies ທີ່ຍັງເຫຼືອ. ຂ້າພະເຈົ້າເອີ້ນວ່າໂຄງການຄອມພິວເຕີ້ທີ່ຊ່ວຍໃຫ້ຄອມພິວເຕີຊ່ວຍເຫຼືອເພາະວ່າ, ແທນທີ່ຈະມີມະນຸດແກ້ໄຂບັນຫາ, ມັນກໍ່ມີມະນຸດສ້າງຊຸດຂໍ້ມູນທີ່ສາມາດນໍາໃຊ້ຄອມພິວເຕີເພື່ອແກ້ໄຂບັນຫາໄດ້. ປະໂຫຍດຂອງລະບົບການຄິດໄລ່ຂອງມະນຸດທີ່ຊ່ວຍໃຫ້ຄອມພິວເຕີ້ນີ້ແມ່ນມັນຊ່ວຍໃຫ້ທ່ານສາມາດຈັດການຂໍ້ມູນທີ່ບໍ່ຈໍາກັດຈໍານວນຂໍ້ມູນໂດຍໃຊ້ພຽງແຕ່ຄວາມພະຍາຍາມຂອງມະນຸດເທົ່ານັ້ນ. ຮູບພາບຂອງ galaxies reproduced ໂດຍການອະນຸຍາດຈາກ Sloan Digital Sky Survey .

ລັກສະນະຂອງຮູບແບບການຮຽນເຄື່ອງຂອງ Banerji ແລະເພື່ອນຮ່ວມງານແມ່ນມີຄວາມສັບສົນຫຼາຍກວ່າໃນຕົວຢ່າງຂອງເຄື່ອງຂອງຂ້ອຍ - ສໍາລັບຕົວຢ່າງ, ນາງໄດ້ນໍາໃຊ້ຄຸນລັກສະນະຕ່າງໆເຊັ່ນ "de Vaucouleurs proportion axial ratio" - ແລະແບບຈໍາລອງຂອງນາງບໍ່ໄດ້ເປັນ regression logistic, ມັນແມ່ນເຄືອຂ່າຍ neural ທຽມ. ການນໍາໃຊ້ຄຸນລັກສະນະຂອງນາງ, ຮູບແບບຂອງນາງ, ແລະການແບ່ງປະເພດຂອງສັດຕະຫລົກ Galaxy, ນາງສາມາດສ້າງຄວາມເຂັ້ມແຂງໃນແຕ່ລະລັກສະນະ, ແລະຫຼັງຈາກນັ້ນໃຊ້ນ້ໍາຫນັກເຫຼົ່ານີ້ເພື່ອເຮັດໃຫ້ການຄາດຄະເນກ່ຽວກັບການຈັດກຸ່ມ galaxies. ຕົວຢ່າງ, ການວິເຄາະຂອງນາງພົບເຫັນວ່າຮູບພາບທີ່ມີຄວາມຕ່ໍາ "de Vaucouleurs ເຫມາະກັບອັດຕາສ່ວນທາງຂວາງ" ແມ່ນມັກຈະເປັນ galaxies ກ້ຽວວຽນ. ເນື່ອງຈາກຄວາມເຂັ້ມແຂງເຫຼົ່ານີ້, ນາງສາມາດຄາດຄະເນການຈັດປະເພດຂອງມະນຸດຂອງ galaxy ມີຄວາມຖືກຕ້ອງສົມເຫດສົມຜົນ.

ການເຮັດວຽກຂອງ Banerji ແລະເພື່ອນຮ່ວມງານເຮັດໃຫ້ Galaxy Zoo ກາຍເປັນສິ່ງທີ່ຂ້າພະເຈົ້າໂທຫາ ລະບົບການຄິດໄລ່ຂອງມະນຸດທີ່ຊ່ວຍໃຫ້ຄອມພິວເຕີ . ວິທີທີ່ດີທີ່ສຸດທີ່ຈະຄິດກ່ຽວກັບລະບົບປະສົມປະສານເຫຼົ່ານີ້ແມ່ນວ່າແທນທີ່ຈະມີມະນຸດແກ້ໄຂບັນຫາ, ພວກເຂົາມີມະນຸດສ້າງຊຸດຂໍ້ມູນທີ່ສາມາດນໍາໃຊ້ເພື່ອຝຶກຄອມພິວເຕີເພື່ອແກ້ໄຂບັນຫາ. ບາງຄັ້ງ, ການຝຶກອົບຮົມຄອມພິວເຕີເພື່ອແກ້ໄຂບັນຫາສາມາດຮຽກຮ້ອງຕົວຢ່າງຫຼາຍຢ່າງແລະວິທີດຽວທີ່ຈະສ້າງຈໍານວນຕົວຢ່າງທີ່ພຽງພໍແມ່ນການຮ່ວມມືຢ່າງຫຼວງຫຼາຍ. ປະໂຫຍດຂອງວິທີການຊ່ວຍເຫຼືອດ້ານຄອມພິວເຕີນີ້ແມ່ນວ່າມັນຊ່ວຍໃຫ້ທ່ານສາມາດຈັດການຂໍ້ມູນທີ່ບໍ່ຈໍາກັດຈໍານວນຂໍ້ມູນໂດຍໃຊ້ພຽງແຕ່ຄວາມພະຍາຍາມຂອງມະນຸດເທົ່ານັ້ນ. ຕົວຢ່າງ, ນັກຄົ້ນຄວ້າທີ່ມີ galaxies ຂອງມະນຸດຈໍານວນລ້ານຄົນກໍ່ສາມາດສ້າງຮູບແບບທີ່ຄາດຄະເນທີ່ສາມາດນໍາໃຊ້ໃນການຈໍາແນກໄດ້ເຖິງພັນຕື້ຫຼືຫຼາຍພັນຕື້ galaxies. ຖ້າຫາກວ່າມີຈໍານວນຫຼາຍຂອງ galaxies, ຫຼັງຈາກນັ້ນປະເພດຂອງການປະສົມປະສານຂອງມະນຸດ, ຄອມພິວເຕີນີ້ແມ່ນການແກ້ໄຂພຽງແຕ່ເປັນໄປໄດ້. ການຂະຫຍາຍຕົວບໍ່ມີຂອບເຂດນີ້ແມ່ນບໍ່ເສຍຄ່າ, ຢ່າງໃດກໍຕາມ. ການກໍ່ສ້າງຮູບແບບການຮຽນແບບເຄື່ອງຈັກທີ່ສາມາດຜະລິດແບບຈໍາແນກຂອງມະນຸດແມ່ນບັນຫາຍາກ, ແຕ່ໂຊກດີມີປຶ້ມທີ່ດີເລີດສໍາລັບຫົວຂໍ້ນີ້ (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo ເປັນຕົວຢ່າງທີ່ດີກ່ຽວກັບວິທີການຄິດໄລ່ການຄິດໄລ່ຂອງມະນຸດຫຼາຍຂື້ນ. ຫນ້າທໍາອິດ, ນັກຄົ້ນຄວ້າໄດ້ພະຍາຍາມໂຄງການໂດຍຕົນເອງຫຼືກັບທີມງານຊ່ວຍເຫຼືອດ້ານວິຊາການຂະຫນາດນ້ອຍ (ຕົວຢ່າງ, ຄວາມພະຍາຍາມໃນການຈັດປະເພດເບື້ອງຕົ້ນຂອງ Schawinski). ຖ້າວິທີນີ້ບໍ່ໄດ້ມາດຕະຖານດີ, ນັກຄົ້ນຄວ້າສາມາດຍ້າຍໄປຫາໂຄງການຄອມພິວເຕີ້ຂອງມະນຸດໂດຍມີຜູ້ເຂົ້າຮ່ວມຈໍານວນຫຼາຍ. ແຕ່ສໍາລັບປະລິມານຂໍ້ມູນທີ່ແນ່ນອນ, ຄວາມພະຍາຍາມຢ່າງແທ້ຈິງຂອງມະນຸດຈະບໍ່ພຽງພໍ. ໃນສະຖານທີ່ນັ້ນ, ນັກຄົ້ນຄວ້າຈໍາເປັນຕ້ອງສ້າງລະບົບການຄໍານວນຂອງມະນຸດທີ່ຊ່ວຍໃຫ້ຄອມພິວເຕີຊ່ວຍໃນການຝຶກອົບຮົມຮູບແບບການຮຽນເຄື່ອງເຊິ່ງສາມາດໃຊ້ໄດ້ກັບຂໍ້ມູນຈໍານວນທີ່ບໍ່ຈໍາກັດ.