5.2.1 Zoo Galaxy

ການແປພາສານີ້ໄດ້ສ້າງຕັ້ງຂື້ນໂດຍຄອມພິວເຕີ. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

5.2.1 Zoo Galaxy

Zoo Galaxy ລວມຄວາມພະຍາຍາມຂອງອາສາສະຫມັກທີ່ບໍ່ແມ່ນຜູ້ຊ່ຽວຊານຈໍານວນຫຼາຍໃນການຈັດແບ່ງປະເພດລ້ານ galaxies.

Zoo Galaxy ຂະຫຍາຍຕົວອອກຂອງບັນຫາໄດ້ປະເຊີນຫນ້າໂດຍ Kevin Schawinski, ເປັນນັກສຶກສາຈົບການສຶກສາໃນດາລາສາດຢູ່ວິທະຍາໄລ Oxford ໃນປີ 2007 ງ່າຍທີ່ຂ້ອນຂ້າງນ້ອຍ, Schawinski ມີຄວາມສົນໃຈໃນ galaxies, ແລະ galaxies ສາມາດໄດ້ຮັບການຈັດປະເພດໂດຍພວກເຂົາຕົວ, ແຜ່ນໃບຮູບຮີຫຼືກ້ຽວວຽນແລະ ໂດຍສີຟ້າ, ສີຟ້າຫຼືສີແດງຂອງເຂົາເຈົ້າ. ໃນເວລານັ້ນ, ສະຕິປັນຍາສົນທິສັນຍາໃນບັນດານັກດາລາສາດແມ່ນວ່າ galaxies ກ້ຽວວຽນ, ເຊັ່ນ: ທາງຊ້າງເຜືອກຂອງພວກເຮົາ, ແມ່ນສີຟ້າໃນສີ (ເຍົາວະຊົນສະແດງໃຫ້ເຫັນ) ແລະທີ່ galaxies ຮູບໄຂ່ໄດ້ສີແດງສີ (ສະແດງໃຫ້ເຫັນອາຍຸສູງສຸດອາຍຸ). Schawinski ສົງໄສສະຕິປັນຍາສົນທິສັນຍານີ້. ເຂົາສົງໃສວ່າໃນຂະນະທີ່ຮູບແບບນີ້ອາດຈະເປັນຄວາມຈິງໂດຍທົ່ວໄປ, ມີອາດຈະເປັນຈໍານວນຂະຫນາດໃຫຍ່ຂອງຂໍ້ຍົກເວັ້ນ, ແລະວ່າໂດຍການສຶກສາຈໍານວນຫລາຍຂອງ galaxies, ຜິດປົກກະຕິເຫຼົ່ານີ້ບໍ່ວ່າບໍ່ເຫມາະທີ່ຄາດວ່າຈະຮູບແບບທີ່ທ່ານສາມາດຮຽນຮູ້ບາງສິ່ງບາງຢ່າງກ່ຽວກັບຂັ້ນຕອນໃນການທີ່ galaxies ສ້າງຕັ້ງຂຶ້ນ.

ດັ່ງນັ້ນ, ສິ່ງທີ່ Schawinski ຈໍາເປັນໃນຄໍາສັ່ງທີ່ຈະຄວ່ໍາສະຕິປັນຍາສົນທິສັນຍານີ້ແມ່ນເປັນທີ່ກໍານົດໄວ້ຂະຫນາດໃຫຍ່ຂອງ galaxies ຈັດຊະນິດ; ວ່າແມ່ນ, galaxies ທີ່ໄດ້ຖືກຈັດປະເພດເປັນທັງຈັບກ້ຽວວຽນຫຼືຮູບໄຂ່. ບັນຫາ, ຢ່າງໃດກໍຕາມ, ແມ່ນວ່າທີ່ມີຢູ່ແລ້ວວິທີການສູດການຄິດໄລ່ສໍາລັບການຈັດປະເພດຍັງບໍ່ທັນດີພໍທີ່ຈະໄດ້ຮັບການນໍາໃຊ້ສໍາລັບການຄົ້ນຄວ້າວິທະຍາສາດ; ໃນຄໍາສັບຕ່າງໆອື່ນໆ, galaxies ການຈັດປະເພດນີ້ແມ່ນ, ໃນເວລາທີ່, ບັນຫາທີ່ເປັນການຍາກສໍາລັບການຄອມພິວເຕີ. ເພາະສະນັ້ນ, ສິ່ງທີ່ຕ້ອງການເປັນຈໍານວນຂະຫນາດໃຫຍ່ຂອງ galaxies ຈັດຂອງມະນຸດ. Schawinski undertook ບັນຫາປະເພດນີ້ມີຕືລືລົ້ນຂອງນັກຮຽນຈົບການສຶກສາໄດ້. ໃນກອງປະຊຸມມາລາທອນຂອງເຈັດ, ວັນ 12 ຊົ່ວໂມງ, ທ່ານສາມາດຈັດແບ່ງປະເພດ 50,000 galaxies. ໃນຂະນະທີ່ 50,000 galaxies ອາດຈະສຽງຄ້າຍຄືຫຼາຍ, ມັນເປັນຕົວຈິງພຽງແຕ່ປະມານ 5% ຂອງເກືອບຫນຶ່ງລ້ານ galaxies ທີ່ໄດ້ຮັບການຖ່າຍຮູບໃນການສໍາຫຼວດ Sky Sloan Digital. Schawinski ຮູ້ວ່າເຂົາຕ້ອງມີວິທີການສາມາດຂະຫຍາຍຫຼາຍ.

Fortunately, ມັນ turns ໃຫ້ເຫັນວ່າວຽກງານຂອງ galaxies ການຈັດປະເພດທີ່ບໍ່ໄດ້ຮຽກຮ້ອງໃຫ້ມີການຝຶກອົບຮົມແບບພິເສດໃນດາລາສາດ; ທ່ານສາມາດສອນຄົນທີ່ຈະເຮັດ pretty ຢ່າງວ່ອງໄວ. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ເຖິງແມ່ນວ່າການຈັດປະເພດ galaxies ແມ່ນວຽກງານທີ່ຍາກຫຼາຍສໍາລັບຄອມພິວເຕີ, ມັນແມ່ນການ pretty ງ່າຍສໍາລັບມະນຸດ. ດັ່ງນັ້ນ, ໃນຂະນະທີ່ນັ່ງຢູ່ໃນ pub ໃນ Oxford, Schawinski ແລະອື່ນໆນັກດາລາສາດ Chris Lintott ຝັນຢາກເວັບໄຊທ໌ທີ່ອາສາສະຫມັກຈະຈັດຮູບພາບຂອງ galaxies ໄດ້. A ບໍ່ເທົ່າໃດເດືອນຕໍ່ມາ, ສວນສັດ Galaxy ໄດ້ເກີດມາ.

ຢູ່ໃນເວັບໄຊທ໌ Zoo Galaxy, ອາສາສະຫມັກຈະ undergo ເປັນການບໍ່ພໍເທົ່າໃດນາທີຂອງການຝຶກອົບຮົມ; ສໍາລັບການຍົກຕົວຢ່າງ, ການຮຽນຮູ້ຄວາມແຕກຕ່າງກັນລະຫວ່າງເປັນກ້ຽວວຽນແລະ galaxy ແຜ່ນໃບຮູບຮີ (ຮູບສະແດງທີ 52) ໄດ້. ຫຼັງຈາກການຝຶກອົບຮົມນີ້, ອາສາສະຫມັກຕ້ອງໄດ້ຜ່ານການຂ້ອນຂ້າງງ່າຍທີ່ຕອບຄໍາຖາມ, ໄປການຈັດປະເພດ 11 ຂອງ 15 galaxies ກັບເປັນທີ່ຮູ້ຈັກຈໍາແນກປະເພດແລະຫຼັງຈາກນັ້ນອາສາສະຫມັກທີ່ຈະເລີ່ມຕົ້ນການຈັດປະເພດທີ່ແທ້ຈິງຂອງ galaxies ທີ່ຮູ້ຈັກໂດຍຜ່ານການໂຕ້ຕອບເວັບໄຊຕ໌ແບບງ່າຍດາຍ (ຮູບສະແດງ 53). ຫັນປ່ຽນຈາກການອາສາສະຫມັກນັກດາລາສາດຈະໃຊ້ເວລາສະຖານທີ່ໃນຫນ້ອຍກ່ວາ 10 ນາທີແລະພຽງແຕ່ຕ້ອງການທີ່ຜ່ານການຕ່ໍາສຸດຂອງອຸປະສັກ, ຜູ້ຕອບຄໍາຖາມທີ່ງ່າຍດາຍ.

ຮູບ 5.2: ຕົວຢ່າງຂອງທັງສອງປະເພດຕົ້ນຕໍຂອງ galaxies: ກ້ຽວວຽນແລະແຜ່ນໃບຮູບຮີ. ໂຄງການ Zoo Galaxy ນໍາໃຊ້ຫຼາຍກ່ວາ 100,000 ອາສາສະຫມັກປະເພດຫຼາຍກ່ວາ 900.000 ຮູບພາບ. ແຫຼ່ງຂໍ້ມູນ: www.galaxyzoo.org .

ຕົວເລກ 53: ຫນ້າຈໍ Input ບ່ອນທີ່ຜູ້ລົງຄະແນນໄດ້ຮັບການຮ້ອງຂໍໃຫ້ຈັດແບ່ງປະເພດຮູບພາບທີ່ດຽວ. ແຫຼ່ງຂໍ້ມູນ: www.galaxyzoo.org .

Zoo Galaxy ດຶງດູດການອາສາສະຫມັກໃນເບື້ອງຕົ້ນຂອງຕົນຫຼັງຈາກໂຄງການດັ່ງກ່າວເຂົ້າຮ່ວມໃນບົດຄວາມຂ່າວ, ແລະໃນປະມານຫົກເດືອນໂຄງການຂະຫຍາຍຕົວມີສ່ວນຮ່ວມຫຼາຍກ່ວາ 100,000 ວິທະຍາສາດພົນລະເມືອງ, ປະຊາຊົນຜູ້ທີ່ເຂົ້າຮ່ວມເນື່ອງຈາກວ່າພວກເຂົາເຈົ້າມັກວຽກງານແລະພວກເຂົາເຈົ້າຕ້ອງການທີ່ຈະຊ່ວຍໃຫ້ດາລາສາດລ່ວງຫນ້າ. ຮ່ວມກັນ, ເຫຼົ່ານີ້ 100,000 ອາສາສະຫມັກປະກອບສ່ວນທັງຫມົດຫຼາຍກ່ວາ 40 ລ້ານປະເພດ, ສ່ວນໃຫຍ່ຂອງການຈັດປະເພດມາຈາກທີ່ຂ້ອນຂ້າງມີຂະຫນາດນ້ອຍ, ກຸ່ມຂອງຜູ້ເຂົ້າຮ່ວມ (Lintott et al. 2008) .

ນັກຄົ້ນຄວ້າທີ່ມີປະສົບການວ່າຈ້າງຜູ້ຊ່ວຍການຄົ້ນຄວ້າປະລິນຍາຕີທັນທີອາດຈະບໍ່ຄ່ອຍເຊື່ອງ່າຍໆກ່ຽວກັບຄຸນນະພາບຂໍ້ມູນ. ໃນຂະນະທີ່ບໍ່ຄ່ອຍເຊື່ອງ່າຍໆນີ້ແມ່ນສົມເຫດສົມຜົນ, Zoo Galaxy ແດງໃຫ້ເຫັນວ່າໃນເວລາທີ່ການປະກອບສ່ວນອາສາສະຫມັກແມ່ນອະນາໄມຢ່າງຖືກຕ້ອງ, debiased, ແລະລວມ, ພວກເຂົາເຈົ້າສາມາດຜະລິດຜົນໄດ້ຮັບຄຸນນະພາບສູງ (Lintott et al. 2008) . ເປັນ trick ສໍາຄັນສໍາລັບການໄດ້ຮັບທີ່ແອອັດໃນການສ້າງຂໍ້ມູນຄຸນນະພາບມືອາຊີບແມ່ນຊ້ໍາຊ້ອນ; ວ່າແມ່ນ, ມີວຽກງານທີ່ດຽວກັນການປະຕິບັດໂດຍປະຊາຊົນທີ່ແຕກຕ່າງກັນຈໍານວນຫຼາຍ. ໃນ Zoo Galaxy, ມີປະມານ 40 ປະເພດຕໍ່ galaxy; ນັກຄົ້ນຄວ້າການນໍາໃຊ້ການຊ່ວຍເຫຼືອການຄົ້ນຄວ້າປະລິນຍາຕີບໍ່ສາມາດຈ່າຍລະດັບຂອງການຊ້ໍາຊ້ອນແລະເພາະສະນັ້ນຈຶ່ງຈໍາເປັນຕ້ອງມີຫຼາຍທີ່ກ່ຽວຂ້ອງກັບຄຸນນະພາບຂອງແຕ່ລະການຈັດປະເພດຂອງບຸກຄົນ. ຈະເປັນແນວໃດອາສາສະຫມັກຂາດໃນການຝຶກອົບຮົມ, ພວກເຂົາເຈົ້າໄດ້ເພີ່ມຂຶ້ນສໍາລັບການທີ່ມີຊ້ໍາຊ້ອນ.

ເຖິງແມ່ນວ່າມີປະເພດຫຼາຍຕໍ່ galaxy, ຢ່າງໃດກໍຕາມ, ສົມທົບທີ່ກໍານົດໄວ້ຂອງປະເພດອາສາສະຫມັກໃນການຜະລິດການຈັດປະເພດເອກະສັນແມ່ນ tricky. ເນື່ອງຈາກວ່າສິ່ງທ້າທາຍທີ່ຄ້າຍຄືກັນຫຼາຍເກີດຂຶ້ນໃນທີ່ສຸດໂຄງການຄອມພິວເຕີຂອງມະນຸດ, ມັນຈະເປັນການທົບທວນຄືນໄລຍະສັ້ນໆ, ໃນສາມຂັ້ນຕອນທີ່ນັກຄົ້ນຄວ້າ Zoo Galaxy ນໍາໃຊ້ເພື່ອຜະລິດຕະພັນປະເພດເປັນເອກະສັນຂອງເຂົາເຈົ້າ. ຫນ້າທໍາອິດ, ນັກຄົ້ນຄວ້າໄດ້ "ອະນາໄມ" ຂໍ້ມູນໂດຍການລົບປະເພດ bogus. ສໍາລັບການຍົກຕົວຢ່າງ, ປະຊາຊົນຜູ້ທີ່ຈັດຊ້ໍາດຽວກັນ galaxy ບາງສິ່ງບາງຢ່າງທີ່ຈະເກີດຂຶ້ນຖ້າຫາກວ່າພວກເຂົາເຈົ້າໄດ້ພະຍາຍາມເພື່ອຈັດການຜົນໄດ້ຮັບໄດ້ທຸກປະເພດຂອງເຂົາເຈົ້າຍົກເລີກ. ນີ້ແລະທໍາຄວາມສະອາດທີ່ຄ້າຍຄືກັນໂຍກຍ້າຍອອກປະມານ 4% ຂອງທຸກປະເພດ.

ຄັ້ງທີສອງ, ຫຼັງຈາກທໍາຄວາມສະອາດ, ນັກຄົ້ນຄວ້າທີ່ຈໍາເປັນທີ່ຈະເອົາອະຄະຕິລະບົບໃນການຈັດປະເພດ. ໂດຍຜ່ານໄລຍະການຂອງການສຶກສາຊອກຄົ້ນຫາອະຄະຕິຝັງຢູ່ພາຍໃນຕົວຢ່າງຂອງໂຄງການສໍາລັບຕົ້ນສະບັບ, ສະແດງໃຫ້ເຫັນອາສາສະຫມັກຈໍານວນຫນຶ່ງ galaxy ໃນ monochrome ແທນທີ່ຈະເປັນສີ, ນັກຄົ້ນຄວ້າໄດ້ຄົ້ນພົບຄວາມລໍາອຽງລະບົບຫຼາຍ, ເຊັ່ນ: ເປັນອະຄະຕິລະບົບການຈັດແບ່ງປະເພດ galaxies ຫ່າງໄກກ້ຽວວຽນເປັນ galaxies ແຜ່ນໃບຮູບຮີ (Bamford et al. 2009) . ດັດປັບສໍາລັບຄວາມລໍາອຽງລະບົບເຫຼົ່ານີ້ເປັນສິ່ງສໍາຄັນທີ່ສຸດເພາະວ່າສະເລ່ຍການປະກອບສ່ວນຈໍານວນຫຼາຍບໍ່ໄດ້ເອົາອະຄະຕິລະບົບ; ມັນພຽງແຕ່ removes ຜິດພາດໄປ.

ສຸດທ້າຍ, ຫຼັງຈາກ debiasing, ນັກຄົ້ນຄວ້າທີ່ຕ້ອງການວິທີການສົມທົບການປະເພດຂອງບຸກຄົນໃນການຜະລິດການຈັດປະເພດເປັນເອກະສັນໄດ້. ວິທີທີ່ງ່າຍທີ່ຈະສົມທົບການປະເພດສໍາລັບການໃນແຕ່ລະ galaxy ຈະເປັນທີ່ຈະເລືອກເອົາການຈັດປະເພດທົ່ວໄປທີ່ສຸດ. ຢ່າງໃດກໍຕາມ, ວິທີການນີ້ຈະເຮັດໃຫ້ແຕ່ລະຄົນອາສາສະຫມັກນ້ໍາເທົ່າທຽມກັນ, ແລະນັກຄົ້ນຄວ້າໄດ້ສົງໃສວ່າເປັນອາສາສະຫມັກບາງຄົນທີ່ດີກວ່າໃນການຈັດປະເພດກ່ວາຄົນອື່ນ. ເພາະສະນັ້ນ, ນັກຄົ້ນຄວ້າການພັດທະນາສະລັບສັບຊ້ອນຫຼາຍຂັ້ນຕອນການນ້ໍາຊ້ໍາວ່າຄວາມພະຍາຍາມໃນການກວດສອບຕົວແຍກປະເພດທີ່ດີທີ່ສຸດອັດຕະໂນມັດແລະໃຫ້ພວກເຂົານ້ໍາຫຼາຍ.

ດັ່ງນັ້ນ, ຫຼັງຈາກສາມຂັ້ນຕອນຂະບວນການທໍາຄວາມສະອາດ, debiasing, ແລະນ້ໍາທີມງານວິໄຈ Zoo Galaxy ໄດ້ປ່ຽນໃຈເຫລື້ອມໃສຈໍານວນ 40 ລ້ານປະເພດອາສາສະຫມັກເຂົ້າໄປໃນທີ່ກໍານົດໄວ້ຂອງເອກະສັນຈັດປະເພດ morphological ເປັນ. ໃນເວລາທີ່ເຫຼົ່ານີ້ປະເພດ Zoo Galaxy ຖືກເມື່ອທຽບກັບສາມແລ້ວຄວາມພະຍາຍາມຂະຫນາດນ້ອຍ, ຂະຫນາດໂດຍນັກດາລາສາດເປັນມືອາຊີບ, ລວມທັງການຈັດປະເພດໂດຍ Schawinski ທີ່ຊ່ວຍໃນການດົນໃຈ Zoo Galaxy, ມີຂໍ້ຕົກລົງທີ່ເຂັ້ມແຂງ. ດັ່ງນັ້ນ, ອາສາສະຫມັກ, ໃນລວມ, ແມ່ນສາມາດໃຫ້ການຈັດປະເພດຄຸນນະພາບສູງແລະໃນລະດັບທີ່ນັກຄົ້ນຄວ້າໄດ້ບໍ່ສາມາດມີຄໍາວ່າ (Lintott et al. 2008) . ໃນຄວາມເປັນຈິງ, ໂດຍມີການຈັດປະເພດຂອງມະນຸດສໍາລັບການດັ່ງກ່າວເປັນຈໍານວນຂະຫນາດໃຫຍ່ຂອງ galaxies, Schawinski, Lintott, ແລະຄົນອື່ນໄດ້ສາມາດທີ່ຈະສະແດງໃຫ້ເຫັນວ່າມີພຽງແຕ່ກ່ຽວກັບການ 80% ຂອງກາແລກຊີປະຕິບັດຕາມການຄາດຄະເນກ້ຽວວຽນຮູບແບບ, ສີຟ້າແລະ ellipticals ແລະສີແດງເອກະສານຈໍານວນຫລາຍໄດ້ຮັບການລາຍລັກອັກສອນກ່ຽວກັບ ການຄົ້ນພົບນີ້ (Fortson et al. 2011) .

ໄດ້ຮັບຄວາມເປັນມານີ້, ພວກເຮົາໃນປັດຈຸບັນສາມາດເບິ່ງວິທີການ Zoo Galaxy ດັ່ງຕໍ່ໄປນີ້ການແບ່ງປັນສະຫມັກ, ສົມທົບ. ສູດ, ສູດດຽວກັນທີ່ຖືກນໍາໃຊ້ສໍາລັບທີ່ສຸດໂຄງການຄອມພິວເຕີຂອງມະນຸດ ຫນ້າທໍາອິດ, ເປັນບັນຫາໃຫຍ່ແມ່ນການແບ່ງປັນເຂົ້າໄປໃນ chunks. ໃນກໍລະນີນີ້, ບັນຫາຂອງການຈັດປະເພດເປັນລ້ານ galaxies ໄດ້ຖືກແບ່ງອອກເປັນລ້ານບັນຫາຂອງການຈັດປະເພດຫນຶ່ງ galaxy. ຕໍ່ໄປ, ການດໍາເນີນງານແມ່ນໄດ້ນໍາໃຊ້ກັບແຕ່ລະ chunk ເປັນອິດສະຫຼະ. ໃນກໍລະນີນີ້, ເປັນອາສາສະຫມັກຈະຈັດແບ່ງປະເພດແຕ່ລະ galaxy ເປັນທັງຈັບກ້ຽວວຽນຫຼືຮູບໄຂ່. ສຸດທ້າຍ, ຜົນໄດ້ຮັບແມ່ນການອະນຸຍາດໃນການຜະລິດຜົນເປັນເອກະພາບ. ໃນກໍລະນີນີ້, ຂັ້ນຕອນສົມທົບລວມມີການທໍາຄວາມສະອາດ, debiasing, ແລະນ້ໍາການຜະລິດການຈັດປະເພດເປັນເອກະສັນສໍາລັບການໃນແຕ່ລະ galaxy. ເຖິງແມ່ນວ່າໂຄງການທີ່ນໍາໃຊ້ນີ້ສູດທົ່ວໄປ, ແຕ່ລະຂັ້ນຕອນທີ່ຕ້ອງການຂອງລູກຄ້າເພື່ອແກ້ໄຂບັນຫາສະເພາະໃດຫນຶ່ງຈະຖືກແກ້ໄຂ. ສໍາລັບການຍົກຕົວຢ່າງ, ໃນໂຄງການຄອມພິວເຕີຂອງມະນຸດທີ່ອະທິບາຍຂ້າງລຸ່ມນີ້, ການສູດດຽວກັນຈະໄດ້ຮັບການປະຕິບັດຕາມ, ແຕ່ນໍາໃຊ້ແລະສົມທົບການຂັ້ນຕອນຈະແຕກຕ່າງກັນ.

ສໍາລັບທີມງານ Zoo Galaxy, ໂຄງການທໍາອິດນີ້ແມ່ນພຽງແຕ່ການເລີ່ມຕົ້ນ. ຫຼາຍຢ່າງວ່ອງໄວພວກເຂົາຮູ້ວ່າເຖິງແມ່ນວ່າພວກເຂົາສາມາດຈັດແບ່ງປະເພດໃກ້ຊິດກັບເປັນລ້ານ galaxies, ຂະຫນາດນີ້ແມ່ນບໍ່ພຽງພໍທີ່ຈະເຮັດວຽກຮ່ວມກັບໃຫມ່ສໍາຫຼວດເຄົ້າດິຈິຕອນ, ຊຶ່ງຈະສາມາດຜະລິດຮູບພາບຂອງປະມານ 10 ຕື້ galaxies (Kuminski et al. 2014) . ການຈັດການການເພີ່ມຂຶ້ນຈາກ 1 ລ້ານກັບ 10 ພັນລ້ານເປັນປັດໄຈຂອງ 10,000 Galaxy Zoo ຈະຕ້ອງໄດ້ທົດແທນຜູ້ເຂົ້າຮ່ວມປະມານ 10,000 ເວລາຫຼາຍ. ເຖິງແມ່ນວ່າຈໍານວນຂອງອາສາສະຫມັກໃນອິນເຕີເນັດມີຂະຫນາດໃຫຍ່, ມັນບໍ່ແມ່ນເປັນນິດ. ເພາະສະນັ້ນ, ນັກຄົ້ນຄວ້າໄດ້ຮູ້ວ່າຖ້າຫາກວ່າພວກເຂົາເຈົ້າຈະຈັດການຈໍານວນເງິນທີ່ຂະຫຍາຍຕົວຂອງຂໍ້ມູນ, ໃຫມ່, ເຖິງແມ່ນວ່າສາມາດຂະຫຍາຍຫຼາຍ, ວິທີການທີ່ຈໍາເປັນ.

ເພາະສະນັ້ນ, Manda Banerji ໃນການເຮັດວຽກກັບ Kevin Schawinski, Chris Lintott, ແລະສະມາຊິກອື່ນໆຂອງ Zoo Galaxy ທີມງານເລີ່ມຕົ້ນຄອມພິວເຕີການສອນເພື່ອຈັດແບ່ງປະເພດ galaxies. ຫຼາຍໂດຍສະເພາະ, ການນໍາໃຊ້ການຈັດປະເພດຂອງມະນຸດສ້າງຂຶ້ນໂດຍ Zoo Galaxy, Banerji et al. (2010) ການກໍ່ສ້າງຮູບແບບການຮຽນຮູ້ເຄື່ອງທີ່ສາມາດຄາດຄະເນການຈັດປະເພດຂອງມະນຸດຂອງ galaxy ໄດ້ອີງໃສ່ລັກສະນະຂອງຮູບພາບໄດ້. ຖ້າຫາກວ່າຮູບແບບການຮຽນຮູ້ເຄື່ອງນີ້ສາມາດແຜ່ພັນໄດ້ຈໍາແນກປະເພດຂອງມະນຸດທີ່ມີຄວາມແມ່ນຍໍາສູງ, ຫຼັງຈາກນັ້ນມັນຈະສາມາດຖືກນໍາໃຊ້ໂດຍນັກຄົ້ນຄວ້າ Zoo Galaxy ເພື່ອຈັດແບ່ງປະເພດເປັນຈໍານວນ infinite ເປັນຂອງ galaxies.

ຫຼັກການຂອງ Banerji ແລະເພື່ອນຮ່ວມງານ 'ວິທີການຕົວຈິງແລ້ວແມ່ນ pretty ທີ່ຄ້າຍຄືກັນກັບເຕັກນິກການນໍາໃຊ້ທົ່ວໄປໃນການຄົ້ນຄວ້າທາງດ້ານສັງຄົມ, ເຖິງແມ່ນວ່າທີ່ຄ້າຍຄືກັນທີ່ອາດຈະບໍ່ຊັດເຈນຢູ່ glance ຄັ້ງທໍາອິດ. ຫນ້າທໍາອິດ, Banerji ແລະເພື່ອນຮ່ວມງານຂອງການປ່ຽນແປງຮູບພາບໃນແຕ່ລະເຂົ້າໄປໃນທີ່ກໍານົດໄວ້ຄຸນນະສົມບັດຈໍານວນຫລາຍທີ່ສະຫຼຸບມັນເປັນຄຸນສົມບັດເປັນ. ສໍາລັບການຍົກຕົວຢ່າງ, ສໍາລັບຮູບພາບຂອງ galaxies ອາດມີສາມລັກສະນະ: ຈໍານວນເງິນຂອງສີຟ້າໃນຮູບພາບ, ການປ່ຽນແປງໃນຄວາມສະຫວ່າງຂອງ pixels ໄດ້, ແລະອັດຕາສ່ວນຂອງ pixels ທີ່ບໍ່ແມ່ນສີຂາວ. ການຄັດເລືອກຂອງລັກສະນະທີ່ຖືກຕ້ອງແມ່ນພາກສ່ວນຫນຶ່ງທີ່ສໍາຄັນຂອງບັນຫາ, ແລະມັນໂດຍທົ່ວໄປແລ້ວຮຽກຮ້ອງໃຫ້ມີຄວາມຊໍານານ, ວິຊາ. ນີ້ຂັ້ນຕອນທໍາອິດ, ທົ່ວໄປເອີ້ນວ່າວິສະວະກໍາຄຸນນະສົມບັດ, ຜົນໄດ້ຮັບໃນຕາຕະລາງຂໍ້ມູນຫນຶ່ງຕິດຕໍ່ກັນຕໍ່ຮູບພາບແລະຫຼັງຈາກນັ້ນສາມຄໍລໍາອະທິບາຍຮູບພາບນັ້ນ. ໄດ້ຮັບຕາຕະລາງຂໍ້ມູນແລະຜົນຜະລິດທີ່ຕ້ອງການ (ຕົວຢ່າງ, ບໍ່ວ່າຈະເປັນຮູບພາບດັ່ງກ່າວໄດ້ຈັດຂຶ້ນໂດຍມະນຸດເປັນ galaxy ແຜ່ນໃບຮູບຮີເປັນ), ນັກຄົ້ນຄວ້າຄາດຄະເນຕົວກໍານົດການຍົກຕົວຢ່າງຕົວແບບສໍາລັບການສະຖິຕິ, ບາງສິ່ງບາງຢ່າງຄ້າຍຄື logistic regression ທີ່ຄາດການຈັດປະເພດຂອງມະນຸດທີ່ ກ່ຽວກັບລັກສະນະຂອງຮູບພາບໄດ້. ສຸດທ້າຍ, ນັກຄົ້ນຄວ້າການນໍາໃຊ້ຕົວກໍານົດການໃນຮູບແບບທາງສະຖິຕິໃນການຜະລິດປະເພດຄາດຄະເນຂອງ galaxies ໃຫມ່ (ຮູບ 54). ຄິດວ່າເປັນການປຽບທຽບທາງດ້ານສັງຄົມ, ຈິນຕະນາການວ່າທ່ານມີຂໍ້ມູນຂອງພົນລະເມືອງປະມານລ້ານນັກສຶກສາ, ແລະທ່ານຈະຮູ້ວ່າພວກເຂົາເຈົ້າຈົບການສຶກສາຈາກວິທະຍາໄລຫຼືບໍ່. ທ່ານຈະສາມາດເຫມາະ regression logistic ຕາມຂໍ້ມູນນີ້, ແລະຫຼັງຈາກນັ້ນທ່ານສາມາດນໍາໃຊ້ຕົວກໍານົດຮູບແບບທີ່ໄດ້ຮັບການຄາດຄະເນບໍ່ວ່າຈະເປັນນັກສຶກສາໃຫມ່ຈະຈົບການສຶກສາຈາກວິທະຍາໄລ. ໃນການຮຽນຮູ້ເຄື່ອງ, ວິທີການ, ການນໍາໃຊ້ນີ້ຕົວຢ່າງການຕິດສະຫຼາກທີ່ຈະສ້າງເປັນຕົວແບບທາງສະຖິຕິທີ່ຫຼັງຈາກນັ້ນສາມາດຕິດປ້າຍໃຫມ່ຂໍ້ມູນໄດ້ຖືກເອີ້ນວ່າແລການຮຽນຮູ້ (Hastie, Tibshirani, and Friedman 2009) .

ຕົວເລກ 54: ລາຍລະອຽດດັ້ງເດີມຂອງວິທີການ Banerji et al. (2010) ການນໍາໃຊ້ການຈັດປະເພດ Zoo Galaxy ການຝຶກອົບຮົມຮູບແບບການຮຽນຮູ້ເຄື່ອງທີ່ຈະເຮັດໃຫ້ການຈັດປະເພດ galaxy. ຮູບພາບຂອງ galaxies ປ່ຽນໃຈເຫລື້ອມໃສໃນຕາຕະລາງຂອງລັກສະນະເປັນ. ໃນຕົວຢ່າງງ່າຍດາຍນີ້ມີສາມລັກສະນະ (ຈໍານວນເງິນຂອງສີຟ້າໃນຮູບພາບ, ການປ່ຽນແປງໃນຄວາມສະຫວ່າງຂອງ pixels ໄດ້, ແລະອັດຕາສ່ວນຂອງ pixels ທີ່ບໍ່ແມ່ນສີຂາວ). ຫຼັງຈາກນັ້ນ, ສໍາລັບການຍ່ອຍຂອງຮູບພາບໄດ້, ປ້າຍ Zoo Galaxy ໄດ້ຖືກນໍາໃຊ້ການຝຶກອົບຮົມຮູບແບບການຮຽນຮູ້ເຄື່ອງ. ສຸດທ້າຍ, ການຮຽນຮູ້ເຄື່ອງໄດ້ຖືກນໍາໃຊ້ເພື່ອປະເມີນປະເພດສໍາລັບການ galaxies ທີ່ຍັງເຫຼືອ. ຂ້າພະເຈົ້າໂທຫາປະເພດຂອງໂຄງການນີ້ເປັນການຜະລິດຄັ້ງທີສອງ, ໂຄງການຄອມພິວເຕີຂອງມະນຸດເນື່ອງຈາກວ່າ, ແທນທີ່ຈະກ່ວາມີມະນຸດແກ້ໄຂບັນຫາ, ພວກເຂົາເຈົ້າມີມະນຸດການກໍ່ສ້າງຊຸດຂໍ້ມູນທີ່ສາມາດຖືກນໍາໃຊ້ເພື່ອການຝຶກອົບຮົມຄອມພິວເຕີກັບການແກ້ໄຂບັນຫາໄດ້. ປະໂຫຍດຂອງວິທີການຄອມພິວເຕີ, ການຊ່ວຍເຫຼືອນີ້ແມ່ນວ່າມັນເຮັດໃຫ້ທ່ານໃນການຈັດການປະລິມານອັນເປັນນິດທີ່ສໍາຄັນຂອງຂໍ້ມູນການນໍາໃຊ້ພຽງແຕ່ຈໍານວນຈໍາກັດຂອງຄວາມພະຍາຍາມຂອງມະນຸດ.

ຄຸນນະສົມບັດໃນ Banerji et al. (2010) ຮູບແບບການຮຽນຮູ້ເຄື່ອງມີຄວາມສັບສົນຫຼາຍກ່ວາຜູ້ທີ່ຢູ່ໃນ toy ຂອງຂ້າພະເຈົ້າຍົກຕົວຢ່າງ, ສໍາລັບການຍົກຕົວຢ່າງ, ນາງໄດ້ນໍາໃຊ້ຄຸນສົມບັດເຊັ່ນ "de Vaucouleurs ເຫມາະອັດຕາສ່ວນແກນ" ແລະແບູ່ງອອກແບບຂອງນາງບໍ່ regression logistic, ມັນແມ່ນການເປັນເຄືອຂ່າຍ neural ປອມ. ການນໍາໃຊ້ຄຸນນະສົມບັດຂອງນາງ, ຮູບແບບຂອງນາງ, ແລະເປັນເອກະສັນຈັດປະເພດ Zoo Galaxy, ນາງສາມາດສ້າງນ້ໍາກ່ຽວກັບຄຸນນະສົມບັດແຕ່ລະຄົນ, ແລະຫຼັງຈາກນັ້ນການນໍາໃຊ້ນ້ໍາເຫຼົ່ານີ້ເພື່ອເຮັດໃຫ້ການຄາດຄະເນກ່ຽວກັບການຈັດປະເພດຂອງ galaxies ໄດ້. ສໍາລັບການຍົກຕົວຢ່າງ, ການວິເຄາະຂອງນາງໄດ້ພົບເຫັນວ່າຮູບພາບທີ່ມີຕ່ໍາ "de Vaucouleurs ເຫມາະອັດຕາສ່ວນແກນ" ມີແນວໂນ້ມທີ່ຈະ galaxies ກ້ຽວວຽນ. ໄດ້ຮັບນ້ໍາເຫຼົ່ານີ້, ນາງສາມາດທີ່ຈະຄາດຄະເນການຈັດປະເພດຂອງມະນຸດຂອງ galaxy ທີ່ມີຄວາມຖືກຕ້ອງສົມເຫດສົມຜົນ.

ການເຮັດວຽກຂອງ Banerji et al. (2010) ໄດ້ຫັນ Zoo Galaxy ເຂົ້າໄປໃນສິ່ງທີ່ຂ້າພະເຈົ້າຈະໂທຫາເປັນການຜະລິດຄັ້ງທີສອງ, ລະບົບຄອມພິວເຕີຂອງມະນຸດ. ວິທີການທີ່ດີທີ່ສຸດທີ່ຈະຄິດກ່ຽວກັບລະບົບການຜະລິດຄັ້ງທີສອງ, ນີ້ແມ່ນວ່າແທນທີ່ຈະກ່ວາມີມະນຸດແກ້ໄຂບັນຫາ, ພວກເຂົາເຈົ້າມີມະນຸດການກໍ່ສ້າງຊຸດຂໍ້ມູນທີ່ສາມາດຖືກນໍາໃຊ້ເພື່ອການຝຶກອົບຮົມຄອມພິວເຕີກັບການແກ້ໄຂບັນຫາໄດ້. ຈໍານວນເງິນຂອງຂໍ້ມູນທີ່ຈໍາເປັນເພື່ອການຝຶກອົບຮົມຄອມພິວເຕີທີ່ສາມາດຂະຫນາດໃຫຍ່ດັ່ງນັ້ນມັນຮຽກຮ້ອງໃຫ້ມີການຮ່ວມມືມະຫາຊົນຂອງມະນຸດທີ່ຈະສ້າງ. ໃນກໍລະນີຂອງ Zoo Galaxy, ເຄືອຂ່າຍ neural ນໍາໃຊ້ໂດຍ Banerji et al. (2010) ທີ່ກໍານົດໄວ້ຈໍານວນຂະຫນາດໃຫຍ່ທີ່ສຸດຂອງຕົວຢ່າງຂອງມະນຸດ, ການຕິດສະຫຼາກໃນຄໍາສັ່ງທີ່ຈະສ້າງເປັນຕົວແບບທີ່ສາມາດເຊື່ອຖືໄດ້ມີການແຜ່ພັນການຈັດປະເພດຂອງມະນຸດ.

ປະໂຫຍດຂອງວິທີການຄອມພິວເຕີ, ການຊ່ວຍເຫຼືອນີ້ແມ່ນວ່າມັນເຮັດໃຫ້ທ່ານໃນການຈັດການປະລິມານອັນເປັນນິດທີ່ສໍາຄັນຂອງຂໍ້ມູນການນໍາໃຊ້ພຽງແຕ່ຈໍານວນຈໍາກັດຂອງຄວາມພະຍາຍາມຂອງມະນຸດ. ສໍາລັບການຍົກຕົວຢ່າງ, ເປັນນັກຄົ້ນຄວ້າທີ່ມີລ້ານ galaxies ຈັດຂອງມະນຸດສາມາດສ້າງເປັນຕົວແບບຄາດຄະເນວ່າຫຼັງຈາກນັ້ນສາມາດຖືກນໍາໃຊ້ເພື່ອຈັດແບ່ງປະເພດຕື້ຫຼືແມ້ກະທັ້ງພັນຕື້ galaxies. ຖ້າຫາກວ່າມີຈໍານວນ enormous ຂອງ galaxies, ຫຼັງຈາກນັ້ນປະເພດຂອງການປະສົມຂອງມະນຸດຄອມພິວເຕີນີ້ເປັນຈິງການແກ້ໄຂທີ່ເປັນໄປໄດ້ພຽງແຕ່. ນີ້ scalability ນິດບໍ່ແມ່ນຟຣີ, ຢ່າງໃດກໍຕາມ. ການກໍ່ສ້າງຮູບແບບການຮຽນຮູ້ເຄື່ອງທີ່ຖືກຕ້ອງສາມາດມີການແຜ່ພັນການຈັດປະເພດຂອງມະນຸດແມ່ນຕົວມັນເອງເປັນບັນຫາທີ່ຫຍຸ້ງຍາກ, ແຕ່ໂຊກດີບໍ່ມີແລ້ວຫນັງສືທີ່ດີເລີດອຸທິດຕົນເພື່ອກະທູ້ນີ້ (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Zoo Galaxy ສະແດງໃຫ້ເຫັນວິວັດທະນາຂອງຈໍານວນຫຼາຍໂຄງການຄອມພິວເຕີຂອງມະນຸດ. ຫນ້າທໍາອິດ, ເປັນນັກຄົ້ນຄວ້າພະຍາຍາມໂຄງການໂດຍຕົນເອງຫຼືມີທີມງານຂະຫນາດນ້ອຍຂອງຜູ້ຊ່ວຍພາກສະ (ຕົວຢ່າງ, ຄວາມພະຍາຍາມຈັດປະເພດ Schawinski ຂອງເບື້ອງຕົ້ນ). ຖ້າຫາກວ່າວິທີການນີ້ບໍ່ໄດ້ຂະຫຍາຍການດີ, ນັກຄົ້ນຄວ້າສາມາດຍ້າຍອອກໄປໃນໂຄງການຄອມພິວເຕີຂອງມະນຸດທີ່ຫຼາຍປະຊາຊົນປະກອບສ່ວນການຈັດປະເພດ. ແຕ່ວ່າ, ສໍາລັບປະລິມານທີ່ແນ່ນອນຂອງຂໍ້ມູນ, ຄວາມພະຍາຍາມຂອງມະນຸດບໍລິສຸດຈະບໍ່ພຽງພໍ. ໃນຈຸດທີ່, ນັກຄົ້ນຄວ້າຈໍາເປັນຕ້ອງສ້າງລະບົບການຜະລິດຄັ້ງທີສອງ, ບ່ອນທີ່ການຈັດປະເພດຂອງມະນຸດໄດ້ຖືກນໍາໃຊ້ການຝຶກອົບຮົມຮູບແບບການຮຽນຮູ້ເຄື່ອງທີ່ສາມາດຫຼັງຈາກນັ້ນຈະໄດ້ຮັບການນໍາໃຊ້ກັບປະລິມານບໍ່ຈໍາກັດ virtually ຂອງຂໍ້ມູນ.