6.6.2 ຄວາມເຂົ້າໃຈແລະການຄຸ້ມຄອງຄວາມສ່ຽງຕໍ່ການຂໍ້ມູນຂ່າວສານ

ການແປພາສານີ້ໄດ້ສ້າງຕັ້ງຂື້ນໂດຍຄອມພິວເຕີ. ×

6.6.2 ຄວາມເຂົ້າໃຈແລະການຄຸ້ມຄອງຄວາມສ່ຽງຕໍ່ການຂໍ້ມູນຂ່າວສານ

ຄວາມສ່ຽງກ່ຽວກັບຂໍ້ມູນຂ່າວສານແມ່ນຄວາມສ່ຽງທົ່ວໄປທີ່ສຸດໃນການຄົ້ນຄວ້າສັງຄົມ; ມັນໄດ້ເພີ່ມຂຶ້ນຢ່າງຫຼວງຫຼາຍ; ແລະມັນແມ່ນຄວາມສ່ຽງທີ່ສຸດທີ່ຈະເຂົ້າໃຈ.

ສິ່ງທ້າທາຍດ້ານຈັນຍາບັນທີສອງສໍາລັບການຄົ້ນຄວ້າວິທະຍາສາດອາຍຸສູງສຸດແມ່ນ ຄວາມສ່ຽງດ້ານຂໍ້ມູນຂ່າວສານ , ຄວາມເປັນອັນຕະລາຍຈາກການເປີດເຜີຍຂໍ້ມູນ (National Research Council 2014) . ຄວາມເສຍຫາຍທາງດ້ານຂໍ້ມູນຈາກການເຜີຍແຜ່ຂໍ້ມູນສ່ວນຕົວອາດຈະເປັນເສດຖະກິດ (ຕົວຢ່າງເຊັ່ນການສູນເສຍວຽກ), ສັງຄົມ (ເຊັ່ນ: ຄວາມອັບອາຍ), ທາງຈິດໃຈ (ເຊົ່ນການຊຶມເສົ້າ), ຫຼືແມ່ນແຕ່ຄະດີອາຍາ. ແຕ່ຫນ້າເສຍດາຍ, ອາຍຸສູງສຸດຂອງດິຈິຕອນເພີ່ມຄວາມສ່ຽງດ້ານຂໍ້ມູນຢ່າງຫຼວງຫຼາຍ, ມີພຽງຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບພຶດຕິກໍາຂອງພວກເຮົາເທົ່ານັ້ນ. ແລະຄວາມສ່ຽງດ້ານຂໍ້ມູນໄດ້ສະແດງໃຫ້ເຫັນຄວາມຫຍຸ້ງຍາກຫຼາຍທີ່ຈະເຂົ້າໃຈແລະຄຸ້ມຄອງເມື່ອທຽບກັບຄວາມສ່ຽງທີ່ມີຄວາມກັງວົນໃນການຄົ້ນຄວ້າທາງດ້ານສັງຄົມອາຍຸຄ້າຍຄືກັນເຊັ່ນຄວາມສ່ຽງທາງດ້ານຮ່າງກາຍ.

ວິທີຫນຶ່ງທີ່ນັກຄົ້ນຄວ້າທາງສັງຄົມລົດຄວາມສ່ຽງຕໍ່ຂໍ້ມູນຂ່າວສານເປັນ "ບໍລິຈາກເງິນ" ຂອງຂໍ້ມູນ. "Anonymous" ແມ່ນຂະບວນການຂອງການຖອນຕົວສ່ວນບຸກຄົນຢ່າງຈະແຈ້ງເຊັ່ນ: ຊື່, ທີ່ຢູ່, ແລະເບີໂທລະສັບຈາກຂໍ້ມູນທີ່ໄດ້. ຢ່າງໃດກໍຕາມ, ວິທີການນີ້ແມ່ນຫຼາຍປະສິດທິຜົນຫນ້ອຍກ່ວາຈໍານວນຫຼາຍປະຊາຊົນຮັບຮູ້, ແລະມັນເປັນ, ໃນຄວາມເປັນຈິງ, ເລິກແລະພື້ນຖານຈໍາກັດ. ສໍາລັບເຫດຜົນວ່າ, ທຸກຄັ້ງທີ່ຂ້າພະເຈົ້າອະທິບາຍ "ບໍລິຈາກເງິນ," ຂ້າພະເຈົ້າຈະນໍາໃຊ້ເຄື່ອງຫມາຍຄໍາເວົ້າເພື່ອເຕືອນທ່ານວ່າຂະບວນການນີ້ເປັນການສ້າງຮູບລັກສະນະຂອງການປິດບັງຊື່ແຕ່ບໍ່ປິດບັງຊື່ທີ່ແທ້ຈິງ.

ຕົວຢ່າງທີ່ຫນ້າປະທັບໃຈຂອງຄວາມລົ້ມເຫລວຂອງ "ການລະເມີດ" ແມ່ນມາຈາກທ້າຍຊຸມປີ 1990 ໃນລັດ Massachusetts (Sweeney 2002) . ຄະນະກໍາມະການປະກັນໄພກຸ່ມ (GIC) ເປັນອົງການຂອງລັດທີ່ຮັບຜິດຊອບໃນການຊື້ປະກັນສຸຂະພາບໃຫ້ແກ່ພະນັກງານຂອງລັດທັງຫມົດ. ຜ່ານການເຮັດວຽກນີ້, GIC ໄດ້ເກັບກໍາບັນທຶກສຸຂະພາບລະອຽດກ່ຽວກັບບັນດາພະນັກງານຂອງລັດຈໍານວນຫຼາຍພັນຄົນ. ໃນຄວາມພະຍາຍາມເພື່ອສົ່ງເສີມການຄົ້ນຄວ້າ, GIC ໄດ້ຕັດສິນໃຈປ່ອຍບັນທຶກເຫຼົ່ານີ້ໃຫ້ກັບນັກຄົ້ນຄວ້າ. ຢ່າງໃດກໍ່ຕາມ, ພວກເຂົາບໍ່ໄດ້ແບ່ງປັນຂໍ້ມູນທັງຫມົດຂອງພວກເຂົາ; ແທນທີ່ຈະ, ພວກເຂົາ "ລຶບລ້າງການ" ຂໍ້ມູນເຫຼົ່ານີ້ໂດຍການຖອນຂໍ້ມູນເຊັ່ນ: ຊື່ແລະທີ່ຢູ່. ຢ່າງໃດກໍ່ຕາມ, ພວກເຂົາເຈົ້າປະຖິ້ມຂໍ້ມູນອື່ນໆທີ່ພວກເຂົາຄິດວ່າມັນອາດຈະເປັນປະໂຫຍດສໍາລັບນັກຄົ້ນຄວ້າເຊັ່ນຂໍ້ມູນປະຊາກອນ (ລະຫັດໄປສະນີ, ວັນເດືອນປີເກີດ, ຊົນເຜົ່າ, ແລະເພດ) ແລະຂໍ້ມູນດ້ານການປິ່ນປົວ (ຂໍ້ມູນການກວດ, ການວິນິດໄສ, ຂັ້ນຕອນ) (ຮູບ 6.4) (Ohm 2010) . ແຕ່ຫນ້າເສຍດາຍ, "ການລະເມີດ" ນີ້ບໍ່ພຽງພໍໃນການປົກປ້ອງຂໍ້ມູນ.

ຮູບທີ 6.4: ການລະບຸຊື່ເປັນຂະບວນການຖອນຂໍ້ມູນຂ່າວສານທີ່ຊັດເຈນ. ຕົວຢ່າງເຊັ່ນເມື່ອປ່ອຍບັນທຶກປະກັນສຸຂະພາບຂອງພະນັກງານຂອງລັດ, ຄະນະກັນມາທິການການປະກັນໄພກຸ່ມບໍລິສັດ Massachusetts (GIC) ໄດ້ເອົາຊື່ແລະທີ່ຢູ່ອອກຈາກໄຟລ໌. ຂ້າພະເຈົ້າໃຊ້ເຄື່ອງຫມາຍວົງຢືມປະມານຄໍານາມນາມເນື່ອງຈາກວ່າຂະບວນການນີ້ສະຫນອງຮູບລັກສະນະຂອງການປິດບັງຊື່ແຕ່ບໍ່ແມ່ນຕົວຈິງ.

ຮູບທີ 6.4: "ການລະງັບຂໍ້ມູນ" ແມ່ນຂະບວນການຖອນຂໍ້ມູນຂ່າວສານທີ່ຊັດເຈນ. ຕົວຢ່າງເຊັ່ນເມື່ອປ່ອຍບັນທຶກປະກັນສຸຂະພາບຂອງພະນັກງານຂອງລັດ, ຄະນະກັນມາທິການການປະກັນໄພກຸ່ມບໍລິສັດ Massachusetts (GIC) ໄດ້ເອົາຊື່ແລະທີ່ຢູ່ອອກຈາກໄຟລ໌. ຂ້າພະເຈົ້າໃຊ້ເຄື່ອງຫມາຍວົງຢືມຢູ່ທົ່ວຄໍາວ່າ "ການລະເມີດ" ເນື່ອງຈາກວ່າຂະບວນການນີ້ສະຫນອງຮູບລັກສະນະຂອງການປິດບັງຊື່ແຕ່ບໍ່ແມ່ນຄວາມຊື່ສັດ.

ເພື່ອສະແດງໃຫ້ເຫັນເຖິງຄວາມຫຍຸ້ງຍາກຂອງ GIC "ການລະເມີດ", Latanya Sweeney, ຫຼັງຈາກນັ້ນ, ນັກສຶກສາທີ່ຈົບການສຶກສາທີ່ MIT, ຈ່າຍ 20 ໂດລາເພື່ອບັນທຶກການລົງຄະແນນສຽງຈາກນະຄອນ Cambridge, ບ້ານເກີດຂອງລັດ Massachusetts William Weld. ບັນທຶກການເລືອກຕັ້ງເຫຼົ່ານີ້ລວມມີຂໍ້ມູນເຊັ່ນ: ຊື່, ທີ່ຢູ່, ລະຫັດໄປສະນີ, ວັນເດືອນປີເກີດ, ແລະເພດ. ຄວາມຈິງທີ່ວ່າໄຟລ໌ຂໍ້ມູນດ້ານການປິ່ນປົວແລະເອກະສານຜູ້ລົງຄະແນນໄດ້ແບ່ງປັນລະຫັດ zip, ວັນເດືອນປີເກີດ, ແລະເພດ, ຫມາຍຄວາມວ່າ Sweeney ສາມາດເຊື່ອມຕໍ່ກັບພວກເຂົາ. Sweeney ຮູ້ວ່າວັນເດືອນປີເກີດຂອງ Weld ແມ່ນວັນທີ 31 ເດືອນກໍລະກົດ, 1945, ແລະບັນທຶກການລົງຄະແນນສຽງປະກອບມີພຽງແຕ່ຫົກຄົນໃນ Cambridge ກັບວັນເດືອນປີເກີດນັ້ນ. ນອກເຫນືອຈາກຜູ້ທີ່ຫົກຄົນ, ມີພຽງແຕ່ສາມຄົນເທົ່ານັ້ນ. ແລະ, ຂອງຜູ້ຊາຍສາມຄົນ, ມີພຽງແຕ່ຫນຶ່ງທີ່ແບ່ງປັນຫັດໄປສະນີຂອງ Weld. ດັ່ງນັ້ນ, ຂໍ້ມູນການລົງຄະແນນສຽງໄດ້ສະແດງໃຫ້ເຫັນວ່າຜູ້ໃດໃນຂໍ້ມູນທາງການແພດທີ່ມີການລວມກັນຂອງວັນເດືອນປີເກີດ, ເພດແລະລະຫັດໄປສະນີ Weld ແມ່ນ William Weld. ໂດຍເນື້ອແທ້ແລ້ວ, ເຫຼົ່ານີ້ສາມຂໍ້ມູນຂ່າວສານໄດ້ສະຫນອງ ນິ້ວມືເປັນເອກະລັກ ໃຫ້ເຂົາໃນຂໍ້ມູນ. ການນໍາໃຊ້ຂໍ້ເທັດຈິງນີ້, Sweeney ສາມາດຊອກຫາຂໍ້ມູນທາງການແພດຂອງ Weld ແລະ, ເພື່ອແຈ້ງໃຫ້ລາວຮູ້ກ່ຽວກັບຜົນງານຂອງນາງ, ນາງໄດ້ສົ່ງຈົດຫມາຍສະບັບຂອງບັນທຶກຂອງລາວໄປ (Ohm 2010) .

ຮູບທີ 6.5: ການປ່ຽນຊື່ໃຫມ່ຂອງຂໍ້ມູນທີ່ຖືກລຶບຖິ້ມ. Latanya Sweeney ລວມການບັນທຶກສຸຂະພາບທີ່ບໍ່ຖືກຕ້ອງກັບບັນທຶກສຽງເພື່ອຊອກຫາບັນທຶກທາງການແພດຂອງເຈົ້ານາຍວິນລຽມວອນດັດແປງຈາກ Sweeney (2002), ຮູບທີ 1.

ຮູບທີ 6.5: ການປ່ຽນຊື່ໃຫມ່ຂອງຂໍ້ມູນ "ນາມແຝງ". Latanya Sweeney ລວມຂໍ້ມູນດ້ານສຸຂະພາບທີ່ບໍ່ຖືກລະບຸໄວ້ກັບບັນທຶກການເລືອກຕັ້ງເພື່ອຊອກຫາບັນທຶກທາງການແພດຂອງເຈົ້ານາຍ William Weld ທີ່ດັດແປງຈາກ Sweeney (2002) , ຮູບທີ 1.

ການເຮັດວຽກຂອງ Sweeney ສະແດງໃຫ້ເຫັນເຖິງໂຄງສ້າງພື້ນຖານຂອງ ການໂຈມຕີແບບໃຫມ່ - ເພື່ອຮັບເອົາຄໍາສັບຈາກຊຸມຊົນຄວາມປອດໄພຄອມພິວເຕີ. ໃນການໂຈມຕີເຫຼົ່ານີ້, ຊຸດຂໍ້ມູນທັງສອງ, ເຊິ່ງທັງສອງໂດຍຕົວເອງສະແດງໃຫ້ເຫັນຂໍ້ມູນທີ່ລະອຽດອ່ອນ, ຖືກເຊື່ອມໂຍງ, ແລະຜ່ານການເຊື່ອມຕໍ່ນີ້, ຂໍ້ມູນທີ່ລະອຽດອ່ອນແມ່ນຖືກເປີດເຜີຍ.

ໃນການຕອບສະຫນອງຕໍ່ການເຮັດວຽກຂອງ Sweeney ແລະວຽກງານທີ່ກ່ຽວຂ້ອງອື່ນໆ, ນັກຄົ້ນຄວ້າໃນປະຈຸບັນມັກຈະເອົາຂໍ້ມູນຫຼາຍຢ່າງ - ທັງຫມົດທີ່ເອີ້ນວ່າ "ຂໍ້ມູນທີ່ກໍານົດສ່ວນບຸກຄົນ" (PII) (Narayanan and Shmatikov 2010) - ໃນຂະບວນການ "ການລະເມີດ". ປະຈຸບັນຮູ້ວ່າຂໍ້ມູນບາງຢ່າງເຊັ່ນ: ບັນທຶກການແພດ, ບັນທຶກທາງການເງິນ, ຄໍາຕອບສໍາລັບຄໍາຖາມກ່ຽວກັບພຶດຕິກໍາທີ່ຜິດກົດຫມາຍ - ແມ່ນອາດຈະມີຄວາມອ່ອນໄຫວເກີນໄປທີ່ຈະປ່ອຍອອກມາຫຼັງຈາກ "ການລະງັບການລະເມີດ." ຢ່າງໃດກໍຕາມ, ຕົວຢ່າງທີ່ຂ້ອຍແນະນໍາໃຫ້ນັກຄົ້ນຄວ້າສັງຄົມຕ້ອງການ ການປ່ຽນແປງແນວຄິດຂອງພວກເຂົາ. ເປັນບາດກ້າວທໍາອິດ, ມັນເປັນການສົມເຫດສົມຜົນທີ່ສົມມຸດວ່າຂໍ້ມູນທັງຫມົດແມ່ນ ສາມາດ ລະບຸໄດ້ແລະຂໍ້ມູນທັງຫມົດແມ່ນ ມີ ຄວາມລະອຽດອ່ອນ. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ແທນທີ່ຈະຄິດວ່າຄວາມສ່ຽງດ້ານຂໍ້ມູນແມ່ນນໍາໃຊ້ກັບໂຄງການຂະຫນາດນ້ອຍຂອງໂຄງການ, ພວກເຮົາຄວນສົມມຸດວ່າມັນໃຊ້ - ກັບໂຄງການບາງຢ່າງເຖິງໂຄງການທັງຫມົດ.

ທັງສອງລັກສະນະຂອງການປ່ຽນໃຈເຫລື້ອມໃສນີ້ໄດ້ຖືກສະແດງໂດຍລາງວັນ Netflix. ດັ່ງທີ່ໄດ້ອະທິບາຍຢູ່ໃນບົດທີ 5, Netflix ປ່ອຍ 100 ລ້ານຮູບເງົາທີ່ສະຫນອງໃຫ້ໂດຍສະມາຊິກເກືອບ 500.000 ຄົນແລະມີການເປີດສາຍທີ່ຜູ້ຄົນຈາກທົ່ວໂລກໄດ້ສົ່ງຄໍາຄິດຄໍາເຫັນທີ່ສາມາດປັບປຸງຄວາມສາມາດຂອງ Netflix ເພື່ອແນະນໍາພາພະຍົນ. ກ່ອນທີ່ຈະປ່ອຍຂໍ້ມູນ, Netflix ຖອນເອົາຂໍ້ມູນໃດໆທີ່ຈະແຈ້ງທີ່ລະບຸຕົວຕົນ, ເຊັ່ນ: ຊື່. ພວກເຂົາຍັງໄດ້ກ້າວຕໍ່ໄປແລະນໍາສະເຫນີຂໍ້ບົກພ່ອງເລັກນ້ອຍໃນບັນທຶກບາງຢ່າງ (ຕົວຢ່າງເຊັ່ນການປ່ຽນແປງບາງອັນຈາກ 4 ດາວກັບ 3 ດາວ). ພວກເຂົາເຈົ້າທັນທີທັນໃດໄດ້ຄົ້ນພົບວ່າ, ເຖິງວ່າຈະມີຄວາມພະຍາຍາມຂອງເຂົາເຈົ້າ, ຂໍ້ມູນແມ່ນຍັງບໍ່ມີຊື່ສຽງ.

ພຽງແຕ່ສອງອາທິດຫຼັງຈາກຂໍ້ມູນໄດ້ຖືກປ່ອຍອອກມາ, Arvind Narayanan ແລະ Vitaly Shmatikov (2008) ສະແດງໃຫ້ເຫັນວ່າມັນເປັນໄປໄດ້ທີ່ຈະຮຽນຮູ້ກ່ຽວກັບຄວາມມັກຂອງຄົນອື່ນ. ການໂຈມຕີຂອງພວກເຂົາແມ່ນຄ້າຍຄືກັນກັບ Sweeney: ປ້ອນກັນສອງແຫລ່ງຂໍ້ມູນຂ່າວສານ, ຫນຶ່ງທີ່ມີຂໍ້ມູນທີ່ມີຄວາມລະອຽດອ່ອນແລະບໍ່ມີຂໍ້ມູນທີ່ຊັດເຈນແຈ້ງແລະຫນຶ່ງທີ່ປະກອບດ້ວຍຕົວຕົນຂອງປະຊາຊົນ. ແຕ່ລະແຫຼ່ງຂໍ້ມູນເຫຼົ່ານີ້ອາດຈະມີຄວາມປອດໄພແຕ່ລະຄົນ, ແຕ່ເມື່ອລວມກັນ, ຊຸດຂໍ້ມູນທີ່ຖືກລວບລວມສາມາດສ້າງຄວາມສ່ຽງດ້ານຂໍ້ມູນໄດ້. ໃນກໍລະນີຂອງຂໍ້ມູນ Netflix, ນີ້ແມ່ນວິທີທີ່ມັນສາມາດເກີດຂຶ້ນ. ຈິນຕະນາການວ່າຂ້ອຍເລືອກທີ່ຈະແບ່ງປັນຄວາມຄິດຂອງຂ້ອຍກ່ຽວກັບຮູບເງົາປະຕິບັດແລະ comedy ກັບເພື່ອນຮ່ວມງານຂອງຂ້ອຍແຕ່ວ່າຂ້ອຍບໍ່ຢາກແບ່ງປັນຄວາມຄິດເຫັນຂອງຂ້ອຍກ່ຽວກັບພາພະຍົນທາງສາສະຫນາແລະທາງການເມືອງ. ເພື່ອນຮ່ວມງານຂອງຂ້ອຍສາມາດນໍາໃຊ້ຂໍ້ມູນທີ່ຂ້ອຍໄດ້ແບ່ງປັນກັບເຂົາເຈົ້າເພື່ອຊອກຫາບັນທຶກຂອງຂ້ອຍໃນຂໍ້ມູນ Netflix; ຂໍ້ມູນທີ່ຂ້າພະເຈົ້າແບ່ງປັນສາມາດເປັນ fingerprint ທີ່ບໍ່ຄືກັນກັບວັນເດືອນປີເກີດ William Weld, ລະຫັດຫັດຖະກໍາແລະການຮ່ວມເພດ. ຫຼັງຈາກນັ້ນ, ຖ້າພວກເຂົາພົບເຫັນນິ້ວມືຂອງຂ້ອຍໃນຂໍ້ມູນ, ພວກເຂົາຈະສາມາດຮຽນຮູ້ການປະເມີນຂອງຂ້ອຍກ່ຽວກັບຮູບເງົາທັງຫມົດ, ລວມທັງຮູບເງົາທີ່ຂ້ອຍເລືອກທີ່ຈະບໍ່ແບ່ງປັນ. ນອກເຫນືອໄປຈາກການ ໂຈມຕີເປົ້າຫມາຍດັ່ງກ່າວນີ້ ໄດ້ເນັ້ນຫນັກໃສ່ຄົນດຽວ, Narayanan ແລະ Shmatikov ຍັງໄດ້ສະແດງໃຫ້ເຫັນວ່າມັນເປັນໄປໄດ້ທີ່ຈະເຮັດການ ໂຈມຕີຢ່າງກວ້າງຂວາງ - ທີ່ພົວພັນກັບຄົນຈໍານວນຫຼາຍ - ໂດຍການລວມຂໍ້ມູນ Netflix ກັບຂໍ້ມູນສ່ວນບຸກຄົນແລະຮູບເງົາທີ່ບາງຄົນໄດ້ເລືອກ ເພື່ອໂພດໃນຖານຂໍ້ມູນພາພະຍົນອິນເຕີເນັດ (IMDb). ພຽງແຕ່ພຽງແຕ່, ຂໍ້ມູນໃດໆທີ່ເປັນນິ້ວມືທີ່ເປັນເອກະລັກກັບຜູ້ໃດຫນຶ່ງ, ເຖິງແມ່ນວ່າຊຸດຂອງຮູບເງົາຂອງພວກເຂົາ - ສາມາດຖືກນໍາໃຊ້ເພື່ອກໍານົດມັນ.

ເຖິງແມ່ນວ່າຂໍ້ມູນ Netflix ສາມາດຖືກກໍານົດໃຫມ່ໃນການໂຈມຕີເປົ້າຫມາຍຫຼືຢ່າງກວ້າງຂວາງ, ມັນຍັງອາດຈະມີຄວາມສ່ຽງຕໍ່າ. ຫຼັງຈາກທີ່ທັງຫມົດ, ການຈັດອັນດັບຮູບເງົາບໍ່ໄດ້ເບິ່ງຄືວ່າມີຄວາມອ່ອນໄຫວຫຼາຍ. ໃນຂະນະທີ່ນີ້ອາດຈະເປັນຄວາມຈິງໂດຍທົ່ວໄປ, ສໍາລັບບາງຄົນຂອງ 500,000 ຄົນໃນຂໍ້ມູນ, ການຈັດອັນດັບຮູບເງົາອາດຈະມີຄວາມອ່ອນໄຫວ. ໃນຄວາມເປັນຈິງ, ໃນການຕອບສະຫນອງກັບການກໍານົດການໃຫມ່, ແມ່ຍິງຄົນທີ່ມັກແມ່ຍິງຄົນຫນື່ງເຂົ້າຮ່ວມການປະຕິບັດການຮຽນຕໍ່ຕ້ານ Netflix. ນີ້ແມ່ນວິທີການບັນຫາດັ່ງກ່າວໄດ້ສະແດງອອກໃນກົດຫມາຍຂອງພວກເຂົາ (Singel 2009) :

"[M] ovie ແລະຂໍ້ມູນການປະເມີນປະກອບມີຂໍ້ມູນຂອງ ... ລັກສະນະພິເສດແລະຄວາມອ່ອນໄຫວສູງ. ຂໍ້ມູນຮູບເງົາຂອງສະມາຊິກສະແດງຄວາມສົນໃຈສ່ວນບຸກຄົນຂອງ Netflix ແລະ / ຫຼືມີບັນຫາກັບບັນຫາສ່ວນບຸກຄົນຕ່າງໆ, ລວມທັງການຮ່ວມເພດ, ການເຈັບປ່ວຍທາງຈິດ, ການຮັບຮູ້ຈາກການຕິດເຫຼົ້າແລະການເປັນຜູ້ເຄາະຮ້າຍຈາກການກໍ່ການຮ້າຍ, ການລ່ວງລະເມີດທາງດ້ານຮ່າງກາຍ, ການໃຊ້ຄວາມຮຸນແຮງໃນຄອບຄົວ, ການຫລິ້ນຊູ້ແລະການຂົ່ມຂືນ.

ການຈໍາແນກໃຫມ່ຂອງຂໍ້ມູນ Prize Netflix ສະແດງໃຫ້ເຫັນທັງຂໍ້ມູນທັງຫມົດທີ່ສາມາດກໍານົດໄດ້ແລະວ່າຂໍ້ມູນທັງຫມົດແມ່ນມີຄວາມລະອຽດອ່ອນ. ໃນເວລານີ້, ທ່ານອາດຄິດວ່ານີ້ໃຊ້ໄດ້ກັບຂໍ້ມູນທີ່ອ້າງເຖິງກ່ຽວກັບປະຊາຊົນ. ຫນ້າແປກທີ່, ນັ້ນບໍ່ແມ່ນກໍລະນີ. ເພື່ອຕອບສະຫນອງຄໍາຮ້ອງຂໍກົດຫມາຍກ່ຽວກັບສິດເສລີພາບກ່ຽວກັບຂໍ້ມູນຂ່າວສານ, ລັດຖະບານນະຄອນນິວຢອກໄດ້ອອກບັນທຶກຂໍ້ມູນກ່ຽວກັບການຂັບລົດ taxi ທຸກໆປີໃນນິວຢອກໃນປີ 2013, ລວມທັງການເກັບແລະລຸດຜ່ອນເວລາ, ສະຖານທີ່ແລະຈໍານວນຄ່າບໍລິການ (recall from chapter 2 that Farber (2015) ນໍາໃຊ້ຂໍ້ມູນທີ່ຄ້າຍຄືກັນເພື່ອທົດສອບທິດສະດີທີ່ສໍາຄັນໃນເສດຖະກິດແຮງງານ). ຂໍ້ມູນເຫຼົ່ານີ້ກ່ຽວກັບການເດີນທາງ taxi ອາດເບິ່ງຄືວ່າມີຄວາມສະຫງົບເພາະວ່າພວກເຂົາບໍ່ເບິ່ງຄືວ່າຈະໃຫ້ຂໍ້ມູນກ່ຽວກັບປະຊາຊົນແຕ່ Anthony Tockar ໄດ້ຮູ້ວ່າຊຸດຂໍ້ມູນ taxi ນີ້ມີບັນດາຂໍ້ມູນທີ່ມີຄວາມສໍາຄັນຫຼາຍກ່ຽວກັບປະຊາຊົນ. ເພື່ອສະແດງໃຫ້ເຫັນ, ລາວໄດ້ເບິ່ງການເດີນທາງທັງຫມົດທີ່ເລີ່ມຕົ້ນຢູ່ທີ່ Hustler Club, ສະໂມສອນແຖບຂະຫນາດໃຫຍ່ໃນນິວຢອກ - ລະຫວ່າງເວລາທ່ຽງຄືນແລະ 6 ໂມງແລງແລະຫຼັງຈາກນັ້ນພົບເຫັນສະຖານທີ່ທີ່ພວກເຂົາອອກໄປ. ການຄົ້ນຫານີ້ໄດ້ເປີດເຜີຍ - ໂດຍເນື້ອແທ້ແລ້ວ - ບັນຊີລາຍຊື່ຂອງທີ່ຢູ່ຂອງບາງຄົນທີ່ມັກໄປ Hustler Club (Tockar 2014) . ມັນເປັນການຍາກທີ່ຈະຄິດວ່າລັດຖະບານຂອງເມືອງນີ້ມີໃຈນີ້ເມື່ອມັນປ່ອຍຂໍ້ມູນ. ໃນຄວາມເປັນຈິງ, ເຕັກນິກດຽວກັນນີ້ສາມາດຖືກນໍາໃຊ້ເພື່ອຊອກຫາທີ່ຢູ່ເຮືອນຂອງຜູ້ທີ່ໄປຢ້ຽມຢາມສະຖານທີ່ໃດຫນຶ່ງໃນເມືອງ - ຄລີນິກທາງການແພດ, ອາຄານລັດຖະບານ, ຫຼືສະຖາບັນທາງສາສະຫນາ.

ທັງສອງກໍລະນີຂອງລາງວັນ Netflix ແລະຂໍ້ມູນລົດແທັກຊິຕີໃນນະຄອນນິວຢອກສະແດງໃຫ້ເຫັນວ່າຄົນທັກສະທີ່ຂ້ອນຂ້າງສາມາດຄາດຄະເນຄວາມສ່ຽງດ້ານຂໍ້ມູນໃນຂໍ້ມູນທີ່ພວກເຂົາປ່ອຍອອກມາ - ແລະກໍລະນີເຫຼົ່ານີ້ບໍ່ມີຄວາມຫມາຍເທົ່າທຽມກັນ (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . ນອກຈາກນັ້ນ, ໃນຫຼາຍໆກໍລະນີດັ່ງກ່າວ, ຂໍ້ມູນທີ່ມີບັນຫາແມ່ນຍັງສາມາດໃຊ້ໄດ້ໂດຍກົງອອນໄລນ໌, ເຊິ່ງຊີ້ໃຫ້ເຫັນເຖິງຄວາມຫຍຸ້ງຍາກໃນການປະຕິເສດການເຜີຍແຜ່ຂໍ້ມູນ. ໂດຍລວມ, ຕົວຢ່າງເຫຼົ່ານີ້ - ເຊັ່ນດຽວກັນກັບການຄົ້ນຄວ້າວິທະຍາສາດຄອມພິວເຕີ້ກ່ຽວກັບຄວາມເປັນສ່ວນຕົວ - ນໍາໄປສູ່ການສະຫລຸບທີ່ສໍາຄັນ. ນັກຄົ້ນຄວ້າຄວນສົມມຸດວ່າຂໍ້ມູນທັງຫມົດ ສາມາດ ລະບຸໄດ້ແລະຂໍ້ມູນທັງຫມົດແມ່ນ ມີ ຄວາມສໍາຄັນ.

ແຕ່ຫນ້າເສຍດາຍ, ບໍ່ມີການແກ້ໄຂງ່າຍໆກັບຂໍ້ເທັດຈິງທີ່ຂໍ້ມູນທັງຫມົດສາມາດກໍານົດໄດ້ແລະວ່າຂໍ້ມູນທັງຫມົດແມ່ນມີຄວາມລະອຽດອ່ອນ. ຢ່າງໃດກໍ່ຕາມ, ວິທີຫນຶ່ງເພື່ອຫຼຸດຄວາມສ່ຽງດ້ານຂໍ້ມູນໃນຂະນະທີ່ທ່ານກໍາລັງເຮັດວຽກກັບຂໍ້ມູນແມ່ນການສ້າງແລະປະຕິບັດຕາມ ແຜນການປົກປ້ອງຂໍ້ມູນ . ແຜນນີ້ຈະຫຼຸດລົງໂອກາດທີ່ຂໍ້ມູນຂອງທ່ານຈະຮົ່ວໄຫຼແລະຈະຫຼຸດລົງອັນຕະລາຍຖ້າຫາກວ່າມີຮົ່ວໄຫຼບາງຢ່າງເກີດຂື້ນ. ຂໍ້ມູນສະເພາະຂອງແຜນການປົກປັກຮັກສາຂໍ້ມູນເຊັ່ນຮູບແບບການເຂົ້າລະຫັດທີ່ຈະໃຊ້ຈະປ່ຽນແປງຕະຫຼອດເວລາແຕ່ບໍລິການຂໍ້ມູນອັງກິດຊ່ວຍຈັດອົງປະກອບຂອງແຜນການຄຸ້ມຄອງຂໍ້ມູນເປັນຫ້າປະເພດທີ່ພວກເຂົາເອີ້ນວ່າ ຫ້າທີ່ປອດໄພ : ໂຄງການທີ່ປອດໄພ, , ການຕັ້ງຄ່າຄວາມປອດໄພ, ຂໍ້ມູນທີ່ປອດໄພແລະຜົນລັບທີ່ປອດໄພ (ຕາຕະລາງ 6.2) (Desai, Ritchie, and Welpton 2016) . ບໍ່ມີຫ້າຕູ້ນິລະໄພແຕ່ລະຄົນໃຫ້ການປົກປ້ອງທີ່ດີເລີດ. ແຕ່ຮ່ວມກັນພວກມັນກໍ່ສ້າງເປັນປັດໃຈທີ່ມີອໍານາດທີ່ສາມາດຫຼຸດຄວາມສ່ຽງດ້ານຂໍ້ມູນໄດ້.

ຕາຕະລາງ 6.2: "ຫ້າຕູ້ນິລະໄພ" ແມ່ນຫຼັກການສໍາລັບການອອກແບບແລະປະຕິບັດແຜນການປົກປ້ອງຂໍ້ມູນ (Desai, Ritchie, and Welpton 2016)
ປອດໄພ	ປະຕິບັດງານ
ໂຄງການທີ່ປອດໄພ	ຈໍາກັດໂຄງການທີ່ມີຂໍ້ມູນກັບຜູ້ທີ່ມີຈັນຍາບັນ
ຄົນທີ່ປອດໄພ	ການເຂົ້າເຖິງແມ່ນຖືກຈໍາກັດຕໍ່ຜູ້ທີ່ສາມາດໄວ້ວາງໃຈກັບຂໍ້ມູນ (ຕົວຢ່າງ, ຜູ້ທີ່ມີການຝຶກອົບຮົມດ້ານຈັນຍາບັນ)
ຂໍ້ມູນທີ່ປອດໄພ	ຂໍ້ມູນໄດ້ຖືກກໍານົດແລະລວມໄປໃນຂອບເຂດທີ່ເປັນໄປໄດ້
ການຕັ້ງຄ່າທີ່ປອດໄພ	ຂໍ້ມູນຖືກເກັບຮັກສາໄວ້ໃນຄອມພິວເຕີທີ່ມີຄວາມເຫມາະສົມທາງດ້ານຮ່າງກາຍ (ເຊົ່ນຫ້ອງລັອກ) ແລະຊອບແວ (ເຊັ່ນການປ້ອງກັນລະຫັດຜ່ານ, ການເຂົ້າລະຫັດ)
ຜົນຜະລິດທີ່ປອດໄພ	ຜະລິດຕະພັນການຄົ້ນຄວ້າໄດ້ຖືກທົບທວນເພື່ອປ້ອງກັນການລະເມີດຄວາມເປັນສ່ວນຕົວໂດຍບັງເອີນ

ນອກເຫນືອຈາກການປົກປ້ອງຂໍ້ມູນຂອງທ່ານໃນຂະນະທີ່ທ່ານໃຊ້ພວກມັນ, ຂັ້ນຕອນຫນຶ່ງໃນຂະບວນການຄົ້ນຄວ້າທີ່ມີຄວາມສ່ຽງດ້ານຂໍ້ມູນແມ່ນມີຄວາມສໍາຄັນໂດຍສະເພາະແມ່ນການແລກປ່ຽນຂໍ້ມູນກັບນັກຄົ້ນຄວ້າອື່ນໆ. ການແລກປ່ຽນຂໍ້ມູນລະຫວ່າງນັກວິທະຍາສາດແມ່ນເປັນມູນຄ່າທີ່ສໍາຄັນຂອງຜົນສໍາເລັດທາງວິທະຍາສາດແລະມັນສະຫນັບສະຫນູນຢ່າງຫຼວງຫຼາຍເຖິງຄວາມກ້າວຫນ້າຂອງຄວາມຮູ້. ນີ້ແມ່ນວິທີທີ່ອັງກິດ House of Commons ອະທິບາຍເຖິງຄວາມສໍາຄັນຂອງການແບ່ງປັນຂໍ້ມູນ (Molloy 2011) :

"ການເຂົ້າເຖິງຂໍ້ມູນເປັນພື້ນຖານຖ້ານັກຄົ້ນຄວ້າຈະຜະລິດ, ກວດສອບແລະສ້າງຜົນໄດ້ຮັບທີ່ໄດ້ລາຍງານໃນວັນນະຄະດີ. ການສົມມຸດຕິຖານແມ່ນວ່າ, ເວັ້ນເສຍແຕ່ວ່າມີເຫດຜົນທີ່ເຂັ້ມແຂງອື່ນ, ຂໍ້ມູນຄວນໄດ້ຮັບການເຜີຍແຜ່ຢ່າງເຕັມສ່ວນແລະສາທາລະນະທີ່ມີຢູ່. "

ແຕ່, ໂດຍການແບ່ງປັນຂໍ້ມູນຂອງທ່ານກັບນັກຄົ້ນຄວ້າຄົນອື່ນ, ທ່ານອາດຈະເພີ່ມຄວາມສ່ຽງດ້ານຂໍ້ມູນໃຫ້ກັບຜູ້ເຂົ້າຮ່ວມຂອງທ່ານ. ດັ່ງນັ້ນ, ມັນອາດຈະເບິ່ງຄືວ່າການແບ່ງປັນຂໍ້ມູນສ້າງຄວາມກົດດັນພື້ນຖານລະຫວ່າງພັນທະໃນການແລກປ່ຽນຂໍ້ມູນກັບນັກວິທະຍາສາດອື່ນໆແລະພັນທະໃນການຫຼຸດຜ່ອນຄວາມສ່ຽງດ້ານຂໍ້ມູນຕໍ່ຜູ້ເຂົ້າຮ່ວມ. ໂຊກດີ, ຄວາມຂັດແຍ່ງນີ້ບໍ່ຮ້າຍແຮງຍ້ອນວ່າມັນປາກົດ. ແທນທີ່ຈະຄິດກ່ຽວກັບການແບ່ງປັນຂໍ້ມູນເປັນການຫຼຸດລົງຕາມລໍາດັບຕໍ່ເນື່ອງ, ແຕ່ລະຈຸດໃນການຕໍ່ເນື່ອງທີ່ສະຫນອງປະສົມປະສານທີ່ແຕກຕ່າງກັນກັບສັງຄົມແລະຄວາມສ່ຽງຕໍ່ຜູ້ເຂົ້າຮ່ວມ (ຮູບ 6.6).

ໃນທີ່ສຸດ, ທ່ານສາມາດແບ່ງປັນຂໍ້ມູນຂອງທ່ານໄດ້ໂດຍບໍ່ມີໃຜ, ເຊິ່ງຫຼຸດຜ່ອນຄວາມສ່ຽງຕໍ່ຜູ້ເຂົ້າຮ່ວມ, ແຕ່ຍັງຫຼຸດຜ່ອນຜົນປະໂຫຍດແກ່ສັງຄົມ. ຢູ່ໃນທີ່ສຸດ, ທ່ານສາມາດ ປ່ອຍແລະລືມ , ບ່ອນທີ່ຂໍ້ມູນແມ່ນ "ນາມແຝງ" ແລະຖືກຈັດພີມມາສໍາລັບທຸກຄົນ. ກ່ຽວກັບການບໍ່ເຜີຍແຜ່ຂໍ້ມູນ, ການປ່ອຍແລະລືມສະເຫນີທັງຜົນປະໂຫຍດສູງກວ່າຕໍ່ສັງຄົມແລະຄວາມສ່ຽງສູງຕໍ່ຜູ້ເຂົ້າຮ່ວມ. ໃນລະຫວ່າງສອງກໍລະນີທີ່ຮຸນແຮງເຫຼົ່ານີ້ແມ່ນມີລະດັບຂອງລູກປະສົມ, ລວມທັງສິ່ງທີ່ຂ້ອຍຈະເອີ້ນວ່າວິທີການ ເຮັດສວນ . ພາຍໃຕ້ວິທີການນີ້, ຂໍ້ມູນຖືກແບ່ງປັນກັບຜູ້ທີ່ຕອບສະຫນອງເງື່ອນໄຂທີ່ແນ່ນອນແລະຜູ້ທີ່ຍອມຮັບວ່າຖືກຜູກມັດໂດຍກົດລະບຽບບາງຢ່າງ (ເຊັ່ນ: ການຄວບຄຸມຈາກ IRB ແລະແຜນການປົກປ້ອງຂໍ້ມູນ). ວິທີການເຮັດສວນທີ່ມີກໍາແພງນັ້ນປະກອບມີຜົນປະໂຫຍດຈາກການປົດປ່ອຍແລະລືມດ້ວຍຄວາມສ່ຽງຫນ້ອຍ. ແນ່ນອນວິທີການດັ່ງກ່າວເຮັດໃຫ້ມີຄໍາຖາມຈໍານວນຫຼາຍ - ຜູ້ທີ່ຄວນເຂົ້າເຖິງ, ພາຍໃຕ້ເງື່ອນໄຂໃດ, ແລະສໍາລັບໄລຍະເວລາດົນນານ, ໃຜຄວນຈ່າຍຄ່າຮັກສາແລະຕໍາຫຼວດສວນທີ່ມີກໍາແພງ, ແລະອື່ນໆ - ແຕ່ວ່າມັນບໍ່ສາມາດແກ້ໄຂໄດ້. ໃນຄວາມເປັນຈິງ, ມີສວນເຮັດສວນທີ່ເຮັດວຽກຢູ່ໃນສະຖານທີ່ນັກຄົ້ນຄວ້າສາມາດນໍາໃຊ້ໃນປັດຈຸບັນເຊັ່ນ: ຂໍ້ມູນບັນທຶກຂອງ Consortium Inter-university ສໍາລັບການຄົ້ນຄວ້າດ້ານການເມືອງແລະສັງຄົມຂອງມະຫາວິທະຍາໄລ Michigan.

ຮູບທີ 6.6: ຍຸດທະສາດການເຜີຍແຜ່ຂໍ້ມູນສາມາດຕົກລົງຕາມລໍາດັບຕໍ່ເນື່ອງ. ບ່ອນທີ່ທ່ານຄວນຈະຢູ່ໃນການສືບຕໍ່ນີ້ແມ່ນຂຶ້ນກັບລາຍລະອຽດສະເພາະຂອງຂໍ້ມູນຂອງທ່ານແລະການທົບທວນຄືນຂອງຜູ້ອື່ນສາມາດຊ່ວຍທ່ານຕັດສິນໃຈວ່າຄວາມສົມດຸນຂອງຄວາມສ່ຽງທີ່ເຫມາະສົມແລະຜົນປະໂຫຍດໃນກໍລະນີຂອງທ່ານ. ຮູບຮ່າງທີ່ແນ່ນອນຂອງເສັ້ນໂຄ້ງນີ້ແມ່ນຂຶ້ນກັບສະເພາະຂອງຂໍ້ມູນແລະເປົ້າຫມາຍການຄົ້ນຄວ້າ (Goroff 2015) .

ດັ່ງນັ້ນ, ຂໍ້ມູນຈາກການສຶກສາຂອງທ່ານຄວນຈະຢູ່ໃນການຕໍ່ເນື່ອງຂອງການແລກປ່ຽນບໍ່ມີ, ສວນທີ່ມີກໍາແພງ, ແລະປ່ອຍແລະລືມ? ນີ້ແມ່ນຂື້ນກັບລາຍລະອຽດຂອງຂໍ້ມູນຂອງທ່ານ: ນັກຄົ້ນຄວ້າຕ້ອງໄດ້ສົມດຸນການເຄົາລົບຕໍ່ບຸກຄົນ, ຄວາມສຸກ, ຄວາມຍຸດຕິທໍາແລະການເຄົາລົບກົດຫມາຍແລະຜົນປະໂຫຍດຂອງປະຊາຊົນ. ເບິ່ງຈາກທັດສະນະນີ້, ການແບ່ງປັນຂໍ້ມູນບໍ່ແມ່ນຂໍ້ສົມເຫດສົມຜົນດ້ານຈັນຍາບັນທີ່ໂດດເດັ່ນ; ມັນແມ່ນພຽງແຕ່ຫນຶ່ງໃນຫຼາຍດ້ານຂອງການຄົ້ນຄວ້າທີ່ນັກຄົ້ນຄວ້າໄດ້ຄົ້ນພົບຄວາມສົມດູນດ້ານຈັນຍາບັນທີ່ເຫມາະສົມ.

ຄວາມຄິດເຫັນບາງຢ່າງກົງກັນຂ້າມກັບການແບ່ງປັນຂໍ້ມູນເນື່ອງຈາກວ່າ, ໃນຄວາມຄິດເຫັນຂອງຂ້ອຍ, ພວກເຂົາກໍາລັງສຸມໃສ່ຄວາມສ່ຽງຂອງມັນ - ຊຶ່ງແນ່ນອນວ່າບໍ່ແມ່ນຄວາມຈິງ - ແລະບໍ່ສົນໃຈກັບຜົນປະໂຫຍດຂອງມັນ. ດັ່ງນັ້ນ, ເພື່ອຊຸກຍູ້ການສຸມໃສ່ທັງຄວາມສ່ຽງແລະຜົນປະໂຫຍດ, ຂ້ອຍຢາກໃຫ້ມີການປຽບທຽບ. ທຸກໆປີ, ລົດໃຫຍ່ມີຄວາມຮັບຜິດຊອບສໍາລັບການເສຍຊີວິດຫລາຍພັນຄົນ, ແຕ່ພວກເຮົາບໍ່ພະຍາຍາມຫ້າມຂັບລົດ. ໃນຄວາມເປັນຈິງ, ໂທຫາຫ້າມຂັບລົດຈະເປັນເລື່ອງທີ່ໂງ່ເພາະການຂັບລົດເຮັດໃຫ້ສິ່ງມະຫັດຫຼາຍ. ແທນທີ່ຈະ, ສັງຄົມກໍານົດຂໍ້ຈໍາກັດກ່ຽວກັບຜູ້ທີ່ສາມາດຂັບລົດ (ຕົວຢ່າງ, ຄວາມຕ້ອງການທີ່ຈະມີອາຍຸສະເພາະໃດຫນຶ່ງແລະໄດ້ຜ່ານການທົດສອບບາງຢ່າງ) ແລະວິທີການຂັບຂີ່ (ຕົວຢ່າງ, ພາຍໃຕ້ຂອບເຂດຄວາມໄວ). ສັງຄົມຍັງມີປະຊາຊົນທີ່ຮັບຜິດຊອບໃນການບັງຄັບໃຊ້ກົດລະບຽບເຫຼົ່ານີ້ (ຕົວຢ່າງເຊັ່ນຕໍາຫຼວດ) ແລະພວກເຮົາລົງໂທດຜູ້ທີ່ຖືກຈັບໄດ້. ປະເພດດຽວກັນຂອງຄວາມຄິດທີ່ສົມດູນກັນທີ່ສັງຄົມນໍາໃຊ້ໃນການຄວບຄຸມການຂັບຂີ່ສາມາດນໍາໃຊ້ກັບການແບ່ງປັນຂໍ້ມູນ. ດັ່ງນັ້ນ, ແທນທີ່ຈະເຮັດໃຫ້ການໂຕ້ແຍ້ງທີ່ແທ້ຈິງສໍາລັບຫຼືຕໍ່ການແລກປ່ຽນຂໍ້ມູນ, ຂ້າພະເຈົ້າຄິດວ່າພວກເຮົາຈະເຮັດໃຫ້ມີຄວາມຄືບຫນ້າຫຼາຍໂດຍເນັ້ນຫນັກກ່ຽວກັບວິທີທີ່ພວກເຮົາສາມາດຫຼຸດຜ່ອນຄວາມສ່ຽງແລະເພີ່ມຜົນປະໂຫຍດຈາກການແບ່ງປັນຂໍ້ມູນ.

ເພື່ອສະຫຼຸບ, ຄວາມສ່ຽງດ້ານຂໍ້ມູນໄດ້ເພີ່ມຂຶ້ນຢ່າງຫຼວງຫຼາຍ, ແລະມັນເປັນການຍາກທີ່ຈະຄາດຄະເນແລະປະລິມານ. ດັ່ງນັ້ນ, ມັນເປັນສິ່ງທີ່ດີທີ່ສຸດທີ່ຈະສົມມຸດວ່າຂໍ້ມູນທັງຫມົດແມ່ນສາມາດລະບຸໄດ້ແລະອາດມີຄວາມສໍາຄັນ. ເພື່ອຫຼຸດຄວາມສ່ຽງດ້ານຂໍ້ມູນໃນຂະນະທີ່ດໍາເນີນການຄົ້ນຄວ້າ, ນັກຄົ້ນຄວ້າສາມາດສ້າງແລະປະຕິບັດຕາມແຜນການປົກປ້ອງຂໍ້ມູນ. ນອກຈາກນັ້ນ, ຄວາມສ່ຽງດ້ານຂໍ້ມູນບໍ່ໄດ້ປ້ອງກັນນັກວິໄຈຈາກການແລກປ່ຽນຂໍ້ມູນກັບນັກວິທະຍາສາດອື່ນໆ.