2.3.10 Sensitive

ບາງສ່ວນຂອງຂໍ້ມູນທີ່ບໍລິສັດແລະລັດຖະບານມີຄວາມສໍາຄັນ.

ບໍລິສັດປະກັນໄພສຸຂະພາບມີລາຍລະອຽດກ່ຽວກັບການດູແລທາງການແພດທີ່ລູກຄ້າຂອງພວກເຂົາໄດ້ຮັບ. ຂໍ້ມູນນີ້ສາມາດຖືກນໍາໃຊ້ສໍາລັບການຄົ້ນຄ້ວາທີ່ສໍາຄັນກ່ຽວກັບສຸຂະພາບ, ແຕ່ຖ້າມັນກາຍເປັນສາທາລະນະ, ມັນອາດຈະນໍາໄປສູ່ຄວາມອັນຕະລາຍທາງດ້ານຈິດໃຈ (ເຊັ່ນຄວາມອັບອາຍ) ຫຼືຄວາມເສຍຫາຍດ້ານເສດຖະກິດ (ເຊັ່ນການສູນເສຍວຽກ). ແຫຼ່ງຂໍ້ມູນໃຫຍ່ອື່ນໆຫຼາຍຄົນຍັງມີຂໍ້ມູນທີ່ມີ ຄວາມອ່ອນໄຫວ ເຊິ່ງເປັນສ່ວນຫນຶ່ງຂອງເຫດຜົນທີ່ວ່າພວກເຂົາມັກຈະບໍ່ສາມາດເຂົ້າເຖິງໄດ້.

ແຕ່ຫນ້າເສຍດາຍ, ມັນເປັນການຍາກທີ່ຈະຕັດສິນໃຈວ່າຂໍ້ມູນແມ່ນຫຍັງທີ່ມີຄວາມອ່ອນໄຫວ (Ohm 2015) , ດັ່ງທີ່ໄດ້ສະແດງໂດຍ Netflix Prize. ດັ່ງທີ່ຂ້ອຍຈະອະທິບາຍໃນບົດທີ 5 ໃນປີ 2006 Netflix ໄດ້ປ່ອຍ 100 ລ້ານລາຍການໃຫ້ສະມາຊິກໂດຍສະມາຊິກເກືອບ 500.000 ຄົນແລະມີການເປີດສາຍທີ່ຜູ້ຄົນຈາກທົ່ວໂລກໄດ້ສົ່ງຄໍາສັ່ງທີ່ສາມາດປັບປຸງຄວາມສາມາດໃນການແນະນໍາພາພະຍົນຂອງ Netflix. ກ່ອນທີ່ຈະປ່ອຍຂໍ້ມູນ, Netflix ຖອນເອົາຂໍ້ມູນໃດໆທີ່ຈະແຈ້ງທີ່ລະບຸຕົວຕົນ, ເຊັ່ນ: ຊື່. ແຕ່ Arvind Narayanan ແລະ Vitaly Shmatikov (2008) ສະແດງໃຫ້ເຫັນວ່າມັນເປັນໄປໄດ້ທີ່ຈະຮຽນຮູ້ກ່ຽວກັບອັດຕາການສະແດງຮູບເງົາຂອງຜູ້ຄົນໂດຍໃຊ້ທັກສະທີ່ຂ້ອຍຈະສະແດງໃຫ້ທ່ານເຫັນໃນບົດທີ 6. ເຖິງແມ່ນວ່າຜູ້ໂຈມຕີສາມາດຄົ້ນພົບໄດ້ ຮູບເງົາຂອງບຸກຄົນ, ມີຍັງບໍ່ໄດ້ເບິ່ງຄືວ່າຈະມີຫຍັງທີ່ລະອຽດອ່ອນຢູ່ທີ່ນີ້. ໃນຂະນະທີ່ມັນອາດຈະເປັນຄວາມຈິງໂດຍທົ່ວໄປແລ້ວ, ສໍາລັບຢ່າງຫນ້ອຍບາງຄົນໃນຈໍານວນ 500,000 ຄົນໃນຊຸດຂໍ້ມູນ, ການຈັດອັນດັບຮູບເງົາໄດ້ຮັບຄວາມນິຍົມ. ໃນຄວາມເປັນຈິງ, ໃນການຕອບສະຫນອງກັບການປ່ອຍແລະການກໍານົດໃຫມ່ຂອງຂໍ້ມູນ, ແມ່ຍິງຄົນທີ່ແມ່ຍິງຄົນໃກ້ຊິດເຂົ້າຮ່ວມໃນການດໍາເນີນການຮຽນຕໍ່ຕ້ານ Netflix. ນີ້ແມ່ນວິທີການບັນຫາດັ່ງກ່າວໄດ້ສະແດງອອກໃນກົດຫມາຍນີ້ (Singel 2009) :

"[M] ovie ແລະຂໍ້ມູນການປະເມີນປະກອບມີຂໍ້ມູນຂອງ ... ລັກສະນະພິເສດແລະຄວາມອ່ອນໄຫວສູງ. ຂໍ້ມູນຮູບເງົາຂອງສະມາຊິກສະແດງຄວາມສົນໃຈສ່ວນບຸກຄົນຂອງ Netflix ແລະ / ຫຼືມີບັນຫາກັບບັນຫາສ່ວນບຸກຄົນຕ່າງໆ, ລວມທັງການຮ່ວມເພດ, ການເຈັບປ່ວຍທາງຈິດ, ການຮັບຮູ້ຈາກການຕິດເຫຼົ້າແລະການເປັນຜູ້ເຄາະຮ້າຍຈາກການກໍ່ການຮ້າຍ, ການລ່ວງລະເມີດທາງດ້ານຮ່າງກາຍ, ການໃຊ້ຄວາມຮຸນແຮງໃນຄອບຄົວ, ການຫລິ້ນຊູ້ແລະການຂົ່ມຂືນ.

ຕົວຢ່າງນີ້ສະແດງໃຫ້ເຫັນວ່າສາມາດມີຂໍ້ມູນທີ່ບາງຄົນຄິດວ່າມີຄວາມລະອຽດໃນດ້ານສິ່ງທີ່ອາດຈະເປັນຖານຂໍ້ມູນທີ່ສົມເຫດສົມຜົນ. ນອກຈາກນັ້ນ, ມັນສະແດງໃຫ້ເຫັນວ່າການປ້ອງກັນທີ່ສໍາຄັນທີ່ນັກວິໄຈນໍາໃຊ້ເພື່ອປົກປ້ອງຂໍ້ມູນທີ່ລະອຽດອ່ອນ, ອາດຈະລົ້ມເຫລວໃນທາງທີ່ຫນ້າແປກໃຈ. ເຫຼົ່ານີ້ທັງສອງຄວາມຄິດເຫັນໄດ້ຖືກພັດທະນາໂດຍລະອຽດຫຼາຍໃນພາກ 6.

ສິ່ງສຸດທ້າຍທີ່ຕ້ອງຈື່ໄວ້ກ່ຽວກັບຂໍ້ມູນທີ່ລະອຽດອ່ອນແມ່ນການເກັບກໍາຂໍ້ມູນໂດຍບໍ່ມີຄວາມຍິນຍອມຂອງປະຊາຊົນເພີ່ມທະວີຄໍາຖາມດ້ານຈັນຍາບັນ, ເຖິງແມ່ນວ່າບໍ່ມີອັນຕະລາຍໃດໆເກີດຂື້ນ. ເຊັ່ນດຽວກັນກັບການເບິ່ງຜູ້ໃດຜູ້ຫນຶ່ງກິນອາບນ້ໍາໂດຍບໍ່ມີການຍິນຍອມຂອງພວກເຂົາອາດຈະຖືວ່າເປັນການລະເມີດຄວາມເປັນສ່ວນຕົວຂອງຜູ້ນັ້ນ, ການເກັບກໍາຂໍ້ມູນທີ່ລະອຽດອ່ອນ - ແລະຈື່ວ່າມັນຈະເປັນການຍາກທີ່ຈະຕັດສິນໃຈວ່າເປັນຫຍັງຄວາມສັບສົນ - ຂ້ອຍຈະກັບຄືນຄໍາຖາມກ່ຽວກັບຄວາມເປັນສ່ວນຕົວໃນບົດທີ 6.

ໃນທີ່ສຸດ, ແຫລ່ງຂໍ້ມູນໃຫຍ່, ເຊັ່ນບັນທຶກການບໍລິຫານຂອງລັດຖະບານແລະທຸລະກິດ, ໂດຍທົ່ວໄປບໍ່ໄດ້ຖືກສ້າງຂື້ນເພື່ອຈຸດປະສົງຂອງການຄົ້ນຄວ້າທາງສັງຄົມ. ແຫຼ່ງຂໍ້ມູນທີ່ສໍາຄັນຂອງມື້ນີ້, ແລະອາດຈະມີມື້ອື່ນ, ມີແນວໂນ້ມທີ່ຈະມີລັກສະນະ 10. ຫຼາຍໆຄຸນສົມບັດທີ່ຖືກຖືວ່າດີສໍາລັບການຄົ້ນຄ້ວາ - ໃຫຍ່, ສະເຫມີແລະບໍ່ປະສົບຜົນສໍາເລັດ - ແມ່ນມາຈາກຄວາມຈິງໃນບໍລິສັດອາຍຸຂອງດິຈິສແລະລັດຖະບານສາມາດເກັບກໍາຂໍ້ມູນໃນລະດັບທີ່ບໍ່ສາມາດເຮັດໄດ້ຜ່ານມາ. ແລະຊັບສົມບັດທີ່ຖືກພິຈາລະນາໂດຍທົ່ວໄປແມ່ນບໍ່ດີສໍາລັບການຄົ້ນຄ້ວາ - ບໍ່ຄົບຖ້ວນ, ບໍ່ສາມາດເຂົ້າເຖິງໄດ້, ບໍ່ປະສົບຜົນສໍາເລັດ, ຫຍຸ້ງຍາກ, ສັບສົນຕາມລະບົບ, ບໍ່ສາມາດເຂົ້າເຖິງໄດ້, ເປື້ອນແລະສັບສົນ - ມາຈາກຂໍ້ມູນເຫຼົ່ານີ້ບໍ່ໄດ້ເກັບກໍາໂດຍນັກຄົ້ນຄວ້າສໍາລັບນັກຄົ້ນຄວ້າ. ເຖິງຕອນນັ້ນ, ຂ້າພະເຈົ້າໄດ້ເວົ້າລົມກ່ຽວກັບລັດຖະບານແລະຂໍ້ມູນທຸລະກິດຮ່ວມກັນ, ແຕ່ວ່າມີຄວາມແຕກຕ່າງລະຫວ່າງສອງຄົນ. ໃນປະສົບການຂອງຂ້າພະເຈົ້າ, ຂໍ້ມູນຂອງລັດຖະບານມັກຈະມີຫນ້ອຍທີ່ບໍ່ແມ່ນຕົວແທນ, ບໍ່ມີລະບົບການຄິດໄລ່ຫນ້ອຍລົງແລະຫນ້ອຍລົງ. ຫນຶ່ງໃນທາງກົງກັນຂ້າມ, ບັນທຶກການບໍລິຫານທຸລະກິດມັກຈະມີຫຼາຍຂຶ້ນເລື້ອຍໆ. ຄວາມເຂົ້າໃຈເຫຼົ່ານີ້ 10 ລັກສະນະທົ່ວໄປແມ່ນເປັນບາດກ້າວທໍາອິດທີ່ເປັນປະໂຫຍດຕໍ່ການຮຽນຮູ້ຈາກແຫຼ່ງຂໍ້ມູນໃຫຍ່. ແລະຕອນນີ້ພວກເຮົາຫັນໄປຫາກົນລະຍຸດການຄົ້ນຄວ້າທີ່ພວກເຮົາສາມາດນໍາໃຊ້ກັບຂໍ້ມູນນີ້.