2.3.2.6 ເປື້ອນ

ແຫຼ່ງຂໍ້ມູນຂະຫນາດໃຫຍ່ສາມາດໄດ້ຮັບການ loaded ມີ junk ແລະຂີ້ເຫຍື້ອ.

ນັກຄົ້ນຄວ້າບາງຄົນເຊື່ອວ່າແຫຼ່ງຂໍ້ມູນຂະຫນາດໃຫຍ່, ໂດຍສະເພາະແມ່ນຜູ້ທີ່ມາຈາກແຫຼ່ງຂໍ້ມູນອອນໄລນ໌, ແມ່ນ pristine ເນື່ອງຈາກວ່າເຂົາເຈົ້າໄດ້ຖືກເກັບກໍາຂໍ້ມູນອັດຕະໂນມັດ. ໃນຄວາມເປັນຈິງ, ປະຊາຊົນຜູ້ທີ່ໄດ້ເຮັດວຽກຮ່ວມກັບແຫລ່ງຂໍ້ມູນທີ່ໃຫຍ່ຮູ້ວ່າພວກເຂົາເຈົ້າແມ່ນປົກເລື້ອຍໆ. ວ່າແມ່ນ, ພວກເຂົາມັກປະກອບມີຂໍ້ມູນທີ່ບໍ່ໄດ້ສະທ້ອນໃຫ້ເຫັນການກະທໍາທີ່ແທ້ຈິງຂອງຄວາມສົນໃຈກັບນັກຄົ້ນຄວ້າ. ວິທະຍາສາດສັງຄົມຈໍານວນຫຼາຍທີ່ມີຢູ່ແລ້ວຄຸ້ນເຄີຍກັບຂະບວນການຂອງທໍາຄວາມສະອາດຂະຫນາດໃຫຍ່ຂໍ້ມູນການສໍາຫຼວດທາງດ້ານສັງຄົມ, ແຕ່ທໍາຄວາມສະອາດແຫຼ່ງຂໍ້ມູນຂະຫນາດໃຫຍ່ແມ່ນມີຄວາມຫຍຸ້ງຍາກຫຼາຍສໍາລັບສອງເຫດຜົນ: 1) ພວກເຂົາເຈົ້າບໍ່ໄດ້ຖືກສ້າງໂດຍນັກຄົ້ນຄວ້າສໍາລັບນັກຄົ້ນຄວ້າແລະ 2) ຄົ້ນຄ້ວາໂດຍທົ່ວໄປມີຄວາມເຂົ້າໃຈຫນ້ອຍຂອງວິທີການ ພວກເຂົາເຈົ້າໄດ້ຖືກສ້າງຕັ້ງຂື້ນ.

ອັນຕະລາຍຂອງຂໍ້ມູນຕິດຕາມດິຈິຕອນເປື້ອນແມ່ນສະແດງໃຫ້ເຫັນໂດຍກັບຄືນໄປບ່ອນແລະເພື່ອນຮ່ວມງານ ' (2010) ການສຶກສາຂອງການຕອບສະຫນອງຄວາມຮູ້ສຶກກັບການໂຈມຕີຂອງເດືອນກັນຍາ 11, 2001 ນັກຄົ້ນຄວ້າປົກກະຕິການສຶກສາຕອບສະຫນອງກັບເຫດການ tragic ການນໍາໃຊ້ຂໍ້ມູນຍ້ອນຫລັງເກັບກໍາໃນໄລຍະເດືອນຫຼືແມ້ກະທັ້ງປີ. ແຕ່, ກັບຄືນໄປບ່ອນແລະເພື່ອນຮ່ວມງານພົບເຫັນເປັນຂໍ້ຄວາມສະເຫມີກ່ຽວກັບແຫລ່ງທີ່ມາຂອງຕາມຮອຍ, ດິຈິຕອນເວລາ, ການບັນທຶກອັດຕະໂນມັດຈາກ 85,000 ອາເມຣິກາເພຈເຈີແລະນີ້ເຮັດໃຫ້ນັກຄົ້ນຄວ້າໃນການສຶກສາຕອບສະຫນອງຄວາມຮູ້ສຶກກ່ຽວກັບການ timescale finer ເປັນຫຼາຍ. ກັບຄືນໄປບ່ອນແລະເພື່ອນຮ່ວມງານຂອງການສ້າງຕັ້ງເປັນນາທີໂດຍນາທີກໍານົດເວລາແລະອາລົມຂອງເດືອນກັນຍາ 11 ໂດຍການເຂົ້າລະຫັດໄດ້ເນື້ອໃນຈິດໃຈຂອງຂໍ້ຄວາມ pager ໂດຍອັດຕາສ່ວນຂອງຄໍາສັບຕ່າງໆທີ່ກ່ຽວຂ້ອງກັບ (1) ຄວາມເສົ້າ (ຕົວຢ່າງ, ການຮ້ອງໄຫ້, ຄວາມໂສກເສົ້າ), (2) ຄວາມກັງວົນ (ຕົວຢ່າງ, ເປັນຫ່ວງ, ຄວາມຢ້ານກົວ), ແລະ (3) ຄວາມໃຈຮ້າຍ (eg, hate, ທີ່ສໍາຄັນ). ພວກເຂົາເຈົ້າໄດ້ພົບເຫັນວ່າຄວາມໂສກເສົ້າແ​​ລະຄວາມກັງວົນຄວາມເຫນັງຕີງຕະຫຼອດມື້ໂດຍບໍ່ມີການເປັນຮູບແບບທີ່ເຂັ້ມແຂງ, ແຕ່ວ່າມີການເພີ່ມຂຶ້ນ striking ໃນຄວາມໃຈຮ້າຍຕະຫຼອດມື້. ການຄົ້ນຄວ້ານີ້ເບິ່ງຄືວ່າຈະເປັນຕົວຢ່າງທີ່ປະເສີດຂອງພະລັງງານຂອງການສະເຫມີກ່ຽວກັບແຫລ່ງຂໍ້ມູນ: ການນໍາໃຊ້ວິທີການມາດຕະຖານມັນຈະເປັນໄປບໍ່ໄດ້ທີ່ຈະມີການດັ່ງກ່າວເປັນໄລຍະເວລາສູງການແກ້ໄຂຂອງການຕອບສະຫນອງທັນທີທັນໃດທີ່ຈະເປັນກໍລະນີທີ່ບໍ່ໄດ້ຄາດຫວັງ.

ພຽງແຕ່ຫນຶ່ງປີຕໍ່ມາ, ຢ່າງໃດກໍຕາມ, Cynthia Puri (2011) ເບິ່ງທີ່ຂໍ້ມູນເພີ່ມເຕີມລະມັດລະວັງ. ນາງໄດ້ຄົ້ນພົບວ່າມີຈໍານວນຂະຫນາດໃຫຍ່ຂອງຂໍ້ຄວາມໃຈຮ້າຍ supposedly ໄດ້ຜະລິດໂດຍ pager ດຽວແລະພວກເຂົາເຈົ້າໄດ້ທີ່ທັງຫມົດ. ນີ້ແມ່ນສິ່ງທີ່ມີຂໍ້ຄວາມໃຈຮ້າຍ supposedly ໄດ້ກ່າວວ່າ:

"ເຄື່ອງ Reboot NT [name] ຢູ່ໃນຫ້ອງການ [name] ທີ່ເບີ [ສະຖານທີ່]: ສໍາຄັນ: [ວັນແລະເວລາ]"

ຂໍ້ຄວາມເຫຼົ່ານີ້ໄດ້ຮັບການຕິດສະຫຼາກໃຈຮ້າຍຍ້ອນວ່າພວກເຂົາເຈົ້າມີຄໍາວ່າ "ຄວາມສໍາຄັນ", ຊຶ່ງໂດຍທົ່ວໄປອາດຈະຊີ້ບອກຄວາມໃຈຮ້າຍແຕ່ບໍ່ໄດ້ຢູ່ໃນກໍລະນີນີ້. ຖອນຂໍ້ຄວາມທີ່ສ້າງຂຶ້ນໂດຍ pager ອັດຕະໂນມັດນີ້ດຽວຫມົດ eliminates ການເພີ່ມຂຶ້ນປາກົດຂື້ນໃນຄວາມໃຈຮ້າຍໃນໄລຍະຫຼັກສູດຂອງມື້ (ຮູບສະແດງທີ 22) ໄດ້. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ຜົນໄດ້ຮັບຕົ້ນຕໍໃນ Back, Küfner, and Egloff (2010) ແມ່ນຂອງປອມຫນຶ່ງ pager. ໃນຖານະເປັນຕົວຢ່າງນີ້ສະແດງໃຫ້ເຫັນການວິເຄາະຂ້ອນຂ້າງງ່າຍດາຍຂອງຂໍ້ມູນຂ້ອນຂ້າງສະລັບສັບຊ້ອນແລະ messy ມີທ່າແຮງທີ່ຈະຜິດພາດໄປຢ່າງຮຸນແຮງ.

ຮູບ 22: ແນວໂນ້ມການຄາດຄະເນໃນຄວາມໃຈຮ້າຍໃນໄລຍະຂອງເດືອນກັນຍາ 11, 2001 ໂດຍອີງໃສ່ 85,000 ເພຈເຈີອາເມລິກາ (ກັບຄືນໄປບ່ອນ, Küfner, ແລະ Egloff 2010 Puri 2011 ກັບຄືນໄປບ່ອນ, Küfner, ແລະ Egloff 2011). ໃນເບື້ອງຕົ້ນ, ກັບຄືນໄປບ່ອນ, Küfner, ແລະ Egloff (2010) ລາຍງານຮູບແບບຂອງການເພີ່ມຂຶ້ນຂອງຄວາມໃຈຮ້າຍຕະຫຼອດທັງວັນ. ຢ່າງໃດກໍຕາມ, ທີ່ສຸດຂອງຂໍ້ຄວາມໃຈຮ້າຍເຫຼົ່ານີ້ປາກົດຂື້ນໄດ້ຖືກສ້າງຂຶ້ນໂດຍການເປັນ pager ດຽວທີ່ repeatedly ສົ່ງອອກຂໍ້ຄວາມດັ່ງຕໍ່ໄປນີ້: Reboot NT ເຄື່ອງ [name] ຢູ່ໃນຫ້ອງການ [name] ທີ່ເບີ [ສະຖານທີ່]: ສໍາຄັນ: [ວັນແລະເວລາ]. ທີ່ມີຂໍ້ຄວາມນີ້ອອກ, ການເພີ່ມຂຶ້ນປາກົດຂື້ນໃນຄວາມໃຈຮ້າຍຈະຫາຍໄປ (Puri 2011 ກັບຄືນໄປບ່ອນ, Küfner, ແລະ Egloff 2011). ຕົວເລກນີ້ແມ່ນການສືບພັນຂອງຮູບ 1B ໃນປູລີ (2011) ໄດ້.

ຮູບ 22: ແນວໂນ້ມການຄາດຄະເນໃນຄວາມໃຈຮ້າຍໃນໄລຍະຂອງເດືອນກັນຍາ 11, 2001 ໂດຍອີງໃສ່ 85,000 ເພຈເຈີອາເມລິກາ (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . ໃນເບື້ອງຕົ້ນ, Back, Küfner, and Egloff (2010) ລາຍງານຮູບແບບຂອງການເພີ່ມຂຶ້ນຂອງຄວາມໃຈຮ້າຍຕະຫຼອດທັງວັນ. ຢ່າງໃດກໍຕາມ, ທີ່ສຸດຂອງຂໍ້ຄວາມໃຈຮ້າຍເຫຼົ່ານີ້ປາກົດຂື້ນໄດ້ຖືກສ້າງຂຶ້ນໂດຍການເປັນ pager ດຽວທີ່ repeatedly ສົ່ງອອກຂໍ້ຄວາມດັ່ງຕໍ່ໄປນີ້: "Reboot NT ເຄື່ອງ [name] ຢູ່ໃນຫ້ອງການ [name] ທີ່ເບີ [ສະຖານທີ່]: ສໍາຄັນ: [ວັນແລະເວລາ]". ທີ່ມີຂໍ້ຄວາມນີ້ອອກ, ການເພີ່ມຂຶ້ນປາກົດຂື້ນໃນຄວາມໃຈຮ້າຍຈະຫາຍໄປ (Pury 2011; Back, Küfner, and Egloff 2011) . ຕົວເລກນີ້ແມ່ນການສືບພັນຂອງຮູບ 1B ໃນ Pury (2011) .

ໃນຂະນະທີ່ຂໍ້ມູນເປື້ອນທີ່ຖືກສ້າງຕັ້ງຂື້ນ unintentionally ເຊັ່ນຈາກ noisy pager ສາມາດໄດ້ຮັບການກວດພົບໂດຍການເປັນນັກຄົ້ນຄວ້າລະມັດລະວັງສົມເຫດສົມຜົນ, ກໍຍັງມີບາງລະບົບອອນໄລນ໌ທີ່ດຶງດູດ spammers ເຈດຕະນາ. spammers ເຫລົ່ານີ້ຢ່າງຈິງຈັງສ້າງຂໍ້ມູນປອມແປງ, ແລະມັກຈະກະຕຸ້ນກໍາໄລ, ການເຮັດວຽກຍາກທີ່ຈະຮັກສາການຂີ້ເຫຍື້ອຂອງເຂົາເຈົ້າປິດບັງຖານະ. ສໍາລັບການຍົກຕົວຢ່າງ, ກິດຈະກໍາທາງດ້ານການເມືອງກ່ຽວກັບ Twitter ເບິ່ງຄືວ່າຈະປະກອບມີຢ່າງຫນ້ອຍບາງຢ່າງຂີ້ເຫຍື້ອ sophisticated ສົມເຫດສົມຜົນ, whereby ສາເຫດທາງດ້ານການເມືອງແມ່ນໄດ້ມີເຈດຕະນາທີ່ຈະເບິ່ງທີ່ນິຍົມຫຼາຍກ່ວາພວກເຂົາເຈົ້າໃນຕົວຈິງແມ່ນ (Ratkiewicz et al. 2011) . ນັກຄົ້ນຄວ້າເຮັດວຽກຮ່ວມກັບຂໍ້ມູນທີ່ອາດຈະມີຂີ້ເຫຍື້ອໂດຍເຈດຕະນາປະເຊີນ​​ກັບສິ່ງທ້າທາຍຂອງການ convincing ການສົນທະນາຂອງເຂົາເຈົ້າທີ່ພວກເຂົາເຈົ້າໄດ້ພົບແລະການໂຍກຍ້າຍອອກຂີ້ເຫຍື້ອທີ່ກ່ຽວຂ້ອງ.

ສຸດທ້າຍ, ສິ່ງທີ່ພິຈາລະນາຂໍ້ມູນເປື້ອນສາມາດຂຶ້ນໃນວິທີທີ່ subtle ຄໍາຖາມຄົ້ນຄ້ວາຂອງທ່ານ. ສໍາລັບການຍົກຕົວຢ່າງ, ການແກ້ໄຂຈໍານວນຫຼາຍກັບວິກິພີເດຍແມ່ນການສ້າງຕັ້ງໂດຍບອທ໌ອັດຕະໂນມັດ (Geiger 2014) . ຖ້າຫາກວ່າທ່ານມີຄວາມສົນໃຈໃນລະບົບນິເວດວິກີພິເດຍ, ຫຼັງຈາກນັ້ນບອທ໌ເຫຼົ່ານີ້ມີຄວາມສໍາຄັນ. ແຕ່, ຖ້າຫາກວ່າທ່ານມີຄວາມສົນໃຈໃນວິທີການມະນຸດປະກອບສ່ວນວິກິພີເດຍ, ການແກ້ໄຂເຫຼົ່ານີ້ເຮັດໄດ້ໂດຍບອທ໌ເຫຼົ່ານີ້ຄວນຈະໄດ້ຮັບການຍົກເວັ້ນ.

ວິທີການທີ່ດີທີ່ສຸດເພື່ອຫຼີກເວັ້ນການ fooled ໂດຍຂໍ້ມູນເປື້ອນມີຄວາມເຂົ້າໃຈວິທີການຂໍ້ມູນຂອງທ່ານໄດ້ຖືກສ້າງຕັ້ງຂຶ້ນເພື່ອປະຕິບັດການວິເຄາະ exploratory ງ່າຍດາຍ, ເຊັ່ນ: ການເຮັດກະຈາຍງ່າຍດາຍ.