2.3.1.1 ໃຫຍ່

ຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ແມ່ນວິທີການໃນຕອນທ້າຍ; ພວກເຂົາເຈົ້າແມ່ນບໍ່ທີ່ສຸດຕົນເອງເປັນ.

ຄັ້ງທໍາອິດຂອງສາມລັກສະນະທີ່ດີຂອງຂໍ້ມູນຂະຫນາດໃຫຍ່ແມ່ນປຶກສາຫາລື: ເຫຼົ່ານີ້ແມ່ນຂໍ້ມູນຂະຫນາດໃຫຍ່. ແຫຼ່ງຂໍ້ມູນເຫຼົ່ານີ້ສາມາດມີຂະຫນາດໃຫຍ່ໃນສາມວິທີທີ່ແຕກຕ່າງກັນ: ປະຊາຊົນຈໍານວນຫຼາຍ, lots ຂອງຂໍ້ມູນຕໍ່ຄົນ, ຫຼືການສັງເກດການຈໍານວນຫຼາຍໃນໄລຍະທີ່ໃຊ້ເວລາ. ມີຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ເຮັດໃຫ້ປະເພດສະເພາະບາງສ່ວນຂອງ heterogeneity ການຄົ້ນຄວ້າ, ການວັດແທກ, ການສຶກສາກໍລະນີທີ່ກວດສອບຄວາມແຕກຕ່າງຂະຫນາດນ້ອຍ, ແລະເຮັດໃຫ້ການຄາດຄະເນເຫດຈາກຂໍ້ມູນການສັງເກດການ. ນອກຈາກນີ້ຍັງເບິ່ງຄືວ່າຈະນໍາໄປສູ່ການເປັນປະເພດສະເພາະຂອງ sloppiness.

ການທົດສອບຄັ້ງທໍາອິດສໍາລັບການທີ່ຂະຫນາດແມ່ນເປັນປະໂຫຍດໂດຍສະເພາະແມ່ນການເຄື່ອນຍ້າຍຫຼັງຈາກລະດັບສະເລ່ຍທີ່ຈະເຮັດໃຫ້ການຄາດຄະເນສໍາລັບກຸ່ມຍ່ອຍສະເພາະ. ສໍາລັບການຍົກຕົວຢ່າງ, Gary King, Jennifer Pan, ແລະ Molly Roberts (2013) ການວັດແທກຄວາມເປັນໄປໄດ້ວ່າຂໍ້ຄວາມທີ່ສື່ມວນຊົນສັງຄົມໃນປະເທດຈີນຈະໄດ້ຮັບການ censored ໂດຍລັດຖະບານ. ໂດຍຕົວຂອງມັນເອງນີ້ຄາດຄະເນສະເລ່ຍຂອງການລົບບໍ່ມີປະໂຫຍດຫຼາຍສໍາລັບຄວາມເຂົ້າໃຈວ່າເປັນຫຍັງລັດຖະບານ censors ຂໍ້ຄວາມບາງຢ່າງແຕ່ບໍ່ໄດ້ຄົນອື່ນ. ແຕ່, ເນື່ອງຈາກວ່າຂໍ້ມູນຂອງພວກເຂົາລວມ 11 ລ້ານຂໍ້, ຄົນແລະເພື່ອນຮ່ວມງານຍັງໄດ້ຜະລິດການຄາດຄະເນສໍາລັບການຄາດຄະເນການຂອງການເຊັນເຊີກະທູ້ກ່ຽວກັບການ 85 ປະເພດແຍກຕ່າງຫາກ (ຕົວຢ່າງ, ຮູບພາບລາມົກ, Tibet, ແລະຈະລາຈອນໃນກຸງປັກກິ່ງ) ໄດ້. ໂດຍການປຽບທຽບເປັນໄປໄດ້ຂອງ censorship ສໍາລັບຂໍ້ຄວາມໃນປະເພດທີ່ແຕກຕ່າງກັນ, ພວກເຂົາສາມາດທີ່ຈະເຂົ້າໃຈເພີ່ມເຕີມກ່ຽວກັບວິທີແລະເປັນຫຍັງລັດຖະບານ censors ບາງປະເພດຂອງກະທູ້. ມີ 11 ພັນ posts (ແທນທີ່ຈະກ່ວາ 11 ລ້ານ posts), ພວກເຂົາເຈົ້າຈະບໍ່ມີຄວາມສາມາດໃນການຜະລິດຄາດຄະເນປະເພດສະເພາະເຫຼົ່ານີ້.

ຄັ້ງທີສອງ, ຂະຫນາດແມ່ນເປັນປະໂຫຍດໂດຍສະເພາະແມ່ນສໍາລັບການກໍາລັງສຶກສາຂອງເຫດການທີ່ຫາຍາກ. ສໍາລັບການຍົກຕົວຢ່າງ, Goel ແລະເພື່ອນຮ່ວມງານ (2015) ຕ້ອງການຢາກສຶກສາວິທີທີ່ແຕກຕ່າງກັນທີ່ tweets ສາມາດໄປ viral. ເນື່ອງຈາກວ່ານ້ໍາຕົກຂະຫນາດໃຫຍ່ຂອງ Re: Tweet ແມ່ນທີ່ສຸດທີ່ຫາຍາກກ່ຽວກັບການຫນຶ່ງໃນ 3,000, ພວກເຂົາເຈົ້າຈໍາເປັນຕ້ອງໄດ້ສຶກສາຫຼາຍກ່ວາຕື້ tweets ໃນຄໍາສັ່ງເພື່ອຊອກຫານ້ໍາຕົກຂະຫນາດໃຫຍ່ພຽງພໍສໍາລັບການວິເຄາະຂອງພວກເຂົາ.

ທີສາມ, ຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ເຮັດໃຫ້ນັກຄົ້ນຄວ້າເພື່ອການກວດສອບຄວາມແຕກຕ່າງຂະຫນາດນ້ອຍ. ໃນຄວາມເປັນຈິງ, ຫຼາຍຂອງການສຸມໃສ່ຂໍ້ມູນໃຫຍ່ໃນອຸດສາຫະກໍາກ່ຽວກັບຄວາມແຕກຕ່າງຂະຫນາດນ້ອຍເຫຼົ່ານີ້: ຄວາມຫມັ້ນຄົງການກວດສອບຄວາມແຕກຕ່າງກັນລະຫວ່າງອັດຕາການຄິກຜ່ານ 1% ແລະ 11% ກ່ຽວກັບການໂຄສະນາສາມາດແປພາສາເປັນລ້ານດອນລາໃນລາຍການພິເສດ. ໃນການປັບຄ່າວິທະຍາສາດຈໍານວນຫນຶ່ງ, ຄວາມແຕກຕ່າງຂະຫນາດນ້ອຍດັ່ງກ່າວອາດຈະບໍ່ໄດ້ຮັບການໂດຍສະເພາະທີ່ສໍາຄັນ (ເຖິງແມ່ນວ່າຖ້າຫາກວ່າພວກເຂົາເຈົ້າມີຄວາມສໍາຄັນທາງສະຖິຕິ). ແຕ່ວ່າ, ໃນການຕັ້ງຄ່ານະໂຍບາຍຈໍານວນຫນຶ່ງ, ຄວາມແຕກຕ່າງຂະຫນາດນ້ອຍດັ່ງກ່າວສາມາດກາຍເປັນສິ່ງສໍາຄັນໃນເວລາທີ່ເບິ່ງໃນລວມ. ສໍາລັບການຍົກຕົວຢ່າງ, ຖ້າຫາກວ່າມີສອງການສຸຂະພາບສາທາລະນະແລະເປັນຜົນກະທົບເລັກນ້ອຍຫຼາຍກ່ວາອື່ນ, ຫຼັງຈາກນັ້ນປ່ຽນໄປໃນການແຊກແຊງປະສິດທິພາບສາມາດເພີ່ມຂຶ້ນໃນທີ່ສຸດປະຢັດພັນຂອງຊີວິດເພີ່ມເຕີມ.

ສຸດທ້າຍ, ຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ຢ່າງຫຼວງຫຼາຍເພີ່ມທະວີການຄວາມສາມາດຂອງພວກເຮົາທີ່ຈະເຮັດໃຫ້ການຄາດຄະເນເຫດຈາກຂໍ້ມູນການສັງເກດການ. ເຖິງແມ່ນວ່າຂໍ້ມູນກ່ຽວຂະຫນາດໃຫຍ່ໄດ້ມີພື້ນຖານມີການປ່ຽນແປງບັນຫາທີ່ມີການວິນິດໄສສາເຫດຈາກຂໍ້ມູນການສັງເກດການ, ໂຍບາຍຄວາມລັບແລະປະສົບການສອງທໍາມະຊາດເຕັກນິກທີ່ນັກຄົ້ນຄວ້າໄດ້ພັດທະນາສໍາລັບການເຮັດໃຫ້ການຮຽກຮ້ອງ causal ຈາກການສັງເກດຂໍ້ມູນທັງສອງຢ່າງຫຼວງຫຼາຍຜົນປະໂຫຍດຈາກຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່. ຂ້າພະເຈົ້າຈະອະທິບາຍແລະສະແດງໃຫ້ເຫັນຄໍາຮ້ອງຂໍນີ້ໃນລາຍລະອຽດຫຼາຍຂຶ້ນຕໍ່ມາໃນພາກນີ້ໃນເວລາທີ່ຂ້າພະເຈົ້າອະທິບາຍແຜນຍຸດທະສາດການຄົ້ນຄວ້າ.

ເຖິງແມ່ນວ່າ bigness ແມ່ນໂດຍທົ່ວໄປເປັນຄຸນສົມບັດທີ່ດີໃນເວລາທີ່ນໍາໃຊ້ຖືກຕ້ອງ, ຂ້າພະເຈົ້າໄດ້ສັງເກດເຫັນວ່າ bigness ທົ່ວໄປນໍາໄປສູ່ຄວາມຜິດພາດຈືຂໍ້ມູນການ. ສໍາລັບເຫດຜົນບາງ, bigness ເບິ່ງຄືວ່າຈະເຮັດໃຫ້ນັກຄົ້ນຄວ້າຈະບໍ່ສົນໃຈວິທີການຂໍ້ມູນຂອງເຂົາເຈົ້າໄດ້ຜະລິດ. ໃນຂະນະທີ່ bigness ບໍ່ຫຼຸດຜ່ອນຄວາມຕ້ອງການໃນການກັງວົນກ່ຽວກັບຄວາມຜິດພາດໄປ, ຕົວຈິງແລ້ວມັນເພີ່ມຄວາມຈໍາເປັນຕ້ອງກັງວົນກ່ຽວກັບຄວາມຜິດພາດລະບົບ, ປະເພດຂອງຄວາມຜິດພາດທີ່ຂ້າພະເຈົ້າຈະອະທິບາຍໃນຫຼາຍດ້ານຮ່າງທີ່ເກີດຂຶ້ນຈາກຄວາມລໍາອຽງໃນວິທີການຂໍ້ມູນການສ້າງແລະເກັບກໍາຂໍ້ມູນ. ໃນຊຸດຂໍ້ມູນຂະຫນາດນ້ອຍ, ທັງສອງຄວາມຜິດພາດໄປແລະຄວາມຜິດພາດລະບົບສາມາດເປັນສິ່ງສໍາຄັນ, ແຕ່ໃນຄວາມຜິດພາດໄປຂະຫນາດໃຫຍ່ຊຸດຂໍ້ມູນທີ່ຈະສາມາດສະເລ່ຍຫ່າງແລະຄວາມຜິດພາດລະບົບຄອບງໍາ. ນັກຄົ້ນຄວ້າຜູ້ທີ່ບໍ່ໄດ້ຄິດກ່ຽວກັບຄວາມຜິດພາດລະບົບຈະສິ້ນສຸດເຖິງການນໍາໃຊ້ຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ຂອງເຂົາເຈົ້າເພື່ອໃຫ້ໄດ້ຮັບການຄາດຄະເນທີ່ຖືກຕ້ອງຂອງສິ່ງທີ່ຜິດພາດ; ພວກເຂົາເຈົ້າຈະບໍ່ຖືກຕ້ອງຊັດເຈນ (McFarland and McFarland 2015) .