2.5 ສະຫຼຸບ

ແຫຼ່ງຂໍ້ມູນໃຫຍ່ແມ່ນຢູ່ທົ່ວທຸກແຫ່ງ, ແຕ່ການນໍາໃຊ້ພວກມັນເພື່ອການຄົ້ນຄວ້າທາງສັງຄົມກໍ່ສາມາດເຮັດໄດ້ຍາກ. ໃນປະສົບການຂອງຂ້າພະເຈົ້າ, ບາງສິ່ງບາງຢ່າງເຊັ່ນ: "ອາຫານກາງວັນບໍ່ເສຍຄ່າ" ກົດລະບຽບຂໍ້ມູນ: ຖ້າທ່ານບໍ່ໃສ່ໃນວຽກງານຫຼາຍ, ທ່ານອາດຈະຕ້ອງເອົາໃຈໃສ່ຫຼາຍຢ່າງແລະຄິດວ່າ ການວິເຄາະມັນ.

ແຫຼ່ງຂໍ້ມູນທີ່ສໍາຄັນຂອງມື້ນີ້ແລະອາດຈະມີມື້ຫນຶ່ງມີແນວໂນ້ມທີ່ຈະມີ 10 ລັກສະນະ. ສາມຂອງເຫຼົ່ານີ້ແມ່ນໂດຍທົ່ວໄປ (ແຕ່ບໍ່ແມ່ນສະເຫມີ) ເປັນປະໂຫຍດສໍາລັບການຄົ້ນຄວ້າ: ໃຫຍ່, ສະເຫມີແລະບໍ່ປະຕິບັດ. ເຈັດແມ່ນໂດຍທົ່ວໄປ (ແຕ່ບໍ່ສະເຫມີ) ມີບັນຫາສໍາລັບການຄົ້ນຄ້ວາ: ບໍ່ຄົບຖ້ວນ, ບໍ່ສາມາດເຂົ້າເຖິງໄດ້, ທີ່ບໍ່ແມ່ນຕົວແທນ, ລ້າວ, ສັບສົນ, algorithmically confounded, ເປື້ອນ, ແລະຄວາມອ່ອນໄຫວ. ຫລາຍໆລັກສະນະເຫຼົ່ານີ້ກໍ່ເກີດຂຶ້ນຍ້ອນວ່າແຫຼ່ງຂໍ້ມູນໃຫຍ່ບໍ່ໄດ້ຖືກສ້າງຂື້ນເພື່ອຈຸດປະສົງຂອງການຄົ້ນຄ້ວາທາງດ້ານສັງຄົມ.

ອີງຕາມແນວຄວາມຄິດໃນບົດນີ້, ຂ້າພະເຈົ້າຄິດວ່າມີສາມວິທີຕົ້ນຕໍທີ່ແຫຼ່ງຂໍ້ມູນໃຫຍ່ຈະມີຄຸນຄ່າສໍາລັບການຄົ້ນຄວ້າທາງສັງຄົມ. ຫນ້າທໍາອິດ, ພວກເຂົາສາມາດເຮັດໃຫ້ນັກຄົ້ນຄວ້າຕັດສິນໃຈລະຫວ່າງການຄາດຄະເນທາງທິດສະດີທີ່ແຂ່ງຂັນ. ຕົວຢ່າງຂອງປະເພດວຽກດັ່ງກ່າວນີ້ປະກອບມີ Farber (2015) (ຄົນຂັບ taxi ນິວຢອກ) ແລະ King, Pan, and Roberts (2013) (censorship in China). ອັນທີສອງ, ແຫຼ່ງຂໍ້ມູນທີ່ໃຫຍ່ຫຼວງສາມາດເຮັດໃຫ້ການວັດແທກການປັບປຸງສໍາລັບນະໂຍບາຍຜ່ານທາງ nowcasting. ຕົວຢ່າງຂອງປະເພດວຽກນີ້ແມ່ນ Ginsberg et al. (2009) (Google Flu Trends). ໃນທີ່ສຸດ, ແຫຼ່ງຂໍ້ມູນໃຫຍ່ສາມາດຊ່ວຍນັກວິທະຍາສາດເຮັດໃຫ້ການຄາດຄະເນກ່ຽວກັບເຫດຜົນໂດຍບໍ່ມີການທົດລອງແລ່ນ. ຕົວຢ່າງຂອງວຽກງານດັ່ງກ່າວນີ້ແມ່ນ Mas and Moretti (2009) (ຜົນກະທົບຂອງເພື່ອນຮ່ວມກັນໃນການຜະລິດ) ແລະ Einav et al. (2015) (ຜົນກະທົບຂອງລາຄາເລີ່ມຕົ້ນກ່ຽວກັບການປະມູນໃນ eBay). ແຕ່ວິທີການເຫຼົ່ານີ້ແຕ່ຢ່າງໃດກໍ່ຕາມ, ມັນມັກຈະຮຽກຮ້ອງໃຫ້ນັກຄົ້ນຄວ້ານໍາເອົາຂໍ້ມູນຫຼາຍເຊັ່ນ: ຄໍານິຍາມຂອງປະລິມານທີ່ມີຄວາມສໍາຄັນທີ່ຈະຄາດຄະເນຫຼືສອງທິດສະດີທີ່ເຮັດໃຫ້ການຄາດຄະເນການແຂ່ງຂັນ. ດັ່ງນັ້ນ, ຂ້າພະເຈົ້າຄິດວ່າວິທີທີ່ດີທີ່ສຸດທີ່ຈະຄິດກ່ຽວກັບສິ່ງທີ່ສາມາດເຮັດໄດ້ແມ່ນວ່າພວກເຂົາສາມາດຊ່ວຍໃຫ້ນັກຄົ້ນຄວ້າທີ່ສາມາດຖາມຄໍາຖາມທີ່ຫນ້າສົນໃຈແລະສໍາຄັນ.

ກ່ອນທີ່ຈະສິ້ນສຸດລົງ, ຂ້າພະເຈົ້າຄິດວ່າມັນຄວນຈະພິຈາລະນາວ່າແຫຼ່ງຂໍ້ມູນໃຫຍ່ອາດມີຜົນກະທົບທີ່ສໍາຄັນຕໍ່ຄວາມສໍາພັນລະຫວ່າງຂໍ້ມູນແລະທິດສະດີ. ມາຮອດປະຈຸບັນ, ບົດນີ້ໄດ້ນໍາໃຊ້ວິທີການຄົ້ນຄວ້າທາງທິດສະດີທີ່ຖືກທິດທາງທິດສະດີ. ແຕ່ແຫຼ່ງຂໍ້ມູນທີ່ໃຫຍ່ຫຼວງຍັງເຮັດໃຫ້ນັກຄົ້ນຄວ້າສາມາດ ນໍາທິດທາງທິດສະດີໄດ້ . ນັ້ນແມ່ນ, ໂດຍຜ່ານການຮວບຮວມຢ່າງລະມັດລະວັງກ່ຽວກັບຂໍ້ເທັດຈິງ, ຮູບແບບແລະການແຂ່ງລົດ, ນັກຄົ້ນຄວ້າສາມາດສ້າງທິດສະດີໃຫມ່. ທາງເລືອກໃຫມ່ທາງດ້ານຂໍ້ມູນທາງທິດສະດີນີ້ບໍ່ແມ່ນໃຫມ່, ແລະມັນຖືກບັງຄັບໃຫ້ໂດຍ Barney Glaser ແລະ Anselm Strauss (1967) ດ້ວຍການເອີ້ນຂອງເຂົາເຈົ້າສໍາລັບ ທິດສະດີພື້ນຖານ . ແຕ່ວິທີການທໍາອິດຂອງຂໍ້ມູນນີ້ບໍ່ໄດ້ຫມາຍເຖິງ "ປາຍຂອງທິດສະດີ", ເຊິ່ງໄດ້ຖືກອ້າງເອົາໄວ້ໃນວາລະສານຕ່າງໆທີ່ກ່ຽວກັບການຄົ້ນຄ້ວາໃນອາຍຸດິຈິຕອນ (Anderson 2008) . ແທນທີ່ຈະເປັນການປ່ຽນແປງສະພາບແວດລ້ອມຂໍ້ມູນ, ພວກເຮົາຄວນຄາດຫວັງໃຫ້ມີການປັບຕົວໃນສາຍພົວພັນລະຫວ່າງຂໍ້ມູນແລະທິດສະດີ. ໃນໂລກທີ່ເກັບກໍາຂໍ້ມູນມີລາຄາແພງ, ມັນເຮັດໃຫ້ມີຄວາມຮູ້ສຶກທີ່ຈະເກັບກໍາຂໍ້ມູນເທົ່ານັ້ນທີ່ທິດສະດີແນະນໍາຈະເປັນປະໂຫຍດທີ່ສຸດ. ແຕ່ໃນໂລກທີ່ມີຈໍານວນຫລາຍຂໍ້ມູນທີ່ມີຢູ່ແລ້ວແມ່ນບໍ່ເສຍຄ່າ, ມັນກໍ່ເຫມາະສົມທີ່ຈະໃຊ້ວິທີການທໍາອິດຂອງຂໍ້ມູນ (Goldberg 2015) .

ດັ່ງທີ່ຂ້າພະເຈົ້າໄດ້ສະແດງຢູ່ໃນບົດນີ້, ນັກຄົ້ນຄວ້າສາມາດຮຽນຮູ້ຫຼາຍໂດຍການສັງເກດເບິ່ງປະຊາຊົນ. ໃນພາກທີສາມຕໍ່ໄປ, ຂ້ອຍຈະອະທິບາຍວ່າພວກເຮົາສາມາດຮຽນຮູ້ສິ່ງຕ່າງໆທີ່ແຕກຕ່າງກັນໄດ້ແນວໃດຖ້າພວກເຮົາປັບປຸງການເກັບກໍາຂໍ້ມູນຂອງພວກເຮົາແລະພົວພັນກັບຄົນໂດຍກົງໂດຍການຖາມຄໍາຖາມຂອງພວກເຂົາ (ບົດທີ 3), ການທົດລອງແລ່ນ (ບົດທີ 4) ໃນຂະບວນການຄົ້ນຄ້ວາໂດຍກົງ (ພາກທີ 5).