2.2 ຂໍ້ມູນທີ່ໃຫຍ່

ການແປພາສານີ້ໄດ້ສ້າງຕັ້ງຂື້ນໂດຍຄອມພິວເຕີ. ×

2.2 ຂໍ້ມູນທີ່ໃຫຍ່

ຂໍ້ມູນຂະຫນາດໃຫຍ່ຖືກສ້າງຂື້ນແລະເກັບກໍາໂດຍບໍລິສັດແລະລັດຖະບານເພື່ອຈຸດປະສົງອື່ນນອກຈາກການຄົ້ນຄວ້າ. ການນໍາໃຊ້ຂໍ້ມູນນີ້ສໍາລັບການຄົ້ນຄວ້າ, ດັ່ງນັ້ນ, ຈໍາເປັນຕ້ອງ repurposing.

ວິທີທໍາອິດທີ່ປະຊາຊົນຈໍານວນຫຼາຍພົບກັບການຄົ້ນຄວ້າທາງດ້ານສັງຄົມໃນຍຸກດິຈິຕອນແມ່ນຜ່ານສິ່ງທີ່ເອີ້ນວ່າ ຂໍ້ມູນໃຫຍ່ . ເຖິງວ່າຈະມີການນໍາໃຊ້ຢ່າງກວ້າງຂວາງໃນໄລຍະນີ້, ບໍ່ມີຄວາມເປັນເອກະສັນກ່ຽວກັບຂໍ້ມູນອັນໃຫຍ່ຫຼວງໃດກໍ່ຕາມ. ຢ່າງໃດກໍຕາມ, ຫນຶ່ງໃນຄໍານິຍາມທົ່ວໄປທີ່ສຸດຂອງຂໍ້ມູນຂະຫນາດໃຫຍ່ສຸມໃສ່ການ "3 Vs": ປະລິມານ, ຄວາມແຕກຕ່າງ, ແລະຄວາມໄວ. ປະມານ, ມີຫຼາຍຂໍ້ມູນ, ໃນຮູບແບບຕ່າງໆ, ແລະມັນຖືກສ້າງຂື້ນຢ່າງຕໍ່ເນື່ອງ. ບາງ fans ຂອງຂໍ້ມູນຂະຫນາດໃຫຍ່ກໍ່ເພີ່ມ "Vs" ອື່ນໆເຊັ່ນ Veracity ແລະ Value, ໃນຂະນະທີ່ຜູ້ສໍາຄັນບາງຄົນເພີ່ມ Vs ເຊັ່ນ Vague ແລະ Vacuous. ແທນທີ່ຈະເປັນ 3 "Vs" (ຫຼື 5 Vs "ຫຼື" 7 Vs "), ສໍາລັບຈຸດປະສົງຂອງການຄົ້ນຄວ້າທາງສັງຄົມ, ຂ້າພະເຈົ້າຄິດວ່າບ່ອນທີ່ດີກ່ວາທີ່ຈະເລີ່ມແມ່ນ 5" Ws ": ຜູ້, ສິ່ງ, ບ່ອນ, ເວລາ , ແລະເປັນຫຍັງຈຶ່ງ. ໃນຄວາມເປັນຈິງ, ຂ້າພະເຈົ້າຄິດວ່າຫລາຍສິ່ງທ້າທາຍແລະໂອກາດທີ່ສ້າງຂື້ນໂດຍແຫລ່ງຂໍ້ມູນໃຫຍ່ມາຈາກພຽງແຕ່ຫນຶ່ງ "W": ເປັນຫຍັງ.

ໃນອາຍຸສູງສຸດທີ່ຄ້າຍຄືກັນ, ຂໍ້ມູນສ່ວນໃຫຍ່ທີ່ນໍາໃຊ້ສໍາລັບການຄົ້ນຄວ້າທາງສັງຄົມໄດ້ຖືກສ້າງຂື້ນເພື່ອຈຸດປະສົງຂອງການຄົ້ນຄ້ວາ. ແຕ່ໃນອາຍຸຂອງດິຈິຕອນ, ຂໍ້ມູນຈໍານວນຫຼວງຫຼາຍແມ່ນຖືກສ້າງຂື້ນໂດຍບໍລິສັດແລະລັດຖະບານສໍາລັບຈຸດປະສົງອື່ນໆນອກຈາກການຄົ້ນຄວ້າ, ເຊັ່ນການໃຫ້ບໍລິການ, ການສ້າງກໍາໄລແລະການຄຸ້ມຄອງກົດຫມາຍ. ປະຊາຊົນທີ່ສ້າງສັນ, ຢ່າງໃດກໍຕາມ, ໄດ້ຮັບຮູ້ວ່າທ່ານສາມາດ repurpose ຂໍ້ມູນບໍລິສັດແລະລັດຖະບານນີ້ສໍາລັບການຄົ້ນຄ້ວາ. ການຄິດກ່ຽວກັບການປຽບທຽບສິນລະປະໃນບົດທີ 1, ເຊັ່ນດຽວກັບ Duchamp repurposed ວັດຖຸທີ່ພົບເພື່ອສ້າງສິລະປະ, ນັກວິທະຍາສາດສາມາດ repurpose ຂໍ້ມູນທີ່ພົບເພື່ອສ້າງການຄົ້ນຄວ້າ.

ໃນຂະນະທີ່ມີໂອກາດທີ່ສຸດສໍາລັບການ repurposing, ການນໍາໃຊ້ຂໍ້ມູນທີ່ບໍ່ໄດ້ສ້າງສໍາລັບຈຸດປະສົງຂອງການຄົ້ນຄວ້າຍັງສະເຫນີສິ່ງທ້າທາຍໃຫມ່. ປຽບທຽບ, ສໍາລັບການຍົກຕົວຢ່າງ, ການບໍລິການສື່ມວນຊົນສັງຄົມ, ເຊັ່ນ: Twitter, ມີການສໍາຫຼວດຄວາມຄິດເຫັນຂອງປະຊາຊົນແບບດັ້ງເດີມ, ເຊັ່ນການສໍາຫຼວດສັງຄົມທົ່ວໄປ. ເປົ້າຫມາຍຕົ້ນຕໍຂອງ Twitter ແມ່ນເພື່ອໃຫ້ບໍລິການແກ່ຜູ້ໃຊ້ແລະເພື່ອເຮັດກໍາໄລ. ນອກຈາກນັ້ນ, ການສໍາຫຼວດສັງຄົມທົ່ວໄປແມ່ນສຸມໃສ່ການສ້າງຂໍ້ມູນທົ່ວໄປສໍາລັບການຄົ້ນຄວ້າສັງຄົມ, ໂດຍສະເພາະແມ່ນສໍາລັບການຄົ້ນຄວ້າຄວາມຄິດເຫັນຂອງປະຊາຊົນ. ຄວາມແຕກຕ່າງໃນເປົ້າຫມາຍນີ້ຫມາຍຄວາມວ່າຂໍ້ມູນທີ່ສ້າງໂດຍ Twitter ແລະສ້າງໂດຍການສໍາຫຼວດສັງຄົມທົ່ວໄປມີຄຸນສົມບັດທີ່ແຕກຕ່າງກັນ, ເຖິງແມ່ນວ່າທັງສອງສາມາດໃຊ້ສໍາລັບການສຶກສາຄວາມຄິດເຫັນຂອງປະຊາຊົນ. Twitter ເຮັດວຽກຢູ່ໃນລະດັບຄວາມໄວແລະຄວາມໄວທີ່ການສໍາຫຼວດສັງຄົມທົ່ວໄປບໍ່ສາມາດຈັບຄູ່ແຕ່ແຕກຕ່າງຈາກການສໍາຫຼວດສັງຄົມທົ່ວໄປ Twitter ບໍ່ໄດ້ໃຊ້ຕົວຢ່າງຢ່າງລະມັດລະວັງກັບຜູ້ໃຊ້ແລະບໍ່ໄດ້ເຮັດວຽກຫນັກເພື່ອຮັກສາການປຽບທຽບໃນໄລຍະເວລາ. ເນື່ອງຈາກວ່າແຫຼ່ງຂໍ້ມູນທັງສອງນີ້ແມ່ນແຕກຕ່າງກັນຫຼາຍ, ມັນບໍ່ມີຄວາມຫມາຍທີ່ເວົ້າວ່າການສໍາຫຼວດສັງຄົມທົ່ວໄປແມ່ນດີກ່ວາ Twitter ຫຼືໃນທາງກັບກັນ. ຖ້າທ່ານຕ້ອງການມາດຕະການຊົ່ວໂມງຂອງອາລົມທົ່ວໂລກ (ເຊັ່ນ Golder and Macy (2011) ) Twitter ແມ່ນດີທີ່ສຸດ. ໃນທາງກົງກັນຂ້າມ, ຖ້າທ່ານຕ້ອງການທີ່ຈະເຂົ້າໃຈການປ່ຽນແປງໃນໄລຍະຍາວໃນການປ່ຽນແປງທັດສະນະຄະຕິໃນສະຫະລັດອາເມລິກາ (ຕົວຢ່າງ DiMaggio, Evans, and Bryson (1996) ), ຫຼັງຈາກນັ້ນການສໍາຫຼວດສັງຄົມທົ່ວໄປແມ່ນການເລືອກທີ່ດີທີ່ສຸດ. ໂດຍທົ່ວໄປແລ້ວ, ແທນທີ່ຈະພະຍາຍາມໂຕ້ຖຽງວ່າແຫຼ່ງຂໍ້ມູນໃຫຍ່ແມ່ນດີກວ່າຫຼືຮ້າຍແຮງກ່ວາຂໍ້ມູນອື່ນໆ, ບົດນີ້ຈະພະຍາຍາມອະທິບາຍວ່າປະເພດຂອງການຄົ້ນຄວ້າຄໍາຖາມທີ່ມີແຫຼ່ງຂໍ້ມູນໃຫຍ່ມີຄຸນສົມບັດທີ່ຫນ້າສົນໃຈແລະສໍາລັບຄໍາຖາມທີ່ພວກເຂົາອາດບໍ່ແມ່ນ ເຫມາະສົມ.

ໃນເວລາທີ່ຄິດກ່ຽວກັບແຫຼ່ງຂໍ້ມູນໃຫຍ່, ນັກຄົ້ນຄວ້າຈໍານວນຫຼາຍໄດ້ມຸ່ງເນັ້ນໃສ່ຂໍ້ມູນອອນໄລນ໌ທີ່ສ້າງຂື້ນແລະເກັບກໍາໂດຍບໍລິສັດ, ເຊັ່ນ: ບັນທຶກເຄື່ອງຈັກຊອກຫາແລະສື່ມວນຊົນສັງຄົມ. ຢ່າງໃດກໍຕາມ, ຈຸດສຸມນີ້ແຄບປ່ອຍອອກມາສອງແຫຼ່ງທີ່ສໍາຄັນອື່ນໆຂອງຂໍ້ມູນຂະຫນາດໃຫຍ່. ຫນ້າທໍາອິດ, ແຫຼ່ງຂໍ້ມູນໃຫຍ່ຂອງບໍລິສັດໃຫຍ່ມາຈາກອຸປະກອນດິຈິຕອນໃນໂລກທາງດ້ານຮ່າງກາຍ. ຕົວຢ່າງ, ໃນບົດນີ້, ຂ້ອຍຈະບອກທ່ານກ່ຽວກັບການສຶກສາທີ່ປະຕິເສດຂໍ້ມູນການກວດສອບຂອງສັບພະສິນຄ້າເພື່ອຄົ້ນຄວ້າວິທີຜົນຜະລິດຂອງແຮງງານໄດ້ຮັບຜົນກະທົບຈາກຜະລິດຕະພັນຂອງຫມູ່ເພື່ອນຂອງເຈົ້າ (Mas and Moretti 2009) . ຫຼັງຈາກນັ້ນ, ໃນບົດຕໍ່ໄປ, ຂ້ອຍຈະບອກທ່ານກ່ຽວກັບນັກຄົ້ນຄວ້າທີ່ໃຊ້ບັນທຶກການໂທຈາກໂທລະສັບມືຖື (Blumenstock, Cadamuro, and On 2015) ແລະຂໍ້ມູນການຄິດໄລ່ທີ່ສ້າງຂື້ນໂດຍບໍລິການໄຟຟ້າ (Allcott 2015) . ໃນຂະນະທີ່ຕົວຢ່າງເຫຼົ່ານີ້ສະແດງໃຫ້ເຫັນວ່າ, ແຫຼ່ງຂໍ້ມູນໃຫຍ່ຂອງບໍລິສັດແມ່ນກ່ຽວກັບພຶດຕິກໍາອອນໄລນ໌ເທົ່ານັ້ນ.

ແຫລ່ງຂໍ້ມູນທີ່ສໍາຄັນອັນດັບສອງຂອງຂໍ້ມູນຂະຫນາດໃຫຍ່ທີ່ສູນເສຍໂດຍຈຸດສຸມທີ່ແຄບຢູ່ໃນພຶດຕິກໍາອອນລາຍແມ່ນຂໍ້ມູນທີ່ສ້າງຂື້ນໂດຍລັດຖະບານ. ຂໍ້ມູນຂອງລັດຖະບານເຫຼົ່ານີ້, ທີ່ນັກຄົ້ນຄວ້າ ບັນທຶກການບໍລິຫານຂອງລັດຖະບານ , ປະກອບມີສິ່ງຕ່າງໆເຊັ່ນ: ບັນທຶກການເກັບພາສີ, ບັນທຶກໂຮງຮຽນແລະບັນທຶກສະຖິຕິສໍາຄັນ (ເຊັ່ນ: ການຈົດທະບຽນການເກີດລູກແລະການເສຍຊີວິດ). ລັດຖະບານໄດ້ສ້າງຂໍ້ມູນເຫຼົ່ານີ້ສໍາລັບໃນບາງກໍລະນີ, ຫຼາຍຮ້ອຍປີ, ແລະນັກວິທະຍາສາດສັງຄົມໄດ້ໃຊ້ພວກມັນເກືອບເກືອບເປັນເວລາທີ່ມີນັກວິທະຍາສາດສັງຄົມ. ສິ່ງທີ່ມີການປ່ຽນແປງ, ຢ່າງໃດກໍ່ຕາມ, ແມ່ນການດິຈິທັນ, ເຊິ່ງໄດ້ເຮັດໃຫ້ມັນງ່າຍຂຶ້ນສໍາລັບລັດຖະບານທີ່ຈະເກັບກໍາ, ສົ່ງ, ເກັບຮັກສາ, ແລະວິເຄາະຂໍ້ມູນ. ຕົວຢ່າງ, ໃນບົດນີ້, ຂ້າພະເຈົ້າຈະບອກທ່ານກ່ຽວກັບການສຶກສາທີ່ປະຕິເສດຂໍ້ມູນຈາກແທັກແທັກດິຈິຕອນຂອງລັດຖະບານ New York City ເພື່ອແກ້ໄຂການໂຕ້ວາທີພື້ນຖານໃນເສດຖະກິດແຮງງານ (Farber 2015) . ຫຼັງຈາກນັ້ນ, ໃນບົດຕໍ່ໆມາ, ຂ້ອຍຈະບອກທ່ານກ່ຽວກັບວິທີການເກັບກໍາຂໍ້ມູນການເລືອກຕັ້ງຂອງລັດຖະບານໃນການສໍາຫຼວດ (Ansolabehere and Hersh 2012) ແລະການທົດລອງ (Bond et al. 2012) .

ຂ້າພະເຈົ້າຄິດວ່າຄວາມຄິດຂອງການແກ້ໄຂແມ່ນພື້ນຖານສໍາລັບການຮຽນຮູ້ຈາກແຫຼ່ງຂໍ້ມູນທີ່ໃຫຍ່ຫຼວງແລະດັ່ງນັ້ນ, ກ່ອນທີ່ຈະເວົ້າກ່ຽວກັບຄຸນລັກສະນະຂອງແຫຼ່ງຂໍ້ມູນໃຫຍ່ (ພາກ 2.3) ແລະວິທີການເຫຼົ່ານີ້ສາມາດນໍາໃຊ້ໃນການຄົ້ນຄວ້າ (ພາກ 2.4), ຂ້ອຍຕ້ອງການ ໃຫ້ສອງຄໍາແນະນໍາໂດຍທົ່ວໄປກ່ຽວກັບການແກ້ໄຂ. ຫນ້າທໍາອິດ, ມັນສາມາດ tempting ທີ່ຈະຄິດກ່ຽວກັບຄວາມແຕກຕ່າງທີ່ຂ້າພະເຈົ້າໄດ້ສ້າງຕັ້ງຂຶ້ນເປັນລະຫວ່າງຂໍ້ມູນ "ພົບ" ແລະ "ການອອກແບບ" ຂໍ້ມູນ. ນັ້ນແມ່ນໃກ້ຊິດ, ແຕ່ມັນບໍ່ແມ່ນຄວາມຖືກຕ້ອງ. ເຖິງແມ່ນວ່າ, ຈາກທັດສະນະຂອງນັກຄົ້ນຄວ້າ, ແຫຼ່ງຂໍ້ມູນໃຫຍ່ແມ່ນ "ພົບ", ພວກເຂົາບໍ່ພຽງແຕ່ຕົກລົງມາຈາກທ້ອງຟ້າ. ແທນທີ່ຈະ, ແຫຼ່ງຂໍ້ມູນທີ່ "ພົບ" ໂດຍນັກຄົ້ນຄວ້າແມ່ນອອກແບບໂດຍຜູ້ໃດຜູ້ຫນຶ່ງສໍາລັບບາງຈຸດປະສົງ. ເນື່ອງຈາກຂໍ້ມູນ "ພົບ" ຖືກອອກແບບໂດຍຜູ້ໃດຜູ້ນຶ່ງ, ຂ້ອຍສະເຫມີແນະນໍາວ່າທ່ານພະຍາຍາມເຂົ້າໃຈຫຼາຍເທົ່າທີ່ເປັນໄປໄດ້ກ່ຽວກັບປະຊາຊົນແລະຂະບວນການທີ່ສ້າງຂໍ້ມູນຂອງທ່ານ. ສອງ, ເມື່ອທ່ານກໍາລັງ repurposing ຂໍ້ມູນ, ມັນມັກຈະເປັນປະໂຫຍດຫຼາຍທີ່ຈະຄິດໄລ່ຊຸດຂໍ້ມູນທີ່ເຫມາະສົມສໍາລັບບັນຫາຂອງທ່ານແລະຫຼັງຈາກນັ້ນປຽບທຽບຂໍ້ມູນ dataset ທີ່ເຫມາະສົມກັບທີ່ທ່ານກໍາລັງໃຊ້. ຖ້າທ່ານບໍ່ໄດ້ລວບລວມຂໍ້ມູນຂອງຕົວທ່ານເອງ, ອາດມີຄວາມແຕກຕ່າງທີ່ສໍາຄັນລະຫວ່າງສິ່ງທີ່ທ່ານຕ້ອງການແລະສິ່ງທີ່ທ່ານມີ. ການສັງເກດເຫັນຄວາມແຕກຕ່າງເຫຼົ່ານີ້ຈະຊ່ວຍເຮັດໃຫ້ຄວາມຊັດເຈນຂອງສິ່ງທີ່ທ່ານສາມາດແລະບໍ່ສາມາດຮຽນຮູ້ຈາກຂໍ້ມູນທີ່ທ່ານມີແລະມັນອາດຈະແນະນໍາຂໍ້ມູນໃຫມ່ທີ່ທ່ານຄວນຈະເກັບກໍາ.

ໃນປະສົບການຂອງຂ້ອຍ, ນັກວິທະຍາສາດສັງຄົມແລະນັກວິທະຍາສາດຂໍ້ມູນມີແນວໂນ້ມທີ່ຈະແກ້ໄຂບັນຫາທີ່ແຕກຕ່າງກັນຫຼາຍ. ນັກວິທະຍາສາດສັງຄົມ, ຜູ້ທີ່ມັກເຮັດວຽກກັບຂໍ້ມູນທີ່ຖືກອອກແບບມາສໍາລັບການຄົ້ນຄວ້າ, ມັກຈະຊີ້ໃຫ້ເຫັນບັນຫາຕ່າງໆທີ່ມີຂໍ້ມູນທີ່ຖືກຍົກເລີກໃນຂະນະທີ່ບໍ່ຮູ້ຄວາມເຂັ້ມແຂງຂອງມັນ. ໃນທາງກົງກັນຂ້າມ, ນັກວິທະຍາສາດຂໍ້ມູນໂດຍປົກກະຕິສະແດງໃຫ້ເຫັນເຖິງຜົນປະໂຫຍດຂອງຂໍ້ມູນທີ່ຖືກປັບປຸງໃນຂະນະທີ່ບໍ່ຮູ້ຄວາມອ່ອນແອຂອງມັນ. ຕາມທໍາມະຊາດ, ວິທີການທີ່ດີທີ່ສຸດແມ່ນການຜະສົມຜະສານ. ນັ້ນແມ່ນ, ນັກຄົ້ນຄວ້າຈໍາເປັນຕ້ອງໄດ້ເຂົ້າໃຈລັກສະນະຂອງແຫຼ່ງຂໍ້ມູນໃຫຍ່ - ທັງດີແລະບໍ່ດີ - ແລະຫຼັງຈາກນັ້ນສະແດງວິທີຮຽນຮູ້ຈາກເຂົາເຈົ້າ. ແລະ, ວ່າແມ່ນແຜນການສໍາລັບສ່ວນທີ່ເຫຼືອຂອງພາກນີ້. ໃນພາກຕໍ່ໄປ, ຂ້າພະເຈົ້າຈະອະທິບາຍລັກສະນະທົ່ວໄປຂອງສິບຂໍ້ມູນທີ່ໃຫຍ່ຫຼວງ. ຫຼັງຈາກນັ້ນ, ໃນພາກຕໍ່ໄປນີ້, ຂ້າພະເຈົ້າຈະອະທິບາຍເຖິງສາມວິທີການຄົ້ນຄວ້າທີ່ສາມາດເຮັດວຽກໄດ້ດີກັບຂໍ້ມູນດັ່ງກ່າວ.