2.2 ຂໍ້ມູນທີ່ໃຫຍ່

ຂໍ້ມູນຂະຫນາດໃຫຍ່ທີ່ຖືກສ້າງຂຶ້ນແລະເກັບກໍາໂດຍລັດຖະບານສໍາລັບຈຸດປະສົງອື່ນນອກຈາກການຄົ້ນຄວ້າ. ການນໍາໃຊ້ຂໍ້ມູນນີ້ສໍາລັບການຄົ້ນຄ້ວາ, ເພາະສະນັ້ນ, ຮຽກຮ້ອງໃຫ້ repurposing.

ການເບິ່ງ idealized ຂອງການຄົ້ນຄວ້າທາງສັງຄົມຮູບພາບວິທະຍາສາດມີຄວາມຄິດແລະຫຼັງຈາກນັ້ນການເກັບກໍາຂໍ້ມູນການທົດສອບຄວາມຄິດທີ່ວ່າ. ແບບຂອງການຄົ້ນຄວ້ານີ້ນໍາໄປສູ່ການເປັນແບບທີ່ໃກ້ຊິດລະຫວ່າງຄໍາຖາມຄົ້ນຄ້ວາແລະຂໍ້ມູນ, ແຕ່ວ່າມັນແມ່ນມີຈໍາກັດເນື່ອງຈາກວ່ານັກວິໄຈສ່ວນບຸກຄົນມັກຈະບໍ່ມີຊັບພະຍາກອນທີ່ຈໍາເປັນເພື່ອເກັບກໍາຂໍ້ມູນທີ່ເຂົາເຈົ້າຕ້ອງການ, ເຊັ່ນ: ຂໍ້ມູນຂະຫນາດໃຫຍ່, ອຸດົມສົມບູນ, ແລະປະເທດຊາດ, ຜູ້ຕາງຫນ້າ. ເພາະສະນັ້ນ, ຢ່າງຫຼາຍຂອງການຄົ້ນຄວ້າທາງດ້ານສັງຄົມໃນໄລຍະຜ່ານມາໄດ້ນໍາໃຊ້ຂະຫນາດໃຫຍ່, ຂະຫນາດການສໍາຫຼວດທາງສັງຄົມ, ເຊ​​ັ່ນ: ການສໍາຫຼວດທົ່ວໄປສັງຄົມ (GSS), ການສຶກສາການເລືອກຕັ້ງແ​​ຫ່ງຊາດອາເມລິກາ (ANES), ແລະການສຶກສາລະອຽດຂອງລາຍໄດ້ Dynamics (PSID). ເຫຼົ່ານີ້ການສໍາຫຼວດຂະຫນາດໃຫຍ່ແມ່ນດໍາເນີນການໂດຍທົ່ວໄປໂດຍທີມງານຂອງນັກຄົ້ນຄວ້າແລະເຂົາເຈົ້າໄດ້ຖືກອອກແບບມາເພື່ອສ້າງຂໍ້ມູນທີ່ສາມາດຖືກນໍາໃຊ້ໂດຍນັກຄົ້ນຄວ້າຢ່າງຫຼວງຫຼາຍ. ເນື່ອງຈາກວ່າເປົ້າຫມາຍຂອງການເຫຼົ່ານີ້ການສໍາຫຼວດຂະຫນາດໃຫຍ່, ການດູແລທີ່ຍິ່ງໃຫຍ່ແມ່ນເອົາໃຈໃສ່ເຂົ້າໄປໃນການອອກແບບເກັບກໍາຂໍ້ມູນແລະການກະກຽມຂໍ້ມູນທີ່ໄດ້ຮັບສໍາລັບການນໍາໃຊ້ໂດຍນັກຄົ້ນຄວ້າ. ຂໍ້ມູນເຫຼົ່ານີ້ແມ່ນໂດຍນັກຄົ້ນຄວ້າແລະສໍາລັບນັກຄົ້ນຄວ້າ.

ຄົ້ນຄ້ວາສັງຄົມຫຼາຍທີ່ສຸດການນໍາໃຊ້ແຫຼ່ງອາຍຸສູງສຸດດິຈິຕອນ, ຢ່າງໃດກໍຕາມ, ແມ່ນແຕກຕ່າງກັນພື້ນຖານ. ແທນທີ່ຈະໃຊ້ຂໍ້ມູນທີ່ເກັບກໍາໂດຍນັກຄົ້ນຄວ້າແລະສໍາລັບນັກຄົ້ນຄວ້າ, ການນໍາໃຊ້ແຫຼ່ງຂໍ້ມູນທີ່ໄດ້ຮັບການສ້າງແລະເກັບກໍາໂດຍທຸລະກິດແລະລັດຖະບານສໍາລັບຈຸດປະສົງຂອງເຂົາເຈົ້າເອງເຊັ່ນ: ການເຮັດກໍາໄລໄດ້, ການສະຫນອງການບໍລິການ, ຫຼືການບໍລິຫານກົດຫມາຍ. ທຸລະກິດແລະລັດຖະບານເຫຼົ່ານີ້ແຫຼ່ງຂໍ້ມູນໄດ້ມາຈະຖືກເອີ້ນວ່າຂໍ້ມູນຂະຫນາດໃຫຍ່. ການດໍາເນີນການຄົ້ນຄວ້າທີ່ມີຂໍ້ມູນຂະຫນາດໃຫຍ່ເປັນທີ່ແຕກຕ່າງກັນກ່ວາການດໍາເນີນການຄົ້ນຄວ້າທີ່ມີຂໍ້ມູນທີ່ໄດ້ສ້າງຕັ້ງຂື້ນໃນເບື້ອງຕົ້ນສໍາລັບການຄົ້ນຄ້ວາ. ສົມທຽບ, ຍົກຕົວຢ່າງ, ເວັບໄຊທ໌ສື່ມວນຊົນສັງຄົມເຊັ່ນ Twitter, ມີການສໍາຫຼວດຄວາມຄິດເຫັນຂອງສາທາລະນະພື້ນເມືອງເຊັ່ນ: ການສໍາຫລວດສັງຄົມທົ່ວໄປ (GSS). ເປົ້າຫມາຍຕົ້ນຕໍ Twitter ແມ່ນເພື່ອສະຫນອງການບໍລິການກັບຜູ້ໃຊ້ຂອງຕົນແລະເພື່ອເຮັດໃຫ້ກໍາໄລໄດ້. ໃນຂະບວນການຂອງການບັນລຸເປົ້າຫມາຍເຫຼົ່ານີ້, Twitter ສ້າງຂໍ້ມູນທີ່ອາດຈະເປັນປະໂຫຍດສໍາລັບການສຶກສາລັກສະນະສະເພາະໃດຫນຶ່ງຂອງຄວາມຄິດເຫັນສາທາລະນະ. ແຕ່ວ່າ, ບໍ່ເຫມືອນກັບການສໍາຫລວດສັງຄົມທົ່ວໄປ (GSS), Twitter ແມ່ນບໍ່ຕົ້ນຕໍໄດ້ສຸມໃສ່ຄົ້ນຄ້ວາສັງຄົມ.

ຂໍ້ມູນຂະຫນາດໃຫຍ່ໃນໄລຍະເປັນ vague frustratingly, ແລະມັນກຸ່ມຮ່ວມກັນສິ່ງທີ່ແຕກຕ່າງກັນຫຼາຍ. ສໍາລັບຈຸດປະສົງຂອງການຄົ້ນຄວ້າທາງດ້ານສັງຄົມ, ຂ້າພະເຈົ້າຄິດວ່າມັນຈະເປັນການຈໍາແນກລະຫວ່າງສອງປະເພດຂອງແຫຼ່ງຂໍ້ມູນຂະຫນາດໃຫຍ່:. ການບັນທຶກການບໍລິຫານລັດຖະບານແລະການບັນທຶກການບໍລິຫານທຸລະກິດການບັນທຶກການບໍລິຫານລັດຖະບານມີຂໍ້ມູນທີ່ສ້າງຂຶ້ນໂດຍລັດຖະບານເປັນສ່ວນຫນຶ່ງຂອງກິດຈະກໍາປົກກະຕິຂອງເຂົາເຈົ້າ. ປະເພດເຫຼົ່ານີ້ຂອງການບັນທຶກການໄດ້ຖືກນໍາໃຊ້ໂດຍນັກຄົ້ນຄວ້າໃນໄລຍະຜ່ານມາ, ດັ່ງກ່າວເປັນປະຊາກອນການສຶກສາການເກີດລູກ, ການແຕ່ງງານ, ແລະການເສຍຊີວິດການບັນທຶກໃນແຕ່ລັດຖະບານໄດ້ເພີ່ມຂຶ້ນການເກັບກໍາແລະປ່ອຍການບັນທຶກການລາຍລະອຽດໃນຮູບແບບການວິເຄາະ. ສໍາລັບການຍົກຕົວຢ່າງ, ລັດຖະບານນະຄອນນິວຢອກຕິດຕັ້ງແ​​ມັດດິຈິຕອນພາຍໃນຂອງ taxi ໃນຕົວເມືອງ. ແມັດເຫຼົ່ານີ້ບັນທຶກທັງຫມົດປະເພດຂອງຂໍ້ມູນກ່ຽວກັບແຕ່ລະຂັບເຄື່ອນ taxi ລວມທັງຂັບລົດໄດ້, ທີ່ໃຊ້ເວລາເລີ່ມຕົ້ນແລະສະຖານທີ່, ທີ່ໃຊ້ເວລາຢຸດແລະສະຖານທີ່, ແລະອາຫານໄດ້. ໃນການສຶກສາທີ່ຂ້າພະເຈົ້າຈະບອກຕໍ່ໄປໃນບົດນີ້, Henry Farber (2015) repurposed ຂໍ້ມູນເຫຼົ່ານີ້ເພື່ອແກ້ໄຂການໂຕ້ວາທີພື້ນຖານໃນເສດຖະສາດການອອກແຮງງານກ່ຽວກັບການພົວພັນລະຫວ່າງຄ່າແຮງງານຊົ່ວໂມງແລະຈໍານວນຂອງຊົ່ວໂມງເຮັດວຽກໄດ້.

ທີ່ສອງປະເພດຕົ້ນຕໍຂອງຂໍ້ມູນຂະຫນາດໃຫຍ່ສໍາລັບການຄົ້ນຄ້ວາສັງຄົມແມ່ນການບັນທຶກການບໍລິຫານທຸລະກິດ. ເຫຼົ່ານີ້ແມ່ນຂໍ້ມູນທີ່ທຸລະກິດການສ້າງແລະເກັບກໍາເປັນສ່ວນຫນຶ່ງຂອງກິດຈະກໍາປົກກະຕິຂອງເຂົາເຈົ້າ. ການບັນທຶກການບໍລິຫານທຸລະກິດເຫຼົ່ານີ້ມັກຈະຖືກເອີ້ນວ່າຮ່ອງຮອຍດິຈິຕອນ, ແລະປະກອບມີສິ່ງຕ່າງໆເຊັ່ນວ່າຂໍ້ມູນບັນທຶກຂອງເຄື່ອງຈັກໃນການຊອກຫາ, ກະທູ້ສື່ມວນຊົນສັງຄົມ, ແລະໂທຫາການບັນທຶກການຈາກໂທລະສັບມືຖື. ທີ່ສໍາຄັນ, ການບັນທຶກການບໍລິຫານທຸລະກິດເຫຼົ່ານີ້ແມ່ນບໍ່ພຽງແຕ່ກ່ຽວກັບພຶດຕິກໍາອອນໄລນ໌. ສໍາລັບການຍົກຕົວຢ່າງ, ຮ້ານທີ່ນໍາໃຊ້ເຄື່ອງສະແກນກວດກາເບິ່ງອອກໄດ້ສ້າງມາດຕະການທີ່ແທ້ຈິງທີ່ໃຊ້ເວລາຂອງຜະລິດຕະພັນພະນັກງານ. ໃນການສຶກສາທີ່ຂ້າພະເຈົ້າຈະບອກທ່ານກ່ຽວກັບຕໍ່ມາໃນພາກນີ້, Alexandre Mas ແລະ Enrico Moretti (2009) repurposed ສັບພະສິນຄ້າຂໍ້ມູນນີ້ກວດກາເບິ່ງອອກການສຶກສາວິທີການຜະລິດຂອງພະນັກງານແມ່ນຜົນກະທົບຈາກການຜະລິດຂອງມິດສະຫາຍຂອງເຂົາເຈົ້າ.

ໃນຖານະເປັນທັງສອງຕົວຢ່າງເຫລົ່ານີ້ສະແດງໃຫ້ເຫັນ, ຄວາມຄິດຂອງ repurposing ເປັນພື້ນຖານໃຫ້ການຮຽນຮູ້ຈາກຂໍ້ມູນຂະຫນາດໃຫຍ່. ໃນປະສົບການຂອງຂ້າພະເຈົ້າ, ວິທະຍາສາດສັງຄົມແລະວິທະຍາສາດຂໍ້ມູນວິທີການນີ້ repurposing ຫຼາຍທີ່ແຕກຕ່າງ. ວິທະຍາສາດສັງຄົມ, ຜູ້ທີ່ຖືກເຮັດໃຫ້ເຄຍຊີນກັບເຮັດວຽກຮ່ວມກັບຂໍ້ມູນການອອກແບບສໍາລັບການຄົ້ນຄ້ວາ, ມີຄວາມໄວທີ່ຊີ້ໃຫ້ເຫັນບັນຫາທີ່ມີຂໍ້ມູນ repurposed ຂະນະທີ່ ignoring ຄວາມເຂັ້ມແຂງຂອງຕົນ. ໃນອີກດ້ານຫນຶ່ງ, ວິທະຍາສາດຂໍ້ມູນມີຄວາມໄວທີ່ຊີ້ໃຫ້ເຫັນຜົນປະໂຫຍດຂອງຂໍ້ມູນ repurposed ໃນຂະນະທີ່ ignoring ຄວາມອ່ອນແອຂອງຕົນ. ຕາມທໍາມະຊາດ, ວິທີການທີ່ດີທີ່ສຸດຈະເປັນການປະສົມໄດ້. ວ່າແມ່ນ, ນັກຄົ້ນຄວ້າຈໍາເປັນຕ້ອງໄດ້ເຂົ້າໃຈລັກສະນະຂອງແຫຼ່ງຂໍ້ມູນໃຫມ່ຂອງຂໍ້ມູນ, ທັ​​ງດີແລະບໍ່ດີ, ແລະຫຼັງຈາກນັ້ນວິທີການທີ່ຈະຮຽນຮູ້ຈາກເຂົາເຈົ້າ. ແລະ, ວ່າເປັນແຜນການສໍາລັບສ່ວນທີ່ເຫຼືອຂອງບົດນີ້. ຕໍ່ໄປ, ຂ້າພະເຈົ້າຈະອະທິບາຍສິບລັກສະນະທົ່ວໄປຂອງຂໍ້ມູນການບໍລິຫານທຸລະກິດແລະລັດຖະບານ. ຫຼັງຈາກນັ້ນ, ຂ້າພະເຈົ້າຈະອະທິບາຍສາມວິທີການວິໄຈທີ່ສາມາດນໍາໃຊ້ກັບຂໍ້ມູນເຫຼົ່ານີ້, ວິທີການທີ່ເຫມາະສົມດີກັບຄຸນລັກສະນະຂອງຂໍ້ມູນນີ້.