2.3.1 Big

ຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ແມ່ນວິທີການໃນຕອນທ້າຍ; ພວກເຂົາເຈົ້າແມ່ນບໍ່ທີ່ສຸດຕົນເອງເປັນ.

ຄຸນະລັກສະນະທີ່ໄດ້ປຶກສາຫາລືທີ່ສຸດຂອງແຫຼ່ງຂໍ້ມູນທີ່ໃຫຍ່ທີ່ສຸດແມ່ນວ່າພວກເຂົາແມ່ນໃຫຍ່. ຕົວຢ່າງຫນັງສືພິມຈໍານວນຫຼາຍ, ສໍາລັບການຍົກຕົວຢ່າງ, ເລີ່ມຕົ້ນໂດຍການສົນທະນາ - ແລະບາງຄັ້ງ bragging - ກ່ຽວກັບການວິເຄາະຂໍ້ມູນຫຼາຍປານໃດ. ຕົວຢ່າງ, ເອກະສານທີ່ຈັດພີມມາໃນ ວິທະຍາສາດທີ່ ສຶກສາແນວໂນ້ມການນໍາໃຊ້ຄໍາໃນ Google Books corpus ປະກອບມີດັ່ງຕໍ່ໄປນີ້ (Michel et al. 2011) :

"ພວກເຮົາມີພາສາອັງກິດຫຼາຍກວ່າ 500 ຕື້, ພາສາຝຣັ່ງ (361 ຕື້), ຝຣັ່ງ (45 ຕື້), ແອສປາໂຍນ (45 ຕື້), ເຢຍລະມັນ (37 ຕື້), ຈີນ (13 ຕື້), ຣັດເຊຍ (35 ຕື້) (2 ພັນລ້ານ). ວຽກເກົ່າແກ່ທີ່ສຸດໄດ້ຖືກເຜີຍແຜ່ໃນປີ 1500. ການທົດສະວັດໃນຕົ້ນປີແມ່ນເປັນຕົວແທນໂດຍພຽງແຕ່ປື້ມນ້ອຍໆຕໍ່ປີ, ເຊິ່ງປະກອບມີຫຼາຍພັນຄໍາສັບ. ໂດຍ 1800, corpus ຈະເຕີບໂຕເຖິງ 98 ລ້ານຄໍາຕໍ່ປີ; ໂດຍ 1900, 1.8 ຕື້; ແລະປີ 2000, 11 ຕື້. ຮ່າງກາຍບໍ່ສາມາດອ່ານໄດ້ໂດຍມະນຸດ. ຖ້າທ່ານພະຍາຍາມອ່ານພຽງແຕ່ພາສາອັງກິດເທົ່ານັ້ນໃນປີ 2000 ເທົ່ານັ້ນ, ໃນອັດຕາທີ່ເຫມາະສົມ 200 ຄໍາ / ນາທີ, ໂດຍບໍ່ມີການຂັດຂວາງການກິນອາຫານຫຼືນອນ, ມັນຈະໃຊ້ເວລາ 80 ປີ. ລໍາດັບຂອງຕົວອັກສອນແມ່ນ 1000 ເວລາຍາວກວ່າມະນຸດຂອງມະນຸດ: ຖ້າທ່ານຂຽນມັນຢູ່ໃນເສັ້ນກົງ, ມັນຈະມາເຖິງດວງຈັນແລະກັບຄືນ 10 ເທື່ອ. "

ຂະຫນາດຂອງຂໍ້ມູນນີ້ແມ່ນຫນ້າປະທັບໃຈທີ່ສຸດ, ແລະພວກເຮົາມີຄວາມໂຊກດີທີ່ທີມງານ Google Books ໄດ້ເຜີຍແຜ່ຂໍ້ມູນເຫຼົ່ານີ້ໃຫ້ແກ່ປະຊາຊົນ (ໃນບາງກິດຈະກໍາໃນຕອນທ້າຍຂອງບົດນີ້ນໍາໃຊ້ຂໍ້ມູນນີ້). ແຕ່, ເມື່ອໃດກໍຕາມທີ່ທ່ານເຫັນບາງສິ່ງບາງຢ່າງເຊັ່ນນີ້ທ່ານຄວນຖາມ: ແມ່ນວ່າຂໍ້ມູນທັງຫມົດນັ້ນກໍ່ເຮັດຫຍັງ? ພວກເຂົາສາມາດເຮັດການຄົ້ນຄ້ວາດຽວກັນຖ້າຂໍ້ມູນສາມາດບັນລຸກັບດວງຈັນແລະກັບຄືນເທົ່ານັ້ນເທົ່ານັ້ນ? ຈະເປັນແນວໃດຖ້າຂໍ້ມູນພຽງແຕ່ສາມາດບັນລຸເຖິງເທິງຂອງ Mount Everest ຫຼືເທິງຂອງຫໍ Eiffel ໄດ້?

ໃນກໍລະນີນີ້, ການຄົ້ນຄວ້າຂອງເຂົາເຈົ້າ, ໃນຄວາມເປັນຈິງ, ມີການຄົ້ນພົບບາງຢ່າງທີ່ຮຽກຮ້ອງໃຫ້ມີຂະຫນາດໃຫຍ່ຂອງຄໍາໃນໄລຍະເວລາດົນນານ. ຕົວຢ່າງຫນຶ່ງ, ສິ່ງຫນຶ່ງທີ່ພວກເຂົາຄົ້ນຫາແມ່ນວິວັດທະນາການຂອງໄວຍາກອນ, ໂດຍສະເພາະແມ່ນການປ່ຽນແປງໃນອັດຕາການປະສົມຂອງຄໍາສັບທີ່ບໍ່ຖືກຕ້ອງ. ເນື່ອງຈາກວ່າບາງຄໍາສັບທີ່ບໍ່ຖືກຕ້ອງແມ່ນຂ້ອນຂ້າງທີ່ຫາຍາກ, ຈໍານວນຂໍ້ມູນຈໍານວນຫຼວງຫຼາຍຈໍາເປັນຕ້ອງກວດພົບການປ່ຽນແປງໃນໄລຍະເວລາ. ແຕ່ເລື້ອຍໆ, ນັກຄົ້ນຄວ້າເບິ່ງຄືວ່າຈະແກ້ໄຂຂະຫນາດຂອງແຫຼ່ງຂໍ້ມູນທີ່ໃຫຍ່ທີ່ສຸດເປັນ "ຈົ່ງເບິ່ງຫຼາຍປານໃດຂໍ້ມູນທີ່ຂ້ອຍສາມາດຂັດຂືນ" - ເປັນວິທີທີ່ສໍາຄັນກັບຈຸດປະສົງທາງວິທະຍາສາດທີ່ສໍາຄັນບາງຢ່າງ.

ໃນປະສົບການຂອງຂ້ອຍ, ການສຶກສາຂອງເຫດການທີ່ຫາຍາກແມ່ນຫນຶ່ງໃນສາມຈຸດປະສົງທາງວິທະຍາສາດທີ່ຂໍ້ມູນຂະຫນາດໃຫຍ່ມັກຈະເຮັດໃຫ້. ສ່ວນທີສອງແມ່ນການສຶກສາຂອງຄວາມບໍ່ເທົ່າທຽມ, ດັ່ງທີ່ສາມາດສະແດງໃຫ້ເຫັນໂດຍການສຶກສາໂດຍ Raj Chetty ແລະເພື່ອນຮ່ວມງານ (2014) ກ່ຽວກັບການເຄື່ອນຍ້າຍທາງສັງຄົມໃນສະຫະລັດ. ໃນໄລຍະຜ່ານມາ, ນັກຄົ້ນຄວ້າຈໍານວນຫຼາຍໄດ້ສຶກສາການເຄື່ອນຍ້າຍທາງສັງຄົມໂດຍການປຽບທຽບຜົນໄດ້ຮັບດ້ານຊີວິດຂອງພໍ່ແມ່ແລະເດັກ. ການຄົ້ນພົບທີ່ສອດຄ້ອງກັນຈາກວັນນະຄະດີນີ້ແມ່ນວ່າພໍ່ແມ່ທີ່ໄດ້ຮັບຜົນປະໂຫຍດມີແນວໂນ້ມທີ່ຈະໄດ້ຮັບຜົນປະໂຫຍດຈາກເດັກນ້ອຍ, ແຕ່ຄວາມເຂັ້ມແຂງຂອງສາຍພົວພັນນີ້ມີຄວາມແຕກຕ່າງກັນລະຫວ່າງເວລາແລະທົ່ວປະເທດ (Hout and DiPrete 2006) . ແຕ່ກ່ອນຫນ້ານີ້, Chetty ແລະເພື່ອນຮ່ວມງານໄດ້ສາມາດນໍາໃຊ້ບັນທຶກການເກັບພາສີຈາກ 40 ລ້ານຄົນໃນການຄາດຄະເນຄວາມບໍ່ເທົ່າທຽມກັນໃນການເຄື່ອນຍ້າຍລະຫວ່າງກັນໃນທົ່ວພາກພື້ນໃນສະຫະລັດ (ຮູບ 2.1). ພວກເຂົາພົບວ່າຕົວຢ່າງທີ່ວ່າເດັກນ້ອຍເຂົ້າໄປໃນຊັ້ນຫ້າຂອງການກະຈາຍລາຍໄດ້ຂອງປະເທດທີ່ເລີ່ມຕົ້ນຈາກຄອບຄົວຢູ່ໃນລະດັບຕໍ່າສຸດແມ່ນປະມານ 13% ໃນ San Jose, California ແຕ່ມີພຽງ 4% ໃນ Charlotte, North Carolina. ຖ້າທ່ານເບິ່ງຕົວເລກ 2.1 ສໍາລັບໃນປັດຈຸບັນ, ທ່ານອາດຈະເລີ່ມສົງໄສວ່າເປັນຫຍັງການເຄື່ອນຍ້າຍໃນລະດັບສູງແມ່ນຢູ່ໃນສະຖານທີ່ບາງບ່ອນຫຼາຍກວ່າຄົນອື່ນ. ທ່ານ Chetty ແລະເພື່ອນຮ່ວມງານໄດ້ມີຄໍາຖາມດຽວກັນແລະພວກເຂົາພົບວ່າເຂດທີ່ມີການເຄື່ອນຍ້າຍທີ່ມີຄວາມແຮງສູງມີການແບ່ງແຍກທີ່ຢູ່ອາໄສຫນ້ອຍລົງ, ຄວາມບໍ່ສະເຫມີພາບຂອງລາຍໄດ້ຫນ້ອຍ, ໂຮງຮຽນທີ່ດີກວ່າເກົ່າ, ທຶນສັງຄົມຫຼາຍຂຶ້ນແລະຄວາມຫມັ້ນຄົງຄອບຄົວຫຼາຍຂຶ້ນ. ແນ່ນອນວ່າການພົວພັນເຫຼົ່ານີ້ຢ່າງດຽວບໍ່ໄດ້ສະແດງໃຫ້ເຫັນວ່າປັດໃຈເຫຼົ່ານີ້ເຮັດໃຫ້ມີການເຄື່ອນຍ້າຍທີ່ສູງຂຶ້ນແຕ່ພວກເຂົາແນະນໍາກົນໄກທີ່ສາມາດຄົ້ນຫາໃນການເຮັດວຽກຕື່ມອີກ, ເຊິ່ງແມ່ນສິ່ງທີ່ Chetty ແລະເພື່ອນຮ່ວມງານເຮັດໃນວຽກຕໍ່ໆໄປ. ສັງເກດເບິ່ງວ່າຂະຫນາດຂອງຂໍ້ມູນແມ່ນສິ່ງສໍາຄັນແທ້ໆໃນໂຄງການນີ້. ຖ້າ Chetty ແລະເພື່ອນຮ່ວມງານໄດ້ນໍາໃຊ້ບັນທຶກການເກັບພາສີຂອງ 40 ພັນຄົນແທນທີ່ຈະເປັນ 40 ລ້ານຄົນ, ພວກເຂົາຈະບໍ່ສາມາດຄາດຄະເນກັນໄດ້ໃນເຂດພູດອຍແລະພວກເຂົາຈະບໍ່ສາມາດເຮັດການຄົ້ນຄວ້າຕໍ່ໄປເພື່ອພະຍາຍາມກໍານົດກົນໄກທີ່ສ້າງຄວາມແຕກຕ່າງນີ້.

ຮູບທີ 21: ຄາດຄະເນວ່າໂອກາດຂອງເດັກຈະສູງເຖິງ 20% ຂອງການແບ່ງປັນລາຍໄດ້ໃຫ້ພໍ່ແມ່ໃນດ້ານລຸ່ມ 20% (Chetty et al., 2014). ການຄາດຄະເນໃນລະດັບພາກພື້ນ, ເຊິ່ງສະແດງໃຫ້ເຫັນຄວາມບໍ່ເທົ່າທຽມກັນ, ຕາມທໍາມະຊາດນໍາໄປສູ່ຄໍາຖາມທີ່ຫນ້າສົນໃຈແລະສໍາຄັນທີ່ບໍ່ໄດ້ເກີດຂຶ້ນຈາກການຄາດຄະເນລະດັບຊາດດຽວ. ການຄາດຄະເນລະດັບພາກພື້ນນີ້ໄດ້ເຮັດໃຫ້ເປັນໄປໄດ້ໃນບາງສ່ວນເນື່ອງຈາກນັກຄົ້ນຄວ້າໄດ້ໃຊ້ແຫຼ່ງຂໍ້ມູນທີ່ໃຫຍ່ຫຼວງຄື: ບັນທຶກການເກັບພາສີຂອງ 40 ລ້ານຄົນ. ສ້າງຈາກຂໍ້ມູນທີ່ມີຢູ່ໃນ http://www.equality-of-opportunity.org/.

ຮູບທີ 21: ຄາດຄະເນວ່າໂອກາດຂອງເດັກຈະສູງເຖິງ 20% ຂອງການແບ່ງປັນລາຍໄດ້ໃຫ້ພໍ່ແມ່ໃນດ້ານລຸ່ມ 20% (Chetty et al. 2014) . ການຄາດຄະເນໃນລະດັບພາກພື້ນ, ເຊິ່ງສະແດງໃຫ້ເຫັນຄວາມບໍ່ເທົ່າທຽມກັນ, ຕາມທໍາມະຊາດນໍາໄປສູ່ຄໍາຖາມທີ່ຫນ້າສົນໃຈແລະສໍາຄັນທີ່ບໍ່ໄດ້ເກີດຂຶ້ນຈາກການຄາດຄະເນລະດັບຊາດດຽວ. ການຄາດຄະເນລະດັບພາກພື້ນນີ້ໄດ້ເຮັດໃຫ້ເປັນໄປໄດ້ໃນບາງສ່ວນເນື່ອງຈາກນັກຄົ້ນຄວ້າໄດ້ໃຊ້ແຫຼ່ງຂໍ້ມູນທີ່ໃຫຍ່ຫຼວງຄື: ບັນທຶກການເກັບພາສີຂອງ 40 ລ້ານຄົນ. ສ້າງຈາກຂໍ້ມູນທີ່ມີຢູ່ໃນ http://www.equality-of-opportunity.org/.

ໃນທີ່ສຸດ, ນອກຈາກການສຶກສາເຫດການທີ່ຫາຍາກແລະການຄົ້ນຄວ້າວິທະຍາສາດ, ຂໍ້ມູນຂະຫນາດໃຫຍ່ຍັງຊ່ວຍໃຫ້ນັກຄົ້ນຄວ້າພົບຄວາມແຕກຕ່າງເລັກນ້ອຍ. ໃນຄວາມເປັນຈິງ, ສ່ວນຫຼາຍແມ່ນເນັ້ນຫນັກໃສ່ຂໍ້ມູນຂະຫນາດໃຫຍ່ໃນອຸດສາຫະກໍາກ່ຽວກັບຄວາມແຕກຕ່າງຂະຫນາດນ້ອຍເຫຼົ່ານີ້: ການກວດສອບຄວາມແຕກຕ່າງລະຫວ່າງອັດຕາການຄລິກຜ່ານ 1% ແລະ 1.1% ໃນໂຄສະນາສາມາດແປເປັນລ້ານໂດລາໃນລາຍໄດ້ພິເສດ. ໃນບາງສະຖານະການທາງວິທະຍາສາດ, ຄວາມແຕກຕ່າງຂະຫນາດນ້ອຍດັ່ງກ່າວອາດຈະບໍ່ມີຄວາມສໍາຄັນໂດຍສະເພາະ, ເຖິງແມ່ນວ່າພວກມັນມີຄວາມສໍາຄັນທາງສະຖິຕິ (Prentice and Miller 1992) . ແຕ່, ໃນບາງນະໂຍບາຍ, ພວກເຂົາສາມາດກາຍເປັນສິ່ງສໍາຄັນໃນເວລາທີ່ໄດ້ສັງລວມ. ຕົວຢ່າງເຊັ່ນຖ້າມີສອງປະຕິບັດດ້ານສາທາລະນະສຸກແລະຫນຶ່ງແມ່ນປະສິດຕິຜົນຫຼາຍກ່ວາຄົນອື່ນ, ຫຼັງຈາກການເລືອກເອົາການປະຕິບັດທີ່ມີປະສິດຕິພາບຫຼາຍກວ່ານີ້ກໍ່ອາດຈະຊ່ວຍປະຢັດຊີວິດຕື່ມອີກ.

ເຖິງແມ່ນວ່າ bigness ໂດຍປົກກະຕິແລ້ວເປັນຄຸນສົມບັດທີ່ດີໃນເວລາທີ່ຖືກນໍາໃຊ້ຢ່າງຖືກຕ້ອງ, ຂ້າພະເຈົ້າໄດ້ສັງເກດເຫັນວ່າບາງຄັ້ງມັນສາມາດນໍາໄປສູ່ຄວາມຜິດພາດແນວຄວາມຄິດ. ສໍາລັບບາງເຫດຜົນ, bigness ເບິ່ງຄືວ່າຈະເຮັດໃຫ້ນັກຄົ້ນຄວ້າບໍ່ສົນໃຈວິທີການສ້າງຂໍ້ມູນຂອງເຂົາເຈົ້າ. ໃນຂະນະທີ່ bigness ຫຼຸດຜ່ອນຄວາມຕ້ອງການທີ່ຈະກັງວົນກ່ຽວກັບຂໍ້ຜິດພາດທີ່ຜິດພາດ, ມັນກໍ່ ເພີ່ມ ຄວາມຕ້ອງການທີ່ຈະກັງວົນກ່ຽວກັບຄວາມຜິດພາດລະບົບ, ປະເພດຂອງຂໍ້ຜິດພາດທີ່ຂ້ອຍຈະອະທິບາຍຂ້າງລຸ່ມນີ້ທີ່ເກີດຂື້ນຈາກຄວາມລໍາອຽງໃນການສ້າງຂໍ້ມູນ. ຕົວຢ່າງ, ໃນໂຄງການທີ່ຂ້ອຍຈະອະທິບາຍໃນພາກນີ້, ນັກຄົ້ນຄວ້າໄດ້ໃຊ້ຂໍ້ຄວາມທີ່ຖືກສ້າງຂື້ນໃນວັນທີ 11 ເດືອນກັນຍາປີ 2001 ເພື່ອຜະລິດກໍານົດເວລາທາງດ້ານຄວາມຮູ້ສຶກທີ່ມີຄວາມລະອຽດສູງຕໍ່ການໂຈມຕີຕໍ່ຕ້ານການກໍ່ການຮ້າຍ (Back, Küfner, and Egloff 2010) . ເນື່ອງຈາກນັກຄົ້ນຄວ້າມີຂໍ້ຄວາມຈໍານວນຫລາຍ, ພວກເຂົາບໍ່ຈໍາເປັນຕ້ອງກັງວົນກ່ຽວກັບວ່າຮູບແບບທີ່ພວກເຂົາເຈົ້າສັງເກດເຫັນ - ຄວາມໃຈຮ້າຍເພີ່ມຂຶ້ນໃນໄລຍະເວລາໃດກໍ່ຕາມສາມາດອະທິບາຍໄດ້ໂດຍການປ່ຽນແປງທີ່ຫຼາກຫຼາຍ. ມີຂໍ້ມູນຈໍານວນຫຼາຍແລະຮູບແບບດັ່ງກ່າວແມ່ນຈະແຈ້ງວ່າສະຖິຕິສະຖິຕິທັງຫມົດສະເຫນີວ່ານີ້ແມ່ນຮູບແບບທີ່ແທ້ຈິງ. ແຕ່, ການທົດສອບທາງສະຖິຕິເຫຼົ່ານີ້ແມ່ນບໍ່ຮູ້ວິທີການສ້າງຂໍ້ມູນ. ໃນຄວາມເປັນຈິງ, ມັນໄດ້ຫັນອອກວ່າຮູບແບບຈໍານວນຫຼາຍແມ່ນເນື່ອງມາຈາກ bot ດຽວທີ່ສ້າງຂໍ້ຄວາມຫຼາຍກວ່າແລະບໍ່ມີຄວາມຫມາຍໃນຕະຫຼອດມື້. ການລຶບລ້າງການເຜີຍແຜ່ຂໍ້ມູນນີ້ໄດ້ຖືກທໍາລາຍຫມົດທຸກຢ່າງຂອງບົດຄົ້ນຄວ້າທີ່ສໍາຄັນໃນເອກະສານ (Pury 2011; Back, Küfner, and Egloff 2011) . ພຽງແຕ່ງ່າຍດາຍ, ນັກຄົ້ນຄວ້າຜູ້ທີ່ບໍ່ຄິດກ່ຽວກັບຂໍ້ຜິດພາດທີ່ມີລະບົບມີຄວາມສ່ຽງຕໍ່ການນໍາໃຊ້ຂໍ້ມູນຂະຫນາດໃຫຍ່ຂອງເຂົາເຈົ້າເພື່ອໃຫ້ໄດ້ປະມານການປະລິມານທີ່ບໍ່ມີປະໂຫຍດເຊັ່ນເນື້ອຫາທາງຈິດໃຈຂອງຂໍ້ຄວາມທີ່ບໍ່ມີຄວາມຫມາຍທີ່ຜະລິດໂດຍອັດຕະໂນມັດ.

ໃນການສະຫຼຸບ, ຊຸດຂໍ້ມູນໃຫຍ່ບໍ່ແມ່ນຈຸດສິ້ນສຸດຂອງຕົວເອງ, ແຕ່ພວກເຂົາສາມາດຊ່ວຍປະເພດການຄົ້ນຄ້ວາບາງຢ່າງລວມທັງການສຶກສາຂອງເຫດການທີ່ຫາຍາກ, ການຄາດຄະເນຂອງຄວາມບໍ່ເທົ່າທຽມແລະການກວດພົບຄວາມແຕກຕ່າງຂະຫນາດນ້ອຍ. ຂໍ້ມູນຈໍານວນໃຫຍ່ຍັງເບິ່ງຄືວ່າຈະນໍານັກວິໄຈບາງຄົນເຂົ້າໃຈວ່າຂໍ້ມູນຂອງພວກເຂົາຖືກສ້າງຂຶ້ນເຊິ່ງສາມາດນໍາພວກເຂົາໄດ້ຮັບການຄາດຄະເນທີ່ຊັດເຈນກ່ຽວກັບປະລິມານທີ່ບໍ່ສໍາຄັນ.