3.6.1 Enriched asking

ການແປພາສານີ້ໄດ້ສ້າງຕັ້ງຂື້ນໂດຍຄອມພິວເຕີ. ×

3.6.1 Enriched asking

ໃນການຮຽກຮ້ອງທີ່ມີຄວາມອຸດົມສົມບູນ, ຂໍ້ມູນການສໍາຫຼວດສ້າງສະພາບແວດລ້ອມທີ່ກ່ຽວຂ້ອງກັບແຫລ່ງຂໍ້ມູນທີ່ໃຫຍ່ທີ່ມີການວັດແທກທີ່ສໍາຄັນບາງຢ່າງ,

ທາງຫນຶ່ງທີ່ຈະສົມທົບການຂໍ້ມູນການສໍາຫຼວດແລະແຫຼ່ງຂໍ້ມູນຂະຫນາດໃຫຍ່ແມ່ນຂະບວນການທີ່ຂ້າພະເຈົ້າຈະໂທຫາຂໍອຸດົມການ. ໃນການຮຽກຮ້ອງທີ່ມີຄວາມອຸດົມສົມບູນ, ແຫຼ່ງຂໍ້ມູນໃຫຍ່ມີບາງມາດຕະການທີ່ສໍາຄັນແຕ່ບໍ່ມີການວັດແທກອື່ນໆດັ່ງນັ້ນນັກຄົ້ນຄວ້າເກັບກໍາຂໍ້ມູນທີ່ຂາດຫາຍໄປເຫຼົ່ານີ້ໃນການສໍາຫຼວດແລະເຊື່ອມຕໍ່ກັບສອງແຫຼ່ງຂໍ້ມູນຮ່ວມກັນ. ຕົວຢ່າງຫນຶ່ງຂອງຄໍາຖາມທີ່ຮ່ໍາຮຽນແມ່ນການສຶກສາໂດຍ Burke and Kraut (2014) ກ່ຽວກັບວ່າການໂຕ້ຕອບກ່ຽວກັບເຟສບຸກເພີ່ມຄວາມເຂັ້ມແຂງຂອງມິດຕະພາບທີ່ຂ້ອຍໄດ້ອະທິບາຍຢູ່ໃນພາກ 3.2). ໃນກໍລະນີດັ່ງກ່າວ, Burke ແລະ Kraut ລວມຂໍ້ມູນການສໍາຫຼວດທີ່ມີຂໍ້ມູນບັນທຶກເຟສບຸກ.

ຢ່າງໃດກໍ່ຕາມ, Burke ແລະ Kraut ກໍາລັງເຮັດວຽກທີ່ມີຄວາມຫມາຍວ່າພວກເຂົາບໍ່ຕ້ອງແກ້ໄຂບັນຫາໃຫຍ່ທີ່ນັກຄົ້ນຄວ້າເຮັດເຮັດໃຫ້ຮຽກຮ້ອງແບບປົກກະຕິ. ຫນ້າທໍາອິດ, ການເຊື່ອມໂຍງຊຸດຂໍ້ມູນລະດັບສ່ວນບຸກຄົນ, ຂະບວນການທີ່ເອີ້ນວ່າ ການເຊື່ອມຕໍ່ບັນທຶກ , ສາມາດມີຄວາມຫຍຸ້ງຍາກຖ້າບໍ່ມີຕົວລະບຸເປັນເອກະລັກໃນແຫຼ່ງຂໍ້ມູນທັງສາມາດນໍາໃຊ້ເພື່ອຮັບປະກັນວ່າບັນທຶກທີ່ຖືກຕ້ອງຢູ່ໃນຊຸດຂໍ້ມູນດຽວກັນກັບຂໍ້ມູນທີ່ຖືກຕ້ອງ ໃນຊຸດຂໍ້ມູນອື່ນ. ບັນຫາຕົ້ນຕໍທີສອງທີ່ມີການຮຽກຮ້ອງໃຫ້ມີຄວາມຮ່ໍາລວຍແມ່ນວ່າຄຸນນະພາບຂອງແຫຼ່ງຂໍ້ມູນໃຫຍ່ຈະເປັນການຍາກສໍາລັບນັກຄົ້ນຄວ້າທີ່ຈະປະເມີນເພາະວ່າຂະບວນການໂດຍຜ່ານຂໍ້ມູນທີ່ຖືກສ້າງຂຶ້ນອາດເປັນເອກະລາດແລະອາດຈະເປັນໄປໄດ້ຕໍ່ບັນຫາຕ່າງໆທີ່ໄດ້ອະທິບາຍໄວ້ໃນບົດທີ 2. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ການຮຽກຮ້ອງຮ່ໍາລວຍມັກຈະກ່ຽວຂ້ອງກັບການເຊື່ອມໂຍງຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງກັບຂໍ້ມູນທີ່ບໍ່ຮູ້ຫນັງສື. ເຖິງວ່າຈະມີບັນຫາເຫຼົ່ານີ້, ແຕ່ການຮຽກຮ້ອງທີ່ມີຄວາມອຸດົມສົມບູນສາມາດນໍາໃຊ້ເພື່ອດໍາເນີນການຄົ້ນຄ້ວາທີ່ສໍາຄັນເຊັ່ນດຽວກັນກັບ Stephen Ansolabehere ແລະ Eitan Hersh (2012) ໃນການຄົ້ນຄວ້າຂອງພວກເຂົາກ່ຽວກັບຮູບແບບການເລືອກຕັ້ງໃນສະຫະລັດ.

ຜູ້ເຂົ້າຮ່ວມການລົງຄະແນນສຽງໄດ້ເປັນຫົວເລື່ອງຂອງການຄົ້ນຄວ້າຢ່າງກວ້າງຂວາງໃນວິທະຍາສາດທາງດ້ານການເມືອງແລະໃນໄລຍະຜ່ານມາຄວາມເຂົ້າໃຈຂອງນັກຄົ້ນຄວ້າກ່ຽວກັບຜູ້ທີ່ vote ແລະເປັນຫຍັງໂດຍທົ່ວໄປແລ້ວແມ່ນອີງໃສ່ການວິເຄາະຂໍ້ມູນການສໍາຫຼວດ. ການລົງຄະແນນສຽງຢູ່ສະຫະລັດອາເມລິກາແມ່ນເປັນພຶດຕິກໍາທີ່ຜິດປົກກະຕິໃນການບັນທຶກຂອງລັດຖະບານວ່າແຕ່ລະພົນລະເມືອງໄດ້ຮັບການເລືອກຕັ້ງ (ແນ່ນອນລັດຖະບານບໍ່ໄດ້ບັນທຶກຜູ້ທີ່ປະຊາຊົນແຕ່ລະຄົນ vote). ສໍາລັບເວລາຫຼາຍປີ, ບັນດາລາຍການລົງຄະແນນສຽງຂອງລັດຖະບານເຫຼົ່ານີ້ແມ່ນມີຢູ່ໃນຮູບແບບກະດາດ, ກະແຈກກະຈາຍຢູ່ໃນຫ້ອງການຂອງລັດຖະບານທ້ອງຖິ່ນທົ່ວປະເທດ. ນີ້ເຮັດໃຫ້ມັນມີຄວາມຫຍຸ້ງຍາກຫຼາຍ, ແຕ່ບໍ່ເປັນໄປບໍ່ໄດ້, ສໍາລັບນັກວິທະຍາສາດທາງດ້ານການເມືອງໃຫ້ມີຮູບພາບທີ່ສົມບູນແບບຂອງຜູ້ເລືອກຕັ້ງແລະເພື່ອປຽບທຽບສິ່ງທີ່ຄົນເວົ້າໃນການສໍາຫຼວດກ່ຽວກັບການລົງຄະແນນສຽງກັບການປະຕິບັດຕົວຈິງຂອງພວກເຂົາ (Ansolabehere and Hersh 2012) .

ແຕ່ບັນທຶກການລົງຄະແນນສຽງເຫຼົ່ານີ້ໄດ້ຖືກດັດແປງແລ້ວ, ແລະຈໍານວນບໍລິສັດເອກະຊົນໄດ້ເກັບກໍາລະບົບແລະການປະສານສົມທົບລະຫວ່າງພວກເຂົາເພື່ອຜະລິດໄຟລ໌ສຽງທີ່ສົມບູນແບບ, Ansolabehere ແລະ Hersh ຮ່ວມມືກັບຫນຶ່ງໃນບໍລິສັດເຫຼົ່ານີ້ - Catalist LCC- ເພື່ອນໍາໃຊ້ເອກະສານການລົງຄະແນນສຽງຕົ້ນສະບັບຂອງຕົນເພື່ອຊ່ວຍພັດທະນາພາບທີ່ດີກວ່າຂອງຜູ້ເລືອກຕັ້ງ. ນອກຈາກນັ້ນ, ເນື່ອງຈາກວ່າການສຶກສາຂອງພວກເຂົາແມ່ນອີງໃສ່ບັນທຶກດິຈິຕອນທີ່ເກັບກໍາແລະປົກຄອງໂດຍບໍລິສັດທີ່ໄດ້ລົງທຶນຊັບພະຍາກອນຢ່າງຫຼວງຫຼາຍໃນການເກັບກໍາຂໍ້ມູນແລະການເຊື່ອມໂຍງ, ມັນໄດ້ສະເຫນີຂໍ້ດີຫຼາຍກວ່າຄວາມພະຍາຍາມທີ່ຜ່ານມາໂດຍບໍ່ມີການຊ່ວຍເຫຼືອຂອງບໍລິສັດແລະການນໍາໃຊ້ບັນທຶກແບບດຽວກັນ.

ເຊັ່ນດຽວກັນກັບແຫຼ່ງຂໍ້ມູນໃຫຍ່ໆຢູ່ໃນພາກທີ 2, ໄຟລ໌ຕົ້ນສະບັບຂອງ Catalist ບໍ່ປະກອບມີຂໍ້ມູນປະຊາກອນ, ຂໍ້ທັກທາຍແລະການປະພຶດທີ່ມີຄວາມຈໍາເປັນຫລາຍທີ່ Ansolabehere ແລະ Hersh ຕ້ອງການ. ໃນຄວາມເປັນຈິງ, ພວກເຂົາມີຄວາມສົນໃຈໂດຍສະເພາະແມ່ນໃນການປຽບທຽບການປະພຶດຄະດີທີ່ມີການລົງຄະແນນສຽງໃນການສໍາຫຼວດທີ່ມີພຶດຕິກໍາການລົງຄະແນນສຽງທີ່ຖືກຕ້ອງ (ie, ຂໍ້ມູນໃນຖານຂໍ້ມູນ Catalist). ດັ່ງນັ້ນ Ansolabehere ແລະ Hersh ເກັບຂໍ້ມູນທີ່ພວກເຂົາຕ້ອງການເປັນການສໍາຫຼວດສັງຄົມຂະຫນາດໃຫຍ່, CCES, ທີ່ໄດ້ກ່າວມາກ່ອນຫນ້ານີ້ໃນບົດນີ້. ຫຼັງຈາກນັ້ນ, ພວກເຂົາໃຫ້ຂໍ້ມູນຂອງເຂົາເຈົ້າກັບ Catalist, ແລະ Catalist ໃຫ້ພວກເຂົາກັບຄືນໄປບ່ອນໄຟລ໌ຂໍ້ມູນທີ່ລວມເຂົ້າມາເຊິ່ງປະກອບມີພຶດຕິກໍາການລົງຄະແນນສຽງທີ່ຖືກຕ້ອງ (ຈາກ Catalist), ພຶດຕິກໍາການລົງຄະແນນສຽງຂອງຕົນເອງ (ຈາກ CCES) ແລະປະຊາກອນແລະທັດສະນະຂອງຜູ້ຕອບ (CCES) 313) ໃນຄໍາສັບຕ່າງໆອື່ນໆ, Ansolabehere ແລະ Hersh ລວມຂໍ້ມູນບັນທຶກສຽງທີ່ມີຂໍ້ມູນການສໍາຫຼວດເພື່ອເຮັດການຄົ້ນຄວ້າທີ່ບໍ່ສາມາດເຮັດໄດ້ດ້ວຍແຫຼ່ງຂໍ້ມູນແຕ່ລະຄົນ.

ຮູບທີ 313: ແຜນການຂອງການສຶກສາໂດຍ Ansolabehere ແລະ Hersh (2012). ເພື່ອສ້າງໄຟລ໌ຂໍ້ມູນຕົ້ນສະບັບ, Catalist ລວມແລະປະສານງານຂໍ້ມູນຈາກແຫຼ່ງທີ່ແຕກຕ່າງກັນຫຼາຍ. ຂະບວນການຂອງການລວມຕົວ, ບໍ່ວ່າຈະເປັນລະມັດລະວັງ, ຈະເຜີຍແຜ່ຄວາມຜິດພາດໃນແຫຼ່ງຂໍ້ມູນຕົ້ນສະບັບແລະຈະແນະນໍາຂໍ້ຜິດພາດໃຫມ່. ແຫຼ່ງຂໍ້ມູນທີ່ສອງຂອງຂໍ້ຜິດພາດແມ່ນການເຊື່ອມຕໍ່ບັນທຶກລະຫວ່າງຂໍ້ມູນການສໍາຫຼວດແລະຂໍ້ມູນຕາຕະລາງຕົ້ນຕໍ. ຖ້າບຸກຄົນທຸກຄົນມີຕົວຊີ້ວັດທີ່ມີຄວາມຫມັ້ນຄົງແລະເປັນເອກະລັກໃນແຫຼ່ງຂໍ້ມູນທັງສອງ, ຫຼັງຈາກນັ້ນ, ການເຊື່ອມໂຍງຈະບໍ່ສໍາຄັນ. ແຕ່, Catalist ໄດ້ເຮັດການເຊື່ອມຕໍ່ໂດຍນໍາໃຊ້ຕົວເລກທີ່ບໍ່ສົມບູນແບບ, ໃນກໍລະນີນີ້, ເພດ, ປີເກີດແລະທີ່ຢູ່ເຮືອນ. ແຕ່ຫນ້າເສຍດາຍ, ສໍາລັບຫລາຍໆກໍລະນີອາດມີຂໍ້ມູນທີ່ບໍ່ຄົບຖ້ວນຫຼືບໍ່ຖືກຕ້ອງ; ຜູ້ມີສິດເລືອກຕັ້ງທີ່ຊື່ວ່າ Homer Simpson ອາດຈະເປັນຕົວ Homer Jay Simpson, Homie J Simpson, ຫຼື Homer Sampsin. ເຖິງວ່າຈະມີຄວາມອາດສາມາດສໍາລັບຄວາມຜິດພາດໃນຂໍ້ມູນຕາຕະລາງຫລັກແລະຂໍ້ຜິດພາດໃນການເຊື່ອມຕໍ່ຂໍ້ມູນ, Ansolabehere ແລະ Hersh ສາມາດສ້າງຄວາມເຊື່ອຫມັ້ນໃນການຄາດຄະເນຂອງເຂົາເຈົ້າໂດຍຜ່ານການກວດສອບປະເພດຕ່າງໆ.

ຮູບທີ 313: ແຜນການຂອງການສຶກສາໂດຍ Ansolabehere and Hersh (2012) . ເພື່ອສ້າງໄຟລ໌ຂໍ້ມູນຕົ້ນສະບັບ, Catalist ລວມແລະປະສານງານຂໍ້ມູນຈາກແຫຼ່ງທີ່ແຕກຕ່າງກັນຫຼາຍ. ຂະບວນການຂອງການລວມຕົວ, ບໍ່ວ່າຈະເປັນລະມັດລະວັງ, ຈະເຜີຍແຜ່ຄວາມຜິດພາດໃນແຫຼ່ງຂໍ້ມູນຕົ້ນສະບັບແລະຈະແນະນໍາຂໍ້ຜິດພາດໃຫມ່. ແຫຼ່ງຂໍ້ມູນທີ່ສອງຂອງຂໍ້ຜິດພາດແມ່ນການເຊື່ອມຕໍ່ບັນທຶກລະຫວ່າງຂໍ້ມູນການສໍາຫຼວດແລະຂໍ້ມູນຕາຕະລາງຕົ້ນຕໍ. ຖ້າບຸກຄົນທຸກຄົນມີຕົວຊີ້ວັດທີ່ມີຄວາມຫມັ້ນຄົງແລະເປັນເອກະລັກໃນແຫຼ່ງຂໍ້ມູນທັງສອງ, ຫຼັງຈາກນັ້ນ, ການເຊື່ອມໂຍງຈະບໍ່ສໍາຄັນ. ແຕ່, Catalist ໄດ້ເຮັດການເຊື່ອມຕໍ່ໂດຍນໍາໃຊ້ຕົວເລກທີ່ບໍ່ສົມບູນແບບ, ໃນກໍລະນີນີ້, ເພດ, ປີເກີດແລະທີ່ຢູ່ເຮືອນ. ແຕ່ຫນ້າເສຍດາຍ, ສໍາລັບຫລາຍໆກໍລະນີອາດມີຂໍ້ມູນທີ່ບໍ່ຄົບຖ້ວນຫຼືບໍ່ຖືກຕ້ອງ; ຜູ້ມີສິດເລືອກຕັ້ງທີ່ຊື່ວ່າ Homer Simpson ອາດຈະເປັນຕົວ Homer Jay Simpson, Homie J Simpson, ຫຼື Homer Sampsin. ເຖິງວ່າຈະມີຄວາມອາດສາມາດສໍາລັບຄວາມຜິດພາດໃນຂໍ້ມູນຕາຕະລາງຫລັກແລະຂໍ້ຜິດພາດໃນການເຊື່ອມຕໍ່ຂໍ້ມູນ, Ansolabehere ແລະ Hersh ສາມາດສ້າງຄວາມເຊື່ອຫມັ້ນໃນການຄາດຄະເນຂອງເຂົາເຈົ້າໂດຍຜ່ານການກວດສອບປະເພດຕ່າງໆ.

ດ້ວຍໄຟລ໌ຂໍ້ມູນລວມຂອງພວກເຂົາ, Ansolabehere ແລະ Hersh ມາເຖິງສາມບົດສະຫຼຸບທີ່ສໍາຄັນ. ຫນ້າທໍາອິດ, ການລາຍງານກ່ຽວກັບການລົງຄະແນນສຽງແມ່ນມີຄວາມຫຍຸ້ງຍາກ: ເກືອບເຄິ່ງຫນຶ່ງຂອງຜູ້ທີ່ບໍ່ມີລາຍໄດ້ລາຍງານການລົງຄະແນນສຽງ, ແລະຖ້າຜູ້ໃດຜູ້ຫນຶ່ງມີລາຍງານການລົງຄະແນນສຽງ, ມີໂອກາດພຽງແຕ່ 80% ທີ່ພວກເຂົາ voted. ອັນທີສອງ, ການລາຍງານທີ່ບໍ່ແມ່ນເລື່ອງຫຍໍ້: ການລາຍງານເກີນລາຍເລື້ອຍໆແມ່ນພົບເລື້ອຍໆໃນບັນດາຜູ້ທີ່ມີລາຍໄດ້ສູງ, ມີຄວາມຮູ້ສຶກດີ, ຜູ້ທີ່ມີສ່ວນຮ່ວມໃນວຽກງານສາທາລະນະ. ໃນອີກດ້ານຫນຶ່ງ, ຜູ້ທີ່ມັກຈະລົງຄະແນນສຽງແມ່ນມັກຈະເວົ້າກ່ຽວກັບການລົງຄະແນນສຽງ. ອັນທີສາມແລະຫຼາຍທີ່ສຸດ, ຍ້ອນວ່າມີລັກສະນະລະບົບຂອງການລາຍງານ, ຄວາມແຕກຕ່າງທີ່ແທ້ຈິງລະຫວ່າງຜູ້ລົງຄະແນນສຽງແລະຜູ້ທີ່ບໍ່ແມ່ນພະນັກງານແມ່ນຫນ້ອຍກ່ວາພວກເຂົາພຽງແຕ່ມາຈາກການສໍາຫຼວດ. ຍົກຕົວຢ່າງ, ຜູ້ທີ່ມີລະດັບປະລິນຍາຕີແມ່ນມີປະມານ 22 ເປີເຊັນສ່ວນຫຼາຍທີ່ຈະລາຍງານການລົງຄະແນນສຽງ, ແຕ່ວ່າມີພຽງແຕ່ 10 ເປີເຊັນເທົ່ານັ້ນທີ່ຈະລົງຄະແນນສຽງ. ມັນອາດຈະເປັນເລື່ອງແປກທີ່ວ່າທິດສະດີຊັບພະຍາກອນທີ່ມີຢູ່ແລ້ວຂອງການລົງຄະແນນສຽງແມ່ນດີກວ່າທີ່ຈະຄາດຄະເນຜູ້ທີ່ຈະລາຍງານການລົງຄະແນນສຽງ (ຊຶ່ງເປັນຂໍ້ມູນທີ່ນັກຄົ້ນຄວ້າໃຊ້ໃນອະດີດ) ກ່ວາພວກເຂົາຈະຄາດຄະເນວ່າຜູ້ທີ່ vote ໃນນັ້ນ. ດັ່ງນັ້ນ, ການຄົ້ນຄວ້າແບບຈິງໆຂອງ Ansolabehere and Hersh (2012) ຮຽກຮ້ອງໃຫ້ທິດສະດີໃຫມ່ທີ່ຈະເຂົ້າໃຈແລະຄາດຄະເນການລົງຄະແນນສຽງ.

ແຕ່ພວກເຮົາຄວນຈະເຊື່ອຫມັ້ນກັບຜົນໄດ້ຮັບເຫຼົ່ານີ້ເທົ່າໃດ? ຈືຂໍ້ມູນການ, ຜົນໄດ້ຮັບເຫຼົ່ານີ້ແມ່ນຂຶ້ນກັບຄວາມຜິດພາດເຊິ່ງສາມາດເຊື່ອມຕໍ່ກັບຂໍ້ມູນກ່ອງສີດໍາທີ່ມີຈໍານວນຂໍ້ຜິດພາດທີ່ບໍ່ຮູ້ຈັກ. (1) ຄວາມສາມາດຂອງ Catalist ເພື່ອສົມທົບແຫຼ່ງຂໍ້ມູນທີ່ແຕກຕ່າງກັນຈໍານວນຫຼາຍເພື່ອຜະລິດຂໍ້ມູນຕົ້ນສະບັບທີ່ຖືກຕ້ອງແລະ (2) ຄວາມສາມາດຂອງ Catalist ເພື່ອເຊື່ອມຕໍ່ຂໍ້ມູນການສໍາຫຼວດກັບຂໍ້ມູນຕົ້ນສະບັບຂອງມັນ. ແຕ່ລະຂັ້ນຕອນເຫຼົ່ານີ້ແມ່ນມີຄວາມຫຍຸ້ງຍາກແລະຄວາມຜິດພາດໃນຂັ້ນຕອນໃດຫນຶ່ງອາດເຮັດໃຫ້ນັກຄົ້ນຄວ້າເຂົ້າໃຈຜິດ. ເຖິງຢ່າງໃດກໍ່ຕາມ, ທັງການປຸງແຕ່ງຂໍ້ມູນແລະການເຊື່ອມໂຍງແມ່ນສໍາຄັນຕໍ່ການສືບຕໍ່ຂອງ Catalist ເປັນບໍລິສັດ, ດັ່ງນັ້ນ, ມັນສາມາດລົງທຶນໃນການແກ້ໄຂບັນຫາເຫຼົ່ານີ້, ສ່ວນຫຼາຍແມ່ນຢູ່ໃນລະດັບທີ່ນັກຄົ້ນຄວ້າວິທະຍາສາດບໍ່ສາມາດທຽບໄດ້. ໃນເອກະສານຂອງພວກເຂົາ, Ansolabehere ແລະ Hersh ໄດ້ຜ່ານຂັ້ນຕອນຈໍານວນຫນຶ່ງເພື່ອກວດເບິ່ງຜົນໄດ້ຮັບຂອງສອງຂັ້ນຕອນນີ້ - ເຖິງແມ່ນວ່າບາງສ່ວນຂອງພວກມັນແມ່ນເປັນເຈົ້າຂອງ - ແລະການກວດເຫຼົ່ານີ້ອາດຈະເປັນປະໂຫຍດສໍາລັບນັກຄົ້ນຄວ້າອື່ນໆທີ່ຕ້ອງເຊື່ອມຕໍ່ຂໍ້ມູນການສໍາຫຼວດກັບຂໍ້ມູນຂະຫນາດໃຫຍ່ ແຫຼ່ງຂໍ້ມູນ.

ນັກຄົ້ນຄວ້າວິຊາທົ່ວໄປສາມາດແຕ້ມຈາກການສຶກສານີ້ໄດ້ແນວໃດ? ຫນ້າທໍາອິດ, ມີມູນຄ່າຢ່າງຫຼວງຫຼາຍທັງຈາກແຫຼ່ງຂໍ້ມູນທີ່ໃຫຍ່ຫຼວງທີ່ມີຂໍ້ມູນການສໍາຫຼວດແລະຈາກຂໍ້ມູນການສໍາຫຼວດທີ່ມີແຫຼ່ງຂໍ້ມູນທີ່ໃຫຍ່ຫຼວງ (ທ່ານສາມາດເບິ່ງການສຶກສານີ້ຢ່າງໃດ). ໂດຍສົມທົບສອງແຫລ່ງຂໍ້ມູນເຫຼົ່ານີ້, ນັກຄົ້ນຄວ້າສາມາດເຮັດສິ່ງທີ່ບໍ່ເປັນໄປໄດ້ແຕ່ລະບຸກຄົນ. ບົດຮຽນທົ່ວໄປທີສອງແມ່ນວ່າລວມທັງແຫຼ່ງຂໍ້ມູນທາງດ້ານການຄ້າເຊັ່ນຂໍ້ມູນຈາກ Catalist, ບໍ່ຄວນຖືວ່າ "ຄວາມຈິງພື້ນຖານ", ໃນບາງກໍລະນີ, ພວກເຂົາສາມາດເປັນປະໂຫຍດໄດ້. ບາງຄັ້ງຄົນທີ່ບໍ່ຄຶກຄັກສາມາດສົມທຽບຂໍ້ມູນເຫຼົ່ານີ້ທີ່ມີຄວາມສົມບູນແບບແລະມີຄວາມຈິງຢ່າງແທ້ຈິງແລະຊີ້ໃຫ້ເຫັນວ່າແຫຼ່ງຂໍ້ມູນເຫລົ່ານີ້ຕໍ່າລົງ. ຢ່າງໃດກໍຕາມ, ໃນກໍລະນີນີ້, ຜູ້ທີ່ບໍ່ຄ່ອຍເຊື່ອງ່າຍໆໄດ້ເຮັດໃຫ້ການປຽບທຽບທີ່ຜິດພາດ: ຂໍ້ມູນທັງຫມົດທີ່ນັກວິທະຍາສາດນໍາໃຊ້ແມ່ນບໍ່ມີຄວາມຈິງຢ່າງແທ້ຈິງ. ແທນທີ່ຈະ, ມັນຈະດີກ່ວາທີ່ຈະສົມທຽບແຫຼ່ງຂໍ້ມູນການຄ້າລວມ, ທີ່ມີແຫຼ່ງຂໍ້ມູນອື່ນໆທີ່ມີຢູ່ (ຕົວຢ່າງ, ພຶດຕິກໍາການລົງຄະແນນສຽງຂອງຕົນເອງ), ຊຶ່ງກໍ່ຍັງມີຂໍ້ຜິດພາດເຊັ່ນກັນ. ສຸດທ້າຍ, ບົດຮຽນທົ່ວໄປທີສາມຂອງການສຶກສາຂອງ Ansolabehere ແລະ Hersh ແມ່ນວ່າໃນບາງສະຖານະການ, ນັກຄົ້ນຄວ້າສາມາດໄດ້ຮັບຜົນປະໂຫຍດຈາກການລົງທຶນທີ່ໃຫຍ່ທີ່ບໍລິສັດເອກະຊົນສ່ວນຫຼາຍເຮັດໃນການເກັບກໍາແລະການເຊື່ອມໂຍງຊຸດຂໍ້ມູນສັງຄົມທີ່ສັບສົນ.