2.4.3 ປະສົບການປະມານ

ພວກເຮົາສາມາດປະມານປະສົບການທີ່ພວກເຮົາບໍ່ໄດ້ຫລືບໍ່ສາມາດເຮັດໄດ້. ສອງວິທີທີ່ໄດ້ຮັບຜົນປະໂຫຍດໂດຍສະເພາະຈາກແຫຼ່ງຂໍ້ມູນໃຫຍ່ແມ່ນການທົດລອງແລະການຈັບຄູ່ທໍາມະຊາດ.

ບາງຄໍາຖາມທີ່ສໍາຄັນທາງດ້ານວິທະຍາສາດແລະນະໂຍບາຍແມ່ນເຫດຜົນ. ຕົວຢ່າງ, ຜົນກະທົບຂອງໂຄງການຝຶກອົບຮົມວຽກກ່ຽວກັບຄ່າແຮງງານແມ່ນຫຍັງ? ນັກຄົ້ນຄວ້າທີ່ພະຍາຍາມຕອບຄໍາຖາມນີ້ອາດຈະປຽບທຽບລາຍໄດ້ຂອງຜູ້ທີ່ເຂົ້າຮ່ວມການຝຶກອົບຮົມໃຫ້ກັບຜູ້ທີ່ບໍ່ໄດ້. ແຕ່ວິທີການແຕກຕ່າງກັນໃດໆກ່ຽວກັບຄ່າແຮງງານລະຫວ່າງກຸ່ມເຫຼົ່ານີ້ແມ່ນຍ້ອນການຝຶກອົບຮົມແລະວິທີການແມ່ນຍ້ອນວ່າຄວາມແຕກຕ່າງກັນລະຫວ່າງຜູ້ທີ່ລົງທະບຽນແລະຜູ້ທີ່ບໍ່? ນີ້ແມ່ນຄໍາຖາມທີ່ມີຄວາມຫຍຸ້ງຍາກ, ແລະມັນແມ່ນຫນຶ່ງໃນທີ່ບໍ່ອັດຕະໂນມັດໄປກັບຂໍ້ມູນເພີ່ມເຕີມ. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ຄວາມກັງວົນກ່ຽວກັບຄວາມແຕກຕ່າງທີ່ມີຢູ່ໃນອະນາຄົດທີ່ເກີດຂື້ນກໍ່ເກີດຂື້ນບໍ່ວ່າບັນດາຄົນວຽກຢູ່ໃນຂໍ້ມູນຂອງທ່ານເທົ່າໃດ.

ໃນຫຼາຍສະຖານະການ, ວິທີການທີ່ສູງທີ່ສຸດໃນການຄາດຄະເນຜົນກະທົບຂອງການປິ່ນປົວຈໍານວນຫນຶ່ງເຊັ່ນການຝຶກອົບຮົມວຽກງານແມ່ນການດໍາເນີນການທົດລອງຄວບຄຸມແບບສຸ່ມທີ່ນັກຄົ້ນຄວ້າໄດ້ສະຫນອງການປິ່ນປົວໃຫ້ຄົນບາງຄົນແລະບໍ່ແມ່ນຄົນອື່ນ. ຂ້າພະເຈົ້າຈະອຸທິດທຸກພາກທີ 4 ໃຫ້ກັບປະສົບການ, ດັ່ງນັ້ນຂ້າພະເຈົ້າຈະມຸ່ງເນັ້ນໃສ່ສອງຍຸດທະສາດທີ່ສາມາດນໍາໃຊ້ກັບຂໍ້ມູນທີ່ບໍ່ມີການທົດລອງ. ຍຸດທະສາດທໍາອິດແມ່ນຂຶ້ນກັບການຊອກຫາສິ່ງທີ່ເກີດຂື້ນໃນໂລກທີ່ສຸ່ມໆ (ຫຼືເກືອບເຂົ້າ) ໃຫ້ການປິ່ນປົວແກ່ຄົນບາງຄົນແລະບໍ່ແມ່ນຄົນອື່ນ. ຍຸດທະສາດທີສອງແມ່ນຂຶ້ນກັບການປັບປຸງຂໍ້ມູນທີ່ບໍ່ມີການທົດລອງເພື່ອປັບປຸງຄວາມແຕກຕ່າງກັນລະຫວ່າງຜູ້ທີ່ບໍ່ແລະບໍ່ໄດ້ຮັບການປິ່ນປົວ.

ຄວາມສົງໄສອາດຈະຮຽກຮ້ອງວ່າທັງສອງຍຸດທະສາດດັ່ງກ່າວຄວນໄດ້ຮັບການຫຼີກເວັ້ນເພາະວ່າພວກເຂົາຕ້ອງການສົມມຸດຕິຖານທີ່ເຂັ້ມແຂງ, ສົມມຸດຕິຖານທີ່ມີຄວາມຫຍຸ້ງຍາກໃນການປະເມີນແລະວ່າ, ໃນການປະຕິບັດ, ມັກຈະຖືກລະເມີດ. ໃນຂະນະທີ່ຂ້າພະເຈົ້າເຫັນພ້ອມກັບຄໍາຮ້ອງຂໍນີ້, ຂ້າພະເຈົ້າຄິດວ່າມັນຈະໄປໄກເກີນໄປ. ມັນແນ່ນອນວ່າມັນເປັນການຍາກທີ່ຈະເຊື່ອຖືໄດ້ເຮັດໃຫ້ການຄາດຄະເນກ່ຽວກັບເຫດຜົນຈາກຂໍ້ມູນທີ່ບໍ່ມີການທົດລອງ, ແຕ່ຂ້ອຍບໍ່ຄິດວ່ານັ້ນກໍ່ແມ່ນວ່າພວກເຮົາບໍ່ຄວນພະຍາຍາມ. ໂດຍສະເພາະ, ວິທີການທີ່ບໍ່ມີການທົດລອງສາມາດເປັນປະໂຫຍດຖ້າການຈໍາກັດການຂົນສົ່ງປ້ອງກັນທ່ານຈາກການດໍາເນີນການທົດລອງຫຼືຖ້າມີຂໍ້ຈໍາກັດດ້ານຈັນຍາບັນຫມາຍເຖິງວ່າທ່ານບໍ່ຕ້ອງການທົດລອງ. ນອກຈາກນັ້ນ, ວິທີການທີ່ບໍ່ມີການທົດລອງສາມາດຊ່ວຍທ່ານໄດ້ຖ້າທ່ານຕ້ອງການນໍາໃຊ້ຂໍ້ມູນທີ່ມີຢູ່ແລ້ວໃນການອອກແບບທົດລອງຄວບຄຸມແບບສຸ່ມ.

ກ່ອນທີ່ຈະດໍາເນີນການ, ມັນກໍ່ຄວນມີຄວາມລະມັດລະວັງວ່າການຄາດຄະເນກ່ຽວກັບເຫດຜົນແມ່ນຫນຶ່ງໃນຫົວຂໍ້ທີ່ສະລັບສັບຊ້ອນທີ່ສຸດໃນການຄົ້ນຄວ້າທາງດ້ານສັງຄົມແລະຫນຶ່ງທີ່ສາມາດນໍາໄປສູ່ການໂຕ້ວາທີລະອຽດແລະສັບສົນ. ໃນສິ່ງທີ່ຕໍ່ມາ, ຂ້ອຍຈະສະຫນອງຄໍາອະທິບາຍທີ່ດີກວ່າຂອງແຕ່ລະວິທີເພື່ອສ້າງຄວາມເຂົ້າໃຈກ່ຽວກັບມັນ, ຫຼັງຈາກນັ້ນຂ້ອຍຈະອະທິບາຍບາງສິ່ງທ້າທາຍທີ່ເກີດຂື້ນເມື່ອນໍາໃຊ້ວິທີການນັ້ນ. ຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບແຕ່ລະວິທີການແມ່ນມີຢູ່ໃນອຸປະກອນໃນຕອນທ້າຍຂອງບົດນີ້. ຖ້າທ່ານມີແຜນການນໍາໃຊ້ວິທີການໃດຫນຶ່ງໃນການຄົ້ນຄວ້າຂອງທ່ານເອງ, ຂ້າພະເຈົ້າຂໍແນະນໍາໃຫ້ອ່ານຫນັງສືທີ່ດີເລີດຈໍານວນຫຼາຍກ່ຽວກັບການຄິດໄລ່ causal (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .

ວິທີຫນຶ່ງທີ່ເຮັດໃຫ້ການຄາດຄະເນກ່ຽວກັບເຫດຜົນຈາກຂໍ້ມູນທີ່ບໍ່ມີການທົດລອງແມ່ນເພື່ອຊອກຫາເຫດການທີ່ໄດ້ມອບຫມາຍໃຫ້ການປິ່ນປົວແບບສຸ່ມກັບບາງຄົນແລະບໍ່ໃຫ້ຄົນອື່ນ. ສະຖານະການເຫຼົ່ານີ້ເອີ້ນວ່າ ທົດລອງທໍາມະຊາດ . ຫນຶ່ງໃນຕົວຢ່າງທີ່ຊັດເຈນທີ່ສຸດຂອງການທົດລອງແບບທໍາມະຊາດແມ່ນມາຈາກການຄົ້ນຄວ້າຂອງ Joshua Angrist (1990) ວັດຜົນຂອງການບໍລິການດ້ານການທະຫານໃນລາຍໄດ້. ໃນໄລຍະສົງຄາມຢູ່ຫວຽດນາມ, ສະຫະລັດໄດ້ເພີ່ມຂະຫນາດຂອງກໍາລັງປະກອບອາວຸດຂອງຕົນຜ່ານຮ່າງຮ່າງ. ເພື່ອຕັດສິນໃຈເລືອກເອົາພົນລະເມືອງທີ່ຈະຖືກເອີ້ນໃຫ້ບໍລິການ, ລັດຖະບານສະຫະລັດໄດ້ຈັດຂື້ນ lottery. ວັນເດືອນປີເກີດທຸກໆລາຍໄດ້ຖືກຂຽນໄວ້ໃນແຜ່ນເຈ້ຍແລະໃນຮູບທີ່ 2.7, ກະດາດເຫຼົ່ານີ້ໄດ້ຖືກເລືອກໄວ້ຫນຶ່ງໃນເວລາເພື່ອກໍານົດຄໍາສັ່ງທີ່ຊາຍຫນຸ່ມຈະຖືກເອີ້ນໃຫ້ຮັບໃຊ້ (ຍິງຫນຸ່ມບໍ່ໄດ້ຖືກຕ້ອງ ກັບຮ່າງ). ອີງຕາມຜົນໄດ້ຮັບ, ຜູ້ຊາຍທີ່ເກີດໃນວັນທີ 14 ເດືອນກັນຍາໄດ້ຖືກເອີ້ນວ່າຄັ້ງທໍາອິດ, ຜູ້ຊາຍເກີດໃນວັນທີ 24 ເດືອນເມສາໄດ້ຖືກເອີ້ນວ່າທີສອງ, ແລະອື່ນໆ. ໃນທີ່ສຸດ, ໃນປື້ມນີ້, ຜູ້ຊາຍເກີດໃນ 195 ມື້ທີ່ແຕກຕ່າງກັນໄດ້ຖືກ drafted, ໃນຂະນະທີ່ຜູ້ຊາຍເກີດໃນ 171 ມື້ແມ່ນບໍ່.

ຮູບພາບ 2.7: ສະພາ Congressman Alexander Pirnie (R-NY) ຮວບຮວມແກັດທໍາອິດສໍາລັບການເລືອກບໍລິການເລືອກໃນວັນທີ 1 ເດືອນທັນວາປີ 1969. Joshua Angrist (1990) ລວມຂໍ້ມູນລ່ວງຫນ້າກັບຂໍ້ມູນລາຍໄດ້ຈາກອົງການຮັກສາຄວາມປອດໄພສັງຄົມເພື່ອປະເມີນຜົນຂອງການບໍລິການທາງທະຫານ ໃນລາຍໄດ້. ນີ້ແມ່ນຕົວຢ່າງຂອງການຄົ້ນຄວ້ານໍາໃຊ້ທົດລອງແບບທໍາມະຊາດ. ແຫຼ່ງຂໍ້ມູນ: ລະບົບການບໍລິການເລືອກສະຫະລັດ (1969) / Wikimedia Commons.

ຮູບພາບ 2.7: ສະພາ Congressman Alexander Pirnie (R-NY) ຮວບຮວມແກັດທໍາອິດສໍາລັບການເລືອກບໍລິການເລືອກໃນວັນທີ 1 ເດືອນທັນວາປີ 1969. Joshua Angrist (1990) ລວມຂໍ້ມູນລ່ວງຫນ້າກັບຂໍ້ມູນລາຍໄດ້ຈາກອົງການຮັກສາຄວາມປອດໄພສັງຄົມເພື່ອປະເມີນຜົນຂອງການບໍລິການທາງທະຫານ ໃນລາຍໄດ້. ນີ້ແມ່ນຕົວຢ່າງຂອງການຄົ້ນຄວ້ານໍາໃຊ້ທົດລອງແບບທໍາມະຊາດ. ແຫຼ່ງຂໍ້ມູນ: US Selective Service System (1969) / Wikimedia Commons .

ເຖິງແມ່ນວ່າມັນອາດຈະບໍ່ທັນໄດ້ເຫັນເທື່ອແລ້ວ, ຮ່າງຂອງ lottery ມີຄວາມຄ້າຍຄືກັນທີ່ສໍາຄັນກັບການທົດລອງຄວບຄຸມແບບສຸ່ມ: ໃນສະຖານະການທັງສອງ, ຜູ້ເຂົ້າຮ່ວມໄດ້ຖືກມອບຫມາຍໃຫ້ໄດ້ຮັບການປິ່ນປົວ. ໃນການສຶກສາຜົນກະທົບຂອງການປິ່ນປົວແບບນີ້, Angrist ໄດ້ໃຊ້ປະໂຫຍດຈາກລະບົບຂໍ້ມູນທີ່ມີຄວາມສະເຫມີພາບກັນ: ອົງການຮັກສາຄວາມປອດໄພສັງຄົມຂອງສະຫະລັດ, ເຊິ່ງເກັບກໍາຂໍ້ມູນກ່ຽວກັບຜົນປະໂຫຍດຂອງທຸກໆຄົນຂອງອາເມລິກາຈາກການຈ້າງງານ. ໂດຍການສົມທົບຂໍ້ມູນກ່ຽວກັບຜູ້ທີ່ຖືກຄັດເລືອກຢ່າງສຸ່ມຢູ່ໃນຮ່າງແຜນການຫຼີ້ນກັບຂໍ້ມູນລາຍໄດ້ທີ່ເກັບໃນບັນທຶກການບໍລິຫານຂອງລັດຖະບານ, Angrist ສະຫຼຸບວ່າລາຍໄດ້ຂອງນັກຮົບເກົ່າແມ່ນປະມານ 15% ຫນ້ອຍກ່ວາລາຍໄດ້ຂອງນັກລົງທຶນທີ່ບໍ່ແມ່ນນັກລົງທຶນທີ່ທຽບເທົ່າ.

ເມື່ອຕົວຢ່າງນີ້ສະແດງໃຫ້ເຫັນບາງຄັ້ງກໍາລັງສັງຄົມ, ທາງດ້ານການເມືອງ, ຫຼືທໍາມະຊາດກໍາຫນົດການປິ່ນປົວໃນວິທີການທີ່ສາມາດນໍາໃຊ້ໂດຍນັກຄົ້ນຄວ້າແລະບາງຄັ້ງຜົນກະທົບຂອງການປິ່ນປົວເຫຼົ່ານີ້ຖືກເກັບໄວ້ໃນແຫຼ່ງຂໍ້ມູນສະເຫມີ. ຍຸດທະສາດການຄົ້ນຄວ້ານີ້ສາມາດສະຫຼຸບໄດ້ດັ່ງລຸ່ມນີ້: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]

ເພື່ອສະແດງໃຫ້ເຫັນກົນລະຍຸດນີ້ໃນອາຍຸດິຈິຕອນ, ໃຫ້ພິຈາລະນາການສຶກສາໂດຍ Alexandre Mas ແລະ Enrico Moretti (2009) ທີ່ພະຍາຍາມຄາດຄະເນຜົນກະທົບຂອງການເຮັດວຽກຮ່ວມກັບເພື່ອນຮ່ວມງານທີ່ມີຜົນຜະລິດໃນຜະລິດຕະພັນຂອງແຮງງານ. ກ່ອນທີ່ຈະເຫັນຜົນໄດ້ຮັບ, ມັນຄວນຈະຊີ້ໃຫ້ເຫັນວ່າມີຄວາມຄາດຫວັງທີ່ແຕກຕ່າງກັນທີ່ທ່ານອາດຈະມີ. ໃນທາງກົງກັນຂ້າມ, ທ່ານອາດຈະຄາດຫວັງວ່າການເຮັດວຽກຮ່ວມກັບເພື່ອນຮ່ວມງານທີ່ມີຜົນຜະລິດຈະເຮັດໃຫ້ຜູ້ເຮັດວຽກເພີ່ມກໍາລັງຜະລິດຂອງນາງຍ້ອນຄວາມກົດດັນຂອງເພື່ອນມິດ. ຫຼື, ໃນທາງກົງກັນຂ້າມ, ທ່ານອາດຈະຄາດຫວັງວ່າການມີເພື່ອນຮ່ວມງານທີ່ເຮັດວຽກຫນັກອາດເຮັດໃຫ້ຜູ້ເຮັດວຽກລຸດລົງເນື່ອງຈາກວ່າວຽກງານຂອງເຈົ້າຈະເຮັດໄດ້ໂດຍຄົນອື່ນ. ວິທີທີ່ຊັດເຈນສໍາລັບການສຶກສາຜົນກະທົບຕໍ່ການຜະລິດຈະເປັນການທົດລອງຄວບຄຸມແບບສຸ່ມທີ່ພະນັກງານກໍາຫນົດໃຫ້ການປ່ຽນແປງກັບແຮງງານທີ່ມີລະດັບການຜະລິດທີ່ແຕກຕ່າງກັນແລະຫຼັງຈາກນັ້ນຜະລິດຕະພັນທີ່ໄດ້ຮັບຜົນກະທົບແມ່ນສໍາລັບທຸກໆຄົນ. ແຕ່ນັກຄົ້ນຄວ້າບໍ່ໄດ້ຄວບຄຸມກໍານົດເວລາຂອງພະນັກງານໃນທຸລະກິດທີ່ແທ້ຈິງໃດໆ, ແລະດັ່ງນັ້ນ Mas ແລະ Moretti ຕ້ອງໄດ້ທົດແທນການທົດລອງທໍາມະຊາດທີ່ກ່ຽວຂ້ອງກັບຜູ້ຮັບເງິນໃນສັບພະສິນຄ້າ.

ໃນສັບພະສິນຄ້າສະເພາະນີ້, ເນື່ອງຈາກວ່າວິທີການທີ່ກໍານົດເວລາຖືກເຮັດແລ້ວແລະວິທີທີ່ປ່ຽນແປງກັນ, ນັກເງິນສົດແຕ່ລະຄົນມີຜູ້ຮ່ວມງານທີ່ແຕກຕ່າງກັນໃນເວລາທີ່ແຕກຕ່າງກັນໃນແຕ່ລະມື້. ນອກຈາກນັ້ນ, ຢູ່ໃນສັບພະສິນຄ້າສະເພາະນີ້, ການມອບຫມາຍຂອງນັກເກັບເງິນແມ່ນບໍ່ກ່ຽວຂ້ອງກັບຜົນຜະລິດຂອງເພື່ອນຮ່ວມງານຂອງພວກເຂົາຫຼືວິທີການເຮັດວຽກຢູ່ຮ້ານຄ້າ. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ເຖິງແມ່ນວ່າການວາງແຜນຂອງນັກເກັບເງິນບໍ່ໄດ້ຖືກກໍານົດໂດຍການສະຫມັກ, ມັນຄືກັບວ່າພະນັກງານບາງຄົນໄດ້ຖືກມອບຫມາຍໃຫ້ເຮັດວຽກຮ່ວມກັບຄົນທີ່ມີກໍາລັງສູງ (ຫຼືຕ່ໍາ). ໂຊກດີ, ສັບພະສິນຄ້ານີ້ຍັງມີລະບົບການກວດສອບລະບົບດິຈິຕອນ, ທີ່ຕິດຕາມລາຍະການທີ່ຜູ້ຮັບເງິນໄດ້ scan ຢູ່ທຸກເວລາ. ຈາກຂໍ້ມູນບັນທຶກນີ້, Mas ແລະ Moretti ສາມາດສ້າງມາດຕະການທີ່ຊັດເຈນ, ສ່ວນບຸກຄົນ, ແລະສະເຫມີໄປກ່ຽວກັບຜະລິດຕະພັນ: ຈໍານວນຂອງລາຍການສະແກນຕໍ່ວິນາທີ. ການປະສົມປະສານສອງດ້ານເຫຼົ່ານີ້ - ການປ່ຽນແປງຕາມທໍາມະຊາດໃນຜະລິດຕະພັນຂອງຫມູ່ເພື່ອນແລະມາດຕະການສະເຫມີໄປຂອງການຜະລິດ - Mas ແລະ Moretti ຄາດວ່າຖ້າຜູ້ຮັບເງິນໄດ້ຖືກມອບຫມາຍໃຫ້ຜູ້ຮ່ວມງານທີ່ມີຜະລິດຕະພັນຫຼາຍກວ່າ 10% ທີ່ຢູ່ ນອກຈາກນັ້ນ, ພວກເຂົາເຈົ້າໄດ້ນໍາໃຊ້ຂະຫນາດແລະຄວາມອຸດົມສົມບູນຂອງຂໍ້ມູນຂອງເຂົາເຈົ້າເພື່ອຄົ້ນຫາສອງບັນຫາທີ່ສໍາຄັນ: ຄວາມ ບໍ່ເປັນເອກະລາດ ຂອງຜົນກະທົບນີ້ (ສໍາລັບປະເພດແຮງງານແມ່ນຫຍັງ?) ແລະ ກົນໄກທີ່ ຢູ່ເບື້ອງຫລັງຜົນກະທົບ (ເປັນຫຍັງຈຶ່ງມີມິດຕະພາບທີ່ມີຜົນຜະລິດສູງ ຜະລິດຕະພັນທີ່ສູງຂຶ້ນ?). ພວກເຮົາຈະກັບຄືນໄປຫາບັນດາບັນຫາທີ່ສໍາຄັນເຫຼົ່ານີ້ - ຄວາມບໍ່ສະເຫມີພາບຂອງຜົນກະທົບດ້ານການປິ່ນປົວແລະກົນໄກ - ໃນພາກ 4 ເມື່ອພວກເຮົາສົນທະນາກ່ຽວກັບການທົດລອງໃນລາຍລະອຽດເພີ່ມເຕີມ.

ໂດຍທົ່ວໄປແລ້ວຈາກການສຶກສາສອງຄັ້ງນີ້, ຕາຕະລາງ 2.3 summarizes ການສຶກສາອື່ນໆທີ່ມີໂຄງສ້າງດຽວກັນນີ້: ການນໍາໃຊ້ແຫຼ່ງຂໍ້ມູນສະເຫມີໄປເພື່ອວັດແທກຜົນກະທົບຂອງການປ່ຽນແປງບາງຢ່າງ. ໃນການປະຕິບັດ, ນັກຄົ້ນຄວ້າໃຊ້ສອງຍຸດທະສາດທີ່ແຕກຕ່າງກັນເພື່ອຊອກຫາການທົດລອງແບບທໍາມະຊາດ, ທັງສອງສາມາດຜະລິດໄດ້. ນັກຄົ້ນຄວ້າຈໍານວນຫນຶ່ງເລີ່ມຕົ້ນດ້ວຍແຫຼ່ງຂໍ້ມູນສະເຫມີໄປແລະຊອກຫາເຫດການຕ່າງໆໃນໂລກ; ຄົນອື່ນເລີ່ມຕົ້ນເຫດການທີ່ເປັນອັນຕະລາຍໃນໂລກແລະຊອກຫາແຫລ່ງຂໍ້ມູນທີ່ຈັບຜົນກະທົບຂອງມັນ.

ຕາຕະລາງ 2.3: ຕົວຢ່າງຂອງການທົດລອງທໍາມະຊາດໂດຍນໍາໃຊ້ແຫຼ່ງຂໍ້ມູນໃຫຍ່
ຈຸດພິເສດທີ່ສໍາຄັນ ແຫຼ່ງຂອງການທົດລອງທໍາມະຊາດ ສະເຫມີກ່ຽວກັບແຫຼ່ງຂໍ້ມູນ ອ້າງອິງ
ຜົນກະທົບຂອງເພື່ອນໃນການຜະລິດ ຂະບວນການກໍານົດເວລາ ກວດສອບຂໍ້ມູນ Mas and Moretti (2009)
ການສ້າງມິດຕະພາບ Hurricanes ເຟສບຸກ Phan and Airoldi (2015)
ການແຜ່ລາມຂອງຄວາມຮູ້ສຶກ ຝົນຕົກ ເຟສບຸກ Lorenzo Coviello et al. (2014)
ການໂອນເງິນທາງເສດຖະກິດແບບດຽວກັນກັບຫມູ່ ແຜ່ນດິນໄຫວ ຂໍ້ມູນເງິນມືຖື Blumenstock, Fafchamps, and Eagle (2011)
ພຶດຕິກໍາການກິນສ່ວນບຸກຄົນ 2013 ລັດຖະບານສະຫະລັດປິດ ຂໍ້ມູນການເງິນສ່ວນບຸກຄົນ Baker and Yannelis (2015)
ຜົນກະທົບດ້ານເສດຖະກິດຂອງລະບົບແນະນໍາ ຕ່າງໆ Browsing data at Amazon Sharma, Hofman, and Watts (2015)
ຜົນກະທົບຂອງຄວາມກົດດັນໃນເດັກນ້ອຍເກີດໃຫມ່ 2006 Israel-Hezbollah ສົງຄາມ ບັນທຶກປະຫວັດສາດ Torche and Shwed (2015)
ພົລຶຕິກໍາການອ່ານໃນ Wikipedia Snowden ເປີດເຜີຍ Wikipedia logs Penney (2016)
ຜົນກະທົບຂອງເພື່ອນໃນການອອກກໍາລັງກາຍ ສະພາບອາກາດ Fitness trackers Aral and Nicolaides (2017)

ໃນການສົນທະນາເຖິງປະຈຸບັນກ່ຽວກັບການທົດລອງແບບທໍາມະດາ, ຂ້າພະເຈົ້າໄດ້ປະຖິ້ມຈຸດທີ່ສໍາຄັນ: ໄປຈາກສິ່ງທີ່ທໍາມະຊາດໄດ້ສະຫນອງໃຫ້ສິ່ງທີ່ທ່ານຕ້ອງການບາງຄັ້ງອາດຈະເປັນເລື່ອງທີ່ຂ້ອນຂ້າງເຄັ່ງຄັດ. ໃຫ້ກັບຄືນໄປຫາຕົວຢ່າງຂອງໂຄງການວຽດນາມ. ໃນກໍລະນີນີ້, Angrist ມີຄວາມສົນໃຈໃນການຄາດຄະເນຜົນກະທົບຂອງການບໍລິການທາງທະຫານໃນລາຍໄດ້. ແຕ່ຫນ້າເສຍດາຍ, ການບໍລິການດ້ານການທະຫານບໍ່ໄດ້ຖືກມອບຫມາຍຢ່າງສຸ່ມ ແທນທີ່ຈະໄດ້ຮັບການແຕ່ງຕັ້ງທີ່ໄດ້ຮັບການແຕ່ງຕັ້ງຢ່າງສຸ່ມ. ຢ່າງໃດກໍຕາມ, ບໍ່ແມ່ນທຸກຄົນທີ່ໄດ້ຮັບການແຕ່ງຕັ້ງ (ມີການຍົກເວັ້ນຕ່າງໆ), ແລະບໍ່ແມ່ນທຸກຄົນທີ່ໄດ້ຮັບການແຕ່ງຕັ້ງ (ຜູ້ທີ່ສາມາດເຮັດວຽກໄດ້). ເນື່ອງຈາກວ່າການຖືກຮ່າງສ້າງແມ່ນໄດ້ຖືກມອບຫມາຍໃຫ້ກັນ, ນັກຄົ້ນຄວ້າສາມາດຄາດຄະເນຜົນກະທົບຂອງການຖືກຮ່າງສໍາຫຼັບຜູ້ຊາຍທັງຫມົດໃນຮ່າງ. ແຕ່ Angrist ບໍ່ຕ້ອງການຮູ້ຜົນກະທົບຂອງການຖືກ drafted; ລາວຕ້ອງການຮູ້ວ່າຜົນກະທົບຂອງການຮັບໃຊ້ໃນການທະຫານ. ເພື່ອເຮັດໃຫ້ການຄາດຄະເນນີ້, ຢ່າງໃດກໍຕາມ, ສົມມຸດຕິຖານເພີ່ມເຕີມແລະຄວາມສັບສົນແມ່ນຕ້ອງການ. ຫນ້າທໍາອິດ, ນັກວິທະຍາສາດຈໍາເປັນຕ້ອງຄິດວ່າວິທີດຽວທີ່ຖືກກໍານົດຜົນກະທົບຕໍ່ຜົນໄດ້ຮັບແມ່ນຜ່ານການບໍລິການທາງທະຫານ, ການສົມມຸດວ່າ ການຈໍາກັດການປະຕິເສດ . ຕົວຢ່າງນີ້ອາດຈະເປັນເລື່ອງທີ່ຜິດຖ້າຕົວຢ່າງຜູ້ຊາຍທີ່ໄດ້ຮັບການແຕ່ງຕັ້ງຢູ່ໃນໂຮງຮຽນອີກຕໍ່ໄປເພື່ອຫຼີກເວັ້ນການຮັບໃຊ້ຫຼືຖ້າວ່ານາຍຈ້າງມີໂອກາດຫນ້ອຍທີ່ຈະຈ້າງຜູ້ຊາຍທີ່ຖືກແຕ່ງຕັ້ງ. ໂດຍທົ່ວໄປ, ການຈໍາກັດການປະຕິເສດແມ່ນການສົມມຸດຕິຖານທີ່ສໍາຄັນ, ແລະມັນມັກຈະຍາກທີ່ຈະກວດສອບ. ເຖິງແມ່ນວ່າການຈໍາກັດການຍົກເວັ້ນແມ່ນຖືກຕ້ອງ, ມັນກໍ່ຍັງບໍ່ສາມາດຄາດຄະເນຜົນກະທົບຂອງການບໍລິການຕໍ່ຜູ້ຊາຍທັງຫມົດ. ແທນທີ່ຈະເຮັດໃຫ້ນັກຄົ້ນຄວ້າສາມາດຄາດຄະເນຜົນກະທົບຕໍ່ກຸ່ມຜູ້ຊາຍທີ່ເອີ້ນວ່ານັກຄອມພິວເຕີ້ (ຄົນທີ່ຈະຮັບໃຊ້ໃນເວລາທີ່ຖືກຮ່າງ, ແຕ່ຈະບໍ່ຮັບໃຊ້ໃນເວລາທີ່ບໍ່ໄດ້ຮ່າງ) (Angrist, Imbens, and Rubin 1996) . ບັນດາຜູ້ປະສານງານ, ແຕ່ວ່າ, ບໍ່ແມ່ນປະຊາກອນທີ່ມີຄວາມສົນໃຈ. ສັງເກດເຫັນວ່າບັນຫາເຫຼົ່ານີ້ເກີດຂຶ້ນເຖິງແມ່ນວ່າຢູ່ໃນກໍລະນີທີ່ສະອາດຂ້ອນຂ້າງຂື້ນຂອງຮ່າງກົດຫມາຍ. ຊຸດກໍານົດຂອງ complications ເພີ່ມເຕີມເກີດຂຶ້ນເມື່ອການປິ່ນປົວບໍ່ໄດ້ຖືກມອບຫມາຍໂດຍ lottery ທາງດ້ານຮ່າງກາຍ. ສໍາລັບຕົວຢ່າງ, ໃນການສຶກສາຂອງ Mas ແລະ Moretti ຂອງນັກເກັບເງິນ, ຄໍາຖາມເພີ່ມເຕີມກ່ຽວກັບການສົມມຸດວ່າການແຕ່ງຕັ້ງຂອງເພື່ອນຮ່ວມງານແມ່ນມີຄວາມສຸ່ມ. ຖ້າສົມມຸດຕິຖານນີ້ຖືກລະເມີດຢ່າງເຂັ້ມງວດ, ມັນອາດຈະເປັນການຄາດຄະເນຂອງພວກເຂົາ. ເພື່ອສະຫຼຸບແລ້ວ, ການທົດລອງແບບທໍາມະຊາດສາມາດເປັນຍຸດທະສາດທີ່ມີປະສິດທິພາບສໍາລັບການຄາດຄະເນກ່ຽວກັບເຫດຜົນຈາກຂໍ້ມູນທີ່ບໍ່ມີການທົດລອງ, ແລະແຫຼ່ງຂໍ້ມູນທີ່ໃຫຍ່ຫຼວງເພີ່ມຄວາມສາມາດຂອງພວກເຮົາໃນການປະຕິບັດຕົວຈິງກ່ຽວກັບການທົດລອງແບບທໍາມະຊາດ. ຢ່າງໃດກໍ່ຕາມ, ມັນອາດຈະຕ້ອງມີການດູແລຢ່າງຫຼວງຫຼາຍ - ແລະບາງຄັ້ງການສົມມຸດຖານທີ່ເຂັ້ມແຂງ - ໄປຈາກສິ່ງທີ່ທໍາມະຊາດໄດ້ສະຫນອງໃຫ້ກັບການຄາດຄະເນທີ່ທ່ານຕ້ອງການ.

ແຜນຍຸດທະສາດທີສອງຂ້າພະເຈົ້າຢາກບອກທ່ານກ່ຽວກັບການເຮັດໃຫ້ການຄາດຄະເນກ່ຽວກັບເຫດຜົນຈາກຂໍ້ມູນທີ່ບໍ່ມີການທົດລອງແມ່ນຂຶ້ນກັບຂໍ້ມູນທີ່ບໍ່ມີການທົດລອງທາງສະຖິຕິໃນຄວາມພະຍາຍາມທີ່ຈະບັນທຶກຄວາມແຕກຕ່າງກັນລະຫວ່າງຜູ້ທີ່ບໍ່ແລະບໍ່ໄດ້ຮັບການປິ່ນປົວ. ມີຫລາຍວິທີແກ້ໄຂດັ່ງກ່າວ, ແຕ່ຂ້ອຍຈະສຸມໃສ່ຫນຶ່ງທີ່ເອີ້ນວ່າການ ຈັບຄູ່ . ໃນການສົມທຽບ, ນັກຄົ້ນຄວ້າໄດ້ເບິ່ງຂໍ້ມູນທີ່ບໍ່ມີການທົດລອງເພື່ອສ້າງຄູ່ຂອງຜູ້ທີ່ມີຄວາມຄ້າຍຄືກັນ, ຍົກເວັ້ນວ່າຄົນຫນຶ່ງໄດ້ຮັບການປິ່ນປົວແລະຄົນບໍ່ມີ. ໃນຂະບວນການຂອງການຈັບຄູ່, ນັກຄົ້ນຄວ້າແມ່ນຕົວຈິງແລ້ວຍັງ ຕັດກິ່ງງ່າ ; ນັ້ນແມ່ນ, ການຍົກເວັ້ນກໍລະນີທີ່ບໍ່ມີຄໍາວ່າຈະແຈ້ງ. ດັ່ງນັ້ນ, ວິທີການນີ້ຈະຖືກນໍາໃຊ້ຢ່າງຖືກຕ້ອງຕາມຄວາມເຫມາະສົມ, ແຕ່ຂ້າພະເຈົ້າຈະຕິດຕາມຄໍາສັບພື້ນເມືອງ: ການຈັບຄູ່.

ຕົວຢ່າງຫນຶ່ງຂອງພະລັງງານຂອງຍຸດທະສາດທີ່ກົງກັນຂ້າມກັບແຫຼ່ງຂໍ້ມູນທີ່ບໍ່ມີການທົດລອງອັນໃຫຍ່ຫຼວງມາຈາກການຄົ້ນຄວ້າກ່ຽວກັບພຶດຕິກໍາຂອງຜູ້ບໍລິໂພກໂດຍ Liran Einav ແລະເພື່ອນຮ່ວມງານ (2015) . ພວກເຂົາສົນໃຈໃນການປະມູນທີ່ eBay, ແລະໃນການອະທິບາຍເຖິງການເຮັດວຽກຂອງພວກເຂົາ, ຂ້ອຍຈະສຸມໃສ່ຜົນກະທົບຂອງລາຄາເລີ່ມຕົ້ນໃນການປະມູນໃນການປະມູນລາຄາ, ເຊັ່ນ: ລາຄາການຂາຍຫຼືຄວາມຫນ້າຈະເປັນຂອງການຂາຍ.

ວິທີ naive ທີ່ສຸດເພື່ອປະເມີນຜົນກະທົບຂອງລາຄາເລີ່ມຕົ້ນໃນລາຄາຂາຍຈະເປັນການຄິດໄລ່ລາຄາສຸດທ້າຍສໍາລັບການປະມູນທີ່ມີລາຄາເລີ່ມຕົ້ນທີ່ແຕກຕ່າງກັນ. ວິທີການນີ້ຈະດີຖ້າທ່ານຕ້ອງການຄາດຄະລາລາຄາການຂາຍທີ່ໄດ້ຮັບລາຄາເລີ່ມຕົ້ນ. ແຕ່ຖ້າຄໍາຖາມຂອງທ່ານກ່ຽວກັບຜົນກະທົບຂອງລາຄາເລີ່ມຕົ້ນ, ວິທີການນີ້ຈະບໍ່ເຮັດວຽກຍ້ອນວ່າມັນບໍ່ແມ່ນອີງໃສ່ການປຽບທຽບທີ່ເຫມາະສົມ; ການປະມູນທີ່ມີລາຄາເລີ່ມຕົ້ນທີ່ຕ່ໍາກວ່າອາດຈະແຕກຕ່າງຈາກຜູ້ທີ່ມີລາຄາເລີ່ມຕົ້ນທີ່ສູງຂຶ້ນ (ເຊັ່ນ: ພວກເຂົາອາດຈະມີສິນຄ້າຕ່າງໆຫຼືປະກອບມີຜູ້ຂາຍທີ່ແຕກຕ່າງກັນ).

ຖ້າທ່ານຮູ້ແລ້ວວ່າບັນຫາທີ່ເກີດຂື້ນໃນເວລາທີ່ການຄາດຄະເນກ່ຽວກັບເຫດຜົນຈາກຂໍ້ມູນທີ່ບໍ່ມີການທົດລອງ, ທ່ານອາດຈະຂ້າມວິທີການທີ່ບໍ່ມີປະໂຫຍດແລະຄິດໄລ່ການທົດລອງພາກສະຫນາມທີ່ທ່ານຈະຂາຍລາຍການສະເພາະໃດຫນຶ່ງ - ກໍານົດລາຄາກໍານົດການປະມູນ - ເວົ້າ, ການຂົນສົ່ງຟຣີແລະການປະມູນເປີດສໍາລັບສອງອາທິດ - ແຕ່ມີລາຄາເລີ່ມຕົ້ນທີ່ໄດ້ຮັບການມອບຫມາຍ. ໂດຍການປຽບທຽບຜົນໄດ້ຮັບຂອງຕະຫຼາດທີ່ຜົນໄດ້ຮັບ, ການທົດລອງພາກສະຫນາມນີ້ຈະສະຫນອງການວັດແທກທີ່ຊັດເຈນຂອງຜົນກະທົບຂອງລາຄາເລີ່ມຕົ້ນໃນລາຄາຂາຍ. ແຕ່ການວັດແທກນີ້ພຽງແຕ່ຈະນໍາໃຊ້ກັບຜະລິດຕະພັນແລະຜະລິດຕະພັນທີ່ກໍານົດໄວ້ໂດຍສະເພາະ. ຜົນໄດ້ຮັບອາດຈະແຕກຕ່າງກັນ, ສໍາລັບຕົວຢ່າງ, ສໍາລັບຜະລິດຕະພັນທີ່ແຕກຕ່າງກັນ. ໂດຍບໍ່ມີທິດສະດີທີ່ເຂັ້ມແຂງ, ມັນເປັນການຍາກທີ່ຈະພິຈາລະນາຈາກການທົດລອງດຽວນີ້ໄປສູ່ການທົດລອງທີ່ເປັນໄປໄດ້ທີ່ສາມາດດໍາເນີນການໄດ້. ຍິ່ງໄປກວ່ານັ້ນ, ການທົດລອງພາກສະຫນາມແມ່ນມີລາຄາແພງພຽງພໍທີ່ມັນຈະບໍ່ສາມາດນໍາໃຊ້ການປ່ຽນແປງທີ່ທ່ານອາດຈະຕ້ອງການ.

ໃນທາງກົງກັນຂ້າມກັບວິທີການທີ່ບໍ່ມີປະສົບການແລະທົດລອງ, Einav ແລະເພື່ອນຮ່ວມງານໄດ້ໃຊ້ວິທີການທີສາມ: ການຈັບຄູ່. trick ຕົ້ນຕໍໃນຍຸດທະສາດຂອງພວກເຂົາແມ່ນເພື່ອຄົ້ນພົບສິ່ງທີ່ຄ້າຍຄືກັນກັບການທົດລອງໃນພາກສະຫນາມທີ່ໄດ້ເກີດຂຶ້ນແລ້ວໃນອີເບ. ຕົວຢ່າງເຊັ່ນຮູບທີ່ 2.8 ສະແດງໃຫ້ເຫັນບາງສ່ວນຂອງ 31 ລາຍການສໍາລັບສະໂມສອນ Golf ດຽວກັນ - ຄູ່ມື Taylormade Burner 09 ຖືກຂາຍໂດຍຜູ້ຂາຍດຽວກັນ - "budgetgolfer". ຢ່າງໃດກໍຕາມ, 31 ລາຍການເຫຼົ່ານີ້ມີລັກສະນະແຕກຕ່າງກັນເລັກນ້ອຍເຊັ່ນ: ລາຄາ, ວັນທີສຸດທ້າຍ, ແລະຄ່າຂົນສົ່ງ. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ມັນແມ່ນວ່າ "budgetgolfer" ກໍາລັງແລ່ນທົດລອງສໍາລັບນັກຄົ້ນຄວ້າ.

ບັນດາລາຍການເຫຼົ່ານີ້ຂອງຜູ້ຂາຍ Taylormade Burner 09 ຖືກຂາຍໂດຍ "budgetgolfer" ເປັນຕົວຢ່າງຫນຶ່ງຂອງບັນດາລາຍການທີ່ກໍານົດໄວ້ເຊິ່ງລາຄາດຽວກັນນັ້ນແມ່ນຂາຍໂດຍຜູ້ຂາຍດຽວກັນແຕ່ແຕ່ລະຄັ້ງມີລັກສະນະທີ່ແຕກຕ່າງກັນເລັກນ້ອຍ. ພາຍໃນບັນທຶກໃຫຍ່ຂອງ eBay ມີຄວາມຫມາຍແທ້ໆຫລາຍຮ້ອຍພັນຊຸດຂອງຄູ່ທີ່ກ່ຽວຂ້ອງກັບລ້ານລາຍການ. ດັ່ງນັ້ນ, ແທນທີ່ຈະປຽບທຽບລາຄາສຸດທ້າຍສໍາລັບການປະມູນທັງຫມົດທີ່ມີລາຄາທີ່ເລີ່ມຕົ້ນ, Einav ແລະເພື່ອນຮ່ວມງານໄດ້ປຽບທຽບໃນຊຸດທີ່ສົມທຽບ. Einav ແລະເພື່ອນຮ່ວມງານໄດ້ສະແດງລາຄາເລີ່ມຕົ້ນແລະລາຄາສຸດທ້າຍກ່ຽວກັບມູນຄ່າການອ້າງອີງຂອງແຕ່ລະລາຍະການ (ຕົວຢ່າງລາຄາຂາຍສະເລ່ຍ). ຕົວຢ່າງເຊັ່ນຖ້າຄົນຂັບ Taylormade Burner 09 ມີມູນຄ່າ 100 ໂດລາຕໍ່ປີ (ອີງຕາມການຂາຍຂອງມັນ) ແລ້ວລາຄາເລີ່ມຕົ້ນຂອງ $ 10 ຈະສະແດງເປັນ 0.1 ແລະລາຄາສຸດທ້າຍຂອງ $ 120 ເປັນ 1.2.

ຮູບທີ 28: ຕົວຢ່າງຂອງຊຸດທີ່ສົມທຽບ. ນີ້ແມ່ນສະໂມສອນ Golf ດຽວກັນ (Taylormade Burner 09 Driver) ຖືກຂາຍໂດຍບຸກຄົນດຽວກັນ (budgetgolfer), ແຕ່ບາງສ່ວນຂອງການຂາຍເຫຼົ່ານີ້ໄດ້ຖືກດໍາເນີນໃນເງື່ອນໄຂທີ່ແຕກຕ່າງກັນ (ເຊັ່ນ: ລາຄາເລີ່ມຕົ້ນທີ່ແຕກຕ່າງກັນ). reproduced ໂດຍການອະນຸຍາດຈາກ Einav et al. (2015), ຮູບ 1b.

ຮູບທີ 28: ຕົວຢ່າງຂອງຊຸດທີ່ສົມທຽບ. ນີ້ແມ່ນສະໂມສອນ Golf ດຽວກັນ (Taylormade Burner 09 Driver) ຖືກຂາຍໂດຍຄົນດຽວກັນ ("budgetgolfer"), ແຕ່ບາງສ່ວນຂອງການຂາຍເຫຼົ່ານີ້ໄດ້ຖືກດໍາເນີນໃນເງື່ອນໄຂທີ່ແຕກຕ່າງກັນ (ຕົວຢ່າງ, ລາຄາເລີ່ມຕົ້ນທີ່ແຕກຕ່າງກັນ). Einav et al. (2015) ໂດຍການອະນຸຍາດຈາກ Einav et al. (2015) , ຮູບ 1b.

ຈື່ໄວ້ວ່າ Einav ແລະເພື່ອນຮ່ວມງານໄດ້ສົນໃຈຜົນກະທົບຂອງລາຄາເລີ່ມຕົ້ນກ່ຽວກັບຜົນໄດ້ຮັບການປະມູນ. ຫນ້າທໍາອິດ, ພວກເຂົາເຈົ້າໄດ້ນໍາໃຊ້ການກະຕຸ້ນເສັ້ນຜ່າສູນກາງເພື່ອຄາດຄະເນວ່າລາຄາເລີ່ມຕົ້ນທີ່ສູງຂຶ້ນຫຼຸດລົງຄວາມຫນ້າຈະເປັນຂອງການຂາຍ, ແລະລາຄາເລີ່ມຕົ້ນທີ່ສູງຂຶ້ນຈະເພີ່ມລາຄາຂາຍສຸດທ້າຍ (ເງື່ອນໄຂການຂາຍ). ໂດຍຕົວເອງ, ການຄາດຄະເນເຫຼົ່ານີ້ - ເຊິ່ງອະທິບາຍກ່ຽວກັບສາຍພົວພັນແບບສາຍພັນແລະມີຄ່າເສລີ່ຍຕໍ່ຜະລິດຕະພັນທັງຫມົດ - ບໍ່ແມ່ນສິ່ງທີ່ຫນ້າສົນໃຈ. ຫຼັງຈາກນັ້ນ, Einav ແລະເພື່ອນຮ່ວມງານໄດ້ນໍາໃຊ້ຂະຫນາດໃຫຍ່ຂອງຂໍ້ມູນຂອງເຂົາເຈົ້າເພື່ອສ້າງຄວາມຫລາກຫລາຍຂອງການຄາດຄະເນສະຫລາດຫຼາຍ. ຕົວຢ່າງ, ໂດຍການຄາດຄະເນຜົນກະທົບແຍກຕ່າງຫາກສໍາລັບລາຄາເລີ່ມຕົ້ນທີ່ແຕກຕ່າງກັນ, ພວກເຂົາເຈົ້າເຫັນວ່າສາຍພົວພັນລະຫວ່າງລາຄາເລີ່ມຕົ້ນແລະລາຄາການຂາຍແມ່ນບໍ່ແມ່ນສາຍຕາ (ຮູບທີ່ 29). ໂດຍສະເພາະ, ສໍາລັບລາຄາເລີ່ມຕົ້ນລະຫວ່າງ 0.05 ແລະ 0.85, ລາຄາເລີ່ມຕົ້ນມີຜົນກະທົບຫນ້ອຍລົງຕໍ່ລາຄາການຂາຍ, ການຄົ້ນພົບທີ່ຫມົດໄປຫມົດແລ້ວໂດຍການວິເຄາະຄັ້ງທໍາອິດຂອງພວກເຂົາ. ນອກຈາກນັ້ນ, Einav ແລະເພື່ອນຮ່ວມງານໄດ້ຄາດຄະເນຜົນກະທົບຂອງລາຄາເລີ່ມຕົ້ນສໍາລັບ 23 ປະເພດທີ່ແຕກຕ່າງກັນຂອງສິນຄ້າ (ຕົວຢ່າງ, ອຸປະກອນສັດລ້ຽງ, ເຄື່ອງໃຊ້ໄຟຟ້າແລະກິລາ) (ຮູບທີ່ 2.10). ການຄາດຄະເນເຫຼົ່ານີ້ສະແດງໃຫ້ເຫັນວ່າສໍາລັບລາຍການທີ່ແຕກຕ່າງກັນຫຼາຍເຊັ່ນ: ລາຄາເລີ່ມຕົ້ນທີ່ມີຄວາມຈໍາເປັນຈະມີຜົນກະທົບຫນ້ອຍລົງກ່ຽວກັບຄວາມເປັນໄປໄດ້ຂອງການຂາຍແລະຜົນກະທົບທີ່ສູງກວ່າໃນລາຄາຂາຍສຸດທ້າຍ. ນອກຈາກນັ້ນ, ສໍາລັບລາຍການສິນຄ້າຫຼາຍຂຶ້ນເຊັ່ນ: DVDs, ລາຄາເລີ່ມຕົ້ນມີເກືອບບໍ່ມີຜົນກະທົບຕໍ່ລາຄາສຸດທ້າຍ. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ສະເລ່ຍປະສົມປະສານຂອງຜົນໄດ້ຮັບຈາກ 23 ປະເພດທີ່ແຕກຕ່າງກັນຂອງບັນດາລາຍການເກັບຮັກສາຄວາມແຕກຕ່າງທີ່ສໍາຄັນລະຫວ່າງລາຍການເຫຼົ່ານີ້.

ຮູບທີ່ 29: ຄວາມສໍາພັນລະຫວ່າງລາຄາເລີ່ມຕົ້ນການປະມູນແລະການຂາຍ (a) ແລະລາຄາຂາຍ (ຂ). ມີປະລິມານການພົວພັນລະຫວ່າງລາຄາເລີ່ມຕົ້ນແລະຄວາມຫນ້າຈະເປັນຂອງການຂາຍ, ແຕ່ຄວາມສໍາພັນທີ່ບໍ່ແມ່ນສາຍພົວພັນລະຫວ່າງລາຄາເລີ່ມຕົ້ນແລະລາຄາຂາຍ; ສໍາລັບການເລີ່ມຕົ້ນລາຄາລະຫວ່າງ 0.05 ແລະ 0.85, ລາຄາເລີ່ມຕົ້ນມີຜົນກະທົບຫນ້ອຍລົງຕໍ່ລາຄາຂາຍ. ໃນທັງສອງກໍລະນີ, ການພົວພັນແມ່ນພື້ນຖານທີ່ເປັນເອກະລາດຂອງມູນຄ່າຂອງລາຍການ. ດັດແປງຈາກ Einav et al. (2015), ຕົວເລກ 4a ແລະ 4b.

ຮູບທີ່ 29: ຄວາມສໍາພັນລະຫວ່າງລາຄາເລີ່ມຕົ້ນການປະມູນແລະການຂາຍ (a) ແລະລາຄາຂາຍ (ຂ). ມີປະລິມານການພົວພັນລະຫວ່າງລາຄາເລີ່ມຕົ້ນແລະຄວາມຫນ້າຈະເປັນຂອງການຂາຍ, ແຕ່ຄວາມສໍາພັນທີ່ບໍ່ແມ່ນສາຍພົວພັນລະຫວ່າງລາຄາເລີ່ມຕົ້ນແລະລາຄາຂາຍ; ສໍາລັບການເລີ່ມຕົ້ນລາຄາລະຫວ່າງ 0.05 ແລະ 0.85, ລາຄາເລີ່ມຕົ້ນມີຜົນກະທົບຫນ້ອຍລົງຕໍ່ລາຄາຂາຍ. ໃນທັງສອງກໍລະນີ, ການພົວພັນແມ່ນພື້ນຖານທີ່ເປັນເອກະລາດຂອງມູນຄ່າຂອງລາຍການ. ດັດແປງຈາກ Einav et al. (2015) , ຕົວເລກ 4a ແລະ 4b.

ຮູບທີ 2.10: ຄາດຄະເນຈາກແຕ່ລະປະເພດຂອງລາຍການ; ຈຸດແຂງແມ່ນການຄາດຄະເນສໍາລັບປະເພດທັງຫມົດທີ່ຮ່ວມກັນກັນ (Einav et al. 2015). ການຄາດຄະເນເຫຼົ່ານີ້ສະແດງໃຫ້ເຫັນວ່າສໍາລັບລາຍການທີ່ແຕກຕ່າງກັນຫຼາຍເຊັ່ນ: ຄວາມຊົງຈໍາ, ລາຄາເລີ່ມຕົ້ນມີຜົນກະທົບຫນ້ອຍລົງກ່ຽວກັບຄວາມອາດສາມາດຂອງການຂາຍ (ແກນ x) ແລະຜົນກະທົບທີ່ໃຫຍ່ກວ່າຕໍ່ລາຄາຂາຍສຸດທ້າຍ (ກຣາ y). ດັດແປງຈາກ Einav et al. (2015), ຮູບທີ່ 8.

ຮູບທີ 2.10: ຄາດຄະເນຈາກແຕ່ລະປະເພດຂອງລາຍການ; ຈຸດແຂງແມ່ນການຄາດຄະເນສໍາລັບປະເພດທັງຫມົດທີ່ຮ່ວມກັນກັນ (Einav et al. 2015) . ການຄາດຄະເນເຫຼົ່ານີ້ສະແດງໃຫ້ເຫັນວ່າສໍາລັບລາຍການທີ່ແຕກຕ່າງກັນຫຼາຍເຊັ່ນ: ຄວາມຊົງຈໍາ, ລາຄາເລີ່ມຕົ້ນມີຜົນກະທົບຫນ້ອຍລົງກ່ຽວກັບການຂາຍ ( \(x\) -axis) ແລະມີຜົນກະທົບຫຼາຍຕໍ່ລາຄາຂາຍສຸດທ້າຍ ( \(y\) -axis) ດັດແປງຈາກ Einav et al. (2015) , ຮູບທີ່ 8.

ເຖິງແມ່ນວ່າທ່ານບໍ່ສົນໃຈກ່ຽວກັບການປະມູນໃນ eBay, ທ່ານຕ້ອງຂອບໃຈວິທີການທີ່ຮູບທີ່ 2.9 ແລະຮູບທີ່ 2.10 ສະເຫນີຄວາມເຂົ້າໃຈທີ່ກວ້າງຂວາງຂອງ eBay ກ່ວາການຄາດຄະເນທີ່ງ່າຍໆທີ່ອະທິບາຍເຖິງສາຍພົວພັນແບບສາຍພັນແລະປະສົມປະເພດຂອງປະເພດຕ່າງໆ. ນອກຈາກນັ້ນ, ເຖິງແມ່ນວ່າມັນຈະເປັນໄປໄດ້ທາງວິທະຍາສາດທີ່ຈະສ້າງການຄາດຄະເນທີ່ຫນ້າເບົາກວ່າເຫຼົ່ານີ້ກັບການທົດລອງພາກສະຫນາມ, ຄ່າໃຊ້ຈ່າຍຈະເຮັດໃຫ້ການທົດລອງດັ່ງກ່າວບໍ່ສາມາດເປັນໄປໄດ້.

ເຊັ່ນດຽວກັບການທົດລອງແບບທໍາມະຊາດ, ມີຫລາຍວິທີທີ່ສາມາດນໍາໄປສູ່ການຄາດຄະເນທີ່ບໍ່ດີ. ຂ້າພະເຈົ້າຄິດວ່າຄວາມກັງວົນທີ່ໃຫຍ່ທີ່ສຸດກ່ຽວກັບການຄາດຄະເນການສົມທຽບແມ່ນວ່າພວກເຂົາສາມາດຖືກກະທົບໂດຍສິ່ງທີ່ບໍ່ຖືກນໍາໃຊ້ໃນການຈັບຄູ່. ສໍາລັບຕົວຢ່າງ, ໃນຜົນໄດ້ຮັບຕົ້ນຕໍຂອງພວກເຂົາ, Einav ແລະເພື່ອນຮ່ວມງານໄດ້ມີຄວາມສອດຄ່ອງກັນກັບສີ່ລັກສະນະຄື: ຫມາຍເລກຜູ້ຂາຍ, ປະເພດລາຍການ, ຫົວຂໍ້ລາຍຊື່ແລະຄໍາບັນຍາຍ. ຖ້າລາຍການດັ່ງກ່າວແຕກຕ່າງກັນໃນວິທີທີ່ບໍ່ຖືກນໍາໃຊ້ສໍາລັບການຈັບຄູ່, ຫຼັງຈາກນັ້ນ, ນີ້ອາດຈະສ້າງການປຽບທຽບບໍ່ຍຸດຕິທໍາ. ຕົວຢ່າງ: ຖ້າ "budgetgolfer" ຫຼຸດລົງລາຄາສໍາລັບ Driver Taylormade Burner 09 ໃນລະດູຫນາວ (ໃນເວລາທີ່ສະໂມສອນກອຟມີຫນ້ອຍທີ່ສຸດ) ແລ້ວມັນອາດຈະປາກົດວ່າລາຄາເລີ່ມຕົ້ນທີ່ຕ່ໍາຈະນໍາໄປສູ່ລາຄາຕ່ໍາສຸດ, ໃນເວລາທີ່ມັນເປັນສິ່ງປະດິດຂອງ ການປ່ຽນແປງຕາມລະດູການໃນຄວາມຕ້ອງການ. ວິທີຫນຶ່ງໃນການແກ້ໄຂຄວາມກັງວົນນີ້ແມ່ນພະຍາຍາມປະເພດຕ່າງໆທີ່ແຕກຕ່າງກັນ. ຕົວຢ່າງເຊັ່ນ Einav ແລະເພື່ອນຮ່ວມງານຂອງເຂົາເຈົ້າຊ້ໍາການວິເຄາະຂອງພວກເຂົາໃນຂະນະທີ່ແຕກຕ່າງກັນກັບເວລາທີ່ໃຊ້ສໍາລັບການຈັບຄູ່ (ຊຸດປະສົມປະກອບມີລາຍະການຂາຍພາຍໃນຫນຶ່ງປີ, ພາຍໃນຫນຶ່ງເດືອນ, ແລະໃນເວລາດຽວກັນ). ໂຊກດີ, ພວກເຂົາເຈົ້າໄດ້ພົບເຫັນຜົນໄດ້ຮັບທີ່ຄ້າຍຄືກັນສໍາລັບທຸກໆປ່ອງຢ້ຽມ. ຄວາມກັງວົນຕໍ່ການເພີ່ມຂື້ນຈາກການຕີຄວາມຫມາຍ. ການຄາດຄະເນຈາກການຈັບຄູ່ເທົ່ານັ້ນທີ່ນໍາໃຊ້ກັບຂໍ້ມູນທີ່ຖືກຈັບຄູ່; ພວກເຂົາບໍ່ໄດ້ນໍາໃຊ້ກັບກໍລະນີທີ່ບໍ່ສາມາດຈັບຄູ່. ຕົວຢ່າງ, ໂດຍການຈໍາກັດການຄົ້ນຄວ້າຂອງເຂົາເຈົ້າຕໍ່ລາຍການທີ່ມີບັນຊີລາຍຊື່ຫຼາຍ, Einav ແລະເພື່ອນຮ່ວມງານແມ່ນສຸມໃສ່ຜູ້ຂາຍທີ່ເປັນມືອາຊີບແລະເຄິ່ງຫນຶ່ງ. ດັ່ງນັ້ນ, ໃນເວລາທີ່ຕີລາຄາການປຽບທຽບເຫຼົ່ານີ້ພວກເຮົາຕ້ອງຈື່ວ່າພວກເຂົາຈະນໍາໃຊ້ກັບຊຸດຂອງ eBay ນີ້ເທົ່ານັ້ນ.

ການຈັບຄູ່ແມ່ນກົນລະຍຸດທີ່ມີປະສິດທິພາບສໍາລັບການຊອກຫາການປຽບທຽບທີ່ເຫມາະສົມໃນຂໍ້ມູນທີ່ບໍ່ມີການທົດລອງ. ກັບນັກວິທະຍາສາດສັງຄົມຈໍານວນຫຼາຍ, ການຈັບຄູ່ແມ່ນຄວາມຮູ້ສຶກທີ່ດີທີ່ສຸດໃນການທົດລອງ, ແຕ່ວ່າມັນແມ່ນຄວາມເຊື່ອທີ່ສາມາດແກ້ໄຂໄດ້ເລັກຫນ້ອຍ. ການຈັບຄູ່ໃນຂໍ້ມູນທີ່ມີຂະຫນາດໃຫຍ່ອາດຈະດີກ່ວາການທົດລອງພາກສະຫນາມເລັກນ້ອຍເມື່ອ (1) ຄວາມບໍ່ເປັນເອກະລາດໃນຜົນກະທົບແມ່ນມີຄວາມສໍາຄັນແລະ (2) ຕົວແປທີ່ສໍາຄັນທີ່ຕ້ອງການສໍາຫຼັບໄດ້ຖືກວັດແທກ. ຕາຕະລາງ 2.4 ສະຫນອງຕົວຢ່າງອື່ນ ໆ ກ່ຽວກັບວິທີທີ່ສາມາດນໍາໃຊ້ໄດ້ກັບແຫຼ່ງຂໍ້ມູນໃຫຍ່.

ຕາຕະລາງ 2.4: ຕົວຢ່າງຂອງການສຶກສາທີ່ໃຊ້ຄໍາວ່າແຫຼ່ງຂໍ້ມູນໃຫຍ່
ຈຸດພິເສດທີ່ສໍາຄັນ Big data source ອ້າງອິງ
ຜົນກະທົບຂອງການຍິງໃສ່ຄວາມຮຸນແຮງຂອງຕໍາຫຼວດ ບັນທຶກການສູນເສຍແລະຄວາມລໍາບາກ Legewie (2016)
ຜົນກະທົບຂອງວັນທີ 11 ເດືອນກັນຍາປີ 2001 ກ່ຽວກັບຄອບຄົວແລະປະເທດເພື່ອນບ້ານ ບັນທຶກການໂຫວດແລະບັນທຶກການບໍລິຈາກ Hersh (2013)
ການແຜ່ກະຈາຍທາງສັງຄົມ ການສື່ສານແລະຂໍ້ມູນການຍອມຮັບຂອງສິນຄ້າ Aral, Muchnik, and Sundararajan (2009)

ໃນການສະຫຼຸບ, ການຄາດຄະເນຜົນກະທົບທາງດ້ານຜົນກະທົບຈາກຂໍ້ມູນທີ່ບໍ່ມີການທົດລອງແມ່ນມີຄວາມຫຍຸ້ງຍາກ, ແຕ່ວິທີການຕ່າງໆເຊັ່ນການທົດລອງແບບທໍາມະຊາດແລະການປັບສະຖິຕິ (ເຊັ່ນການຈັບຄູ່) ສາມາດໃຊ້ໄດ້. ໃນບາງສະຖານະການ, ວິທີການເຫຼົ່ານີ້ອາດຈະຜິດພາດຢ່າງຫນັກ, ແຕ່ເມື່ອນໍາໃຊ້ຢ່າງລະມັດລະວັງ, ວິທີການເຫຼົ່ານີ້ສາມາດເປັນປະໂຫຍດຕໍ່ວິທີການທົດລອງທີ່ຂ້າພະເຈົ້າໄດ້ອະທິບາຍຢູ່ໃນບົດທີ 4. ນອກຈາກນີ້ວິທີການເຫຼົ່ານີ້ມັກຈະໄດ້ຮັບຜົນປະໂຫຍດຈາກການເຕີບໂຕຂອງສະເຫມີ - on, ລະບົບຂໍ້ມູນຂະຫນາດໃຫຍ່.