ບັນທຶກຄະນິດສາດ

ຂ້າພະເຈົ້າຄິດວ່າວິທີທີ່ດີທີ່ສຸດທີ່ຈະເຂົ້າໃຈປະສົບການແມ່ນຂອບໃຈ ທີ່ໄດ້ຮັບຜົນປະໂຫຍດ (ເຊິ່ງຂ້ອຍໄດ້ສົນທະນາໃນບັນທຶກຄະນິດສາດໃນພາກທີ 2). ຂອບເຂດຜົນຜະລິດທີ່ມີທ່າແຮງມີຄວາມສໍາພັນໃກ້ຊິດກັບແນວຄວາມຄິດຈາກການຄິດໄລ່ແບບການອອກແບບທີ່ຂ້ອຍໄດ້ອະທິບາຍຢູ່ໃນພາກທີ 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . ເອກະສານນີ້ໄດ້ຖືກຂຽນໄວ້ໃນລັກສະນະດັ່ງກ່າວເພື່ອເນັ້ນຫນັກໃສ່ການເຊື່ອມຕໍ່ນັ້ນ. ການເນັ້ນຫນັກໃສ່ຄວາມຫມາຍນີ້ແມ່ນບໍ່ແມ່ນແບບດັ້ງເດີມ, ແຕ່ຂ້ອຍຄິດວ່າການເຊື່ອມຕໍ່ລະຫວ່າງຕົວຢ່າງແລະການທົດລອງແມ່ນເປັນປະໂຫຍດ: ມັນຫມາຍຄວາມວ່າຖ້າທ່ານຮູ້ບາງຢ່າງກ່ຽວກັບຕົວຢ່າງແລ້ວທ່ານຮູ້ບາງສິ່ງບາງຢ່າງກ່ຽວກັບການທົດລອງແລະໃນທາງກັບກັນ. ໃນຂະນະທີ່ຂ້ອຍຈະສະແດງໃຫ້ເຫັນໃນຂໍ້ສັງເກດເຫລົ່ານີ້ຂອບເຂດຜົນສະທ້ອນອາດສະແດງໃຫ້ເຫັນເຖິງຄວາມເຂັ້ມແຂງຂອງການທົດລອງຄວບຄຸມແບບສຸ່ມທີ່ສໍາລັບການຄາດຄະເນຜົນກະທົບທາງດ້ານຜົນກະທົບແລະມັນສະແດງໃຫ້ເຫັນເຖິງຄວາມຈໍາກັດຂອງສິ່ງທີ່ສາມາດເຮັດໄດ້ດ້ວຍການທົດລອງປະຕິບັດຢ່າງສົມບູນ.

ໃນເອກະສານຊ້ອນນີ້, ຂ້ອຍຈະອະທິບາຍກອບຜົນລັບທີ່ອາດເກີດຂື້ນ, ຊ້ໍາບາງເອກະສານຈາກບັນທຶກຄະນິດສາດໃນພາກທີ 2 ເພື່ອເຮັດໃຫ້ບັນທຶກເຫລົ່ານີ້ມີຫຼາຍຕົນເອງ. ຫຼັງຈາກນັ້ນ, ຂ້າພະເຈົ້າຈະອະທິບາຍຜົນໄດ້ຮັບປະໂຫຍດບາງຢ່າງກ່ຽວກັບຄວາມຖືກຕ້ອງຂອງການຄາດຄະເນຜົນກະທົບດ້ານການປິ່ນປົວໂດຍສະເລ່ຍ, ລວມທັງການປຶກສາຫາລືກ່ຽວກັບການຈັດສັນທີ່ດີທີ່ສຸດແລະການຄິດໄລ່ຄວາມແຕກຕ່າງໃນຄວາມແຕກຕ່າງ. ເອກະສານຊ້ອນທ້າຍນີ້ແມ່ນມາຈາກ Gerber and Green (2012) .

ຂອບໃຈຜົນປະໂຫຍດຂອບ

ເພື່ອສະແດງໃຫ້ເຫັນຜົນກະທົບກ່ຽວກັບຂອບເຂດຜົນກະທົບທີ່ອາດເກີດຂື້ນ, ໃຫ້ກັບຄືນຫາການທົດລອງ Restivo ແລະ van de Rijt ເພື່ອປະເມີນຜົນຂອງການໄດ້ຮັບ barnstar ກ່ຽວກັບການປະກອບສ່ວນໃນອະນາຄົດກັບ Wikipedia. ຂອບເຂດຜົນຜະລິດທີ່ມີທ່າແຮງມີສາມອົງປະກອບຕົ້ນຕໍຄື: ຫນ່ວຍງານ , ການປິ່ນປົວ , ແລະ ຜົນໄດ້ຮັບທີ່ອາດເກີດຂື້ນ . ໃນກໍລະນີຂອງ Restivo ແລະ van de Rijt, ຫນ່ວຍງານ ໄດ້ຮັບລາງວັນທີ່ເຫມາະສົມ - ຜູ້ທີ່ຢູ່ໃນອັນດັບ 1% ຂອງຜູ້ປະກອບສ່ວນ - ຜູ້ທີ່ຍັງບໍ່ທັນໄດ້ຮັບ barnstar. ພວກເຮົາສາມາດ index ດັດແກ້ເຫຼົ່ານີ້ໂດຍ \(i = 1 \ldots N\) . ການ ປິ່ນປົວ ໃນການທົດລອງຂອງພວກມັນແມ່ນ "barnstar" ຫຼື "no barnstar", ແລະຂ້ອຍຈະຂຽນ \(W_i = 1\) ຖ້າບຸກຄົນ \(i\) ຢູ່ໃນສະພາບການປິ່ນປົວແລະ \(W_i = 0\) ອື່ນ. ອົງປະກອບທີສາມຂອງກອບຜົນລັບທີ່ເປັນໄປໄດ້ແມ່ນສິ່ງທີ່ສໍາຄັນທີ່ສຸດຄື ຜົນໄດ້ຮັບທີ່ອາດເກີດຂື້ນ . ເຫຼົ່ານີ້ແມ່ນມີຄວາມຫຍຸ້ງຍາກທາງແນວຄິດຫຼາຍກວ່າຍ້ອນວ່າພວກເຂົາມີຜົນກະທົບ "ທີ່ມີທ່າແຮງ" - ສິ່ງທີ່ສາມາດເກີດຂື້ນໄດ້. ສໍາລັບບັນນາທິການ Wikipedia ແຕ່ລະຄົນສາມາດຈິນຕະນາການຈໍານວນການດັດແກ້ທີ່ນາງຈະເຮັດໃນສະພາບການປິ່ນປົວ ( \(Y_i(1)\) ) ແລະເລກທີ່ນາງຈະເຮັດໃນເງື່ອນໄຂຄວບຄຸມ ( \(Y_i(0)\) )

ໃຫ້ສັງເກດວ່າທາງເລືອກຂອງຫນ່ວຍງານ, ການປິ່ນປົວ, ແລະຜົນໄດ້ຮັບເຫຼົ່ານີ້ກໍານົດສິ່ງທີ່ສາມາດຮຽນຮູ້ຈາກການທົດລອງນີ້. ຕົວຢ່າງເຊັ່ນໂດຍບໍ່ມີຂໍ້ສົມມຸດເພີ່ມເຕີມ, Restivo ແລະ van de Rijt ບໍ່ສາມາດເວົ້າຫຍັງກ່ຽວກັບຜົນກະທົບຂອງ barnstars ກ່ຽວກັບບັນນາທິການ Wikipedia ທັງຫມົດຫຼືຜົນໄດ້ຮັບເຊັ່ນ: ການແກ້ໄຂຄຸນນະພາບ. ໂດຍທົ່ວໄປ, ການເລືອກເອົາຫົວຫນ່ວຍ, ການປິ່ນປົວ, ແລະຜົນໄດ້ຮັບແມ່ນອີງໃສ່ເປົ້າຫມາຍຂອງການສຶກສາ.

ເນື່ອງຈາກຜົນໄດ້ຮັບເຫຼົ່ານີ້ທີ່ໄດ້ຖືກສະຫຼຸບໃນຕາຕະລາງ 4.5-ຫນຶ່ງສາມາດກໍານົດຜົນກະທົບທາງສາເຫດຂອງການປິ່ນປົວສໍາລັບບຸກຄົນທີ່ \(i\) ເປັນ

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

ສໍາລັບຂ້າພະເຈົ້າ, ສົມຜົນນີ້ແມ່ນວິທີທີ່ຊັດເຈນທີ່ສຸດໃນການກໍານົດຜົນກະທົບທາງດ້ານຜົນກະທົບແລະ, ເຖິງແມ່ນວ່າງ່າຍດາຍທີ່ສຸດ, ກອບນີ້ກໍ່ຈະເປັນໄປໄດ້ໂດຍທົ່ວໄປໃນຫຼາຍວິທີທີ່ສໍາຄັນແລະຫນ້າສົນໃຈ (Imbens and Rubin 2015) .

ຕາຕະລາງ 4.5: ຕາຕະລາງຜົນໄດ້ຮັບທີ່ມີທ່າແຮງ
ບຸກຄົນ ການແກ້ໄຂໃນສະພາບການປິ່ນປົວ ການແກ້ໄຂໃນສະພາບການຄວບຄຸມ ຜົນກະທົບການປິ່ນປົວ
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
ຫມາຍຄວາມວ່າ \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

ຖ້າພວກເຮົາກໍານົດເຫດຜົນໃນທາງນີ້, ຢ່າງໃດກໍຕາມ, ພວກເຮົາຈະແລ່ນເຂົ້າໄປໃນບັນຫາ. ໃນເກືອບທຸກໆກໍລະນີ, ພວກເຮົາບໍ່ໄດ້ສັງເກດເບິ່ງຜົນໄດ້ຮັບທັງສອງຢ່າງ. ນັ້ນແມ່ນ, ບັນນາທິການຂອງ Wikipedia ສະເພາະໃດຫນຶ່ງໄດ້ຮັບການ barnstar ຫຼືບໍ່. ດັ່ງນັ້ນ, ພວກເຮົາສັງເກດເຫັນຫນຶ່ງໃນຜົນໄດ້ຮັບທີ່ມີທ່າແຮງ - \(Y_i(1)\) ຫຼື \(Y_i(0)\) - ແຕ່ບໍ່ແມ່ນທັງສອງ. ການບໍ່ສາມາດສັງເກດເບິ່ງຜົນໄດ້ຮັບທັງສອງແມ່ນບັນຫາທີ່ສໍາຄັນທີ່ Holland (1986) ເອີ້ນວ່າ ບັນຫາພື້ນຖານຂອງຄວາມຮູ້ສາເຫດ .

ໂຊກດີ, ໃນເວລາທີ່ພວກເຮົາກໍາລັງດໍາເນີນການຄົ້ນຄວ້າ, ພວກເຮົາບໍ່ພຽງແຕ່ມີຄົນຫນຶ່ງ, ພວກເຮົາມີຫລາຍໆຄົນ, ແລະນີ້ສະຫນອງວິທີການປະມານບັນຫາພື້ນຖານຂອງການເປັນສາເຫດ Inference. ແທນທີ່ຈະພະຍາຍາມປະເມີນຜົນຂອງການປິ່ນປົວແຕ່ລະລະດັບ, ພວກເຮົາສາມາດຄາດຄະເນຜົນກະທົບດ້ານການປິ່ນປົວໂດຍສະເລ່ຍ:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

ນີ້ແມ່ນຍັງສະແດງອອກໃນແງ່ຂອງ \(\tau_i\) ຊຶ່ງບໍ່ສາມາດຄວບຄຸມໄດ້, ແຕ່ວ່າມີບາງອັນຄະລໍາ (Eq 2.8 ຂອງ Gerber and Green (2012) ) ພວກເຮົາໄດ້ຮັບ

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

ສະມະການ 4.3 ສະແດງໃຫ້ເຫັນວ່າຖ້າພວກເຮົາສາມາດຄາດຄະເນຜົນໄດ້ຮັບໂດຍສະເລ່ຍຂອງປະຊາກອນພາຍໃຕ້ການປິ່ນປົວ ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) ແລະຜົນໄດ້ຮັບສະເລ່ຍຂອງປະຊາກອນພາຍໃຕ້ການຄວບຄຸມ ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), ຫຼັງຈາກນັ້ນ, ພວກເຮົາສາມາດປະເມີນຜົນຂອງການປິ່ນປົວໂດຍສະເລ່ຍ, ເຖິງແມ່ນວ່າບໍ່ມີການຄາດຄະເນຜົນກະທົບດ້ານການປິ່ນປົວສໍາລັບບຸກຄົນໃດຫນຶ່ງ.

ໃນປັດຈຸບັນທີ່ຂ້າພະເຈົ້າໄດ້ກໍານົດການຄາດຄະເນຂອງພວກເຮົາ - ສິ່ງທີ່ພວກເຮົາກໍາລັງພະຍາຍາມຄາດຄະເນ - ຂ້ອຍຈະເຮັດແນວໃດທີ່ພວກເຮົາສາມາດປະເມີນມັນດ້ວຍຂໍ້ມູນ. ຂ້າພະເຈົ້າຢາກຄິດກ່ຽວກັບສິ່ງທ້າທາຍນີ້ທີ່ເປັນບັນຫາທີ່ເປັນຕົວຢ່າງ (ຄິດວ່າກັບຄືນໄປບ່ອນຂໍ້ຄວາມຄະນິດສາດໃນພາກທີ 3). ຈິນຕະນາການວ່າພວກເຮົາໄດ້ເລືອກຄົນບາງຄົນໃຫ້ສັງເກດຢູ່ໃນສະພາບການປິ່ນປົວແລະພວກເຮົາໄດ້ເລືອກຄົນບາງຄົນໃຫ້ສັງເກດໃນສະພາບການຄວບຄຸມ, ຫຼັງຈາກນັ້ນພວກເຮົາສາມາດຄາດຄະເນຜົນໄດ້ຮັບສະເລ່ຍໃນແຕ່ລະສະພາບ:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

ບ່ອນທີ່ \(N_t\) ແລະ \(N_c\) ແມ່ນຈໍານວນຂອງຄົນໃນສະພາບການປິ່ນປົວແລະຄວບຄຸມ. ສະມະການ 4.4 ແມ່ນການຄິດໄລ່ຄວາມແຕກຕ່າງຂອງຄວາມຫມາຍ. ເນື່ອງຈາກການອອກແບບຕົວຢ່າງ, ພວກເຮົາຮູ້ວ່າໄລຍະທໍາອິດແມ່ນການຄາດຄະເນທີ່ບໍ່ສົມເຫດສົມຜົນສໍາລັບຜົນໄດ້ຮັບສະເລ່ຍພາຍໃຕ້ການປິ່ນປົວແລະໄລຍະທີສອງແມ່ນການຄາດຄະເນທີ່ບໍ່ສົມເຫດສົມຜົນພາຍໃຕ້ການຄວບຄຸມ.

ອີກທາງຫນຶ່ງທີ່ຈະຄິດກ່ຽວກັບການສຸ່ມຕົວຢ່າງແມ່ນເຮັດໃຫ້ແນ່ໃຈວ່າການປຽບທຽບລະຫວ່າງການປິ່ນປົວແລະກຸ່ມຄວບຄຸມແມ່ນຍຸດຕິທໍາເພາະວ່າການເຂົ້າໃຈແບບປະສົມປະສານໃຫ້ແນ່ໃຈວ່າທັງສອງກຸ່ມຈະຄ້າຍກັນ. ຄວາມຄ້າຍຄືກັນນີ້ຖືສໍາລັບສິ່ງທີ່ພວກເຮົາໄດ້ວັດແທກ (ບອກຈໍານວນການແກ້ໄຂໃນ 30 ມື້ກ່ອນການທົດລອງ) ແລະສິ່ງທີ່ພວກເຮົາບໍ່ໄດ້ວັດແທກ (ເວົ້າເພດ). ຄວາມສາມາດໃນການຮັບປະກັນຄວາມສົມດູນລະຫວ່າງປັດໃຈທີ່ ສັງເກດເຫັນ ແລະ ບໍ່ໄດ້ຮັບ ຜົນກະທົບແມ່ນສໍາຄັນ. ເພື່ອໃຫ້ເຫັນເຖິງອໍານາດຂອງການດຸ່ນດ່ຽງອັດຕະໂນມັດກ່ຽວກັບປັດໃຈທີ່ບໍ່ໄດ້ລະບຸ, ໃຫ້ຄິດວ່າການຄົ້ນຄວ້າໃນອະນາຄົດພົບເຫັນວ່າຜູ້ຊາຍມີຄວາມຕອບສະຫນອງຕໍ່ລາງວັນຫຼາຍກ່ວາແມ່ຍິງ. ຈະເຮັດໃຫ້ຜົນຂອງການທົດລອງ Restivo ແລະ van de Rijt ບໍ່ຖືກຕ້ອງບໍ? ບໍ່ໂດຍການ randomising, ພວກເຂົາເຈົ້າຮັບປະກັນວ່າ unobservables ທັງຫມົດຈະມີຄວາມສົມດູນ, ໃນຄວາມຄາດຫວັງ. ການປ້ອງກັນນີ້ຕໍ່ກັບການຮູ້ຈັກແມ່ນມີປະສິດທິພາບຫຼາຍ, ແລະມັນເປັນວິທີທີ່ສໍາຄັນທີ່ທົດລອງແຕກຕ່າງຈາກເຕັກນິກທີ່ບໍ່ມີການທົດລອງທີ່ໄດ້ອະທິບາຍໄວ້ໃນພາກທີ 2.

ນອກເຫນືອຈາກການກໍານົດຜົນກະທົບດ້ານການປິ່ນປົວສໍາລັບປະຊາກອນທັງຫມົດ, ມັນກໍ່ສາມາດກໍານົດຜົນກະທົບດ້ານການປິ່ນປົວສໍາລັບກຸ່ມຂອງຄົນ. ນີ້ແມ່ນເອີ້ນວ່າເປັນ ຜົນກະທົບດ້ານການປິ່ນປົວໂດຍສະເລ່ຍ (CATE). ຕົວຢ່າງ, ໃນການສຶກສາໂດຍ Restivo ແລະ van de Rijt, ຈົ່ງຈິນຕະນາການວ່າ \(X_i\) ແມ່ນວ່າບັນນາທິການແມ່ນຢູ່ຂ້າງເທິງຫຼືຂ້າງລຸ່ມຂອງຈໍານວນປານກາງຂອງການດັດແກ້ໃນຊ່ວງ 90 ມື້ກ່ອນການທົດລອງ. ຫນຶ່ງສາມາດຄິດໄລ່ຜົນກະທົບການປິ່ນປົວແຍກຕ່າງຫາກສໍາລັບບັນນາທິການແສງສະຫວ່າງແລະຫນັກ.

ຂອບເຂດຜົນຜະລິດທີ່ມີທ່າແຮງແມ່ນເປັນວິທີທີ່ມີປະສິດທິພາບທີ່ຈະຄິດກ່ຽວກັບການຄິດໄລ່ແລະການທົດລອງ. ຢ່າງໃດກໍຕາມ, ມີສອງຄວາມສັບສົນເພີ່ມເຕີມທີ່ທ່ານຄວນຈະຮັກສາຢູ່ໃນໃຈ. ຄວາມສັບສົນສອງຢ່າງນີ້ມັກຈະຖືກປະສົມກັນພາຍໃນໄລຍະເວລາທີ່ ສົມເຫດສົມຜົນຂອງການຮັກສາຄວາມປອດໄພຂອງຫນ່ວຍງານທີ່ຫມັ້ນຄົງ (SUTVA). ສ່ວນທໍາອິດຂອງ SUTVA ແມ່ນການສົມມຸດວ່າສິ່ງດຽວທີ່ສໍາຄັນສໍາລັບຜົນຂອງບຸກຄົນ \(i\) ແມ່ນວ່າຄົນນັ້ນຢູ່ໃນສະພາບການປິ່ນປົວຫຼືຄວບຄຸມ. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ມັນແມ່ນສົມມຸດວ່າບຸກຄົນທີ່ \(i\) ບໍ່ໄດ້ຮັບຜົນກະທົບຈາກການປິ່ນປົວທີ່ໃຫ້ກັບຄົນອື່ນ. ນີ້ແມ່ນບາງຄັ້ງເອີ້ນວ່າ "ບໍ່ມີການແຊກແຊງ" ຫຼື "ບໍ່ມີບັນຫາ", ແລະສາມາດຂຽນເປັນ:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

ບ່ອນທີ່ \(\mathbf{W_{-i}}\) ແມ່ນ vector ຂອງສະຖາບັນການປິ່ນປົວສໍາລັບທຸກຄົນຍົກເວັ້ນບຸກຄົນ \(i\) . ວິທີຫນຶ່ງທີ່ສາມາດຖືກລະເມີດແມ່ນຖ້າວ່າການປິ່ນປົວຈາກຄົນຫນຶ່ງເກີດຂື້ນໃນຄົນອື່ນ, ບໍ່ວ່າຈະເປັນທາງບວກຫຼືທາງລົບ. ກັບຄືນໄປບ່ອນ Restivo ແລະການທົດລອງຂອງ van de Rijt, imagine ສອງຫມູ່ເພື່ອນ \(i\) ແລະ \(j\) ແລະບຸກຄົນທີ່ \(i\) ໄດ້ຮັບ barnstar ແລະ \(j\) ບໍ່ໄດ້. ຖ້າ \(i\) ໄດ້ຮັບ barnstar ເຮັດໃຫ້ \(j\) ແກ້ໄຂເພີ່ມເຕີມ (ອອກຈາກຄວາມຮູ້ສຶກຂອງການແຂ່ງຂັນ) ຫຼືແກ້ໄຂຫນ້ອຍລົງ (ຈາກຄວາມຫ່ວງໃຍ), ຫຼັງຈາກນັ້ນ SUTVA ໄດ້ຖືກລະເມີດ. ມັນຍັງສາມາດຖືກລະເມີດຖ້າຜົນກະທົບຂອງການປິ່ນປົວແມ່ນຂຶ້ນກັບຈໍານວນຄົນອື່ນທີ່ໄດ້ຮັບການປິ່ນປົວ. ຕົວຢ່າງເຊັ່ນຖ້າ Restivo ແລະ Van de Rijt ໄດ້ໃຫ້ອອກ 1,000 ຫຼື 10,000 barnstars ແທນທີ່ຈະ 100, ນີ້ອາດຈະມີຜົນກະທົບຕໍ່ຜົນກະທົບຂອງການໄດ້ຮັບ barnstar.

ບັນຫາທີສອງທີ່ເຂົ້າສູ່ SUTVA ແມ່ນການສົມມຸດວ່າການປິ່ນປົວທີ່ກ່ຽວຂ້ອງເທົ່ານັ້ນແມ່ນຫນຶ່ງໃນທີ່ນັກຄົ້ນຄວ້າໄດ້ສະຫນອງ; ການສົມມຸດຕິຖານນີ້ແມ່ນບາງຄັ້ງເອີ້ນວ່າ ບໍ່ມີການປິ່ນປົວເຊື່ອງໄວ້ ຫຼື ບໍ່ສາ ມາດ ເອົາຊະນະໄດ້ . ຕົວຢ່າງ, ໃນ Restivo ແລະ van de Rijt, ມັນອາດຈະເປັນກໍລະນີທີ່ໂດຍການໃຫ້ barnstar ນັກຄົ້ນຄວ້າທີ່ເຮັດໃຫ້ບັນນາທິການຈະໄດ້ຮັບການສະແດງໃນຫນ້າບັນນາທິການທີ່ນິຍົມແລະວ່າມັນແມ່ນຢູ່ໃນຫນ້າບັນນາທິການທີ່ນິຍົມແທນທີ່ຈະໄດ້ຮັບການ barnstar- ທີ່ເກີດຈາກການປ່ຽນແປງໃນພຶດຕິກໍາການດັດແກ້. ຖ້າວ່ານີ້ແມ່ນຄວາມຈິງ, ຫຼັງຈາກນັ້ນຜົນກະທົບຂອງ barnstar ແມ່ນບໍ່ສາມາດແຍກອອກຈາກຜົນກະທົບຂອງການຢູ່ໃນຫນ້າບັນນາທິການທີ່ນິຍົມ. ແນ່ນອນ, ມັນບໍ່ແມ່ນຄວາມຊັດເຈນວ່າ, ຈາກທັດສະນະທາງວິທະຍາສາດ, ນີ້ຄວນຖືວ່າເປັນສິ່ງທີ່ຫນ້າສົນໃຈຫຼືບໍ່ຫນ້າສົນໃຈ. ນັ້ນແມ່ນ, ທ່ານສາມາດຈິນຕະນາການນັກຄົ້ນຄວ້າບອກວ່າຜົນກະທົບຂອງການໄດ້ຮັບ barnstar ປະກອບມີການປິ່ນປົວທັງຫມົດຕໍ່ມາທີ່ barnstar ກະຕຸ້ນ. ຫຼືທ່ານສາມາດຈິນຕະນາການສະຖານະການທີ່ການຄົ້ນຄວ້າຈະຕ້ອງແຍກແຍກຜົນກະທົບຂອງ barnstars ຈາກສິ່ງອື່ນໆເຫຼົ່ານີ້ທັງຫມົດ. ວິທີຫນຶ່ງທີ່ຈະຄິດກ່ຽວກັບມັນແມ່ນການຖາມວ່າມີສິ່ງໃດແດ່ທີ່ນໍາໄປສູ່ສິ່ງທີ່ Gerber and Green (2012) (ຫນ້າ 41) ເອີ້ນວ່າ "ຄວາມແຕກແຍກໃນການສົມທຽບ"? ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ມີສິ່ງໃດແດ່ນອກເຫນືອຈາກການປິ່ນປົວທີ່ເຮັດໃຫ້ຄົນໃນສະພາບການປິ່ນປົວແລະຄວບຄຸມທີ່ຈະຮັບການປິ່ນປົວທີ່ແຕກຕ່າງກັນ? ຄວາມກັງວົນກ່ຽວກັບການແຕກແຍກແບບສົມມາດແມ່ນສິ່ງທີ່ຄົນເຈັບນໍາຢູ່ໃນກຸ່ມຄວບຄຸມໃນການທົດລອງທາງການແພດເພື່ອໃຊ້ຢາຢາ placebo. ໂດຍວິທີນັ້ນ, ນັກຄົ້ນຄວ້າສາມາດແນ່ໃຈວ່າຄວາມແຕກຕ່າງກັນລະຫວ່າງສອງເງື່ອນໄຂແມ່ນຢາທີ່ແທ້ຈິງແລະບໍ່ແມ່ນປະສົບການໃນການກິນຢາ.

ສໍາລັບລາຍລະອຽດກ່ຽວກັບ SUTVA, ເບິ່ງພາກ 2.7 ຂອງ Gerber and Green (2012) , ພາກ 2.5 ຂອງ Morgan and Winship (2014) , ພາກ 1.6 ຂອງ Imbens and Rubin (2015) .

ຄວາມຖືກຕ້ອງ

ໃນພາກກ່ອນຫນ້າ, ຂ້າພະເຈົ້າໄດ້ອະທິບາຍວິທີການປະເມີນຜົນກະທົບດ້ານການປິ່ນປົວໂດຍສະເລ່ຍ. ໃນພາກນີ້, ຂ້າພະເຈົ້າຈະໃຫ້ຄວາມຄິດກ່ຽວກັບການປ່ຽນແປງຂອງການຄາດຄະເນເຫຼົ່ານັ້ນ.

ຖ້າທ່ານຄິດກ່ຽວກັບການຄາດຄະເນຜົນກະທົບດ້ານການປິ່ນປົວໂດຍການຄາດຄະເນຄວາມແຕກຕ່າງກັນລະຫວ່າງສອງຕົວຢ່າງຕົວຢ່າງ, ມັນກໍ່ສາມາດສະແດງໃຫ້ເຫັນວ່າຄວາມຜິດພາດມາດຕະຖານຂອງຜົນກະທົບດ້ານການປິ່ນປົວສະເລ່ຍແມ່ນ:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

ບ່ອນທີ່ \(m\) ຜູ້ທີ່ໄດ້ມອບຫມາຍໃຫ້ການປິ່ນປົວແລະ \(Nm\) ເພື່ອຄວບຄຸມ (ເບິ່ງ Gerber and Green (2012) , eq 3.4). ດັ່ງນັ້ນ, ໃນເວລາທີ່ຄິດກ່ຽວກັບຈໍານວນຄົນທີ່ຈະມອບຫມາຍໃຫ້ການປິ່ນປົວແລະຈໍານວນຄົນທີ່ຈະມອບຫມາຍໃຫ້ຄວບຄຸມ, ທ່ານສາມາດເບິ່ງວ່າຖ້າ \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , ຫຼັງຈາກນັ້ນທ່ານຕ້ອງການ \(m \approx N / 2\) , ເທົ່າທີ່ຄ່າໃຊ້ຈ່າຍຂອງການປິ່ນປົວແລະການຄວບຄຸມແມ່ນຄືກັນ. ສະມະການ 4.6 ອະທິບາຍວ່າເປັນຫຍັງການອອກແບບຂອງການທົດລອງຂອງ Bond ແລະເພື່ອນຮ່ວມງານ (2012) ກ່ຽວກັບຜົນກະທົບຂອງຂໍ້ມູນຂ່າວສານທາງສັງຄົມໃນການລົງຄະແນນສຽງ (ຮູບພາບ 4.18) ບໍ່ມີປະສິດຕິພາບ. ຈື່ໄວ້ວ່າມັນມີ 98% ຂອງຜູ້ເຂົ້າຮ່ວມໃນສະພາບການປິ່ນປົວ. ນີ້ຫມາຍຄວາມວ່າພຶດຕິກໍາໃນເງື່ອນໄຂຄວບຄຸມບໍ່ໄດ້ຖືກຄາດຄະເນວ່າມັນຈະຖືກຕ້ອງ, ຊຶ່ງຫມາຍຄວາມວ່າຄວາມແຕກຕ່າງກັນລະຫວ່າງການປິ່ນປົວແລະສະພາບການຄວບຄຸມບໍ່ໄດ້ຖືກຄາດຄະເນວ່າມັນເປັນໄປໄດ້ຢ່າງຖືກຕ້ອງ. ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບການຈັດສັນທີ່ດີທີ່ສຸດຂອງຜູ້ເຂົ້າຮ່ວມໃນເງື່ອນໄຂ, ລວມທັງຄ່າໃຊ້ຈ່າຍທີ່ແຕກຕ່າງກັນລະຫວ່າງເງື່ອນໄຂ, ເບິ່ງ List, Sadoff, and Wagner (2011) .

ສຸດທ້າຍ, ໃນບົດຄວາມຕົ້ນຕໍ, ຂ້າພະເຈົ້າໄດ້ອະທິບາຍວ່າວິທີການຄິດໄລ່ຄວາມແຕກຕ່າງໃນຄວາມແຕກຕ່າງທີ່ຖືກນໍາໃຊ້ໃນການອອກແບບປະສົມປະສານສາມາດນໍາໄປສູ່ຄວາມແຕກຕ່າງຫນ້ອຍກ່ວາຄ່າຄາດຫມາຍທີ່ແຕກຕ່າງກັນ, ອອກ​ແບບ. ຖ້າ \(X_i\) ແມ່ນມູນຄ່າຂອງຜົນໄດ້ຮັບກ່ອນການປິ່ນປົວ, ຫຼັງຈາກນັ້ນຈໍານວນທີ່ພວກເຮົາກໍາລັງພະຍາຍາມຄາດຄະເນດ້ວຍວິທີການແຕກຕ່າງກັນໃນຄວາມແຕກຕ່າງຄື:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

ຂໍ້ຜິດພາດມາດຕະຖານຂອງປະລິມານນັ້ນແມ່ນ (ເບິ່ງ Gerber and Green (2012) , eq 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

ການປຽບທຽບ eq. 46 ແລະ eq 4.8 ສະແດງໃຫ້ເຫັນວ່າວິທີການທີ່ແຕກຕ່າງກັນໃນຄວາມແຕກຕ່າງຈະມີຂໍ້ຜິດພາດມາດຕະຖານຫນ້ອຍກວ່າ (ເບິ່ງ Gerber and Green (2012) , eq 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

ປະມານ, ໃນເວລາທີ່ \(X_i\) ເປັນນາຍຫຼາຍຂອງ \(Y_i(1)\) ແລະ \(Y_i(0)\) , ຫຼັງຈາກນັ້ນທ່ານສາມາດໄດ້ຮັບການຄາດຄະເນຊັດເຈນຫຼາຍຈາກວິທີການແຕກຕ່າງຈາກຄວາມແຕກຕ່າງກ່ວາຈາກ difference- ເປັນ ຂອງຫມາຍຄວາມວ່າຫນຶ່ງ. ວິທີຫນຶ່ງໃນການຄິດກ່ຽວກັບເລື່ອງນີ້ໃນການທົດລອງ Restivo ແລະ van de Rijt ແມ່ນວ່າມີການປ່ຽນແປງທາງທໍາມະຊາດໃນຈໍານວນເງິນທີ່ຄົນໄດ້ດັດແກ້, ດັ່ງນັ້ນນີ້ເຮັດໃຫ້ປຽບທຽບເງື່ອນໄຂການປິ່ນປົວແລະຄວບຄຸມທີ່ຍາກ: ມັນເປັນການຍາກທີ່ຈະກວດພົບຍາດພີ່ນ້ອງ ຜົນກະທົບຫນ້ອຍໃນຂໍ້ມູນຜົນໄດ້ຮັບທີ່ຮຸນແຮງ. ແຕ່ຖ້າທ່ານແຕກຕ່າງຈາກການປ່ຽນແປງທີ່ເກີດຂຶ້ນຕາມທໍາມະຊາດນີ້, ມັນມີການປ່ຽນແປງຫນ້ອຍ, ແລະມັນເຮັດໃຫ້ມັນງ່າຍຕໍ່ການກວດຜົນກະທົບເລັກນ້ອຍ.

ເບິ່ງ Frison and Pocock (1992) ສໍາລັບການປຽບທຽບທີ່ຊັດເຈນຂອງຄວາມແຕກຕ່າງຂອງຄວາມຫມາຍ, ຄວາມແຕກຕ່າງຂອງຄວາມແຕກຕ່າງແລະວິທີການ ANCOVA ໃນການຕັ້ງຄ່າທົ່ວໄປຫຼາຍບ່ອນທີ່ມີການວັດແທກຫຼາຍໆຄັ້ງກ່ອນການປິ່ນປົວແລະຫຼັງການປິ່ນປົວ. ໂດຍສະເພາະ, ພວກເຂົາແນະນໍາໃຫ້ ANCOVA, ເຊິ່ງຂ້າພະເຈົ້າບໍ່ໄດ້ກວມເອົາທີ່ນີ້. ນອກຈາກນັ້ນ, ເບິ່ງ McKenzie (2012) ສໍາລັບການປຶກສາຫາລືກ່ຽວກັບຄວາມສໍາຄັນຂອງຫຼາຍໆມາດຕະການຜົນການປິ່ນປົວຫຼັງຈາກການປິ່ນປົວ.