ບັນທຶກຄະນິດສາດ

ໃນເອກະສານຊ້ອນນີ້, ຂ້ອຍຈະອະທິບາຍບາງແນວຄວາມຄິດຈາກບົດໃນແບບຟອມຄະນິດສາດເລັກນ້ອຍ. ເປົ້າຫມາຍນີ້ແມ່ນເພື່ອຊ່ວຍໃຫ້ທ່ານໄດ້ຮັບຄວາມສະດວກສະບາຍກັບການກໍານົດແລະຂອບເວທີການນໍາໃຊ້ໂດຍນັກຄົ້ນຄວ້າສໍາຫຼວດເພື່ອໃຫ້ທ່ານສາມາດປ່ຽນບາງຢ່າງຂອງອຸປະກອນທາງດ້ານວິຊາການທີ່ຂຽນໄວ້ໃນຫົວຂໍ້ເຫຼົ່ານີ້. ຂ້າພະເຈົ້າຈະເລີ່ມຕົ້ນໂດຍການນໍາຕົວຢ່າງທີ່ສົມເຫດສົມຜົນ, ຫຼັງຈາກນັ້ນຍ້າຍໄປຫາຕົວຢ່າງການຄາດຄະເນທີ່ມີ nonresponse, ແລະສຸດທ້າຍ, ຕົວຢ່າງທີ່ບໍ່ສາມາດທົດລອງ.

ການທົດສອບຄວາມເປັນໄປໄດ້

ໃນຖານະເປັນຕົວຢ່າງແລ່ນ, ພິຈາລະນາເປົ້າຫມາຍຂອງການຄາດຄະເນອັດຕາການຫວ່າງງານໃນສະຫະລັດອາເມລິກາ. ໃຫ້ \(U = \{1, \ldots, k, \ldots, N\}\) ເປັນປະຊາກອນເປົ້າຫມາຍແລະໃຫ້ \(y_k\) ໂດຍຄ່າຂອງຜົນໄດ້ຮັບສໍາລັບບຸກຄົນ \(k\) . ໃນຕົວຢ່າງນີ້ \(y_k\) ແມ່ນວ່າບຸກຄົນ \(k\) ແມ່ນຫວ່າງງານບໍ? ສຸດທ້າຍ, ໃຫ້ \(F = \{1, \ldots, k, \ldots, N\}\) ເປັນປະຊາກອນຂອງເຟຣມ, ເຊິ່ງເປັນປະໂຫຍດສໍາລັບຄວາມງ່າຍດາຍແມ່ນສົມມຸດຄືກັນກັບປະຊາກອນເປົ້າຫມາຍ.

ການອອກແບບຕົວຢ່າງຂັ້ນພື້ນຖານແມ່ນຕົວຢ່າງແບບສຸ່ມແບບງ່າຍດາຍໂດຍບໍ່ມີການທົດແທນ. ໃນກໍລະນີນີ້, ແຕ່ລະຄົນມີຄວາມເທົ່າທຽມກັນທີ່ຈະຖືກລວມຢູ່ໃນຕົວຢ່າງ \(s = \{1, \ldots, i, \ldots, n\}\) . ເມື່ອເກັບຂໍ້ມູນທີ່ມີການອອກແບບຕົວຢ່າງແບບນີ້, ນັກຄົ້ນຄວ້າສາມາດຄາດຄະເນອັດຕາການຫວ່າງງານຂອງຕົວເລກທີ່ມີຕົວຢ່າງ:

\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]

ບ່ອນທີ່ \(\bar{y}\) ແມ່ນອັດຕາການຫວ່າງງານຂອງປະຊາກອນແລະ \(\hat{\bar{y}}\) ແມ່ນການຄາດຄະເນອັດຕາການຫວ່າງງານ ( \(\hat{ }\) ແມ່ນທົ່ວໄປ used to indicate an estimate)

ໃນຕົວຈິງແລ້ວ, ນັກຄົ້ນຄ້ວາບໍ່ຄ່ອຍໃຊ້ຕົວຢ່າງແບບສຸ່ມແບບງ່າຍດາຍໂດຍບໍ່ມີການທົດແທນ. ສໍາລັບຫລາຍໆເຫດຜົນ (ຫນຶ່ງໃນນັ້ນຂ້ອຍຈະອະທິບາຍໃນປັດຈຸບັນ), ນັກຄົ້ນຄ້ວາມັກຈະສ້າງຕົວຢ່າງທີ່ມີຄວາມເປັນໄປບໍ່ໄດ້ຂອງການລວມ. ຕົວຢ່າງ, ນັກຄົ້ນຄວ້າອາດຈະເລືອກເອົາປະຊາຊົນໃນ Florida ທີ່ມີຄວາມອາດສາມາດສູງກວ່າການເຂົ້າລວມກ່ວາປະຊາຊົນໃນຄາລິຟໍເນຍ. ໃນກໍລະນີນີ້, ຕົວຢ່າງ (eq 3.1) ອາດຈະບໍ່ເປັນການຄາດຄະເນທີ່ດີ. ແທນທີ່ຈະ, ໃນເວລາທີ່ມີຄວາມເປັນໄປໄດ້ທີ່ບໍ່ເຫມາະສົມຂອງການລວມ, ນັກຄົ້ນຄວ້ານໍາໃຊ້

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]

ບ່ອນທີ່ \(\hat{\bar{y}}\) ແມ່ນການຄາດຄະເນອັດຕາການຫວ່າງງານແລະ \(\pi_i\) ແມ່ນບຸກຄົນ \(i\) ຂອງການປະສົມປະສານ. ປະຕິບັດຕາມມາດຕະຖານມາດຕະຖານ, ຂ້າພະເຈົ້າຈະໂທຫາການຄາດຄະເນໃນ eq. 3.2 ການຄາດຄະເນ Horvitz-Thompson. ການຄາດຄະເນ Horvitz-Thompson ແມ່ນເປັນປະໂຫຍດທີ່ສຸດເພາະວ່າມັນນໍາໄປສູ່ການຄາດຄະເນທີ່ບໍ່ສົມເຫດສົມຜົນສໍາລັບການອອກແບບການທົດລອງທີ່ອາດຈະເປັນໄປໄດ້ (Horvitz and Thompson 1952) . ເນື່ອງຈາກວ່າການຄາດຄະເນ Horvitz-Thompson ມາເຖິງເລື້ອຍໆ, ມັນເປັນປະໂຫຍດທີ່ຈະສັງເກດເຫັນວ່າມັນສາມາດຖືກຂຽນຄືນໃຫມ່ອີກ

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]

ບ່ອນທີ່ \(w_i = 1 / \pi_i\) . ເປັນ eq. 3.3 ສະແດງໃຫ້ເຫັນ, ການຄາດຄະເນ Horvitz-Thompson ແມ່ນຕົວຢ່າງທີ່ມີນ້ໍາຕົວຢ່າງທີ່ບ່ອນທີ່ມີນໍ້າຫນັກແມ່ນກ່ຽວຂ້ອງກັນກັບຄວາມເປັນໄປໄດ້ຂອງການຄັດເລືອກ. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ຄົນທີ່ມີໂອກາດຫນ້ອຍຈະຖືກລວມຢູ່ໃນຕົວຢ່າງ, ນ້ໍາຫນັກຫຼາຍກວ່າຄົນທີ່ຄວນຈະໄດ້ຮັບໃນການຄາດຄະເນ.

ດັ່ງທີ່ໄດ້ອະທິບາຍກ່ອນຫນ້ານີ້, ນັກຄົ້ນຄ້ວາມັກຈະເປັນຄົນທີ່ມີຄວາມເປັນໄປບໍ່ໄດ້ໃນການເຂົ້າຮ່ວມ. ຕົວຢ່າງຫນຶ່ງຂອງການອອກແບບທີ່ສາມາດນໍາໄປສູ່ຄວາມສົມເຫດສົມຜົນຂອງການລວມເຂົ້າແມ່ນ ການເກັບຕົວແບບ stratified ເຊິ່ງເປັນສິ່ງສໍາຄັນທີ່ຈະເຂົ້າໃຈເນື່ອງຈາກວ່າມັນກ່ຽວຂ້ອງຢ່າງໃກ້ຊິດກັບຂັ້ນຕອນການຄາດຄະເນທີ່ເອີ້ນວ່າ ການຈັດວາງຫຼັງ . ໃນການເກັບຕົວຢ່າງ stratified, ນັກຄົ້ນຄວ້າແບ່ງປັນປະຊາກອນເປົ້າຫມາຍເປັນກຸ່ມ \(H\) ເຊິ່ງກັນແລະກັນແລະຄົບຖ້ວນ. ກຸ່ມເຫຼົ່ານີ້ເອີ້ນວ່າ strata ແລະຖືກສະແດງເປັນ \(U_1, \ldots, U_h, \ldots, U_H\) . ໃນຕົວຢ່າງນີ້, ຊັ້ນແມ່ນລັດ. ຂະຫນາດຂອງກຸ່ມຈະຖືກສະແດງເປັນ \(N_1, \ldots, N_h, \ldots, N_H\) . ນັກຄົ້ນຄວ້າອາດຈະຕ້ອງການໃຊ້ຕົວຢ່າງແບບ stratified ເພື່ອເຮັດໃຫ້ແນ່ໃຈວ່າລາວມີປະຊາຊົນພຽງພໍໃນແຕ່ລະລັດເພື່ອເຮັດໃຫ້ການຄາດຄະເນຂອງການຫວ່າງງານຢູ່ໃນລະດັບລັດ.

ເມື່ອປະຊາກອນໄດ້ຖືກແບ່ງອອກເປັນ ຊັ້ນ , ສົມມຸດວ່ານັກຄົ້ນຄວ້າເລືອກເອົາຕົວຢ່າງແບບສຸ່ມແບບງ່າຍດາຍໂດຍບໍ່ມີການປ່ຽນແທນຂະຫນາດ \(n_h\) , ໂດຍແຍກແຕ່ລະຊັ້ນ. ນອກຈາກນັ້ນ, ໃຫ້ສົມມຸດວ່າທຸກຄົນທີ່ເລືອກໃນຕົວຢ່າງຈະກາຍເປັນຜູ້ຕອບໂຕ້ (ຂ້າພະເຈົ້າຈະຈັດການບໍ່ຕອບໃນພາກຕໍ່ໄປ). ໃນກໍລະນີນີ້, ຄວາມເປັນໄປໄດ້ຂອງການລວມມີແມ່ນ

\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]

ເນື່ອງຈາກວ່າຄວາມເປັນໄປໄດ້ເຫຼົ່ານີ້ອາດຈະແຕກຕ່າງກັນຈາກຄົນໄປຫາບຸກຄົນ, ເມື່ອການຄາດຄະເນຈາກການອອກແບບຕົວຢ່າງນີ້, ນັກຄົ້ນຄວ້າຈໍາເປັນຕ້ອງນ້ໍາຫນັກໃນແຕ່ລະຜູ້ຕອບໂດຍສົມທຽບການຄາດຄະເນຂອງພວກເຂົາໂດຍນໍາໃຊ້ຕົວເລກ Horvitz-Thompson (eq 3.2).

ເຖິງແມ່ນວ່າການຄາດຄະເນ Horvitz-Thompson ແມ່ນບໍ່ສະເຫມີພາບ, ນັກຄົ້ນຄວ້າສາມາດຜະລິດການຄາດຄະເນທີ່ຖືກຕ້ອງ (ຕົວຢ່າງຫນ້ອຍ) ໂດຍສົມທົບຕົວຢ່າງທີ່ມີ ຂໍ້ມູນຊ່ວຍ . ບາງຄົນພົບວ່າມັນຫນ້າແປກໃຈວ່ານີ້ແມ່ນຄວາມຈິງແມ້ວ່າຈະມີການທົດລອງຄວາມເປັນໄປໄດ້ທີ່ສົມບູນແບບ. ເຕັກນິກເຫຼົ່ານີ້ໂດຍນໍາໃຊ້ຂໍ້ມູນຊ່ວຍເຫຼືອແມ່ນມີຄວາມສໍາຄັນເພາະວ່າ, ດັ່ງທີ່ຂ້ອຍຈະສະແດງຕໍ່ມາ, ຂໍ້ມູນຊ່ວຍເຫຼືອແມ່ນສໍາຄັນສໍາລັບການປະເມີນປະມານຈາກຕົວຢ່າງທີ່ອາດຈະມີຄວາມບໍ່ຕອບສະຫນອງແລະຈາກຕົວຢ່າງທີ່ບໍ່ສາມາດທົດລອງໄດ້.

ຫນຶ່ງໃນເຕັກນິກການນໍາໃຊ້ຂໍ້ມູນຂ່າວສານຊ່ວຍແມ່ນ ການຈັດວາງຫຼັງ . ຕົວຢ່າງ, ຈົ່ງຈື່ໄວ້ວ່ານັກຄົ້ນຄວ້າຮູ້ຈໍານວນຜູ້ຊາຍແລະຍິງໃນແຕ່ລະປະເທດ 50; ພວກເຮົາສາມາດຫມາຍເຖິງຂະຫນາດກຸ່ມເຫຼົ່ານີ້ເປັນ \(N_1, N_2, \ldots, N_{100}\) . ເພື່ອສົມທົບການຂໍ້ມູນຂ່າວສານອົງການຊ່ອຍເຫລືອນີ້ກັບຕົວຢ່າງການ, ຄົ້ນຄ້ວາສາມາດແບ່ງປັນຕົວຢ່າງເປັນ \(H\) ກຸ່ມ (ໃນກໍລະນີນີ້ 100), ເຮັດໃຫ້ການຄາດຄະເນສໍາລັບແຕ່ລະກຸ່ມ, ແລະຫຼັງຈາກນັ້ນສ້າງເປັນນະວັນຂອງກຸ່ມເຫຼົ່ານີ້ຫມາຍຄວາມວ່າ:

\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]

ປະມານ, ການຄາດຄະເນໃນ eq. 3.5 ແມ່ນອາດຈະຖືກຕ້ອງເພາະວ່າມັນນໍາໃຊ້ຂໍ້ມູນປະຊາກອນທີ່ຮູ້ຈັກ - \(N_h\) - ເພື່ອປັບປຸງການຄາດຄະເນຖ້າມີຕົວຢ່າງທີ່ບໍ່ສົມເຫດສົມຜົນຈະຖືກເລືອກ. ວິທີຫນຶ່ງທີ່ຈະຄິດກ່ຽວກັບມັນແມ່ນວ່າການຈັດວາງຫຼັງແມ່ນຄ້າຍຄືກັບການວັດແທກລະດັບຫຼັງຈາກໄດ້ເກັບກໍາຂໍ້ມູນແລ້ວ.

ໃນການສະຫຼຸບ, ພາກນີ້ໄດ້ອະທິບາຍການອອກແບບຕົວຢ່າງບໍ່ຫຼາຍປານໃດ: ການເກັບຕົວຢ່າງແບບງ່າຍດາຍໂດຍບໍ່ມີການທົດແທນ, ການເກັບຕົວຢ່າງທີ່ມີຄວາມບໍ່ເທົ່າທຽມກັນແລະການເກັບຕົວແບບ stratified. ມັນໄດ້ອະທິບາຍເຖິງສອງແນວຄວາມຄິດຕົ້ນຕໍກ່ຽວກັບການຄາດຄະເນ: ການຄາດຄະເນ Horvitz-Thompson ແລະ Post-stratification. ສໍາລັບຄໍານິຍາມທີ່ເປັນທາງການທີ່ເປັນທາງການຂອງການອອກແບບການທົດລອງການຄາດຄະເນທີ່ເພີ່ມເຕີມ, ເບິ່ງພາກ 2 ຂອງ Särndal, Swensson, and Wretman (2003) . ສໍາລັບການປິ່ນປົວຢ່າງເປັນທາງການແລະຄົບຖ້ວນສົມບູນຂອງການເກັບຕົວຢ່າງແບບ stratified, ເບິ່ງພາກ 3.7 ຂອງ Särndal, Swensson, and Wretman (2003) . ສໍາລັບຄໍາອະທິບາຍດ້ານວິຊາການກ່ຽວກັບຄຸນສົມບັດຂອງການຄາດຄະເນ Horvitz-Thompson, ເບິ່ງ Horvitz and Thompson (1952) , Overton and Stehman (1995) , ຫຼືພາກ 2.8 ຂອງ @ sarndal_model_2003. ສໍາລັບການປິ່ນປົວແບບຈໍາລອງຫຼາຍຂຶ້ນ, ເບິ່ງ Holt and Smith (1979) , Smith (1991) , Little (1993) , ຫຼືພາກ 7.6 ຂອງ Särndal, Swensson, and Wretman (2003) .

ການທົດສອບຄວາມເປັນໄປໄດ້ທີ່ບໍ່ຕອບສະຫນອງ

ເກືອບທຸກໆການສໍາຫຼວດທີ່ແທ້ຈິງມີຄວາມບໍ່ຕອບສະຫນອງ; ບໍ່ແມ່ນທຸກຄົນໃນປະຊາກອນຕົວຢ່າງຕອບທຸກຄໍາຖາມ. ມີສອງປະເພດຕົ້ນຕໍຂອງ nonresponse: item nonresponse ແລະ unit nonresponse . ໃນລາຍການທີ່ບໍ່ຕອບສະຫນອງ, ຜູ້ຕອບບາງຄົນບໍ່ຕອບຄໍາຖາມບາງຢ່າງ (ຕົວຢ່າງ, ບາງຄັ້ງນັກຕອບບໍ່ຕ້ອງການຕອບຄໍາຖາມທີ່ພວກເຂົາຖືວ່າມີຄວາມອ່ອນໄຫວ). ໃນຫນ່ວຍງານທີ່ບໍ່ຕອບສະຫນອງ, ບາງຄົນທີ່ຖືກຄັດເລືອກສໍາລັບປະຊາກອນຕົວຢ່າງບໍ່ຕອບສະຫນອງຕໍ່ການສໍາຫຼວດຢູ່. ເຫດຜົນທີ່ສອງທົ່ວໄປທີ່ສຸດສໍາລັບການຕອບສະຫນອງຫນ່ວຍງານແມ່ນວ່າຕົວຢ່າງທີ່ບໍ່ສາມາດຕິດຕໍ່ໄດ້ແລະບໍ່ສາມາດຕິດຕໍ່ຕົວຢ່າງຕົວຢ່າງແຕ່ໄດ້ເຂົ້າຮ່ວມການປະຕິບັດ. ໃນພາກນີ້, ຂ້າພະເຈົ້າຈະສຸມໃສ່ການຕອບສະຫນອງຫນ່ວຍງານ; ຜູ້ອ່ານທີ່ສົນໃຈໃນລາຍການທີ່ບໍ່ຄວນຕອບສະຫນອງຄວນເຫັນ Little and Rubin (2002) .

ນັກຄົ້ນຄວ້າມັກຄິດກ່ຽວກັບການສໍາຫຼວດທີ່ບໍ່ມີການຕອບໂຕ້ເປັນຫນ່ວຍງານເປັນຂະບວນການຕົວຢ່າງສອງຂັ້ນຕອນ. ໃນຂັ້ນຕອນທໍາອິດ, ນັກຄົ້ນຄວ້າເລືອກຕົວຢ່າງ \(s\) ດັ່ງນັ້ນແຕ່ລະຄົນມີຄວາມເປັນໄປໄດ້ໃນການລວມ \(\pi_i\) (ບ່ອນທີ່ \(0 < \pi_i \leq 1\) ). ຫຼັງຈາກນັ້ນ, ໃນຂັ້ນຕອນທີສອງ, ຜູ້ທີ່ຖືກຄັດເລືອກເຂົ້າໄປໃນຕົວຢ່າງຕອບກັບ probability \(\phi_i\) (ບ່ອນທີ່ \(0 < \phi_i \leq 1\) ). ຂັ້ນຕອນສອງຂັ້ນຕອນນີ້ເຮັດໃຫ້ຜູ້ຕອບແບບສອບຖາມສຸດທ້າຍ \(r\) . ຄວາມແຕກຕ່າງທີ່ສໍາຄັນລະຫວ່າງສອງຂັ້ນຕອນນີ້ແມ່ນວ່ານັກຄົ້ນຄວ້າຈະຄວບຄຸມຂະບວນການເລືອກເອົາຕົວຢ່າງແຕ່ວ່າພວກເຂົາບໍ່ຄວບຄຸມຜູ້ທີ່ໄດ້ຮັບການທົດລອງເປັນຜູ້ຕອບ. ການວາງທັງສອງຂະບວນການຮ່ວມກັນ, ຄວາມເປັນໄປໄດ້ທີ່ຜູ້ໃດຜູ້ຫນຶ່ງຈະຕອບໂຕ້ແມ່ນ

\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]

ສໍາລັບ sake ຂອງຄວາມງ່າຍດາຍ, ຂ້າພະເຈົ້າຈະພິຈາລະນາກໍລະນີທີ່ການອອກແບບຕົວຢ່າງຕົ້ນສະບັບແມ່ນການ sampling ແບບງ່າຍດາຍໂດຍບໍ່ມີການທົດແທນ. ຖ້າຫາກວ່າເປັນນັກຄົ້ນຄວ້າໄດ້ເລືອກເອົາຕົວຢ່າງຂອງຂະຫນາດ \(n_s\) ທີ່ຜະ \(n_r\) ຕອບແບບສອບຖາມ, ແລະຖ້າຫາກວ່ານັກຄົ້ນຄວ້າປະຕິເສດການທີ່ບໍ່ແມ່ນການຕອບສະຫນອງແລະການນໍາໃຊ້ສະເລ່ຍຂອງຜູ້ຕອບແບບສອບ, ຫຼັງຈາກນັ້ນອະຄະຕິຂອງການຄາດຄະເນຈະເປັນ:

\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]

ບ່ອນທີ່ \(cor(\phi, y)\) ແມ່ນຄວາມສໍາພັນຂອງປະຊາກອນລະຫວ່າງຄວາມໂປ່ງໃສຕອບກັບຜົນໄດ້ຮັບ (ຕົວຢ່າງ, ສະຖານະພາບການຫວ່າງງານ), \(S(y)\) ແມ່ນການລົບກວນມາດຕະຖານປະຊາກອນຂອງຜົນໄດ້ຮັບ (ຕົວຢ່າງ, ສະຖານະການ, \(S(\phi)\) ແມ່ນຄວາມຖືກຕ້ອງຂອງມາດຕະຖານປະຊາກອນຂອງຄວາມໂປ່ງໃສຕອບສະຫນອງແລະ \(\bar{\phi}\) ແມ່ນປະຊາກອນປະຕິກິລິຍາຕອບສະຫນອງຕໍ່ປະຊາກອນ (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4)

Eq 3.7 ສະແດງໃຫ້ເຫັນວ່າການຕອບສະຫນອງທີ່ບໍ່ຕອບສະຫນອງຈະບໍ່ສົ່ງຜົນຕໍ່ຄວາມບໍ່ສະເຫມີພາບຖ້າມີເງື່ອນໄຂດັ່ງຕໍ່ໄປນີ້:

  • ບໍ່ມີການປ່ຽນແປງໃນສະພາບການຫວ່າງງານ \((S(y) = 0)\) .
  • ບໍ່ມີການປ່ຽນແປງໃນການຕອບສະຫນອງຕໍ່ຄວາມສະເຫມີພາບ \((S(\phi) = 0)\) .
  • ບໍ່ມີຄວາມສໍາພັນລະຫວ່າງທ່າອ່ຽງຕອບສະຫນອງແລະສະຖານະພາບການຫວ່າງງານ \((cor(\phi, y) = 0)\) .

ແຕ່ຫນ້າເສຍດາຍ, ບໍ່ມີເງື່ອນໄຂເຫຼົ່ານີ້ອາດມີ. ມັນເບິ່ງຄືວ່າບໍ່ມີເຫດຜົນວ່າຈະມີການປ່ຽນແປງໃນສະຖານະການຈ້າງງານຫຼືວ່າບໍ່ມີການປ່ຽນແປງໃນຄວາມໂປ່ງໃສໃນການຕອບຮັບ. ດັ່ງນັ້ນ, ຄໍາທີ່ສໍາຄັນໃນ eq. 3.7 ແມ່ນການພົວພັນ: \(cor(\phi, y)\) . ຕົວຢ່າງເຊັ່ນຖ້າຄົນທີ່ບໍ່ຫວ່າງງານມີຫຼາຍຂຶ້ນຈະຕອບສະຫນອງ, ຫຼັງຈາກນັ້ນ, ອັດຕາການຈ້າງງານທີ່ຄາດຄະເນຈະໄດ້ຮັບການກະຕຸ້ນຂຶ້ນ.

trick ທີ່ຈະເຮັດໃຫ້ການຄາດຄະເນໃນເວລາທີ່ມີ nonresponse ແມ່ນການນໍາໃຊ້ຂໍ້ມູນຂ່າວສານຊ່ວຍ. ຕົວຢ່າງ, ວິທີຫນຶ່ງທີ່ທ່ານສາມາດນໍາໃຊ້ຂໍ້ມູນຊ່ວຍແມ່ນການຈັດວາງຫຼັງການລະລາຍ (ຍົກເວັ້ນເອກະສານ 3.5 ຈາກຂ້າງເທິງ). ມັນສະແດງໃຫ້ເຫັນວ່າການຄາດຄະເນຂອງການຄາດຄະເນການວາງແຜນລວບລວມແມ່ນ:

\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]

\(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , \(S(\phi)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , \(S(\phi)^{(h)}\) , ແລະ \(\bar{\phi}^{(h)}\) ຖືກກໍານົດໄວ້ຂ້າງເທິງແຕ່ຖືກຈໍາກັດໃຫ້ກັບຜູ້ທີ່ຢູ່ໃນກຸ່ມ \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . ດັ່ງນັ້ນ, ການສະຫນັບສະຫນູນໂດຍທົ່ວໄປຈະຂະຫນາດນ້ອຍຖ້າຫາກວ່າຄວາມບໍ່ສະເຫມີພາບໃນແຕ່ລະກຸ່ມຕອບສະຫນອງແມ່ນຂະຫນາດນ້ອຍ. ມີສອງວິທີທີ່ຂ້າພະເຈົ້າຢາກຄິດກ່ຽວກັບການເຮັດໃຫ້ຄວາມລໍາອຽງຂະຫນາດນ້ອຍໃນແຕ່ລະກຸ່ມຕອບສະຫນອງ. ຫນ້າທໍາອິດ, ທ່ານຕ້ອງການພະຍາຍາມສ້າງກຸ່ມທີ່ມີ homogeneous ທີ່ມີການປ່ຽນແປງເລັກນ້ອຍໃນການຕອບສະຫນອງຕໍ່ການຕອບສະຫນອງ ( \(S(\phi)^{(h)} \approx 0\) ) ແລະຜົນໄດ້ຮັບ ( \(S(y)^{(h)} \approx 0\) ) ອັນທີສອງ, ທ່ານຕ້ອງການສ້າງກຸ່ມທີ່ປະຊາຊົນທີ່ທ່ານເຫັນຄືກັບຄົນທີ່ທ່ານບໍ່ເຫັນ ( \(cor(\phi, y)^{(h)} \approx 0\) ). ການປຽບທຽບ eq. 37 ແລະ eq 3.8 ຊ່ວຍອະທິບາຍໃນເວລາທີ່ທາງຫລັງການ stratification ສາມາດຫຼຸດຜ່ອນຄວາມສະຖຽນລະພາບທີ່ເກີດຈາກ nonresponse.

ໃນການສະຫຼຸບ, ພາກນີ້ໄດ້ສະຫນອງຕົວແບບສໍາລັບການສົມທຽບການຄາດຄະເນທີ່ມີການບໍ່ຕອບສະຫນອງແລະສະແດງໃຫ້ເຫັນວ່າການຕອບສະຫນອງທີ່ບໍ່ຕອບສະຫນອງສາມາດແນະນໍາທັງໂດຍບໍ່ມີແລະມີການປັບປຸງຫລັງການ stratification. Bethlehem (1988) ສະຫນອງການຜັນຂະຫຍາຍຂອງຄວາມບໍ່ສະເຫມີພາບທີ່ເກີດຈາກການບໍ່ຕອບສະຫນອງສໍາລັບການອອກແບບຕົວຢ່າງທົ່ວໄປຫຼາຍ. ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບການນໍາໃຊ້ stratification post ເພື່ອ stratification ສໍາລັບ nonresponse, ເບິ່ງ Smith (1991) ແລະ Gelman and Carlin (2002) . ການຈັດຕ່ໍາຫຼັງແມ່ນສ່ວນຫນຶ່ງຂອງເຕັກນິກການຜະລິດແບບທົ່ວໄປທີ່ເອີ້ນວ່າການຄາດຄະເນມາດຕະຖານ, ເບິ່ງ Zhang (2000) ສໍາລັບການປິ່ນປົວໃນໄລຍະຍາວແລະ Särndal and Lundström (2005) ສໍາລັບການປິ່ນປົວໃນໄລຍະຍາວ. ເບິ່ງເພີ່ມເຕີມກ່ຽວກັບວິທີການນ້ໍາຫນັກອື່ນໆສໍາລັບການປັບຕົວສໍາລັບການຕອບສະຫນອງທີ່ບໍ່ຕອບສະຫນອງ, ເບິ່ງ Kalton and Flores-Cervantes (2003) , Brick (2013) , ແລະ Särndal and Lundström (2005) .

ຕົວຢ່າງທີ່ບໍ່ສາມາດທົດລອງໄດ້

ການເກັບຕົວຢ່າງທີ່ບໍ່ສາມາດທົດແທນໄດ້ປະກອບມີການອອກແບບທີ່ແຕກຕ່າງກັນຫຼາຍ (Baker et al. 2013) . ໂດຍເນັ້ນຫນັກໃສ່ຕົວຢ່າງຂອງຜູ້ໃຊ້ Xbox ໂດຍ Wang ແລະເພື່ອນຮ່ວມງານ (W. Wang et al. 2015) , ທ່ານສາມາດຄິດວ່າຕົວແບບນັ້ນເປັນສ່ວນຫນຶ່ງທີ່ສ່ວນສໍາຄັນຂອງການອອກແບບຕົວຢ່າງບໍ່ແມ່ນ \(\pi_i\) ( ການຄາດຄະເນຂອງນັກຄົ້ນຄວ້າທີ່ມີການປະກອບສ່ວນ) ແຕ່ວ່າ \(\phi_i\) (ການຕອບສະຫນອງຕໍ່ການຕອບໂຕ້ທີ່ຖືກກະຕຸ້ນ). ຕາມທໍາມະດາ, ນີ້ແມ່ນບໍ່ເຫມາະສົມຍ້ອນວ່າ \(\phi_i\) ແມ່ນບໍ່ຮູ້ຈັກ. ແຕ່ວ່າທ່ານ Wang ແລະເພື່ອນຮ່ວມງານໄດ້ສະແດງໃຫ້ເຫັນວ່າຕົວເລືອກແບບນີ້, ເຖິງແມ່ນວ່າຈາກຕົວຢ່າງທີ່ມີຂໍ້ມູນທີ່ມີຄວາມຜິດປົກກະຕິຫຼາຍ - ບໍ່ຈໍາເປັນຕ້ອງເປັນອັນຕະລາຍຖ້າວ່ານັກຄົ້ນຄວ້າມີຂໍ້ມູນຊ່ວຍເຫຼືອທີ່ດີແລະຮູບແບບສະຖິຕິທີ່ດີເພື່ອບັນຫາເຫຼົ່ານີ້.

Bethlehem (2010) ຂະຫຍາຍຈໍານວນຫຼາຍຂອງ derivations ຂ້າງເທິງກ່ຽວກັບການ post stratification ເພື່ອປະກອບມີທັງຄວາມຜິດພາດ nonresponse ແລະການຄຸ້ມຄອງ. ໃນນອກຈາກນັ້ນໄປສະນີ, stratification, ເຕັກນິກການອື່ນໆສໍາລັບການເຮັດວຽກກັບບໍ່ແມ່ນການຄາດຄະເນຕົວຢ່າງແລະການຄາດຄະເນຕົວຢ່າງທີ່ມີຄວາມຜິດພາດການຄຸ້ມຄອງແລະ nonresponse, ປະກອບໂຍບາຍຄວາມລັບຕົວຢ່າງ (Ansolabehere and Rivers 2013; ??? ) , ທ່າອ່ຽງຄວາມມັກຄະແນນນ້ໍາຫນັກ (Lee 2006; Schonlau et al. 2009) , ແລະການປັບທຽບ (Lee and Valliant 2009) . ຫນຶ່ງໃນຫົວຂໍ້ທົ່ວໄປໃນບັນດາເຕັກນິກເຫຼົ່ານີ້ແມ່ນການນໍາໃຊ້ຂໍ້ມູນຊ່ວຍເຫລືອ.