កំណត់ត្រាគណិតវិទ្យា

ខ្ញុំគិតថាមធ្យោបាយដ៏ល្អបំផុតដើម្បីយល់ពីការពិសោធន៍គឺជាគ្រោងការណ៍ដែល មានសក្តានុពល (ដែលខ្ញុំបានពិភាក្សានៅក្នុងកំណត់ត្រាគណិតវិទ្យានៅក្នុងជំពូកទី 2) ។ ក្របខ័ណ្ឌលទ្ធផលមានសក្តានុពលមានទំនាក់ទំនងជិតស្និទ្ធជាមួយគំនិតពីគំរូគំរូដែលខ្ញុំបានពិពណ៌នានៅក្នុងជំពូកទី 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) ។ ឧបសម្ព័ន្ធនេះត្រូវបានសរសេរតាមរបៀបមួយដើម្បីបញ្ជាក់ពីការតភ្ជាប់នេះ។ ការសង្កត់ធ្ងន់នេះមិនមានលក្ខណៈប្រពៃណីទេប៉ុន្តែខ្ញុំគិតថាការផ្សារភ្ជាប់គ្នារវាងសំណាកគំរូនិងពិសោធន៍គឺមានប្រយោជន៍: វាមានន័យថាប្រសិនបើអ្នកដឹងអំពីគំរូអ្វីមួយអ្នកដឹងអ្វីមួយអំពីពិសោធន៍និងផ្ទុយមកវិញ។ ដូចដែលខ្ញុំនឹងបង្ហាញនៅក្នុងក្រដាសទាំងនេះក្របខ័ណ្ឌលទ្ធផលដែលមានសក្តានុពលបង្ហាញពីកម្លាំងនៃការពិសោធន៍ដែលបានគ្រប់គ្រងដោយចៃដន្យដើម្បីប៉ាន់ប្រមាណផលប៉ះពាល់ហើយវាបង្ហាញពីដែនកំណត់នៃអ្វីដែលអាចធ្វើបានជាមួយនឹងការសាកល្បងដែលបានប្រតិបត្តិយ៉ាងល្អឥតខ្ចោះផងដែរ។

នៅក្នុងឧបទ្វីបនេះខ្ញុំនឹងរៀបរាប់ពីក្របខណ្ឌលទ្ធផលសក្តានុពលដោយស្ទួនឯកសារមួយចំនួនពីកំណត់ត្រាគណិតវិទ្យានៅជំពូកទី 2 ដើម្បីធ្វើឱ្យកំណត់ត្រាទាំងនេះកាន់ដោយខ្លួនឯង។ បន្ទាប់មកខ្ញុំនឹងរៀបរាប់ពីលទ្ធផលដ៏មានប្រយោជន៍មួយចំនួនអំពីភាពជាក់លាក់នៃការប៉ាន់ប្រមាណនៃផលប៉ះពាល់នៃការព្យាបាលរួមទាំងការពិភាក្សាអំពីការបែងចែកយ៉ាងល្អប្រសើរនិងការប៉ាន់ស្មានខុសគ្នា។ ឧបសម្ព័ន្ធនេះគូរយ៉ាងខ្លាំងទៅលើ Gerber and Green (2012)

ក្របខ័ណ្ឌលទ្ធផលសក្តានុពល

ដើម្បីបង្ហាញពីក្របខ័ណ្ឌលទ្ធផលដែលមានសក្តានុពលចូរយើងត្រលប់ទៅការពិសោធន៍របស់ Restivo និង van de Rijt ដើម្បីប៉ាន់ប្រមាណពីប្រសិទ្ធិភាពនៃការទទួលបាន barnstar លើការរួមចំណែកនាពេលអនាគតទៅវិគីភីឌា។ ក្របខណ្ឌលទ្ធផលមានសក្តានុពលមានធាតុសំខាន់ទាំងបី: គ្រឿង, ការព្យាបាលនិងលទ្ធផលសក្តានុពល។ ក្នុងករណី Restivo និង van de Rijt អង្គភាពទាំងអស់ ត្រូវបានអ្នកគាំទ្រសមនឹងទទួលបានអ្នកដែលស្ថិតក្នុងចំណោមអ្នករួមវិភាគទានកំពូល 1% - ដែលមិនទាន់ទទួលបានប្រាក់បំរុង។ យើងអាចលិបិក្រមកម្មវិធីនិពន្ធទាំងនេះដោយ \(i = 1 \ldots N\)ការព្យាបាលនៅក្នុងការពិសោធន៍របស់ពួកគេបាន "barnstar" ឬ "barnstar ទេ" ហើយខ្ញុំនឹងសរសេរ \(W_i = 1\) ប្រសិនបើមនុស្សម្នាក់ \(i\) កំពុងស្ថិតក្នុងស្ថានភាពព្យាបាលនិង \(W_i = 0\) បើមិនដូច្នេះទេ។ ធាតុទីបីនៃក្របខ័ណ្ឌលទ្ធផលមានសក្តានុពលគឺសំខាន់បំផុតគឺ លទ្ធផលដែលមានសក្តានុពល ។ ទាំងនេះគឺជាការពិបាកក្នុងការគិតគូរពីព្រោះវាពាក់ព័ន្ធនឹងលទ្ធផល "សក្តានុពល" ដែលអាចកើតឡើង។ ចំពោះអ្នកសរសេរវិគីភីឌានីមួយៗអ្នកអាចស្រមៃពីចំនួនកំណែប្រែដែលនាងនឹងធ្វើនៅក្នុងលក្ខខណ្ឌនៃការព្យាបាល ( \(Y_i(1)\) ) និងលេខដែលនាងនឹងធ្វើនៅក្នុងលក្ខខណ្ឌត្រួតពិនិត្យ ( \(Y_i(0)\) ) ។

ចំណាំថាជម្រើសនៃការព្យាបាលការព្យាបាលនិងលទ្ធផលនេះកំណត់នូវអ្វីដែលអាចរៀនបានពីការពិសោធន៍នេះ។ ឧទាហរណ៍ដោយគ្មានការសន្មតបន្ថែមទៀត Restivo និង van de Rijt មិនអាចនិយាយអ្វីទាំងអស់អំពីប្រសិទ្ធិភាពនៃការជញ្ជាំងនៅលើកម្មវិធីនិពន្ធវីគីភីឌាឬលើលទ្ធផលដូចជាគុណភាពកែសម្រួលទេ។ ជាទូទៅជម្រើសនៃការព្យាបាលការព្យាបាលនិងលទ្ធផលត្រូវផ្អែកលើគោលដៅនៃការសិក្សា។

លទ្ធផលដែលមានសក្តានុពលទាំងនេះ - ដែលត្រូវបានសង្ខេបនៅក្នុងតារាងទី 4.5 - អាចកំណត់ពីផលប៉ះពាល់នៃការព្យាបាលចំពោះមនុស្សម្នាក់ \(i\) as

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

ចំពោះខ្ញុំសមីការនេះគឺជាមធ្យោបាយច្បាស់លាស់ដើម្បីកំណត់នូវឥទ្ធិពលនៃមូលហេតុហើយទោះបីជាសាមញ្ញបំផុតក៏ដោយក៏ក្របខ័ណ្ឌនេះមានលក្ខណៈទូទៅនិងគួរឱ្យចាប់អារម្មណ៍ជាច្រើន (Imbens and Rubin 2015)

តារាងទី 4.5: តារាងលទ្ធផលដែលមានសក្តានុពល
បុគ្គល ការកែសម្រួលក្នុងស្ថានភាពព្យាបាល ការកែសម្រួលក្នុងស្ថានភាពត្រួតពិនិត្យ ប្រសិទ្ធភាពនៃការព្យាបាល
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
លេខ \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
មធ្យម \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

ប៉ុន្តែប្រសិនបើយើងកំណត់មូលហេតុនៅក្នុងវិធីនេះយើងនឹងមានបញ្ហា។ ក្នុងករណីស្ទើរតែទាំងអស់យើងមិនទទួលបានលទ្ធផលគួរអោយជឿជាក់ទេ។ នោះគឺអ្នកនិពន្ធវិគីភីឌាជាក់លាក់មួយបានទទួលអាហារសម្រន់។ ដូច្នេះយើងសង្កេតឃើញលទ្ធផលនៃសក្តានុពលមួយ - \(Y_i(1)\)\(Y_i(0)\) - ប៉ុន្តែមិនមែនទាំងពីរទេ។ អសមត្ថភាពក្នុងការសង្កេតមើលលទ្ធផលទាំងពីរគឺជាបញ្ហាចម្បងមួយដែល Holland (1986) ហៅវាថាជា បញ្ហាមូលដ្ឋាននៃការទទួលបានបុព្វហេតុ

ជាសំណាងល្អនៅពេលដែលយើងកំពុងធ្វើការស្រាវជ្រាវយើងមិនត្រឹមតែមានមនុស្សម្នាក់នោះទេយើងមានមនុស្សជាច្រើនហើយនេះផ្តល់នូវវិធីមួយជុំវិញបញ្ហាមូលដ្ឋាននៃការទទួលបានមូលហេតុ។ ជាជាងប៉ុនប៉ងធ្វើការប៉ាន់ប្រមាណប្រសិទ្ធិភាពនៃការព្យាបាលកម្រិតនីមួយៗយើងអាចប៉ាន់ប្រមាណឥទ្ធិពលនៃការព្យាបាលជាមធ្យម:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

នេះនៅតែត្រូវបានគេបង្ហាញនៅក្នុងលក្ខខណ្ឌនៃ \(\tau_i\) ដែលមិនអាចមើលបានប៉ុន្តែជាមួយនឹងពិជគណិតមួយចំនួន (Eq 2.8 នៃ Gerber and Green (2012) ) យើងទទួលបាន

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

សមីការ 4.3 បង្ហាញថាប្រសិនបើយើងអាចប៉ាន់ប្រមាណលទ្ធផលជាមធ្យមនៃចំនួនប្រជាជនស្ថិតនៅក្រោមការព្យាបាល ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) ហើយលទ្ធផលជាមធ្យមនៃចំនួនប្រជាជនស្ថិតនៅក្រោមការគ្រប់គ្រង ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), បន្ទាប់មកយើងអាចប៉ាន់ប្រមាណពីផលប៉ះពាល់ការព្យាបាលជាមធ្យម, សូម្បីតែដោយគ្មានការប៉ាន់ប្រមាណផលប៉ះពាល់ការព្យាបាលសម្រាប់មនុស្សពិសេសណាមួយឡើយ។

ឥឡូវខ្ញុំបានកំណត់ការប៉ាន់ស្មានរបស់យើងដែលជាអ្វីដែលយើងកំពុងព្យាករណ៍ - ខ្ញុំនឹងងាកទៅរកវិធីដែលយើងអាចប៉ាន់ស្មានវាដោយទិន្នន័យ។ ខ្ញុំចូលចិត្តគិតអំពីបញ្ហាប្រឈមនៃការប៉ាន់ប្រមាណនេះជាបញ្ហាគំរូមួយ (សូមគិតអំពីកំណត់ត្រាគណិតវិទ្យានៅក្នុងជំពូកទី 3) ។ សូមស្រមៃថាយើងចៃដន្យជ្រើសយកមនុស្សខ្លះដើម្បីពិនិត្យមើលស្ថានភាពព្យាបាលហើយយើងជ្រើសរើសយកមនុស្សមួយចំនួនដើម្បីសង្កេតនៅក្នុងស្ថានភាពត្រួតពិនិត្យបន្ទាប់មកយើងអាចប៉ាន់ប្រមាណលទ្ធផលជាមធ្យមនៅក្នុងលក្ខខណ្ឌនីមួយៗ:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

ដែល \(N_t\) និង \(N_c\) គឺជាចំនួនមនុស្សនៅក្នុងលក្ខខណ្ឌព្យាបាលនិងការគ្រប់គ្រង។ សមីការ 4.4 គឺជាការប៉ាន់ប្រមាណនៃភាពខុសគ្នានៃមធ្យោបាយ។ ដោយសារតែការរៀបចំសំណាកគំរូយើងដឹងថាពាក្យទី 1 គឺជាការប៉ាន់ស្មានមិនលំអៀងសម្រាប់លទ្ធផលជាមធ្យមនៅក្រោមការព្យាបាលហើយពាក្យទី 2 គឺជាការវាយតម្លៃមិនមានទំនោរស្ថិតក្រោមការគ្រប់គ្រង។

វិធីមួយទៀតដើម្បីគិតអំពីការចៃដន្យដែលអនុញ្ញាតគឺថាការប្រៀបធៀបរវាងការព្យាបាលនិងក្រុមត្រួតពិនិត្យគឺយុត្តិធម៌ពីព្រោះការចៃដន្យធានាថាក្រុមទាំងពីរនឹងស្រដៀងគ្នា។ ភាពស្រដៀងគ្នានេះមានសម្រាប់អ្វីដែលយើងបានវាស់វែង (និយាយថាចំនួនកំណែប្រែក្នុងរយៈពេល 30 ថ្ងៃមុនពេលពិសោធន៍) និងអ្វីដែលយើងមិនបានវាស់វែង (និយាយថាភេទ) ។ សមត្ថភាពនេះដើម្បីធានាឱ្យមានតុល្យភាពលើកត្តាដែល បានសង្កេត និង មិនបានរកឃើញ គឺសំខាន់។ ដើម្បីមើលអំណាចនៃតុល្យភាពដោយស្វ័យប្រវត្តិលើកត្តាដែលមិនបានរកឃើញសូមស្រមៃថាការស្រាវជ្រាវនាពេលអនាគតបានរកឃើញថាបុរសគឺមានឆ្លើយតបទៅនឹងរង្វាន់ជាងស្ត្រី។ តើវានឹងធ្វើឱ្យលទ្ធផលនៃការពិសោធន៍របស់ Restivo និង van de Rijt ទៅជាមិនមានប្រសិទ្ធភាពទេ? ទេ។ ដោយចៃដន្យពួកគេធានាថាការមិនគោរពច្បាប់ទាំងអស់នឹងមានតុល្យភាពក្នុងការរំពឹងទុក។ ការការពារប្រឆាំងនឹងភាពមិនស្គាល់នេះមានឥទ្ធិពលខ្លាំងហើយវាគឺជាវិធីដ៏សំខាន់មួយដែលពិសោធន៍ខុសគ្នាពីបច្ចេកទេសដែលមិនពិសោធន៍ដែលបានពិពណ៌នានៅក្នុងជំពូកទី 2 ។

ក្រៅពីការកំណត់ប្រសិទ្ធភាពនៃការព្យាបាលសម្រាប់ប្រជាជនទាំងមូលវាអាចកំណត់ផលប៉ះពាល់នៃការព្យាបាលសម្រាប់មនុស្សមួយក្រុម។ នេះជាធម្មតាត្រូវបានគេហៅថា ឥទ្ធិពលនៃការព្យាបាលជាមធ្យម (CATE) ។ ឧទាហរណ៍នៅក្នុងការសិក្សាដោយ Restivo និង van de Rijt ចូរយើងស្រមៃថា \(X_i\) គឺថាតើអ្នកកែសំរួលខាងលើឬក្រោមចំនួនកំណែប្រែជាមធ្យមក្នុងអំឡុងពេល 90 ថ្ងៃមុនការសាកល្បង។ គេអាចគណនាប្រសិទ្ធិភាពនៃការព្យាបាលដាច់ដោយឡែកពីគ្នាសម្រាប់អ្នកសរសេរនិងអ្នកបោះពុម្ពផ្សាយធ្ងន់។

ក្របខ័ណ្ឌលទ្ធផលដែលមានសក្តានុពលគឺជាមធ្យោបាយដ៏មានឥទ្ធិពលមួយដើម្បីគិតអំពីការសន្និដ្ឋានមូលហេតុនិងការធ្វើពិសោធន៍។ ទោះយ៉ាងណាក៏ដោយមានភាពស្មុគស្មាញបន្ថែមទៀតដែលអ្នកគួរតែចងចាំ។ ភាពស្មុគស្មាញទាំងពីរនេះជាទូទៅត្រូវបានគេដាក់បញ្ចូលគ្នាក្រោមពាក្យសន្ទទស្សន៍ តម្លៃការព្យាបាលដែលមានស្ថេរភាព (SUTVA) ។ ផ្នែកដំបូងនៃ SUTVA គឺសន្មត់ថារឿងតែមួយគត់ដែលសំខាន់សម្រាប់មនុស្ស \(i\) លទ្ធផលគឺជាថាតើមនុស្សម្នាក់ដែលកំពុងស្ថិតក្នុងស្ថានភាពព្យាបាលឬវត្ថុបញ្ជា។ នៅក្នុងពាក្យផ្សេងទៀតវាត្រូវបានសន្មតថាមនុស្សម្នាក់ \(i\) ជួនកាលនេះត្រូវបានគេហៅថា "គ្មានការជ្រៀតជ្រែក" ឬ "គ្មានហៀរហៀរ" ហើយអាចសរសេរបានថា:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

ដែលជាកន្លែងដែល \(\mathbf{W_{-i}}\) គឺវ៉ិចទ័រនៃឋានៈព្យាបាលសម្រាប់មនុស្សគ្រប់គ្នាលើកលែងតែមនុស្សម្នាក់ \(i\) ។ មធ្យោបាយមួយដែលអាចរំលោភបំពាននេះគឺថាប្រសិនបើការព្យាបាលពីមនុស្សម្នាក់ទៅជាមនុស្សម្នាក់ទៀតវិជ្ជមានឬអវិជ្ជមាន។ ត្រឡប់ទៅ Restivo និង van de Rijt សូមសាកល្បងមិត្តភក្តិពីរនាក់ \(i\) និង \(j\) ហើយមនុស្សនោះ \(i\) ទទួលបាន barnstar និង \(j\) ។ ប្រសិនបើ \(i\) ទទួលបាន barnstar បណ្តាលឱ្យ \(j\) កែសម្រួលបន្ថែមទៀត (ចេញពីអារម្មណ៍នៃការប្រកួតប្រជែង) ឬកែសម្រួលតិចជាងមុន (ចេញពីអារម្មណ៍អស់សង្ឃឹម) នោះ SUTVA ត្រូវបានគេរំលោភបំពាន។ វាក៏អាចត្រូវបានគេបំពានដែរប្រសិនបើផលប៉ះពាល់នៃការព្យាបាលគឺអាស្រ័យលើចំនួនមនុស្សដែលទទួលការព្យាបាល។ ជាឧទាហរណ៍ប្រសិនបើ Restivo និង van de Rijt បានផ្តល់ជូននូវរតនាដារចំនួន 1.000 ឬ 10.000 នាក់ជំនួសឱ្យ 100 នាក់នោះវាអាចប៉ះពាល់ដល់ប្រសិទ្ធិភាពនៃការទទួលបានអាហារបំប៉ន។

បញ្ហាទី 2 ដែលបញ្ចូលទៅក្នុង SUTVA គឺជាការសន្មត់ថាការព្យាបាលដែលពាក់ព័ន្ធតែមួយគត់គឺជាអ្វីដែលអ្នកស្រាវជ្រាវផ្តល់អោយ។ ការសន្មត់នេះត្រូវបានគេហៅថាជួនកាល គ្មានការព្យាបាលដែលលាក់កំបាំង ឬការ ដកចេញ ។ ឧទាហរណ៍នៅ Restivo និង van de Rijt វាអាចត្រូវបានករណីដែលថាដោយការផ្តល់ barnstar មួយអ្នកស្រាវជ្រាវបានបណ្តាលឱ្យកម្មវិធីនិពន្ធត្រូវបានបង្ហាញនៅលើទំព័រកម្មវិធីនិពន្ធដ៏ពេញនិយមនិងថាវាត្រូវបានគេនៅលើទំព័រកម្មវិធីនិពន្ធដ៏ពេញនិយមជាជាងទទួលបាន barnstar- ដែលបណ្តាលមកពីការផ្លាស់ប្តូរឥរិយាបថកែសម្រួល។ ប្រសិនបើនេះជាការពិតបន្ទាប់មកផលប៉ះពាល់នៃ barnstar មិនត្រូវបានសម្គាល់ពីផលប៉ះពាល់នៃការនៅលើទំព័រកម្មវិធីនិពន្ធដ៏មានប្រជាប្រិយភាពនោះទេ។ ជាការពិតណាស់វាមិនច្បាស់លាស់ថាតើទស្សនៈវិទ្យាសាស្រ្តនេះគួរត្រូវបានគេចាត់ទុកថាគួរឱ្យទាក់ទាញឬមិនទាក់ទាញ។ នោះគឺអ្នកអាចស្រមៃគិតថាអ្នកស្រាវជ្រាវម្នាក់និយាយថាឥទ្ធិពលនៃការទទួលបានអាហារបំប៉នរួមបញ្ចូលទាំងការព្យាបាលជាបន្តបន្ទាប់ទាំងអស់ដែលកើតចេញពីចំណីអាហារ។ ឬអ្នកអាចស្រមៃមើលស្ថានភាពមួយដែលការស្រាវជ្រាវមួយចង់ធ្វើឱ្យមានភាពខុសគ្នាពីប្រសិទ្ធិភាពនៃបារពីអ្វីផ្សេងទៀត។ វិធីមួយដើម្របីគិតន្រះគឺត្រូវសួរថាតើមានអ្វីដ្រលនាំឱ្រយ Gerber and Green (2012) (ទំ .41) ហៅថា "ការវិភាគផ្ន្រកសមស្រប" ដ្ររឬទ្រ? និយាយម៉្យាងទៀតតើមានអ្វីក្រៅពីការព្យាបាលដែលបណ្តាលឱ្យមនុស្សក្នុងការព្យាបាលនិងគ្រប់គ្រងស្ថានភាពត្រូវបានគេព្យាបាលខុសគ្នាដែរឬទេ? ការព្រួយបារម្ភអំពីការបំបែកស៊ីមេទ្រីគឺជាអ្វីដែលអ្នកជំងឺនាំមុខក្នុងក្រុមត្រួតពិនិត្យក្នុងការធ្វើតេស្តដើម្បីប្រើថ្នាំ placebo ។ តាមវិធីនេះក្រុមអ្នកស្រាវជ្រាវអាចប្រាកដថាភាពខុសគ្នាតែមួយរវាងស្ថានភាពទាំងពីរគឺថ្នាំពិតប្រាកដហើយមិនមែនជាបទពិសោធនៃការប្រើថ្នាំនោះទេ។

សម្រាប់ព័ត៌មានបន្ថែមអំពី SUTVA សូមមើលផ្នែកទី 2.7 នៃ Gerber and Green (2012) ផ្នែកទី 2.5 នៃ Morgan and Winship (2014) និងផ្នែកទី 1.6 នៃ Imbens and Rubin (2015)

ភាពត្រឹមត្រូវ

នៅផ្នែកមុនខ្ញុំបានពិពណ៌នាពីរបៀបដើម្បីប៉ាន់ប្រមាណឥទ្ធិពលនៃការព្យាបាលជាមធ្យម។ នៅក្នុងផ្នែកនេះខ្ញុំនឹងផ្តល់យោបល់ខ្លះអំពីការប្រែប្រួលនៃការប៉ាន់ស្មានទាំងនោះ។

ប្រសិនបើអ្នកគិតអំពីការប៉ាន់ប្រមាណឥទ្ធិពលនៃការព្យាបាលជាមធ្យមក្នុងការប៉ាន់ប្រមាណភាពខុសគ្នារវាងមធ្យោបាយគំរូពីរនោះវាអាចបង្ហាញថាកំហុសគំរូនៃឥទ្ធិពលនៃការព្យាបាលជាមធ្យមគឺ:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

ដែលជាកន្លែងដែល \(m\) មនុស្សដែលបានផ្ដល់ទៅឱ្យការព្យាបាលនិង \(Nm\) ដើម្បីត្រួតពិនិត្យ (មើល Gerber and Green (2012) , EQ ។ 3.4) ។ ដូច្នេះនៅពេលដែលគិតអំពីចំនួនមនុស្សដែលត្រូវចាត់តាំងឱ្យធ្វើការព្យាបាលនិងចំនួនមនុស្សដែលត្រូវចាត់ឱ្យពិនិត្យនោះអ្នកអាចមើលឃើញថាប្រសិនបើ \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) នោះអ្នកចង់ \(m \approx N / 2\) ដរាបណាតម្លៃនៃការព្យាបាលនិងវត្ថុបញ្ជាគឺដូចគ្នា។ សមីការ 4.6 បញ្ជាក់ពីមូលហេតុដែលការរចនារូបរាងរបស់ Bond និងសហសេវិក (2012) អំពីផលប៉ះពាល់នៃព័ត៌មានសង្គមលើការបោះឆ្នោត (រូបភាព 4.18) មិនមានប្រសិទ្ធភាពទេ។ សូមចងចាំថាវាមាន 98% នៃអ្នកចូលរួមក្នុងស្ថានភាពព្យាបាល។ នេះមានន័យថាឥរិយាបថមធ្យមនៅក្នុងលក្ខខណ្ឌត្រួតពិនិត្យមិនត្រូវបានគេប៉ាន់ស្មានត្រឹមត្រូវដូចដែលវាអាចមានដែលមានន័យថាភាពខុសគ្នាដែលបានប៉ាន់ស្មានរវាងការព្យាបាលនិងលក្ខខណ្ឌនៃការត្រួតពិនិត្យមិនត្រូវបានគេប៉ាន់ស្មានឱ្យបានត្រឹមត្រូវតាមដែលអាចធ្វើទៅបានទេ។ សម្រាប់ព័ត៌មានបន្ថែមអំពីការបែងចែកយ៉ាងល្អប្រសើរនៃអ្នកចូលរួមក្នុងលក្ខខណ្ឌរួមបញ្ចូលទាំងការចំណាយខុសគ្នារវាងលក្ខខណ្ឌមើល List, Sadoff, and Wagner (2011)

ទីបំផុតនៅក្នុងអត្ថបទដើមខ្ញុំបានពិពណ៌នាអំពីរបៀបដែលអ្នកប៉ាន់ស្មានខុសគ្នាដែលត្រូវបានប្រើជាទូទៅនៅក្នុងការរចនាចំរុះអាចនាំឱ្យមានអថេរតិចជាងការប៉ាន់ស្មានមានភាពខុសគ្នាដែលជាទូទៅត្រូវបានប្រើនៅក្នុងរវាងអ្នកសិក្សា រចនា។ ប្រសិនបើ \(X_i\) គឺជាតំលៃនៃលទ្ធផលមុនពេលព្យាបាលនោះបរិមាណដែលយើងកំពុងព្យាយាមប៉ាន់ប្រមាណជាមួយវិធីសាស្រ្តខុសគ្នាគឺ:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

កំហុសស្តង់ដានៃបរិមាណនោះគឺ (សូមមើល Gerber and Green (2012) , eq ។ 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

ការប្រៀបធៀប eq ។ 4.6 និងអេកូ។ 4.8 បងា្ហាញថាវិធីសាស្ដ្រខុសគ្នាក្នុងភាពខុសគ្នានឹងមានកំហុសស្តង់ដារតិចជាង (មើល Gerber and Green (2012) , ត 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

ប្រហែលពេល \(X_i\) ជាការទស្សន៍ទាយយ៉ាងខ្លាំងនៃ \(Y_i(1)\) និង \(Y_i(0)\) ។ បន្ទាប់មកអ្នកអាចទទួលបានការប៉ាន់ស្មានច្បាស់លាស់ពីវិធីសាស្រ្តខុសគ្នានៃភាពខុសគ្នាជាងពីភាពខុសគ្នា - នៃមធ្យោបាយមួយ។ វិធីមួយដើម្បីគិតអំពីរឿងនេះនៅក្នុងបរិបទនៃការពិសោធន៏ Restivo និង van de Rijt គឺថាមានការប្រែប្រួលធម្មជាតិច្រើននៅក្នុងចំនួនដែលមនុស្សកែសម្រួលដូច្នេះនេះធ្វើឱ្យប្រៀបធៀបការព្យាបាលនិងការគ្រប់គ្រងលក្ខខណ្ឌពិបាក: វាពិបាកនឹងរកឃើញសាច់ញាតិ។ ផលប៉ះពាល់តូចនៅក្នុងទិន្នន័យលទ្ធផលរំខាន។ ប៉ុន្តែប្រសិនបើអ្នកខុសប្លែកពីភាពប្រែប្រួលដែលកើតមានឡើងតាមធម្មជាតិនោះវាមានភាពប្រែប្រួលតិចតួចហើយវាធ្វើឱ្យមានភាពងាយស្រួលក្នុងការរកឃើញឥទ្ធិពលតូច។

សូមមើល Frison and Pocock (1992) ដើម្បីធ្វើការប្រៀបធៀបភាពខុសគ្នានៃភាពខុសគ្នានៃភាពខុសគ្នានៃភាពខុសគ្នានិងវិធីសាស្រ្តដែលមានមូលដ្ឋាននៅ ANCOVA ក្នុងការកំណត់ទូទៅជាទូទៅដែលមានការវាស់វែងច្រើនមុននិងក្រោយការព្យាបាល។ ជាពិសេសពួកគេបានផ្តល់អនុសាសន៍យ៉ាងខ្លាំងដល់ ANCOVA ដែលខ្ញុំមិនបានគ្របដណ្តប់នៅទីនេះ។ លើសពីនេះទៀតសូមមើល McKenzie (2012) ដើម្បីពិភាក្សាពីសារៈសំខាន់នៃវិធានការនៃការព្យាបាលក្រោយពេលព្យាបាល។