Математичні замітки

Я думаю, що найкращий спосіб зрозуміти експерименти є основою потенційних результатів (про що я говорив у математичних замітках у главі 2). Система потенційних результатів має тісні зв'язки з ідеями від проектування на основі вибірки, яку я описав у розділі 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Цей додаток написано таким чином, щоб підкреслити це з'єднання. Цей наголос трохи нетрадиційний, але я думаю, що зв'язок між вибірками та експериментами корисна: це означає, що якщо ви знаєте щось про вибірку, то ви знаєте щось про експерименти, і навпаки. Як я покажу в цих нотатках, потенційна схема результатів показує силу рандомізованих контрольованих експериментів для оцінки причинних ефектів, і це показує обмеження того, що можна зробити навіть з досконало виконаними експериментами.

У цьому додатку, я описую потенційні підсумки структури, копіюючи деякий матеріал з математичних приміток у главі 2, щоб зробити ці нотатки більш автономними. Потім я опишу деякі корисні результати щодо точності оцінок середніх ефектів лікування, включаючи обговорення оптимальних розподілів та оцінки різниці в відмінності. Цей додаток сильно залежить від Gerber and Green (2012) .

Потенційні результати

Щоб проілюструвати структуру потенційних результатів, давайте повернемось до експерименту Рестіво та ван де Рієта, щоб оцінити ефект від отримання barnstar на майбутні внески у Вікіпедію. Система потенційних результатів має три основні елементи: одиниці , методи лікування та потенційні результати . У випадку з Restivo та van de Rijt, підрозділи заслуговують редакторів - тих, хто входить у першу чергу 1% внесків, які ще не отримали barnstar. Ми можемо індексувати ці редактори на \(i = 1 \ldots N\) . Лікування в їх експерименті було "barnstar" або "no barnstar", і я напишу \(W_i = 1\) якщо person \(i\) перебуває в стані лікування і \(W_i = 0\) інакше. Третій елемент структури потенційних результатів є найважливішим: потенційні результати . Це трохи більш концептуально складно, оскільки вони включають "потенційні" результати - те, що може статися. Для кожного редактора Вікіпедії можна уявити кількість змін, які вона зробить у стані обробки ( \(Y_i(1)\) ) та номер, який вона зробить в умовах керування ( \(Y_i(0)\) )

Зауважте, що цей вибір одиниць, процедур і результатів визначає, що можна дізнатись у цьому експерименті. Наприклад, без будь-яких додаткових припущень, Рестіво та ван де Рієт не можуть нічого сказати про наслідки barnstars для всіх редакторів Wikipedia або про такі результати, як якість редагування. Загалом, вибір підрозділів, лікування та результатів має базуватися на цілях дослідження.

З урахуванням цих потенційних результатів, які підсумовані в таблиці 4.5, можна визначити причинний ефект лікування особи \(i\) як

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

Для мене це рівняння - це найяскравіший спосіб визначити причинний ефект, і, хоч і надзвичайно простий, ця система виявляється узагальнюваною багатьма важливими та цікавими способами (Imbens and Rubin 2015) .

Таблиця 4.5: Таблиця потенційних результатів
Особа Редагування в стані лікування Редагування в умовах керування Ефект лікування
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
означає \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Однак, якщо ми визначимо причинно-наслідковий зв'язок, ми зіткнемося з проблемою. Майже у всіх випадках ми не спостерігаємо як потенційні результати. Тобто, конкретний редактор Wikipedia отримав або barnstar чи ні. Тому ми спостерігаємо один з потенційних результатів - \(Y_i(1)\) або \(Y_i(0)\) - але не обидва. Неможливість спостерігати як потенційні результати є настільки великою проблемою, що Holland (1986) назвала його основною проблемою причинного висновку .

На щастя, коли ми проводимо дослідження, у нас не просто одна людина, у нас багато людей, і це дає можливість обійти основну проблему причинного висновку. Замість того, щоб спробувати оцінити ефект лікування на індивідуальному рівні, ми можемо оцінити середній ефект лікування:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Це все ще виражається в термінах \(\tau_i\) які не спостерігаються, але з деякою алгебри (рівняння 2.8 Gerber and Green (2012) ), ми отримуємо

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

Рівняння 4.3 показує, що якщо ми зможемо оцінити середній потік результатів під час обробки ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) та середнього популяційного результату під контролем ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), то можна оцінити середній ефект лікування, навіть не оцінюючи ефект лікування для будь-якої конкретної людини.

Тепер, коли я визначив нашу оцінку - те, що ми намагаємося оцінити, я звернуся до того, як ми можемо реально оцінити його з даними. Мені подобається думати про цю оціночну задачу як проблему вибірки (подумайте над математичними примітками у главі 3). Уявіть собі, що ми випадково вибираємо деяких людей, щоб спостерігати в стані лікування, і ми випадково підібрали деяких людей для спостереження в умовах контролю, тоді ми можемо оцінити середній результат у кожному стані:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

де \(N_t\) і \(N_c\) - це кількість людей в умовах лікування та контролю. Рівняння 4.4 - це різниця середньої оцінки. Через проектування вибірки ми знаємо, що перший термін є об'єктивною оцінкою для середнього результату під час лікування, а другий термін є об'єктивною оцінкою під контролем.

Інший спосіб думати про те, що дає можливість рандомізації, полягає в тому, що це гарантує, що порівняння між лікуванням та контрольними групами є справедливим, оскільки рандомізація гарантує, що ці дві групи будуть нагадувати один одного. Ця подібність стосується речей, які ми виміряли (скажімо, кількість редагувань за 30 днів до експерименту) та речі, які ми не вимірювали (скажімо, стать). Ця критична здатність забезпечити рівновагу як спостережуваних, так і незацікавлених факторів. Щоб побачити силу автоматичного балансу на незбагненних факторах, давайте уявити, що в майбутньому дослідженні з'ясується, що чоловіки більш чутливі до нагород, ніж жінки. Чи призведе це до втрати результатів експерименту Рестіво та ван де Рієта? Ні. При рандомізації вони забезпечили, що всі неперевірені дані будуть збалансовані, в очікуванні. Цей захист від невідомих дуже потужний, і це важливий спосіб, що експерименти відрізняються від неекспериментальних методів, описаних у главі 2.

На додаток до визначення ефекту лікування для всього населення, можна визначити ефект лікування для підмножини людей. Це, як правило, називається умовним середнім ефектом обробки (CATE). Наприклад, у дослідженні Рестіво та ван де Рієта, давайте собі уявити, що \(X_i\) - чи був редактор вище або нижче середньої кількості змін протягом 90 днів до експерименту. Можна окремо обчислити ефект лікування для цих легких та важких редакторів.

Рамки потенційних результатів - це потужний спосіб думати про причинні висновки та експерименти. Проте існує ще дві складності, які слід пам'ятати. Ці дві складності часто об'єднуються разом під терміном " Стабільна одиниця лікувальної цінності" (SUTVA). Перша частина SUTVA - це припущення, що єдине, що має значення для результату особистості \(i\) , полягає в тому, чи була ця особа в стані лікування чи контролю. Іншими словами, вважається, що людині \(i\) не впливає обробка, надана іншим людям. Це іноді називають "без втручання" або "відсутністю поглинань", і його можна записати як:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

де \(\mathbf{W_{-i}}\) - це вектор стану лікування для всіх, крім людини \(i\) . Один із способів, за допомогою якого можна порушити це, полягає в тому, якщо лікування від однієї людини потрапляє на іншу людину - позитивно або негативно. Повертаючись до експерименту з Рестіво та ван де Рієта, уявіть собі двох друзів \(i\) та \(j\) і ця особа \(i\) отримує barnstar, а \(j\) не має. Якщо \(i\) отримує barnstar причини \(j\) редагувати більше (з почуттям конкуренції) або редагувати менше (з відчуття відчаю), то SUTVA було порушено. Це також може бути порушено, якщо вплив лікування залежить від загальної кількості інших людей, які отримують лікування. Наприклад, якщо Restivo та van de Rijt видали 1000 або 10 000 барнастарів замість 100, це могло б вплинути на ефект одержання barnstar.

Друге видання зосереджене на СУТВА - це припущення, що єдиним відповідним методом є те, що доставляє дослідник; це припущення іноді називають ніяким прихованим лікуванням або виключенням . Наприклад, у Restivo та van de Rijt це могло статися так, що, надаючи barnstar, дослідники викликали редакторів на популярній сторінці редакторів і що вони перебувають на популярній сторінці редакторів, а не отримують barnstar- що спричинило зміну поведінки редагування. Якщо це правда, то ефект barnstar не відрізняється від ефекту на сторінці популярних редакторів. Звичайно, незрозуміло, чи з наукової точки зору це слід вважати привабливим або непривабливим. Тобто, ви могли б уявити дослідника, який стверджував, що ефект одержання barnstar включає в себе всі наступні процедури, які викликає barnstar. Або ви могли б уявити ситуацію, коли дослідження хотіли б ізолювати ефект від "Барнастру" від усіх цих інших речей. Один із способів думати про це - запитати, чи є щось, що веде до того, що Gerber and Green (2012) (стор. 41) називають "розбиттям симетрії"? Іншими словами, чи є щось інше, ніж лікування, яке спричиняє по-різному поводження людей з умовами лікування та контролю? Занепокоєння щодо порушення симетрії - це те, що ведуть пацієнтів у контрольній групі в медичних випробуваннях для прийому плацебо-таблетки. Таким чином, дослідники можуть бути впевнені, що єдиною різницею між двома умовами є фактичне лікування, а не досвід прийому таблетки.

Більш детальну інформацію про SUTVA див. У розділі 2.7 Gerber and Green (2012) , розділ 2.5 Morgan and Winship (2014) та розділ 1.6 Imbens and Rubin (2015) .

Точність

У попередньому розділі я описав, як оцінити середній ефект лікування. У цьому розділі я дам кілька уявлень про мінливість цих оцінок.

Якщо ви думаєте про оцінку середнього ефекту лікування як оцінку різниці між двома засобами вибірки, то можна показати, що стандартна помилка середнього ефекту лікування є:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

де \(m\) люди, призначені для лікування, і \(Nm\) контролювати (див. Gerber and Green (2012) , ел. 3.4). Таким чином, якщо думати про те, скільки людей слід призначити для лікування і скільки призначити для керування, ви можете побачити, що якщо \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , тоді ви хочете \(m \approx N / 2\) , поки витрати на лікування та контроль однакові. Рівняння 4.6 роз'яснює, чому дизайн експерименту Бонда та колег (2012) Про вплив соціальної інформації на голосування (рис 4.18) був статистично неефективним. Нагадаємо, що в ньому було 98% учасників лікування. Це означало, що середня поведінка в умовах контролю не оцінювалася так точно, як це могла бути, що, в свою чергу, означало, що розрахункова різниця між лікуванням та станом контролю не була оцінена така точність, як це могла бути. Докладніше про оптимальний розподіл учасників на умови, в тому числі, коли витрати відрізняються між умовами, див. У List, Sadoff, and Wagner (2011) .

Нарешті, в основному тексті я описав, як оцінювач різниці в відмінності, який, як правило, використовується в змішаному дизайні, може призвести до меншої дисперсії, ніж оцінювач різниці в оцінці, який зазвичай використовується у міжфами дизайн Якщо \(X_i\) - значення результату до обробки, то величина, яку ми намагаємося оцінити з підходом різниці в різницях:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

Стандартна похибка цієї кількості (див. Gerber and Green (2012) , екв. 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

Порівняння екв. 4.6 і екв. 4.8 показує, що підхід різниці між різноманіттям матиме меншу стандартну помилку, коли (див. Gerber and Green (2012) , екв. 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

Приблизно, коли \(X_i\) дуже прогнозує \(Y_i(1)\) та \(Y_i(0)\) , то ви можете отримати більш точні оцінки за підходом різниці різниць, ніж від різниці, щось означає. Один із способів думати про це в контексті експерименту з Restivo та van de Rijt полягає в тому, що існує велика кількість природних змін у кількості, яку люди відредагують, тому це ускладнює порівняння умов лікування та контролю: важко виявити відносний невеликий ефект в шумних даних результатів. Але якщо ви зміните цю природну мінливість, то існує значно менша мінливість, що спрощує виявлення невеликого ефекту.

Див. Frison and Pocock (1992) для точного порівняння різниці між різними засобами, різницею різниць та підходами на базі ANCOVA в більш загальних умовах, коли є декілька вимірювань доопераційної та післяопераційної. Зокрема, вони настійно рекомендують ANCOVA, які я тут не охоплював. Далі, див. McKenzie (2012) для обговорення важливості кількох вимірів після лікування.