Математички белешки

Мислам дека најдобриот начин за разбирање на експериментите е рамката за потенцијални исходи (за кои дискутирав во математичките белешки во глава 2). Рамката за потенцијални исходи има блиски врски со идеите од земање мостри базирани на дизајн, кои ги опишав во поглавјето 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Овој додаток е напишан на таков начин што ја нагласува таа поврзаност. Овој акцент е малку нетрадиционален, но мислам дека врската помеѓу примероците и експериментите е корисна: тоа значи дека ако знаете нешто за земање мостри, тогаш знаете нешто за експериментите и обратно. Како што ќе покажам во овие забелешки, рамката за потенцијални исходи открива силата на рандомизирани контролирани експерименти за проценка на каузалните ефекти, и ги покажува ограничувањата на она што може да се направи со дури совршено извршените експерименти.

Во овој прилог, ќе ја опишам рамката за потенцијални исходи, дуплирајќи дел од материјалот од математичките белешки во поглавје 2, со цел да ги направат овие белешки автономни. Тогаш ќе ги опишам некои корисни резултати за прецизноста на проценките за просечните ефекти на третманот, вклучително и дискусија за оптимални распределби и проценки за разлики во разлики. Овој додаток во голема мера се потпира на Gerber and Green (2012) .

Потенцијални резултати

Со цел да ја илустрираме рамката за можни исходи, да се вратиме на експериментот Restivo и van de Rijt за да го процениме ефектот од добивањето на Barnstar на идните придонеси кон Википедија. Рамката за потенцијални исходи има три главни елементи: единици , третмани и потенцијални исходи . Во случајот на Restivo и van de Rijt, единиците заслужуваат уредници - оние во првите 1% од соработниците - кои сè уште не добиле Barnstar. Ние можеме да ги индексираме овие уредници со \(i = 1 \ldots N\) . Третманите во нивниот експеримент беа "Барнстар" или "Не Барнстар", и јас ќе напишам \(W_i = 1\) ако лицето \(i\) е во третирана состојба и \(W_i = 0\) . Третиот елемент од рамката за потенцијални исходи е најважен: потенцијалните резултати . Овие се малку повеќе концептуално тешки, бидејќи тие вклучуваат "потенцијални" резултати - работи кои би можеле да се случат. За секој уредник на Википедија може да се замисли бројот на промени што ќе ги направи во условите за лекување ( \(Y_i(1)\) ) и бројот што ќе ја направи во контролната состојба ( \(Y_i(0)\) ).

Имајте на ум дека овој избор на единици, третмани и резултати дефинира што може да се научи од овој експеримент. На пример, без дополнителни претпоставки, Restivo и van de Rijt не можат да кажат ништо за ефектите на barnstars на сите уредници на Википедија или на резултатите како што се квалитетот на уредување. Општо земено, изборот на единици, третмани и резултати мора да се базира на целите на студијата.

Со оглед на овие потенцијални резултати - кои се сумирани во табела 4.5 - може да се дефинира причинскиот ефект на третманот за лицето \(i\) како

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

За мене, оваа равенка е најјасен начин да се дефинира причинско-последичниот ефект и, иако многу едноставно, оваа рамка се претвора во генерализирана на многу важни и интересни начини (Imbens and Rubin 2015) .

Табела 4.5: Табела на потенцијални резултати
Лице Уредувања во третман состојба Уредувања во контролна состојба Ефект на третман
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
значи \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Меѓутоа, ако на овој начин ја дефинираме каузалноста, наидовме на проблем. Во речиси сите случаи, не можеме да ги набљудуваме и потенцијалните резултати. Тоа е, одреден уредник на Википедија или добил Barnstar или не. Затоа, ние го набљудуваме еден од потенцијалните исходи - \(Y_i(1)\) или \(Y_i(0)\) - но не и двете. Неможноста да се набљудуваат и потенцијалните исходи е толку голем проблем што го нарече Holland (1986) како фундаментален проблем на причинско заклучување .

За среќа, кога правиме истражувања, немаме само една личност, имаме многу луѓе, а тоа нуди начин околу основниот проблем на причинско заклучување. Наместо да се обидуваме да го процениме ефектот на третманот на индивидуално ниво, можеме да го процениме ефектот на просечен третман:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Ова се уште е изразено во однос на \(\tau_i\) кои не се гледаат, но со некоја алгебра (Eq 2.8 од Gerber and Green (2012) ) добиваме

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

Равенката 4.3 покажува дека ако можеме да го процениме популациониот просечен исход под третманот ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) и просечниот исход на популацијата под контрола ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), тогаш можеме да го процениме просечниот ефект на третманот, дури и без да го процениме ефектот на третман за некое одредено лице.

Сега кога ги дефиниравме нашите проценки - она ​​за што се обидуваме да ги процениме - ќе се свртам кон тоа како можеме да го процениме со податоци. Сакам да размислам за овој предизвик за проценка како проблем за земање примероци (размислете на математичките белешки во глава 3). Замислете дека ние случајно ги одбираме некои луѓе да ги набљудуваат условите за третман и ние случајно ги одбираме некои луѓе да ги набљудуваат во контролната состојба, тогаш можеме да го процениме просечниот исход во секоја состојба:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

каде што \(N_t\) и \(N_c\) се број на луѓе во третманот и контролните услови. Равенка 4.4 е пресметувач на разлики. Поради дизајнот на земање примероци, знаеме дека првиот термин е непристрасен проценител за просечниот исход под третман, а вториот термин е непристрасен проценувач под контрола.

Друг начин да се размисли за тоа што овозможува рандомизацијата е тоа што обезбедува дека споредбата помеѓу третманот и контролните групи е праведна бидејќи рандомизацијата осигурува дека двете групи ќе личат еден на друг. Оваа сличност има за нештата што ги мериме (кажете го бројот на промени во 30 дена пред експериментот) и нештата што не ги измеривме (кажете полот). Оваа способност да се обезбеди рамнотежа и на набљудуваните и на незабележаните фактори е критична. За да ја видите моќта на автоматско балансирање на неодредени фактори, да претпоставиме дека идните истражувања откриваат дека мажите се поотворени на награди отколку жените. Дали тоа ќе ги оневозможи резултатите од експериментот на Острови и Ван де Рит? Не. Со рандомизирање, тие осигуруваа дека сите непроменливи ќе бидат избалансирани, во очекување. Оваа заштита од непознатото е многу моќна, и тоа е важен начин на кој експериментите се различни од не-експерименталните техники опишани во поглавјето 2.

Покрај дефинирањето на ефектот на третман за цела популација, можно е да се дефинира ефект на третман за подмножество на луѓе. Ова обично се нарекува условно средно ефект на третман (CATE). На пример, во студијата на Restivo и van de Rijt, да замислиме дека \(X_i\) е дали уредникот бил над или под средниот број на промени во текот на 90 дена пред експериментот. Може да се пресмета ефектот на третманот одделно за овие лесни и тешки уредници.

Рамката за потенцијални резултати е моќен начин да се размислува за причинско-последичните заклучоци и експерименти. Сепак, постојат две дополнителни комплексности кои треба да ги имате на ум. Овие две комплексности честопати се спојуваат под терминот Устава за стабилна вредност на третманот (SUTVA). Првиот дел од SUTVA е претпоставката дека единственото нешто што е важно за исходот на лицето \(i\) е дали лицето било во третирана или контролна состојба. Со други зборови, се претпоставува дека лицето \(i\) не е под влијание на третманот даден на други лица. Ова понекогаш се нарекува "без мешање" или "без прелевање", и може да се напише како:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

каде \(\mathbf{W_{-i}}\) е вектор на статуси за третирање за сите, освен лицето \(i\) . Еден начин на кој може да се прекрши ова е ако третманот од една личност прелева врз друго лице, било позитивно или негативно. Враќајќи се во експериментот Restivo и van de Rijt, замислете двајца пријатели \(i\) и \(j\) и таа личност \(i\) добива Barnstar и \(j\) не. Ако \(i\) добивањето на Barnstar предизвикува \(j\) да се уреди повеќе (надвор од чувството на конкуренција) или да се уреди помалку (од чувство на очај), тогаш SUTVA е повредено. Исто така може да се прекрши ако влијанието на третманот зависи од вкупниот број на други лица кои примаат третман. На пример, ако Restivo и van de Rijt дадоа 1.000 или 10.000 барерштари наместо 100, ова може да влијае на ефектот од добивањето на Barnstar.

Второто прашање заклучено во СУТВА е претпоставката дека единствен релевантен третман е оној што го дава истражувачот; оваа претпоставка понекогаш се нарекува и скриени третмани или исклучување . На пример, во Restivo и van de Rijt, тоа може да биде случај дека со давање на Barnstar истражувачите предизвика уредниците да се појавуваат на популарната страница за уредници и дека тоа е на страницата на популарните уредници, наместо да прими барнстар- што предизвика промена во уредувачкото однесување. Ако ова е точно, тогаш ефектот на Barnstar не може да се разликува од ефектот да се биде на страницата на популарните уредници. Се разбира, не е јасно дали, од научна гледна точка, ова треба да се смета за привлечно или непривлечно. Тоа е, можете да замислите истражувач велејќи дека ефектот на добивањето на Barnstar ги вклучува сите последователни третмани кои ги предизвикува Барнстар. Или можете да замислите ситуација во која истражувањето би сакало да го изолира ефектот на barnstars од сите овие други работи. Еден начин да се размисли за тоа е да се праша дали има нешто што води до она што Gerber and Green (2012) (стр. 41) го нарекуваат "дефект во симетријата"? Со други зборови, дали има нешто друго освен третманот што ги тера луѓето во третманот и контролните услови да се третираат поинаку? Загриженоста за кршење на симетријата е она што ги доведе пациентите во контролната група во медицинските испитувања да земат плацебо пилули. На тој начин, истражувачите можат да бидат сигурни дека единствената разлика меѓу двата услови е вистинскиот лек, а не искуството на земање на пилулата.

За повеќе информации за SUTVA, види дел 2.7 од Gerber and Green (2012) , дел 2.5 од Morgan and Winship (2014) , и дел 1.6 од Imbens and Rubin (2015) .

Прецизност

Во претходниот дел, јас опишав како да го проценам просечниот ефект на третман. Во овој дел, ќе дадам некои идеи за варијабилноста на тие проценки.

Ако размислите за проценка на просечниот ефект на третман како проценување на разликата помеѓу две примероци, тогаш можно е да се покаже дека стандардната грешка на просечниот ефект на третман е:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

каде што \(m\) луѓе се назначени за лекување и \(Nm\) за контрола (види Gerber and Green (2012) , пример 3.4). Така, кога размислувате за тоа колку луѓе да му дадат на лекувањето и колку да ги доделите за контрола, можете да видите дека ако \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , тогаш сакате \(m \approx N / 2\) , се додека трошоците за третман и контрола се исти. Равенка 4.6 појаснува зошто дизајнот на експериментот на Бонд и колегите (2012) за ефектите од социјалните информации за гласањето (слика 4.18) беше статистички неефикасен. Потсетете се дека има 98% од учесниците во третманот. Ова значеше дека просечното однесување во контролната состојба не беше проценето точно како што можеше, што пак значеше дека проценетата разлика помеѓу условите за лекување и контрола не беше проценета колку што е точно. За повеќе информации за оптимална распределба на учесниците на условите, вклучително и кога трошоците се разликуваат помеѓу условите, видете List, Sadoff, and Wagner (2011) .

Конечно, во главниот текст, јас опишав како проценувачот на разлики во разлики, кој обично се користи во мешан дизајн, може да доведе до помала варијанса отколку пресметка разликата во средство, која обично се користи во меѓу-субјекти дизајн. Ако \(X_i\) е вредноста на исходот пред третманот, тогаш количината која се обидуваме да ја процениме со пристапот разлики-разлики е:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

Стандардната грешка на таа количина е (види Gerber and Green (2012) , на пример, 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

Споредба на eq. 4.6 и eq. 4.8 открива дека пристапот разлики-разлики ќе има помала стандардна грешка кога (види Gerber and Green (2012) , екпл. 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

Грубо, кога \(X_i\) е многу предвидливо за \(Y_i(1)\) и \(Y_i(0)\) , тогаш можете да добиете попрецизни проценки од пристапот разлики на разлики отколку од \(Y_i(0)\) значи еден. Еден начин да се размислува за ова во контекст на експериментот Restivo и van de Rijt е дека има многу природни варијации во износот што луѓето го уредуваат, така што ова го отежнува споредувањето на условите за третман и контрола: тешко е да се детектира роднина мал ефект во бучните резултати од исходот. Но, ако ја разликувате оваа природна променливост, тогаш има многу помалку варијабилност, а тоа го олеснува откривањето на мал ефект.

Види Frison and Pocock (1992) за прецизна споредба на разликите на разликите, разликите помеѓу разликите и пристапите базирани на ANCOVA во поопштата околина каде што има повеќе мерења пред-третман и пост-третман. Особено, тие силно препорачуваат ANCOVA, што не сум го покрил овде. Понатаму, види McKenzie (2012) за дискусија за важноста на повеќекратните мерки за исцелување после третманот.