Matemaattiset huomautukset

Mielestäni paras tapa ymmärtää kokeita on potentiaalinen tuloskehys (jota käsittelin luvun 2 matemaattisissa muistiinpanoissa). Mahdollisten tulosten puitteissa on läheiset suhteet suunnittelupohjaisen näytteenoton ideoihin, joita kuvasin luvussa 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) luku (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Tämä liite on kirjoitettu siten, että se korostaa tätä yhteyttä. Tämä painotus on hieman epälineaarinen, mutta mielestäni näytteenoton ja kokeiden välinen yhteys on hyödyllinen: se tarkoittaa, että jos tiedät näytteenotosta, tiedät jotain kokeista ja päinvastoin. Kuten näissä muistiinpanoissa esitän, potentiaalisten tulosten puitteissa paljastetaan satunnaistettujen kontrolloitujen kokeiden vahvuus kausaalisten vaikutusten arvioimiseksi ja se osoittaa rajoitukset siitä, mitä voidaan tehdä jopa täysin toteutetuilla kokeilla.

Tässä liitteessä kuvataan potentiaalisten tulosten kehystä, kopioimalla osaa materiaalista luvusta 2 olevista matemaattisista muistiinpanoista, jotta nämä toteuudet saataisiin itsenäisemmiksi. Sitten esitän joitain hyödyllisiä tuloksia keskimääräisten hoitovaikutusten arvioiden tarkkuudesta, mukaan lukien keskustelu optimaalisesta kohdentamisesta ja eroero-estimaattoreista. Tämä liite kiinnittyy voimakkaasti Gerber and Green (2012) .

Mahdolliset tulostavoitteet

Jotta voitaisiin havainnollistaa potentiaalisia tuloksia, palataan Restivon ja van de Rijtin kokeiluun, jotta voidaan arvioida Barnstarin vastaanoton vaikutusta tuleviin Wikipedia-maksuihin. Mahdollisten tulosten puitteissa on kolme pääosaa: yksiköt , hoidot ja mahdolliset tulokset . Restivon ja van de Rijtin tapauksessa yksiköt ansaitsivat toimittajat - ne, jotka olivat 1%: n avustajista - jotka eivät olleet vielä saaneet barnstaria. Voimme indeksoida nämä toimittajat \(i = 1 \ldots N\) . Kokeilun hoito oli "barnstar" tai "ei barnstar" ja kirjoitan \(W_i = 1\) jos henkilö \(i\) on hoitotilassa ja \(W_i = 0\) muuten. Mahdollisten tulosten kehyksen kolmas osa on tärkein: mahdolliset tulokset . Nämä ovat hieman käsitteellisempää, koska niissä on "mahdollisia" tuloksia - asioita, joita voisi tapahtua. Jokaiselle Wikipedian editorille voidaan kuvitella, kuinka monta muokkausta hän tekisi hoidon ehdossa ( \(Y_i(1)\) ) ja numeron, jonka hän tekisi valvontaolosuhteissa ( \(Y_i(0)\) ).

Huomaa, että tämä yksiköiden, hoitojen ja tulosten valinta määrittää, mitä tästä kokeesta voidaan oppia. Esimerkiksi ilman muita oletuksia, Restivo ja van de Rijt eivät voi sanoa mitään vaikutuksista barnstars kaikki Wikipedia-toimittajien tai tuloksia, kuten muokkaus laatua. Yleensä yksiköiden, hoitojen ja tulosten valinnan on perustuttava tutkimuksen tavoitteisiin.

Kun otetaan huomioon nämä potentiaaliset tulokset, jotka on esitetty yhteenvetona taulukossa 4.5, voidaan määritellä hoidon ihmiselle aiheutuva syy-vaikutus \(i\)

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

Minulle tämä yhtälö on selkein tapa määritellä kausaalivaikutus, ja vaikka se on äärimmäisen yksinkertainen, tämä kehys osoittautuu yleistyviksi monilla tärkeillä ja mielenkiintoisilla tavoilla (Imbens and Rubin 2015) .

Taulukko 4.5: Mahdollisten tulosten taulukko
Henkilö Muokkaa hoito-olosuhteissa Muokkaukset ohjaustilanteessa Hoidon vaikutus
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
tarkoittaa \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Jos määrittelemme kausittaisuuden tällä tavalla, kuitenkin törmäämme ongelmaan. Lähes kaikissa tapauksissa emme saa tarkkailla molempia potentiaalisia tuloksia. Toisin sanoen, erityinen Wikipedia-editori joko sai barnstarin tai ei. Siksi havaitsemme yhden mahdollisista tuloksista - \(Y_i(1)\) tai \(Y_i(0)\) mutta ei molempia. Epäonnistuminen molempien potentiaalisten tulosten havaitsemiseen on niin suuri ongelma, että Holland (1986) kutsui sitä syy- seurausten perusongelmaksi.

Onneksi, kun teemme tutkimusta, meillä ei ole vain yhtä henkilöä, meillä on monia ihmisiä, ja tämä tarjoaa keinon syy-seuraamuksen perusongelman ympärille. Yksittäisen tason hoidon vaikutuksen arvioimisen sijasta voimme arvioida keskimääräisen hoidon vaikutuksen:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Tätä ilmaistaan ​​edelleen \(\tau_i\) jotka eivät ole havaittavissa, mutta joidenkin algebran (Ew 2.8: Gerber and Green (2012) ) saamme

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

Yhtälö 4.3 osoittaa, että jos voimme arvioida väestön keskimääräinen tulos hoidon aikana ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) ja väestön keskimääräinen tulos hallinnassa ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), voimme arvioida keskimääräisen hoidon vaikutuksen jopa arvioimatta jonkun tietyn henkilön hoitovaikutusta.

Nyt kun olen määritellyt arviointimme - mitä yritämme arvioida - käsittelen sitä, miten voimme itse arvioida sen tietoja. Haluan miettiä tätä arviointisensitiota näytteenottoongelmana (ajattele takaisin luvun 3 matemaattisiin muistiinpanoihin). Kuvittele, että satunnaisesti valitsimme jonkun ihmisen tarkkailemaan hoitotilaa ja satunnaisesti valitsimme jonkun ihmisen tarkkailemaan valvontaolosuhteissa, minkä jälkeen voimme arvioida keskimääräisen tuloksen kussakin kunnossa:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

missä \(N_t\) ja \(N_c\) ovat ihmisten lukumäärät hoidon ja valvonnan olosuhteissa. Yhtälö 4.4 on estimoijaerotus. Näytteenottosuunnittelun takia tiedämme, että ensimmäinen termi on puolueeton estimaatti keskimääräisen hoidon tuloksen kannalta ja toinen termi on puolueeton estimaattori, jota hallitaan.

Toinen tapa harkita satunnaistamisen mahdollistavuutta on se, että se varmistaa, että vertailu hoito- ja kontrolliryhmistä on tasapuolista, koska satunnaisuus varmistaa, että nämä kaksi ryhmää muistuttavat toisiaan. Tämä samanlaisuus koskee mitattuja asioita (sano muokkausten määrä 30 päivää ennen kokeilua) ja asioita, joita emme ole mitattaneet (sano sukupuoli). Tämä kyky varmistaa tasapaino molempien noudatetaan ja huomaamatta tekijöistä on kriittinen. Kuvitella, että tulevassa tutkimuksessa todetaan, että miehet vastaavat paremmin palkintoihin kuin naiset. Olisiko tämä mitätöisi Restivon ja van de Rijtin kokeilun tulokset? Satunnaistamalla varmistettiin, että kaikki havaitut kohteet olisivat tasapainossa, odotettavissa. Tämä suoja tuntematonta vastaan ​​on erittäin voimakas, ja se on tärkeä tapa, että kokeilut eroavat toisessa luvussa kuvatuista ei-kokeellisista tekniikoista.

Koko väestön hoitovaikutuksen määrittelyn lisäksi on mahdollista määritellä hoidon vaikutus ihmisen osajoukolle. Tätä kutsutaan tyypillisesti ehdolliseksi keskimääräiseksi hoidon vaikutukseksi (CATE). Esimerkiksi Restivon ja van de \(X_i\) kuvitellaan, että \(X_i\) on se, onko editori ylittänyt tai alle \(X_i\) muokkausnumeron 90 päivän aikana ennen kokeilua. Voidaan laskea hoitovaikutus erikseen näille kevyille ja raskaille toimittajille.

Mahdolliset tuloskehys on tehokas tapa ajatella syy-seurauksia ja kokeita. On kuitenkin kaksi lisäkompleksia, jotka sinun kannattaa pitää mielessä. Nämä kaksi monimutkaisuutta usein pudota yhteen termillä Stable Unit Treatment Value Assumption (SUTVA). SUTVA: n ensimmäinen osa on oletus, että ainoa asia, joka merkitsee henkilön \(i\) tulosta, on se, onko kyseinen henkilö hoidossa tai valvonnassa. Toisin sanoen, oletetaan, että henkilö \(i\) ei vaikuttanut kohteluun muihin ihmisiin. Tätä kutsutaan joskus "ilman häiriöitä" tai "ei spillovia", ja se voidaan kirjoittaa seuraavasti:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

jossa \(\mathbf{W_{-i}}\) on kaikkien tilojen hoitotilojen vektori paitsi henkilö \(i\) . Yksi tapa, jolla tätä voidaan rikkoa, on, jos hoito yhdeltä henkilöltä päätyy toiseen henkilöön joko positiivisesti tai negatiivisesti. Palataksesi Restivo- ja van de Rijtin kokeiluun, kuvitelkaa kaksi kaveria \(i\) ja \(j\) ja että henkilö \(i\) saa barnstarin ja \(j\) ei. Jos \(i\) vastaanottaa barnstar aiheuttaa \(j\) muokata enemmän (pois kilpailun tunteen) tai muokata vähemmän (epätoivon tunne), niin SUTVAa on rikottu. Sitä voi myös loukata, jos hoidon vaikutus riippuu muiden hoidossa olevien ihmisten kokonaismäärästä. Esimerkiksi, jos Restivo ja van de Rijt olivat antaneet 1000 tai 10 000 barnstarsia 100: n sijaan, tämä olisi voinut vaikuttaa barnstarin vastaanottamiseen.

Toinen kysymys, joka kertyy SUTVA: han, on oletus siitä, että ainoa asiaankuuluva kohtelu on se, jota tutkija toimittaa; tätä oletusta kutsutaan joskus piilomuutoksiin tai sulkemattomuudeksi . Esimerkiksi Restivossa ja van de Rijtissä olisi voinut olla, että antamalla barnstarille tutkijat saivat editorit näkyviin suosittujen editorien sivuilla ja että se oli suosittujen editorien sivulla, eikä saanut barnstar- joka aiheutti muutoksen muokkaustoiminnassa. Jos tämä on totta, niin barnstarin vaikutus ei voi erottaa suosittujen editorien sivuvaikutuksista. Tietenkään ei ole selvää, mikä olisi tieteellisestä näkökulmasta katsottava houkuttelevaksi tai houkuttelevaksi. Eli voit kuvitella tutkijan, joka sanoo, että barnstarin vastaanottaminen sisältää kaikki myöhemmät hoidot, joita barnstar laukaisee. Tai voitte kuvitella tilanteen, jossa tutkimus haluaisi eristää barnstarsin vaikutuksen kaikista näistä muista asioista. Yksi tapa ajatella sitä on kysyä, onko mitään, mikä johtaa siihen, mitä Gerber and Green (2012) (s. 41) kutsuvat "symmetrian hajoamiseen"? Toisin sanoen, onko muutakin kuin hoitoa, joka aiheuttaa ihmisille hoidon ja valvonnan olosuhteiden erilaista kohtelua? Symmetrian rikkoontumiseen liittyvät huolenaiheet ovat se, mitä lääketieteellisissä kokeissa olevalle kontrolliryhmän potilaalle tehdään lumelääkettä. Näin tutkijat voivat olla varmoja siitä, että näiden kahden ehdon ainoa ero on todellinen lääke eikä kokemus pillerin ottamisesta.

Lisätietoja SUTVA: sta on Gerber and Green (2012) 2.7 kohdassa, Morgan and Winship (2014) , kohta 2.5 ja Imbens and Rubin (2015) kohta 1.6.

tarkkuus

Edellisessä osassa kuvasin miten arvioida keskimääräinen hoitovaikutus. Tässä osiossa esitän joitain käsityksiä näiden arvioiden vaihtelusta.

Jos ajattelet keskimääräisen hoidon vaikutuksen arvioimista kahden näytteenoton välisen eron arvioimiseksi, on mahdollista osoittaa, että keskimääräisen hoidon vaikutuksen standardivirhe on:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

jossa \(m\) ihmisiä hoidetaan ja \(Nm\) hallita (ks. Gerber and Green (2012) , 3.4). Näin ollen, kun ajatellaan, kuinka monta ihmistä hoidettavaksi ja kuinka monta on määrä hallita, näet, että jos \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , niin haluat \(m \approx N / 2\) , niin kauan kuin käsittely- ja kontrollikustannukset ovat samat. Yhtälöstä 4.6 selvennetään, miksi Bond ja kollegoiden (2012) kokeilu sosiaalisten tietojen vaikutuksista äänestykseen (kuva 4.18) oli tehoton tilastollisesti. Muistathan, että hoidossa oli 98% osallistujista. Tämä tarkoitti sitä, että keskimääräistä käyttäytymistä kontrolliolosuhteissa ei arvioitu yhtä tarkasti kuin se olisi voinut olla, mikä puolestaan ​​merkitsi sitä, että arvioitua eroa hoidon ja valvonnan tilan välillä ei arvioitu yhtä tarkasti kuin se voisi olla. Lisätietoja osallistujien optimaalisesta jakautumisesta ehtoihin, myös silloin, kun kustannukset eroavat toisistaan, katso List, Sadoff, and Wagner (2011) .

Lopuksi päätekstissä kuvasin, miten ero-ero-estimaattori, jota tyypillisesti käytetään sekarakenteessa, voi johtaa pienempiin variansseihin kuin ero-estimaattori, jota käytetään tyypillisesti välissä olevien henkilöiden välillä design. Jos \(X_i\) on tuloksen arvo ennen käsittelyä, niin määrin, jota yritämme arvioida \(X_i\) -lähestymistavalla on:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

Tämän määrän standardivirhe on (katso Gerber and Green (2012) , 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

Vertailu ekv. 4.6 ja ekv. 4.8 käy ilmi, että eroero-lähestymistavalla on pienempi vakiovirhe, kun (katso Gerber and Green (2012) , 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

Noin, kun \(X_i\) on hyvin ennustava \(Y_i(1)\) ja \(Y_i(0)\) , voit saada tarkempia arvioita different-of-difference-lähestymistavasta kuin ero- tarkoittaa yhtä. Eräs tapa ajatella tätä Restiven ja van de Rijtin kokeessa on se, että ihmiset muokkaavat paljon luonnollista vaihtelua, joten tämä vaikeuttaa hoidon ja valvonnan olosuhteiden vertaamista: on vaikea havaita sukulaisen pieni vaikutus meluisiin tuloksiin. Mutta jos eroaat tämän luonnollisesti esiintyvän vaihtelevuuden, silloin on paljon vähemmän vaihtelevuutta, ja se helpottaa pienen vaikutuksen havaitsemista.

Katso Frison and Pocock (1992) erojen ero, eroeroista ja ANCOVA-pohjaisista lähestymistavoista tarkkaan vertailuun yleisemmällä tasolla, jossa on useita mittauksia esikäsittelyä ja jälkikäsittelyä. Erityisesti he suosittelevat voimakkaasti ANCOVAa, jota en ole käsitellyt täällä. Lisäksi ks. McKenzie (2012) , jossa keskustellaan usean hoidon jälkeisen lopputuloksen tärkeydestä.