Matematiske notater

Jeg tror den beste måten å forstå eksperimenter på er det potensielle utfallsrammen (som jeg diskuterte i de matematiske notatene i kapittel 2). Det potensielle rammevilkårene har et nært forhold til ideene fra (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) prøvetaking som jeg beskrev i kapittel 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Dette vedlegget er skrevet på en slik måte at den legger vekt på denne sammenhengen. Denne vekten er litt ikke-tradisjonell, men jeg tror at sammenhengen mellom prøvetaking og eksperimenter er nyttig: det betyr at hvis du vet noe om prøvetaking, vet du noe om eksperimenter og omvendt. Som jeg vil vise i disse notatene, viser potensielle rammevilkår styrken til randomiserte, kontrollerte eksperimenter for estimering av årsaksvirkninger, og det viser begrensningene til hva som kan gjøres med selv perfekt utførte eksperimenter.

I dette vedlegget vil jeg beskrive det potensielle rammevilkårene, og duplisere noe av materialet fra de matematiske notatene i kapittel 2 for å gjøre disse notatene mer selvstendige. Deretter skal jeg beskrive noen nyttige resultater om presisjonen av estimater av de gjennomsnittlige behandlingseffekter, inkludert en diskusjon av optimale fordelings- og differanse-i-forskjeller estimatorer. Dette vedlegget legger stor vekt på Gerber and Green (2012) .

Potensielt utfallsramme

For å illustrere potensielle rammebetingelser, la oss gå tilbake til Restivo og van de Rijts eksperiment for å estimere effekten av å motta en barnstjerne på fremtidige bidrag til Wikipedia. Det potensielle rammen for utfallet har tre hovedelementer: enheter , behandlinger og potensielle utfall . I tilfelle av Restivo og van de Rijt var enhetene fortjener redaktører-de i de øverste 1% av bidragsyterne - som ennå ikke hadde mottatt en barnstjerne. Vi kan indeksere disse redaktørene med \(i = 1 \ldots N\) . Behandlingene i eksperimentet var "barnstar" eller "ingen barnstjerne", og jeg vil skrive \(W_i = 1\) hvis personen \(i\) er i behandlingsbetingelsen og \(W_i = 0\) ellers. Det tredje elementet i det potensielle rammevilkårene er det viktigste: de potensielle resultatene . Disse er litt mer konseptuelt vanskelige fordi de involverer "potensielle" resultater - ting som kan skje. For hver Wikipedia-editor kan man forestille seg antall redigeringer som hun ville gjøre i behandlingstilstanden ( \(Y_i(1)\) ) og tallet som hun ville gjøre i kontrolltilstanden ( \(Y_i(0)\) ).

Merk at dette valget av enheter, behandlinger og utfall definerer hva som kan læres av dette eksperimentet. For eksempel, uten ytterligere forutsetninger, kan Restivo og van de Rijt ikke si noe om effekten av barnstars på alle Wikipedia-redaktører eller på resultater som redigeringskvalitet. Generelt må valget av enheter, behandlinger og utfall baseres på målene for studien.

Gitt disse potensielle utfallene, som er oppsummert i tabell 4.5, kan man definere årsakseffekten av behandlingen for person \(i\) som

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

For meg er denne ligningen den klareste måten å definere en årsakssammenheng på, og selv om det er ekstremt enkelt, viser dette rammen seg å generaliseres på mange viktige og interessante måter (Imbens and Rubin 2015) .

Tabell 4.5: Tabell over potensielle resultater
Person Endringer i behandlingsbetingelser Endringer i kontrolltilstand Behandlingseffekt
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
mener \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Hvis vi definerer kausalitet på denne måten, løper vi imidlertid inn i et problem. I nesten alle tilfeller får vi ikke observere begge potensielle utfall. Det vil si, en bestemt Wikipedia-redaktør mottok enten en barnstjerne eller ikke. Derfor observerer vi et av de potensielle resultatene - \(Y_i(1)\) eller \(Y_i(0)\) - men ikke begge. Manglende evne til å observere begge potensielle utfall er et så stort problem at Holland (1986) kalte det grunnleggende problemet med årsakssammenheng .

Heldigvis, når vi forsker, har vi ikke bare en person, vi har mange mennesker, og dette gir en vei rundt det grunnleggende problemet med årsakssammenheng. I stedet for å prøve å estimere behandlingseffekten på individnivå, kan vi estimere gjennomsnittlig behandlingseffekt:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Dette er fremdeles uttrykt i forhold til \(\tau_i\) som ikke kan observeres, men med noe algebra (Eq 2.8 av Gerber and Green (2012) ) får vi

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

Ligning 4.3 viser at hvis vi kan estimere populasjons gjennomsnittlig utfall under behandling ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) og populasjons gjennomsnittlig utfall under kontroll ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), da kan vi anslå den gjennomsnittlige behandlingseffekten, selv uten å estimere behandlingseffekten for en bestemt person.

Nå som jeg har definert vår estimat - den tingen vi prøver å estimere - jeg snakker om hvordan vi faktisk kan estimere det med data. Jeg liker å tenke på denne estimeringsutfordringen som et utvalgsproblem (tenk tilbake til de matematiske notatene i kapittel 3). Tenk deg at vi tilfeldigvis velger noen mennesker å observere i behandlingsbetingelsen og vi tilfeldigvis velger noen mennesker å observere i kontrolltilstanden, da kan vi estimere gjennomsnittlig utfall i hver tilstand:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

hvor \(N_t\) og \(N_c\) er antall personer i behandlings- og kontrollforholdene. Ligning 4.4 er en differanse-av-middel estimator. På grunn av prøvetakingsdesign vet vi at første termen er en objektiv estimator for gjennomsnittlig utfall under behandling, og den andre termen er en objektiv estimator under kontroll.

En annen måte å tenke på hva randomisering muliggjør er at det sikrer at sammenligningen mellom behandlings- og kontrollgrupper er rettferdig fordi randomisering sikrer at de to gruppene vil ligne hverandre. Denne likningen holder for ting vi har målt (si antall redigeringer i 30 dager før forsøket) og de tingene vi ikke har målt (si kjønn). Denne evnen til å sikre balanse på både observerte og observerte faktorer er kritisk. For å se kraften i automatisk balansering på uobserverte faktorer, la oss forestille oss at fremtidig forskning finner at menn er mer lydhør over priser enn kvinner. Vil det ugyldiggjøre resultatene av Restivo og van de Rijts eksperiment? Nei. Ved randomisering sørget de for at alle unobservables ville være balansert, i forventning. Denne beskyttelsen mot det ukjente er veldig kraftig, og det er en viktig måte at eksperimenter er forskjellige fra de ikke-eksperimentelle teknikkene beskrevet i kapittel 2.

I tillegg til å definere behandlingseffekten for en hel befolkning, er det mulig å definere en behandlingseffekt for en delmengde av mennesker. Dette kalles vanligvis en betinget gjennomsnittlig behandlingseffekt (CATE). For eksempel, i studien av Restivo og van de Rijt, la oss forestille oss at \(X_i\) er om redaktøren var over eller under median antall redigeringer i løpet av 90 dager før forsøket. Man kunne beregne behandlingseffekten separat for disse lyse og tunge redaktørene.

Det potensielle rammemålet er en kraftig måte å tenke på årsakssammenheng og eksperimenter. Det er imidlertid to ekstra kompleksiteter som du bør huske på. Disse to kompleksitetene klumpes ofte sammen under termen Stabil Unit Treatment Value Assumption (SUTVA). Den første delen av SUTVA er den antagelse at det eneste som er viktig for personen \(i\) 's resultat er om at personen var i behandling eller kontroll tilstand. Med andre ord antas det at personen \(i\) ikke påvirkes av behandlingen gitt til andre mennesker. Dette kalles noen ganger "ingen forstyrrelser" eller "ingen spilloverskridelser", og kan skrives som:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

hvor \(\mathbf{W_{-i}}\) er en vektor av behandlingsstatuser for alle unntatt person \(i\) . En måte at dette kan bli brutt, er om behandlingen fra en person spyller over på en annen person, enten positivt eller negativt. Tilbake til Restivo og van de Rijts eksperiment, tenk på to venner \(i\) og \(j\) og den personen \(i\) mottar en barnstar og \(j\) gjør det ikke. Hvis \(i\) mottar barnstjerne forårsaker \(j\) å redigere mer (uten konkurranse) eller redigere mindre (ut av en følelse av fortvilelse), har SUTVA blitt brutt. Det kan også bli brutt hvis virkningen av behandlingen avhenger av det totale antall andre som mottar behandlingen. For eksempel, hvis Restivo og van de Rijt hadde gitt ut 1000 eller 10.000 barnestars i stedet for 100, kan dette ha påvirket effekten av å motta en barnstjerne.

Det andre problemet klumpet i SUTVA er antakelsen om at den eneste aktuelle behandlingen er den som forskeren leverer; Denne antagelsen kalles noen ganger ingen skjulte behandlinger eller ekskluderbarhet . For eksempel i Restivo og van de Rijt kunne det ha vært tilfelle at ved å gi en barnestjerne, forårsaket forskerne at redaktører skulle bli omtalt på en populær redaksjonsside, og at den var på den populære redaktør siden - i stedet for å få en barnstar- som forårsaket endringen i redigeringsadferd. Hvis dette er sant, er effekten av barnstjernen ikke forskjellig fra effekten av å være på den populære redaktørsiden. Det er selvsagt ikke klart om dette fra et vitenskapelig perspektiv bør anses som attraktivt eller uattraktivt. Det vil si at du kan tenke deg en forsker som sier at effekten av å motta en barnstjerne inkluderer alle etterfølgende behandlinger som barnestolen utløser. Eller du kan forestille deg en situasjon der en undersøkelse vil isolere effekten av barnstars fra alle disse andre tingene. En måte å tenke på er å spørre om det er noe som fører til hva Gerber and Green (2012) (s. 41) kaller en "sammenbrudd i symmetri"? Med andre ord er det noe annet enn behandlingen som gjør at mennesker i behandlings- og kontrollforholdene blir behandlet annerledes? Bekymringer om symmetribrudd er det som fører pasienter i kontrollgruppen i medisinske studier for å ta en placebo-pille. På den måten kan forskerne være sikker på at den eneste forskjellen mellom de to forholdene er selve medisinen og ikke opplevelsen av å ta pillen.

For mer om SUTVA, se avsnitt 2.7 av Gerber and Green (2012) , avsnitt 2.5 av Morgan and Winship (2014) og avsnitt 1.6 av Imbens and Rubin (2015) .

Presisjon

I den forrige delen har jeg beskrevet hvordan du kan estimere gjennomsnittlig behandlingseffekt. I denne delen gir jeg noen ideer om variabiliteten av disse estimatene.

Hvis du tenker på å estimere den gjennomsnittlige behandlingseffekten som estimert forskjellen mellom to prøveinnretninger, er det mulig å vise at standardfeilen for den gjennomsnittlige behandlingseffekten er:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

hvor \(m\) mennesker tilordnet behandling og \(Nm\) å kontrollere (se Gerber and Green (2012) , eq. 3.4). Når du tenker på hvor mange mennesker som skal tilordne seg behandling og hvor mange som skal tilordnes å kontrollere, kan du se at hvis \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , så vil du ha \(m \approx N / 2\) , så lenge kostnadene for behandling og kontroll er de samme. Ligning 4.6 klargjør hvorfor utformingen av Bond og kollegers (2012) -eksperiment om virkningen av sosial informasjon om avstemning (figur 4.18) var ineffektiv statistisk. Husk at det hadde 98% av deltakerne i behandlingsbetingelsen. Dette betydde at den gjennomsnittlige virkemåten i kontrolltilstanden ikke ble estimert så nøyaktig som det kunne ha vært, noe som igjen medførte at estimert forskjell mellom behandlings- og kontrolltilstanden ikke ble estimert så nøyaktig som mulig. For mer om optimal tildeling av deltakere til forhold, inkludert når kostnader varierer mellom forhold, se List, Sadoff, and Wagner (2011) .

Endelig beskriver jeg i hovedteksten hvordan en forskjell i forskjell estimator, som vanligvis brukes i en blandet design, kan føre til mindre varians enn en differanse-i-middel estimator, som vanligvis brukes i en mellomfag design. Hvis \(X_i\) er verdien av utfallet før behandling, så er mengden som vi prøver å estimere med forskjellen i forskjeller tilnærming \(X_i\)

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

Standardfeilen for dette mengde er (se Gerber and Green (2012) , eq. 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

En sammenligning av ekv. 4,6 og ekv. 4.8 viser at forskjellen i forskjeller tilnærming vil ha en mindre standard feil når (se Gerber and Green (2012) , eq. 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

Grovt, når \(X_i\) er veldig forutsigbar for \(Y_i(1)\) og \(Y_i(0)\) , kan du få mer presise estimater fra en forskjell av forskjeller tilnærming enn fra en forskjell- av-betyr en. En måte å tenke på dette i sammenheng med Restivo og van de Rijts eksperiment er at det er mye naturlig variasjon i mengden folk redigerer, så dette gjør det vanskelig å sammenligne behandlings- og kontrollforholdene: det er vanskelig å oppdage en slektning liten effekt i støyende utfallsdata. Men hvis du skiller ut denne naturlig forekommende variabiliteten, så er det mye mindre variabilitet, og det gjør det lettere å oppdage en liten effekt.

Se Frison and Pocock (1992) for en nøyaktig sammenligning av forskjeller i midler, forskjeller i forskjeller og ANCOVA-baserte tilnærminger i den mer generelle innstillingen der det foreligger flere målinger forbehandling og etterbehandling. Spesielt anbefaler de sterkt ANCOVA, som jeg ikke har dekket her. Videre, se McKenzie (2012) for en diskusjon om viktigheten av flere etterbehandlingstiltak.