Matematiske noter

Jeg tror, ​​at den bedste måde at forstå eksperimenter på er den potentielle rammeværdi (som jeg diskuterede i de matematiske noter i kapitel 2). Den potentielle ramme for udfald har et nært forhold til ideerne fra designbaseret prøveudtagning, som jeg beskrev i kapitel 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Dette bilag er skrevet på en sådan måde, at den understregede forbindelsen. Denne vægt er lidt ikke-traditionel, men jeg tror, ​​at forbindelsen mellem prøveudtagning og forsøg er nyttig: det betyder, at hvis du ved noget om prøveudtagning, så ved du noget om eksperimenter og omvendt. Som jeg vil vise i disse noter, afslører potentielle rammebetingelser styrken af ​​randomiserede, kontrollerede eksperimenter til estimering af årsagseffekter, og det viser begrænsningerne af hvad der kan gøres med selv perfekt udførte eksperimenter.

I dette bilag beskriver jeg den potentielle rammeværdi, der duplikerer noget af materialet fra de matematiske noter i kapitel 2 for at gøre disse noter mere selvstændige. Derefter vil jeg beskrive nogle nyttige resultater om præcisionen af ​​estimater af de gennemsnitlige behandlingseffekter, herunder en diskussion af optimale fordelings- og forskelle i forskelle estimatorer. Dette bilag trækker stærkt på Gerber and Green (2012) .

Potentielle resultater ramme

For at illustrere det potentielle rammebeløb, lad os vende tilbage til Restivo og van de Rijts eksperiment for at estimere virkningen af ​​at modtage en barnstar på fremtidige bidrag til Wikipedia. Den potentielle ramme for udfald har tre hovedelementer: enheder , behandlinger og potentielle resultater . I tilfælde af Restivo og van de Rijt var enhederne fortjener redaktører - dem i de øverste 1% af bidragydere - som endnu ikke havde modtaget en barnestjerne. Vi kan indeksere disse redaktører med \(i = 1 \ldots N\) . Behandlingerne i deres forsøg var "barnstar" eller "no barnstar", og jeg vil skrive \(W_i = 1\) hvis personen \(i\) er i behandlingsbetingelsen og \(W_i = 0\) ellers. Det tredje element i den potentielle ramme for udfald er det vigtigste: de potentielle resultater . Disse er lidt mere konceptuelt vanskelige, fordi de involverer "potentielle" resultater - ting der kunne ske. For hver Wikipedia-editor kan man forestille sig antallet af redigeringer, som hun ville lave i behandlingsbetingelsen ( \(Y_i(1)\) ) og det tal, hun ville gøre i kontroltilstanden ( \(Y_i(0)\) ).

Bemærk at dette valg af enheder, behandlinger og resultater definerer, hvad der kan læres af dette eksperiment. For eksempel, uden yderligere antagelser, kan Restivo og van de Rijt ikke sige noget om effekterne af barnstars på alle Wikipedia-redaktører eller om resultater som redigeringskvalitet. Generelt skal valget af enheder, behandlinger og resultater være baseret på målene for undersøgelsen.

I betragtning af disse potentielle resultater, som er opsummeret i tabel 4.5, kan man definere årsagseffekten af ​​behandlingen for person \(i\) som

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

For mig er denne ligning den klareste måde at definere en årsagssammenhæng på, og selvom det er meget enkelt, viser denne ramme sig til generaliserbar på mange vigtige og interessante måder (Imbens and Rubin 2015) .

Tabel 4.5: Tabel over potentielle resultater
Person Ændringer i behandlingsbetingelser Ændringer i kontrol tilstand Behandlingseffekt
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
betyde \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Hvis vi definerer kausalitet på denne måde, løber vi dog ind i et problem. I næsten alle tilfælde kommer vi ikke til at observere begge potentielle resultater. Det vil sige, at en bestemt Wikipedia-editor enten modtog en barnestjerne eller ej. Derfor observerer vi et af de mulige resultater - \(Y_i(1)\) eller \(Y_i(0)\) - men ikke begge. Manglende evne til at observere begge potentielle resultater er et så stort problem, at Holland (1986) kaldte det grundlæggende problem med årsagssammenhæng .

Heldigvis når vi forsker, har vi ikke kun én person, vi har mange mennesker, og det giver en vej rundt om det grundlæggende problem med årsagssammenhæng. I stedet for at forsøge at estimere individuel behandlingseffekt, kan vi estimere den gennemsnitlige behandlingseffekt:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Dette udtrykkes stadig i forhold til \(\tau_i\) som ikke kan observeres, men med noget algebra (Eq 2.8 af Gerber and Green (2012) ) får vi

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

Ligning 4.3 viser, at hvis vi kan estimere befolkningens gennemsnitlige resultat under behandling ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) og befolkningens gennemsnitlige resultat under kontrol ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) , så kan vi estimere den gennemsnitlige behandlingseffekt, selv uden at estimere behandlingseffekten for en bestemt person.

Nu hvor jeg har defineret vores estimat - den ting, vi forsøger at estimere - jeg tænker på, hvordan vi faktisk kan estimere det med data. Jeg kan godt lide at tænke over denne estimeringsudfordring som et prøveudtagningsproblem (tænk tilbage til de matematiske noter i kapitel 3). Forestil dig at vi tilfældigt vælger nogle mennesker til at observere i behandlingsbetingelserne, og vi tilfældigt vælger nogle mennesker at observere i kontroltilstanden, så vi kan estimere det gennemsnitlige resultat i hver tilstand:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

hvor \(N_t\) og \(N_c\) er antallet af mennesker i behandlings- og kontrolforholdene. Ligning 4,4 er en forskel-af-middel estimator. På grund af stikprøveudformningen ved vi, at det første udtryk er en upartisk estimator for det gennemsnitlige resultat under behandling, og det andet udtryk er en upartisk estimator under kontrol.

En anden måde at tænke på, hvad randomisering muliggør, er at det sikrer, at sammenligningen mellem behandlings- og kontrolgrupper er retfærdig, fordi randomisering sikrer, at de to grupper vil ligne hinanden. Denne lighed gælder for ting, vi har målt (siger antallet af redigeringer i 30 dage før eksperimentet) og de ting, vi ikke har målt (siger køn). Denne evne til at sikre balance på både observerede og observerede faktorer er kritisk. For at se kraften i automatisk afbalancering på uobserverede faktorer, lad os forestille os, at fremtidig forskning finder ud af, at mænd er mere lydhør over priser end kvinder. Vil det ugyldiggøre resultaterne af Restivo og van de Rijts eksperiment? Nej. Ved at randomisere sikrede de sig, at alle unobservables ville blive afbalanceret i forventning. Denne beskyttelse mod det ukendte er meget kraftig, og det er en vigtig måde, at eksperimenter er forskellige fra de ikke-eksperimentelle teknikker, der er beskrevet i kapitel 2.

Ud over at definere behandlingseffekten for en hel population er det muligt at definere en behandlingseffekt for en delmængde af mennesker. Dette kaldes typisk en betinget gennemsnitlig behandlingseffekt (CATE). For eksempel, i undersøgelsen af ​​Restivo og van de Rijt, lad os forestille os, at \(X_i\) er, om redaktøren var over eller under medianværdien af ​​redigeringer i de 90 dage før eksperimentet. Man kunne beregne behandlingseffekten separat for disse lyse og tunge redaktører.

Det potentielle rammebestemmelser er en stærk måde at tænke på årsagssammenhæng og eksperimenter. Der er dog to ekstra kompleksiteter, som du bør huske på. Disse to kompleksiteter klumpes ofte sammen under udtrykket " Stable Unit Treatment Value Assumption" (SUTVA). Den første del af SUTVA er antagelsen om, at det eneste, der betyder noget for personens \(i\) udfald, er, om personen var i behandlings- eller kontroltilstand. Med andre ord antages det, at personen \(i\) ikke påvirkes af behandlingen til andre mennesker. Dette kaldes undertiden "no interference" eller "no spillovers", og kan skrives som:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

hvor \(\mathbf{W_{-i}}\) er en vektor af behandlingsstatus for alle undtagen person \(i\) . En måde at dette kan blive krænket på er, hvis behandlingen fra en person spilder over på en anden person, enten positivt eller negativt. Tilbage til Restivo og van de Rijts eksperiment, forestil dig to venner \(i\) og \(j\) og den person \(i\) modtager en barnstar og \(j\) gør det ikke. Hvis \(i\) modtager barnstjerne forårsager \(j\) at redigere mere (ud af en konkurrence) eller redigere mindre (ud af en følelse af fortvivlelse), så er SUTVA blevet overtrådt. Det kan også krænkes, hvis virkningen af ​​behandlingen afhænger af det samlede antal andre personer, der modtager behandlingen. For eksempel, hvis Restivo og van de Rijt havde udgivet 1.000 eller 10.000 barnestars i stedet for 100, kunne dette have påvirket effekten af ​​at modtage en barnstjerne.

Det andet problem klumpet i SUTVA er antagelsen om, at den eneste relevante behandling er den, som forskeren leverer; denne antagelse kaldes undertiden ingen skjulte behandlinger eller udelukkelse . For eksempel i Restivo og van de Rijt kunne det have været tilfældet, at ved at give en barnstjerne forskerne fik redaktører til at blive præsenteret på en populær redaktørside, og at den var på den populære redaktørside - snarere end at modtage en barnstar- der forårsagede ændringen i redigeringsadfærd. Hvis dette er sandt, så er effekten af ​​barnstjernen ikke forskellig fra virkningen af ​​at være på den populære redaktørside. Det er selvfølgelig ikke klart, om dette fra et videnskabeligt synspunkt bør betragtes som attraktivt eller uinteressant. Det vil sige, man kan forestille sig en forsker, der siger, at effekten af ​​at modtage en barnestjerne omfatter alle de efterfølgende behandlinger, som barnestolen udløser. Eller du kunne forestille dig en situation, hvor en forskning ville isolere effekten af ​​barnstars fra alle disse andre ting. En måde at tænke på er at spørge om der er noget der fører til, hvad Gerber and Green (2012) (s. 41) kalder en "symmetrisk sammenbrud"? Med andre ord er der noget andet end den behandling, der får folk i behandlings- og kontrolforholdene til at blive behandlet forskelligt? Bekymringer om symmetriafbrydelse er, hvad der fører patienter i kontrolgruppen i medicinske forsøg til at tage en placebopille. På den måde kan forskerne være sikre på, at den eneste forskel mellem de to betingelser er den egentlige medicin og ikke oplevelsen af ​​at tage pillen.

For mere om SUTVA, se afsnit 2.7 i Gerber and Green (2012) , afsnit 2.5 af Morgan and Winship (2014) og afsnit 1.6 i Imbens and Rubin (2015) .

Præcision

I det foregående afsnit har jeg beskrevet hvordan man estimerer den gennemsnitlige behandlingseffekt. I dette afsnit giver jeg nogle ideer om variabiliteten af ​​disse estimater.

Hvis du tænker på at estimere den gennemsnitlige behandlingseffekt som estimeret forskellen mellem to prøveorganer, er det muligt at vise, at standardfejlen for den gennemsnitlige behandlingseffekt er:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

hvor \(m\) mennesker tildeles behandling og \(Nm\) til at kontrollere (se Gerber and Green (2012) , eksempel 3.4). Når man tænker på, hvor mange mennesker der skal tildele til behandling og hvor mange der skal tildeles for at kontrollere, kan man se at hvis \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , så vil du have \(m \approx N / 2\) , så længe omkostningerne ved behandling og kontrol er de samme. Ligning 4.6 præciserer, hvorfor designet af Bond og kollegernes (2012) eksperiment om konsekvenserne af sociale oplysninger om afstemning (figur 4.18) var ineffektivt statistisk. Husk at det havde 98% af deltagerne i behandlingsbetingelsen. Dette betød, at den gennemsnitlige adfærd i kontroltilstanden ikke blev estimeret så præcist som det kunne have været, hvilket igen medførte, at den estimerede forskel mellem behandlings- og kontrolbetingelsen ikke blev estimeret så præcist som det kunne være. For mere om optimal tildeling af deltagere til betingelser, herunder når omkostningerne adskiller sig fra forhold, se List, Sadoff, and Wagner (2011) .

Endelig beskrev jeg i hovedteksten, hvordan en forskel i forskelle estimator, som typisk anvendes i et blandet design, kan føre til mindre varians end en forskellen i middel estimator, som typisk anvendes i en mellemfag design. Hvis \(X_i\) er værdien af ​​resultatet før behandling, så er den mængde, som vi forsøger at estimere med forskellen i forskelle tilgangen:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

Standardfejlen for den pågældende mængde er (se Gerber and Green (2012) , fx 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

En sammenligning af eq. 4,6 og ækv. 4.8 viser, at forskellen i forskelle tilgangen vil have en mindre standard fejl når (se Gerber and Green (2012) , eq. 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

Groft, når \(X_i\) er meget forudsigende for \(Y_i(1)\) og \(Y_i(0)\) , så kan du få mere præcise estimater ud fra en forskel i forskelligt tilgang end fra en forskel- af-betyder en. En måde at tænke på i forbindelse med Restivo og van de Rijts eksperiment er, at der er meget naturlig variation i mængden, som folk redigerer, så det gør det vanskeligt at sammenligne behandlings- og kontrolforholdene: det er svært at opdage en slægtning lille effekt i støjende resultatdata. Men hvis du forskeller denne naturligt forekommende variabilitet, så er der meget mindre variabilitet, og det gør det lettere at opdage en lille effekt.

Se Frison and Pocock (1992) for en nøjagtig sammenligning af forskelle i midler, forskelle i forskelle og ANCOVA-baserede tilgange i den mere generelle indstilling, hvor der er flere målinger forbehandlet og efterbehandling. De anbefaler især stærkt ANCOVA, som jeg ikke har dækket her. Yderligere, se McKenzie (2012) for en diskussion af betydningen af ​​flere foranstaltninger efter behandlingens behandling.