Wiskundige notities

Ik denk dat de beste manier om experimenten te begrijpen het mogelijke outcomes- raamwerk is (dat ik in de wiskundige noten in hoofdstuk 2 heb besproken). Het raamwerk voor mogelijke uitkomsten heeft nauwe relaties met de ideeën van ontwerpgebaseerde steekproeven die ik beschreef in hoofdstuk 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Deze appendix is ​​zo geschreven dat deze verbinding wordt benadrukt. Deze nadruk is een beetje niet-traditioneel, maar ik denk dat de connectie tussen sampling en experimenten nuttig is: het betekent dat als je iets weet over sampling, je iets weet over experimenten en omgekeerd. Zoals ik in deze notities zal laten zien, onthult het raamwerk van potentiële resultaten de kracht van gerandomiseerde gecontroleerde experimenten voor het schatten van causale effecten, en het toont de beperkingen van wat kan worden gedaan met zelfs perfect uitgevoerde experimenten.

In deze bijlage beschrijf ik het raamwerk van mogelijke resultaten, waarbij ik een deel van het materiaal uit de wiskundige noten in hoofdstuk 2 dupliceer om deze aantekeningen meer op zichzelf te zetten. Vervolgens zal ik enkele nuttige resultaten beschrijven over de nauwkeurigheid van schattingen van de gemiddelde behandeleffecten, inclusief een bespreking van optimale allocatie en verschillen-in-verschillen schatters. Deze bijlage is sterk gebaseerd op Gerber and Green (2012) .

Potentiële uitkomsten raamwerk

Laten we, om het raamwerk voor mogelijke resultaten te illustreren, terugkeren naar het experiment van Restivo en van de Rijt om het effect te schatten van het ontvangen van een barstar op toekomstige bijdragen aan Wikipedia. Het raamwerk voor mogelijke resultaten kent drie hoofdelementen: eenheden , behandelingen en mogelijke resultaten . In het geval van Restivo en van de Rijt verdienden de units redacteuren - die in de top 1% van de bijdragers - die nog geen barstar hadden ontvangen. We kunnen deze editors indexeren op \(i = 1 \ldots N\) . De behandelingen in hun experiment waren "barnstar" of "no barnstar," en ik zal schrijven \(W_i = 1\) als persoon \(i\) zich in de behandelingsconditie bevindt en \(W_i = 0\) anders. Het derde element van het raamwerk van potentiële resultaten is het belangrijkste: de mogelijke uitkomsten . Deze zijn wat meer conceptueel moeilijk omdat ze betrekking hebben op "potentiële" resultaten - dingen die kunnen gebeuren. Voor elke Wikipedia-editor kan men zich het aantal bewerkingen voorstellen dat ze zou maken in de behandelingsconditie ( \(Y_i(1)\) ) en het aantal dat ze zou maken in de besturingsvoorwaarde ( \(Y_i(0)\) ).

Merk op dat deze keuze aan eenheden, behandelingen en uitkomsten bepaalt wat van dit experiment kan worden geleerd. Zonder aanvullende veronderstellingen kunnen Restivo en van de Rijt bijvoorbeeld niets zeggen over de effecten van barnstars op alle redacteuren van Wikipedia of over uitkomsten zoals de bewerkingskwaliteit. Over het algemeen moet de keuze van eenheden, behandelingen en uitkomsten worden gebaseerd op de doelstellingen van het onderzoek.

Gezien deze potentiële resultaten - die zijn samengevat in tabel 4.5 - kan men het causale effect van de behandeling voor persoon \(i\) definiëren als

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

Voor mij is deze vergelijking de duidelijkste manier om een ​​causaal effect te definiëren, en hoewel extreem eenvoudig, blijkt dit raamwerk op veel belangrijke en interessante manieren te generaliseren (Imbens and Rubin 2015) .

Tabel 4.5: Tabel met mogelijke resultaten
Persoon Bewerkingen in behandelconditie Bewerkingen in controleconditie Behandelingseffect
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
gemiddelde \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Als we causaliteit op deze manier definiëren, komen we echter een probleem tegen. In bijna alle gevallen kunnen we beide mogelijke uitkomsten niet waarnemen. Dat wil zeggen, een specifieke Wikipedia-editor ontving een barnstar of niet. Daarom observeren we een van de mogelijke uitkomsten- \(Y_i(1)\) of \(Y_i(0)\) maar niet allebei. Het onvermogen om beide mogelijke uitkomsten te observeren is zo'n groot probleem dat Holland (1986) het Fundamental Problem of Causal Inference noemde.

Gelukkig hebben we, als we onderzoek doen, niet slechts één persoon, we hebben veel mensen, en dit biedt een manier om het fundamentele probleem van causale inferentie te omzeilen. In plaats van te trachten het behandeleffect op individueel niveau in te schatten, kunnen we het gemiddelde behandelingseffect schatten:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Dit wordt nog steeds uitgedrukt in termen van de \(\tau_i\) die niet waarneembaar zijn, maar met wat algebra (Vgl. 2.8 van Gerber and Green (2012) ) krijgen we

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

Vergelijking 4.3 laat zien dat als we de populatiegemiddelde uitkomst onder behandeling ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) en de populatiegemiddelde uitkomst onder controle ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), dan kunnen we het gemiddelde behandelingseffect schatten, zelfs zonder het behandeleffect voor een bepaalde persoon in te schatten.

Nu ik onze schatting heb gedefinieerd - het ding dat we proberen in te schatten - zal ik kijken naar hoe we het met gegevens kunnen schatten. Ik vind het leuk om over deze schattingsuitdaging te denken als een bemonsteringsprobleem (denk terug aan de wiskundige noten in hoofdstuk 3). Stel je voor dat we willekeurig een aantal mensen uitkiezen om te observeren in de behandelingsconditie en we willekeurig enkele mensen uitkiezen om te observeren in de controleconditie, dan kunnen we de gemiddelde uitkomst in elke conditie schatten:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

waarbij \(N_t\) en \(N_c\) de aantallen mensen in de behandelings- en controlevoorwaarden zijn. Vergelijking 4.4 is een verschil-van-middelenschatter. Vanwege het ontwerp van de steekproef weten we dat de eerste term een ​​zuivere schatter is voor de gemiddelde uitkomst onder behandeling en de tweede term een ​​zuivere schatter onder controle.

Een andere manier om na te denken over wat randomisatie mogelijk maakt, is dat het ervoor zorgt dat de vergelijking tussen behandelings- en controlegroepen redelijk is, omdat randomisatie ervoor zorgt dat de twee groepen op elkaar lijken. Deze overeenkomst geldt voor dingen die we hebben gemeten (bijvoorbeeld het aantal bewerkingen in de 30 dagen vóór het experiment) en de dingen die we niet hebben gemeten (bijvoorbeeld geslacht). Dit vermogen om te zorgen voor evenwicht tussen zowel waargenomen als niet-waargenomen factoren is van cruciaal belang. Als we de kracht van automatisch afstemmen op niet-waargenomen factoren willen zien, stellen we ons voor dat in toekomstig onderzoek wordt vastgesteld dat mannen sneller reageren op prijzen dan vrouwen. Zou dat de resultaten van het experiment van Restivo en van de Rijt ongeldig maken? Nee. Door te randomiseren, zorgden ze ervoor dat alle niet-waarnemers in afwachting van elkaar zouden zijn. Deze bescherming tegen het onbekende is zeer krachtig en het is een belangrijke manier dat experimenten verschillen van de niet-experimentele technieken die worden beschreven in hoofdstuk 2.

Naast het definiëren van het behandelingseffect voor een gehele populatie, is het mogelijk om een ​​behandelingseffect voor een subset van mensen te definiëren. Dit wordt meestal een conditioneel gemiddeld behandeleffect (CATE) genoemd. Laten we ons bijvoorbeeld in de studie van Restivo en van de Rijt voorstellen dat \(X_i\) is of de editor zich gedurende de 90 dagen vóór het experiment boven of onder het gemiddelde aantal bewerkingen bevond. Men zou het behandelingseffect afzonderlijk kunnen berekenen voor deze lichte en zware bewerkers.

Het raamwerk voor mogelijke uitkomsten is een krachtige manier om na te denken over causale gevolgtrekkingen en experimenten. Er zijn echter twee extra complexiteiten die u in gedachten moet houden. Deze twee complexiteiten worden vaak samengenomen onder de term Stable Unit Treatment Value Assumption (SUTVA). Het eerste deel van SUTVA is de aanname dat het enige dat belangrijk voor personen \(i\) is resultaat is of die persoon bij de behandeling of controle conditie. Met andere woorden, er wordt aangenomen dat de persoon \(i\) niet wordt beïnvloed door de behandeling die aan andere mensen wordt gegeven. Dit wordt soms "geen interferentie" of "geen spillovers" genoemd en kan worden geschreven als:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

where \(\mathbf{W_{-i}}\) is een vector van behandelstatussen voor iedereen behalve persoon \(i\) . Een manier waarop dit kan worden geschonden is als de behandeling van één persoon overloopt op een andere persoon, positief of negatief. Keer terug naar het experiment van Restivo en van de Rijt, stel je twee vrienden voor \(i\) en \(j\) en die persoon \(i\) ontvangt een barnstar en \(j\) niet. Als \(i\) ontvangen van de barnstar ervoor zorgt dat \(j\) meer bewerkt (uit een gevoel van competitie) of minder bewerkt (uit een gevoel van wanhoop), dan is SUTVA geschonden. Het kan ook worden geschonden als de impact van de behandeling afhangt van het totale aantal andere mensen die de behandeling krijgen. Als Restivo en van de Rijt bijvoorbeeld 1.000 of 10.000 barnstars hadden uitgegeven in plaats van 100, had dit mogelijk invloed kunnen hebben op het effect van het ontvangen van een barnstar.

Het tweede punt dat in SUTVA wordt gegroepeerd is de veronderstelling dat de enige relevante behandeling die is die de onderzoeker levert; deze aanname wordt soms geen verborgen behandelingen of uitsluitbaarheid genoemd . In Restivo en van de Rijt was het bijvoorbeeld mogelijk dat redacteuren door het geven van een barstar op een populaire editorspagina werden weergegeven en dat het op de pagina met populaire editors stond - in plaats van een barnstar te ontvangen- die de verandering in het bewerkingsgedrag veroorzaakte. Als dit waar is, is het effect van de barnstar niet te onderscheiden van het effect van het zijn op de pagina met populaire editors. Het is natuurlijk niet duidelijk of dit, vanuit wetenschappelijk oogpunt, aantrekkelijk of onaantrekkelijk moet worden geacht. Dat wil zeggen, je kunt je voorstellen dat een onderzoeker zegt dat het effect van het ontvangen van een barnstar alle volgende behandelingen omvat die de barnstar triggert. Of je kunt je voorstellen dat een onderzoek het effect van barnstars op al deze andere dingen zou willen isoleren. Een manier om erover na te denken, is om te vragen of er iets is dat leidt tot wat Gerber and Green (2012) (p.41) een 'uitsplitsing in symmetrie' noemen? Met andere woorden, is er iets anders dan de behandeling die ervoor zorgt dat mensen in de behandelings- en controlevoorwaarden anders worden behandeld? Zorgen over het breken van symmetrie zijn wat leidende patiënten in de controlegroep in medische onderzoeken een placebopil nemen. Op die manier kunnen onderzoekers er zeker van zijn dat het enige verschil tussen de twee aandoeningen het feitelijke medicijn is en niet de ervaring van het nemen van de pil.

Zie voor meer informatie over SUTVA paragraaf 2.7 van Gerber and Green (2012) , deel 2.5 van Morgan and Winship (2014) en sectie 1.6 van Imbens and Rubin (2015) .

precisie

In het vorige gedeelte heb ik beschreven hoe het gemiddelde behandelingseffect kan worden geschat. In deze sectie zal ik enkele ideeën geven over de variabiliteit van die schattingen.

Als u nadenkt over het schatten van het gemiddelde behandelingseffect als schatting van het verschil tussen twee steekproefgemiddelden, dan is het mogelijk om aan te tonen dat de standaardfout van het gemiddelde behandelingseffect is:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

waar \(m\) mensen de behandeling toegewezen krijgen en \(Nm\) om te controleren (zie Gerber and Green (2012) , zie 3.4). Als u dus nadenkt over hoeveel mensen u aan de behandeling moet toewijzen en hoeveel u aan de controle kunt toewijzen, kunt u dat zien als \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , dan wilt u \(m \approx N / 2\) , zolang de kosten van behandeling en controle hetzelfde zijn. Vergelijking 4.6 verduidelijkt waarom het ontwerp van het experiment van Bond en collega's (2012) over de effecten van sociale informatie op stemmen (figuur 4.18) statistisch niet efficiënt was. Bedenk dat het 98% van de deelnemers in de behandelingsconditie had. Dit betekende dat het gemiddelde gedrag in de controleconditie niet zo nauwkeurig was geschat als het had kunnen zijn, wat op zijn beurt betekende dat het geschatte verschil tussen de behandelings- en controlevoorwaarde niet zo nauwkeurig geschat was als zou kunnen. Voor meer informatie over optimale toewijzing van deelnemers aan voorwaarden, inclusief wanneer de kosten verschillen tussen voorwaarden, zie List, Sadoff, and Wagner (2011) .

Ten slotte beschreef ik in de hoofdtekst hoe een verschil-in-verschillen-schatter, die meestal wordt gebruikt in een gemengd ontwerp, kan leiden tot een kleinere variantie dan een schatter voor verschil-in-middelen, die doorgaans wordt gebruikt in een tussen-onderwerpen. ontwerp. Als \(X_i\) de waarde is van de uitkomst vóór de behandeling, dan is de hoeveelheid die we proberen te schatten met de verschil-in-verschillen benadering:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

De standaardfout van die hoeveelheid is (zie Gerber and Green (2012) , zie 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

Een vergelijking van eq. 4.6 en eq. 4.8 laat zien dat de verschil-in-verschillen benadering een kleinere standaardfout zal hebben wanneer (zie Gerber and Green (2012) , vergelijking 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

Grofweg, wanneer \(X_i\) erg voorspellend is voor \(Y_i(1)\) en \(Y_i(0)\) , dan kun je nauwkeuriger schattingen krijgen van een verschil-van-verschillen benadering dan van een verschil- of-means one. Een manier om hier over na te denken in het kader van het experiment van Restivo en van de Rijt is dat er veel natuurlijke variatie is in de hoeveelheid die mensen bewerken, dus dit maakt het vergelijken van de behandelings- en controlevoorwaarden moeilijk: het is moeilijk om een ​​familielid te detecteren klein effect in luidruchtige uitkomstgegevens. Maar als je deze in de natuur voorkomende variabiliteit uit elkaar houdt, dan is er veel minder variabiliteit en dat maakt het gemakkelijker om een ​​klein effect te detecteren.

Zie Frison and Pocock (1992) voor een nauwkeurige vergelijking van verschil van middelen, verschilverschillen en ANCOVA-gebaseerde benaderingen in de meer algemene omgeving waar er meerdere metingen zijn vóór de behandeling en na de behandeling. In het bijzonder bevelen ze ANCOVA ten zeerste aan, die ik hier niet behandeld heb. Verder, zie McKenzie (2012) voor een bespreking van het belang van meerdere uitkomstmaten na de behandeling.