4.4.2 Heterogeniteit van de behandeling effecten

Experimenten meten normaal het gemiddelde effect, maar het effect is waarschijnlijk niet voor iedereen gelijk.

Het tweede belangrijke idee om verder te gaan dan eenvoudige experimenten is de heterogeniteit van de behandelingseffecten . Het experiment van Schultz et al. (2007) illustreert krachtig hoe dezelfde behandeling een verschillend effect kan hebben op verschillende soorten mensen (figuur 4.4). In de meeste analoge experimenten richtten onderzoekers zich echter op gemiddelde behandeleffecten omdat er een klein aantal deelnemers was en er weinig over bekend was. In digitale experimenten zijn er echter vaak veel meer deelnemers en er is meer over bekend. In deze andere gegevensomgeving missen onderzoekers die alleen gemiddelde behandeleffecten blijven schatten de manieren waarop schattingen over de heterogeniteit van behandeleffecten aanwijzingen kunnen geven over hoe een behandeling werkt, hoe deze kan worden verbeterd en hoe deze kan worden gericht voor degenen die het meest waarschijnlijk zullen profiteren.

Twee voorbeelden van heterogeniteit van behandelingseffecten komen uit aanvullend onderzoek naar de Home Energy Reports. Allereerst gebruikte Allcott (2011) de grote steekproefomvang (600.000 huishoudens) om de steekproef verder te splitsen en het effect van het Home Energy Report te schatten op deciel van het energieverbruik van de voorbehandeling. Terwijl Schultz et al. (2007) vond verschillen tussen zware en lichte gebruikers, Allcott (2011) vond dat er ook verschillen waren binnen de zware en lichte gebruikersgroep. De zwaarste gebruikers (die in het bovenste deciel) verminderden hun energieverbruik twee keer zo veel als iemand in het midden van de zware gebruikersgroep (figuur 4.8). Verder onthulde het inschatten van het effect door voorbehandelingsgedrag ook dat er geen boemerangeffect was, zelfs niet voor de lichtste gebruikers (figuur 4.8).

Figuur 4.8: Heterogeniteit van de behandelingseffecten in Allcott (2011). De daling in energieverbruik was anders voor mensen in verschillende decielen van basislijngebruik. Aangepast van Allcott (2011), figuur 8.

Figuur 4.8: Heterogeniteit van de behandelingseffecten in Allcott (2011) . De daling in energieverbruik was anders voor mensen in verschillende decielen van basislijngebruik. Aangepast van Allcott (2011) , figuur 8.

In een gerelateerd onderzoek speculeerden Costa and Kahn (2013) dat de effectiviteit van het Home Energy Report zou kunnen variëren op basis van de politieke ideologie van een deelnemer en dat de behandeling mensen met bepaalde ideologieën mogelijk hun elektriciteitsverbruik zou doen toenemen. Met andere woorden, ze speculeerden dat de Home Energy Reports mogelijk een boemerangeffect creëren voor sommige soorten mensen. Om deze mogelijkheid te beoordelen, voegden Costa en Kahn de gegevens van Opower samen met gegevens die waren gekocht van een externe aggregator en die informatie bevatten zoals registratie van politieke partijen, donaties aan milieuorganisaties en deelname van huishoudens aan programma's voor hernieuwbare energie. Met deze samengevoegde dataset ontdekten Costa en Kahn dat de Home Energy Reports ongeveer dezelfde effecten opleverden voor deelnemers met verschillende ideologieën; er was geen bewijs dat enige groep boemerangeffecten vertoonde (figuur 4.9).

Figuur 4.9: Heterogeniteit van behandelingseffecten in Costa en Kahn (2013). Het geschatte gemiddelde behandelingseffect voor de gehele steekproef is -2,1% [-1,5%, - 2,7%]. Na het combineren van informatie uit het experiment met informatie over de huishoudens, gebruikten Costa en Kahn (2013) een reeks statistische modellen om het behandelingseffect voor zeer specifieke groepen mensen te schatten. Voor elke groep worden twee schattingen gegeven omdat de schattingen afhangen van de covariabelen die ze in hun statistische modellen hebben opgenomen (zie de modellen 4 en 6 in de tabellen 3 en 4 in Costa en Kahn (2013)). Zoals in dit voorbeeld wordt geïllustreerd, kunnen de behandeleffecten voor verschillende mensen verschillen en kunnen schattingen van de behandeleffecten die afkomstig zijn van statistische modellen afhankelijk zijn van de details van die modellen (Grimmer, Messing en Westwood 2014). Aangepast van Costa en Kahn (2013), tabellen 3 en 4.

Figuur 4.9: Heterogeniteit van behandelingseffecten in Costa and Kahn (2013) . Het geschatte gemiddelde behandelingseffect voor de gehele steekproef is -2,1% [-1,5%, - 2,7%]. Na het combineren van informatie uit het experiment met informatie over de huishoudens, gebruikten Costa and Kahn (2013) een reeks statistische modellen om het behandelingseffect voor zeer specifieke groepen mensen te schatten. Voor elke groep worden twee schattingen gegeven omdat de schattingen afhangen van de covariabelen die ze in hun statistische modellen hebben opgenomen (zie de modellen 4 en 6 in de tabellen 3 en 4 in Costa and Kahn (2013) ). Zoals in dit voorbeeld wordt geïllustreerd, kunnen de behandeleffecten voor verschillende mensen verschillen en kunnen schattingen van de behandeleffecten die afkomstig zijn van statistische modellen afhankelijk zijn van de details van die modellen (Grimmer, Messing, and Westwood 2014) . Aangepast van Costa and Kahn (2013) , tabellen 3 en 4.

Zoals deze twee voorbeelden illustreren, kunnen we in het digitale tijdperk overschakelen van het schatten van gemiddelde behandeleffecten naar het schatten van de heterogeniteit van behandeleffecten, omdat we veel meer deelnemers kunnen hebben en we meer weten over die deelnemers. Leren over heterogeniteit van de behandelingseffecten kan het richten van een behandeling mogelijk maken waar deze het meest effectief is, feiten verschaffen die nieuwe theorieontwikkeling stimuleren en hints geven over mogelijke mechanismen, het onderwerp waar ik nu naar toe ga.