4.4 Moving verder dan eenvoudige experimenten

Laten we verder gaan dan eenvoudige experimenten. Drie concepten zijn nuttig voor rijke experimenten: validiteit, heterogeniteit van behandeleffecten en mechanismen.

Onderzoekers die nieuw zijn in experimenten richten zich vaak op een zeer specifieke, enge vraag: werkt deze behandeling "werk"? Stimuleert een telefoontje van een vrijwilliger bijvoorbeeld iemand om te stemmen? Verandert het veranderen van een websiteknop van blauw naar groen de klikfrequentie? Helaas, losse frasering over wat 'werkt' verdoezelt het feit dat eng gerichte experimenten je niet echt vertellen of een behandeling 'in algemene zin' werkt. Integendeel, eng gerichte experimenten beantwoorden een veel specifiekere vraag: wat is het gemiddelde effect van deze specifieke behandeling met deze specifieke implementatie voor deze populatie van deelnemers op dit moment? Ik noem experimenten die zich richten op deze enge vraag, eenvoudige experimenten .

Simpele experimenten kunnen waardevolle informatie opleveren, maar ze beantwoorden niet veel vragen die zowel belangrijk als interessant zijn, zoals of er mensen zijn voor wie de behandeling een groter of kleiner effect had; of er een andere behandeling is die effectiever zou zijn; en of dit experiment betrekking heeft op bredere sociale theorieën.

Laten we, om de waarde van verdergaan dan eenvoudige experimenten te laten zien, een analoog veldexperiment van P. Wesley Schultz en collega's over de relatie tussen sociale normen en energieverbruik bekijken (Schultz et al. 2007) . Schultz en zijn collega's hingen aan bijhangers aan 300 huishoudens in San Marcos, Californië, en deze deurhangers leverden verschillende boodschappen die bedoeld waren om energiebesparing aan te moedigen. Vervolgens maten Schultz en collega's het effect van deze berichten op het elektriciteitsverbruik, zowel na een week als na drie weken; zie figuur 4.3 voor een meer gedetailleerde beschrijving van het experimentele ontwerp.

Figuur 4.3: Schematische voorstelling van het experimentele ontwerp van Schultz et al. (2007). Het veldexperiment betrof vijf keer een bezoek aan ongeveer 300 huishoudens in San Marcos, Californië gedurende een periode van acht weken. Bij elk bezoek namen de onderzoekers handmatig een meting van de vermogensmeter van het huis. Bij twee van de bezoeken plaatsten ze deurwijzers op elk huis met informatie over het energieverbruik van het huishouden. De onderzoeksvraag was hoe de inhoud van deze berichten het energieverbruik zou beïnvloeden.

Figuur 4.3: Schematische voorstelling van het experimentele ontwerp van Schultz et al. (2007) . Het veldexperiment betrof vijf keer een bezoek aan ongeveer 300 huishoudens in San Marcos, Californië gedurende een periode van acht weken. Bij elk bezoek namen de onderzoekers handmatig een meting van de vermogensmeter van het huis. Bij twee van de bezoeken plaatsten ze deurwijzers op elk huis met informatie over het energieverbruik van het huishouden. De onderzoeksvraag was hoe de inhoud van deze berichten het energieverbruik zou beïnvloeden.

Het experiment had twee voorwaarden. In het eerste kregen huishoudens algemene energiebesparende tips (gebruik bijvoorbeeld ventilatoren in plaats van airconditioners) en informatie over hun energieverbruik vergeleken met het gemiddelde energieverbruik in hun buurt. Schultz en collega's noemden dit de beschrijvende normatieve voorwaarde omdat de informatie over het energieverbruik in de buurt informatie gaf over typisch gedrag (dwz een beschrijvende norm). Toen Schultz en collega's gekeken naar het resulterende energieverbruik in deze groep, leek de behandeling geen effect te hebben, zowel op de korte als de lange termijn; met andere woorden, de behandeling leek niet te "werken" (figuur 4.4).

Gelukkig hebben Schultz en collega's geen genoegen genomen met deze simplistische analyse. Voordat het experiment begon, redeneerden ze dat zware gebruikers van elektriciteit - mensen boven het gemiddelde - hun verbruik zouden kunnen verminderen, en dat lichte gebruikers van elektriciteit - mensen onder het gemiddelde - hun verbruik daadwerkelijk zouden kunnen verhogen. Toen ze de gegevens bekeken, is dat precies wat ze hebben gevonden (figuur 4.4). Dus wat leek op een behandeling die geen effect had, was in feite een behandeling die twee compenserende effecten had. Deze contraproductieve toename onder de lichtgebruikers is een voorbeeld van een boemerangeffect , waarbij een behandeling het tegenovergestelde effect kan hebben van wat was bedoeld.

Figuur 4.4: Resultaten van Schultz et al. (2007). Panel (a) laat zien dat de beschrijvende normbehandeling een geschatte nulgemiddelde behandelingseffect heeft. Paneel (b) laat echter zien dat dit gemiddelde behandelingseffect feitelijk bestaat uit twee compenserende effecten. Voor zware gebruikers verminderde de behandeling het gebruik, maar voor lichte gebruikers verhoogde de behandeling het gebruik. Ten slotte laat paneel (c) zien dat de tweede behandeling, die beschrijvende en injunctie-normen gebruikte, ongeveer hetzelfde effect had op zware gebruikers, maar het boemerangeffect voor lichtgebruikers verzachtte. Aangepast door Schultz et al. (2007).

Figuur 4.4: Resultaten van Schultz et al. (2007) . Panel (a) laat zien dat de beschrijvende normbehandeling een geschatte nulgemiddelde behandelingseffect heeft. Paneel (b) laat echter zien dat dit gemiddelde behandelingseffect feitelijk bestaat uit twee compenserende effecten. Voor zware gebruikers verminderde de behandeling het gebruik, maar voor lichte gebruikers verhoogde de behandeling het gebruik. Ten slotte laat paneel (c) zien dat de tweede behandeling, die beschrijvende en injunctie-normen gebruikte, ongeveer hetzelfde effect had op zware gebruikers, maar het boemerangeffect voor lichtgebruikers verzachtte. Aangepast door Schultz et al. (2007) .

Gelijktijdig met de eerste voorwaarde, hadden Schultz en collega's ook een tweede voorwaarde. De huishoudens in de tweede toestand ontvingen precies dezelfde algemene energiebesparende tips en informatie over het energieverbruik van hun huishouden in vergelijking met het gemiddelde voor hun buurt, met een kleine toevoeging: voor mensen met een lager dan gemiddeld verbruik voegden de onderzoekers een: ) en voor mensen met een bovengemiddeld verbruik voegden ze een :( toe. Deze emoticons waren bedoeld om te triggeren wat de onderzoekers injunctie-normen noemden.Injunctieve normen verwijzen naar percepties van wat algemeen wordt goedgekeurd (en afgekeurd), terwijl beschrijvende normen verwijzen naar percepties van wat gewoonlijk wordt gedaan (Reno, Cialdini, and Kallgren 1993) .

Door deze kleine emoticon toe te voegen, hebben de onderzoekers het boemerangeffect dramatisch verminderd (figuur 4.4). Dus door deze ene simpele verandering te maken - een verandering die werd gemotiveerd door een abstracte sociaal-psychologische theorie (Cialdini, Kallgren, and Reno 1991) - konden de onderzoekers een programma draaien dat niet leek te werken in een programma dat werkte, en tegelijkertijd konden ze bijdragen aan het algemene begrip van hoe sociale normen menselijk gedrag beïnvloeden.

Op dit moment merkt u echter dat er iets een beetje anders is aan dit experiment. In het bijzonder heeft het experiment van Schultz en collega's niet echt een controlegroep op dezelfde manier als gerandomiseerde, gecontroleerde experimenten. Een vergelijking tussen dit ontwerp en dat van Restivo en van de Rijt illustreert de verschillen tussen twee grote experimentele ontwerpen. Tussen-onderwerpen ontwerpen , zoals die van Restivo en van de Rijt, is er een behandelingsgroep en een controlegroep. Bij designs binnen de proefpersonen wordt het gedrag van deelnemers vergeleken voor en na de behandeling (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . In een binnen-subject experiment is het alsof elke deelnemer als haar eigen controlegroep optreedt. De kracht van between-subjects-ontwerpen is dat ze bescherming bieden tegen confounders (zoals ik eerder heb beschreven), terwijl de kracht van experimenten binnen proefpersonen een verhoogde nauwkeurigheid van schattingen is. Tot slot, om een ​​idee te voorspellen dat later zal komen wanneer ik advies geef over het ontwerpen van digitale experimenten, combineert een _mixed design_ de verbeterde nauwkeurigheid van ontwerpen binnen onderwerpen en de bescherming tegen verstoring van ontwerpen tussen onderwerpen (figuur 4.5).

Figuur 4.5: Drie experimentele ontwerpen. Standaard gerandomiseerde, gecontroleerde experimenten maken gebruik van ontwerpen tussen verschillende onderwerpen. Een voorbeeld van een between-subjects-ontwerp is Restivo en van de Rijt's (2012) experiment op barnstars en bijdragen aan Wikipedia: de onderzoekers verdeelden de deelnemers willekeurig in behandelings- en controlegroepen, gaven deelnemers aan de behandelgroep een barstar en vergeleken de resultaten voor de twee groepen. Het tweede type ontwerp is een ontwerp van de binnenkant van het onderwerp. De twee experimenten in de studie van Schultz en collega's (2007) over sociale normen en energieverbruik illustreren het ontwerp van een onderwerp: de onderzoekers vergeleken het elektriciteitsverbruik van deelnemers vóór en na de ontvangst van de behandeling. Interne ontwerpen bieden een verbeterde statistische precisie, maar ze staan ​​open voor mogelijke verstorende factoren (bijv. Veranderingen in het weer tussen de voorbehandelingen en de behandelingsperioden) (Greenwald 1976; Charness, Gneezy en Kuhn 2012). Binnen-onderwerpen ontwerpen worden soms ook ontwerpen met herhaalde metingen genoemd. Ten slotte combineren gemengde ontwerpen de verbeterde nauwkeurigheid van binnen-onderwerpen ontwerpen en de bescherming tegen verstoring van ontwerpen tussen onderwerpen. In een gemengd ontwerp vergelijkt een onderzoeker de verandering in uitkomsten voor mensen in de behandelings- en controlegroepen. Wanneer onderzoekers al informatie over de voorbehandeling hebben, zoals bij veel digitale experimenten, hebben gemengde ontwerpen over het algemeen de voorkeur boven tussenontwerpen omdat ze resulteren in een verbeterde nauwkeurigheid van schattingen.

Figuur 4.5: Drie experimentele ontwerpen. Standaard gerandomiseerde, gecontroleerde experimenten maken gebruik van ontwerpen tussen verschillende onderwerpen . Een voorbeeld van een between-subjects-ontwerp is Restivo en van de Rijt's (2012) experiment op barnstars en bijdragen aan Wikipedia: de onderzoekers verdeelden de deelnemers willekeurig in behandelings- en controlegroepen, gaven deelnemers aan de behandelgroep een barstar en vergeleken de resultaten voor de twee groepen. Het tweede type ontwerp is een ontwerp van de binnenkant van het onderwerp . De twee experimenten in de studie van Schultz en collega's (2007) over sociale normen en energieverbruik illustreren het ontwerp van een onderwerp: de onderzoekers vergeleken het elektriciteitsverbruik van deelnemers vóór en na de ontvangst van de behandeling. De ontwerpen binnen de proefpersonen bieden een verbeterde statistische precisie, maar ze staan ​​open voor mogelijke verstorende factoren (bijv. Veranderingen in het weer tussen de voorbehandelingen en behandelingsperioden) (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . Binnen-onderwerpen ontwerpen worden ook wel ontwerpen met herhaalde metingen genoemd. Ten slotte combineren gemengde ontwerpen de verbeterde nauwkeurigheid van binnen-onderwerpen ontwerpen en de bescherming tegen verstoring van ontwerpen tussen onderwerpen. In een gemengd ontwerp vergelijkt een onderzoeker de verandering in uitkomsten voor mensen in de behandelings- en controlegroepen. Wanneer onderzoekers al informatie over de voorbehandeling hebben, zoals bij veel digitale experimenten, hebben gemengde ontwerpen over het algemeen de voorkeur boven tussenontwerpen omdat ze resulteren in een verbeterde nauwkeurigheid van schattingen.

Over het algemeen laten het ontwerp en de resultaten van het onderzoek van Schultz en collega's (2007) de waarde zien van verder gaan dan eenvoudige experimenten. Gelukkig hoeft u geen creatief genie te zijn om dergelijke experimenten te ontwerpen. Sociale wetenschappers hebben drie concepten ontwikkeld die je zullen leiden naar rijkere experimenten: (1) validiteit, (2) heterogeniteit van behandeleffecten en (3) mechanismen. Dat wil zeggen, als u deze drie ideeën in gedachten houdt terwijl u uw experiment ontwerpt, creëert u natuurlijk een interessanter en nuttiger experiment. Om deze drie concepten in actie te illustreren, zal ik een aantal follow-up gedeeltelijk digitale veldexperimenten beschrijven die voortbouwden op het elegante ontwerp en de opwindende resultaten van Schultz en collega's (2007) . Zoals je zult zien, kun je door zorgvuldiger ontwerp, implementatie, analyse en interpretatie verder gaan dan eenvoudige experimenten.