4.4 flytta bortom enkla experiment

Låt oss gå utöver enkla experiment. Tre koncept är användbara för rika experiment: validitet, heterogenitet av behandlingseffekter och mekanismer.

Forskare som är nya på experiment fokuserar ofta på en mycket specifik, smal fråga: Fungerar denna behandling "arbete"? Till exempel uppmuntrar ett telefonsamtal från en volontär någon att rösta? Ändras klickfrekvensen genom att byta en webbplatsknapp från blått till grönt? Tyvärr löst formulering om vad "verk" förhindrar det faktum att snävt fokuserade experiment inte verkligen berättar om en behandling "fungerar" i allmänhet. I stället svarar smalt fokuserade experiment på en mycket mer specifik fråga: Vad är den genomsnittliga effekten av denna specifika behandling med denna specifika implementering för denna befolkning av deltagare vid denna tidpunkt? Jag ringer experiment som fokuserar på detta smala enkla experiment .

Enkla experiment kan ge värdefull information, men de misslyckas med att svara på många frågor som är viktiga och intressanta, till exempel om det finns några personer för vilka behandlingen har en större eller mindre effekt. om det finns en annan behandling som skulle vara effektivare och om detta experiment avser bredare sociala teorier.

För att visa värdet av att flytta bortom enkla experiment, låt oss överväga ett analogt fältförsök av P. Wesley Schultz och kollegor om förhållandet mellan sociala normer och energiförbrukning (Schultz et al. 2007) . Schultz och kollegor hängde dörrhängare på 300 hushåll i San Marcos, Kalifornien, och dessa dörrar levererade olika meddelanden avsedda att uppmuntra energibesparing. Därefter mätt Schultz och kollegor effekten av dessa meddelanden på elförbrukningen, både efter en vecka och efter tre veckor; se figur 4.3 för en mer detaljerad beskrivning av experimentell design.

Figur 4.3: Schematisk av experimentell design från Schultz et al. (2007). Fältförsöket involverade att besöka cirka 300 hushåll i San Marcos, Kalifornien fem gånger under en åtta veckorsperiod. Vid varje besök tog forskarna manuellt en läsning från husets kraftmätare. På två av besöken placerade de dörrar på varje hus som gav viss information om hushållens energianvändning. Forskningsfrågan var hur innehållet i dessa meddelanden skulle påverka energianvändningen.

Figur 4.3: Schematisk av experimentell design från Schultz et al. (2007) . Fältförsöket involverade att besöka cirka 300 hushåll i San Marcos, Kalifornien fem gånger under en åtta veckorsperiod. Vid varje besök tog forskarna manuellt en läsning från husets kraftmätare. På två av besöken placerade de dörrar på varje hus som gav viss information om hushållens energianvändning. Forskningsfrågan var hur innehållet i dessa meddelanden skulle påverka energianvändningen.

Experimentet hade två villkor. För det första fick hushållen generella energibesparande tips (t.ex. använd fläktar istället för luftkonditioneringsapparater) och information om deras energianvändning jämfört med den genomsnittliga energianvändningen i deras grannskap. Schultz och kollegor kallade detta det beskrivande normativa villkoret eftersom informationen om energianvändningen i grannskapet gav information om typiskt beteende (dvs. en beskrivande norm). När Schultz och kollegor tittade på den resulterande energianvändningen i denna grupp, verkade behandlingen inte ha någon effekt på kort eller lång sikt. Med andra ord verkar behandlingen inte "fungera" (figur 4.4).

Lyckligtvis nådde Schultz och kollegor sig inte för denna förenklade analys. Innan experimentet började motiverade de att tunga användare av el-personer över genomsnittet kunde minska sin konsumtion, och att lätta användare av el-personer under genomsnittet kanske skulle öka sin konsumtion. När de tittade på data, så är det precis vad de hittade (figur 4.4). Det som såg ut som en behandling som inte hade någon effekt var sålunda en behandling som hade två motverkande effekter. Denna kontraproduktiva ökning bland de lätta användarna är ett exempel på en boomerangseffekt , där en behandling kan ha motsatt effekt från vad som var avsedd.

Figur 4.4: Resultat från Schultz et al. (2007). Panel (a) visar att den beskrivande normbehandlingen har en beräknad nollvärdesbehandlingseffekt. Panel (b) visar dock att denna genomsnittliga behandlingseffekt faktiskt består av två motverkande effekter. För tunga användare minskade behandlingen, men för lätta användare ökade behandlingen. Slutligen visar panel (c) att den andra behandlingen, som använde beskrivande och injunktiva normer, hade ungefär samma effekt på tunga användare men mildrade boomerangseffekten på lätta användare. Anpassad från Schultz et al. (2007).

Figur 4.4: Resultat från Schultz et al. (2007) . Panel (a) visar att den beskrivande normbehandlingen har en beräknad nollvärdesbehandlingseffekt. Panel (b) visar dock att denna genomsnittliga behandlingseffekt faktiskt består av två motverkande effekter. För tunga användare minskade behandlingen, men för lätta användare ökade behandlingen. Slutligen visar panel (c) att den andra behandlingen, som använde beskrivande och injunktiva normer, hade ungefär samma effekt på tunga användare men mildrade boomerangseffekten på lätta användare. Anpassad från Schultz et al. (2007) .

Samtidigt med det första villkoret körde Schultz och kollegor också ett andra villkor. Hushållen i det andra tillståndet fick exakt samma generella energibesparande tips och information om deras hushålls energianvändning jämfört med genomsnittet för deras grannskap - med en liten tillägg: för personer med under genomsnittlig konsumtion lagde forskarna en: ) och för personer med över genomsnittlig konsumtion som de tillade a :(. Dessa uttryckssignaler var utformade för att utlösa vad forskarna kallade injunctive normer . Injunktiva normer hänvisar till uppfattningar om vad som allmänt godkänns (och missgynnas), medan beskrivande normer refererar till uppfattningar om vad som vanligtvis görs (Reno, Cialdini, and Kallgren 1993) .

Genom att lägga till detta lilla uttryckssymbol, reducerade forskarna dramatiskt boomerangseffekten (figur 4.4). Genom att göra den här enkla förändringen - en förändring som motiverades av en abstrakt socialpsykologisk teori (Cialdini, Kallgren, and Reno 1991) - kunde forskarna göra ett program som inte verkade fungera till en som fungerade, och samtidigt kunde de bidra till den allmänna förståelsen av hur sociala normer påverkar mänskligt beteende.

Vid den här tiden kanske du märker att något är lite annorlunda om detta experiment. I synnerhet har experimentet från Schultz och kollegor inte riktigt en kontrollgrupp på samma sätt som randomiserade kontrollerade experiment gör. En jämförelse mellan denna design och den av Restivo och van de Rijt illustrerar skillnaderna mellan två stora experimentella mönster. I mellan-ämnesdesign , som till exempel Restivo och van de Rijt, finns en behandlingsgrupp och en kontrollgrupp. Inom ämnesdesign är å andra sidan beteendet hos deltagarna jämfört före och efter behandlingen (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . I ett experiment inom ämnet är det som om varje deltagare fungerar som sin egen kontrollgrupp. Styrkan hos mellanliggande ämnen är att de ger skydd mot förkrossare (som jag beskrivit tidigare), medan styrkan hos försöken inom ämnet är ökad precision av uppskattningar. Slutligen, för att förskugga en idé som kommer senare när jag ger råd om att designa digitala experiment, kombinerar en blandad design den förbättrade precisionen inom motiv och designen mot skydd av mellanliggande ämnen (figur 4.5).

Figur 4.5: Tre experimentella mönster. Standard randomiserade kontrollerade experiment använder mellan-motiv design. Ett exempel på en ämnesdesign är Restivo och van de Rijts (2012) -experiment på barnstars och bidrag till Wikipedia: forskarna slumpmässigt delade deltagare i behandlings- och kontrollgrupper gav deltagare i behandlingsgruppen en barnstjärna och jämförde resultaten för två grupper. Den andra typen av design är en inom-ämnesdesign. De två experimenten i Schultz och kollegas (2007) studie om sociala normer och energianvändning illustrerar en inomliggande ämnesdesign: forskarna jämförde elanvändningen av deltagare före och efter behandlingen. Inom ämnesdesign erbjuder förbättrad statistisk precision, men de är öppna för möjliga konfronteringar (t.ex. förändringar i väder mellan förbehandlings- och behandlingsperioder) (Greenwald 1976, Charness, Gneezy och Kuhn 2012). Inom-ämnen design kallas också ibland upprepade måttdesigner. Slutligen kombinerar blandade mönster den förbättrade precisionen inom designen inom motiv och skyddet mot förvirring av mellanliggande ämnen. I en blandad design jämför forskaren förändringen i utfallet för personer i behandlings- och kontrollgrupperna. När forskare redan har förbehandlingsinformation, som det är fallet i många digitala experiment, är blandade mönster vanligtvis föredragna för mellanliggande ämnen eftersom de resulterar i förbättrad precision av uppskattningar.

Figur 4.5: Tre experimentella mönster. Standard randomiserade kontrollerade experiment använder mellan-motiv design. Ett exempel på en ämnesdesign är Restivo och van de Rijts (2012) -experiment på barnstars och bidrag till Wikipedia: forskarna slumpmässigt delade deltagare i behandlings- och kontrollgrupper gav deltagare i behandlingsgruppen en barnstjärna och jämförde resultaten för två grupper. Den andra typen av design är en inom-ämnesdesign . De två experimenten i Schultz och kollegas (2007) studie om sociala normer och energianvändning illustrerar en inomliggande ämnesdesign: forskarna jämförde elanvändningen av deltagare före och efter behandlingen. Inom ämnesdesign erbjuder förbättrad statistisk precision, men de är öppna för möjliga konfronteringar (t.ex. förändringar i väder mellan förbehandlings- och behandlingsperioder) (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . Inom-ämnen design kallas också ibland upprepade måttdesigner. Slutligen kombinerar blandade mönster den förbättrade precisionen inom designen inom motiv och skyddet mot förvirring av mellanliggande ämnen. I en blandad design jämför forskaren förändringen i utfallet för personer i behandlings- och kontrollgrupperna. När forskare redan har förbehandlingsinformation, som det är fallet i många digitala experiment, är blandade mönster vanligtvis föredragna för mellanliggande ämnen eftersom de resulterar i förbättrad precision av uppskattningar.

Sammantaget visar designen och resultaten av studien av Schultz och kollegor (2007) värdet av att flytta bortom enkla experiment. Lyckligtvis behöver du inte vara ett kreativt geni för att designa experiment som det här. Socialforskare har utvecklat tre begrepp som leder dig till rikare experiment: (1) validitet, (2) heterogenitet av behandlingseffekter och (3) mekanismer. Det vill säga om du håller dessa tre tankar i åtanke medan du utformar ditt experiment, kommer du naturligtvis att skapa ett mer intressant och användbart experiment. För att illustrera dessa tre begrepp i åtgärd beskriver jag ett antal uppföljande, delvis digitala fältförsök som bygger på Schultz och kollegas eleganta design och spännande resultat (2007) . Som du kommer att se, genom mer noggrann design, implementering, analys och tolkning kan du också gå bortom enkla experiment.