4.4 flytta bortom enkla experiment

Låt oss gå bortom enkla experiment. Tre begrepp är användbara för rika experiment: giltighet, heterogenitet behandlingseffekter och mekanism.

Forskare som är nya experiment ofta fokuserar på en mycket specifik, smal fråga: gör denna behandling "arbete"? Till exempel gör ett telefonsamtal från en frivillig uppmuntra någon att rösta? Gör att ändra en webbplats knapp från blått till grönt ökar klickfrekvens? Tyvärr, lös frasering om vad "fungerar" skymmer det faktum att snävt fokuserade experiment inte riktigt berätta om en behandling "fungerar" i en allmän mening. Snarare fokuserade experiment svara på en mycket mer specifik fråga: vad är den genomsnittliga effekten av denna specifika behandling med denna specifika implementering för denna population av deltagarna vid den här tiden? Jag ringer experiment som fokuserar på denna smala fråga enkla experiment.

Enkla experiment kan ge värdefull information, men de misslyckas med att svara på många frågor som är både viktiga och intressanta, såsom: Finns det några människor för vilka behandlingen hade en större eller mindre effekt ?; finns det en annan behandling som skulle vara mer effektivt ?; och hur detta experiment hänför sig till bredare sociala teorier?

För att visa värdet att gå vidare enkla experiment, låt oss betrakta en av mina favorit analoga fältexperiment, en studie av P. Wesley Schultz och hans kollegor på sambandet mellan sociala normer och energiförbrukning (Schultz et al. 2007) . Schultz och hans kollegor hängde doorhangers på 300 hushåll i San Marcos, Kalifornien, och dessa doorhangers levererade olika meddelanden för att främja energisparande. Därefter, Schultz och kollegor mätte effekten av dessa meddelanden på elförbrukningen, både efter en vecka och tre veckor; se Figur 4.3 för en mer detaljerad beskrivning av experimentell design.

Figur 4.3: Schematisk design från Schultz et al. (2007). Fältförsöket inblandade besöker ca 300 hushåll i San Marcos, Kalifornien fem gånger under en åttaveckorsperiod. Vid varje besök forskarna tog en läsning från husets effektmätaren manuellt. På två av besöken forskarna placeras doorhangers på huset ge några upplysningar om sin energiförbrukning. Frågeställningen var hur innehållet i dessa meddelanden skulle påverka energianvändningen.

Figur 4.3: Schematisk design från Schultz et al. (2007) . Fältförsöket inblandade besöker ca 300 hushåll i San Marcos, Kalifornien fem gånger under en åttaveckorsperiod. Vid varje besök forskarna tog en läsning från husets effektmätaren manuellt. På två av besöken forskarna placeras doorhangers på huset ge några upplysningar om sin energiförbrukning. Frågeställningen var hur innehållet i dessa meddelanden skulle påverka energianvändningen.

Experimentet hade två villkor. I det första villkoret, fick hushållen spara tips allmän energi (t.ex. använda fläktar i stället för luftkonditionering) och information om deras hushållets energianvändning jämfört med genomsnittet av energianvändningen i deras grannskap. Schultz och hans kollegor kallas detta den beskrivande normativa tillstånd eftersom informationen om energianvändning i deras grannskap tillgänglig information om typiska beteende (dvs ett beskrivande norm). När Schultz och kollegor tittade på den resulterande energianvändningen i denna grupp, verkade behandlingen ha någon effekt, vare sig på kort sikt eller lång sikt; med andra ord, har behandlingen inte tycks "arbete" (figur 4,4).

Men lyckligtvis Schultz et al. (2007) inte nöja sig med detta förenklade analys. Innan försöket började de resonerade att storkonsumenter av el-folk över medelvärdet-kan minska sin konsumtion, och detta ljus användare av el-personer under medelvärdet-kan faktiskt öka sin konsumtion. När de tittade på data, det är precis vad de hittade (Figur 4.4). Således, det såg ut som en behandling som hade någon effekt var faktiskt en behandling som hade två motverkande effekter. Forskarna kallade denna kontraproduktiva ökning bland ljus användarna en bumerangeffekt.

Figur 4.4: Resultat från Schultz et al. (2007). Den första panelen visar att beskrivande norm behandling har en beräknad noll genomsnittlig behandlingseffekt. Emellertid visar den andra panelen att detta genomsnitt behandlingseffekt faktiskt består av två motverkande effekter. För tunga användare, behandlingen minskade användningen men för lätta användare, ökade behandlings användning. Slutligen visar den tredje panelen att den andra behandlingen, som används beskrivande och förbudsföreläggande normer, hade ungefär samma effekt på tunga användare utan mildbumerangeffekten på lätta användare.

Figur 4.4: Resultat från Schultz et al. (2007) . Den första panelen visar att beskrivande norm behandling har en beräknad noll genomsnittlig behandlingseffekt. Emellertid visar den andra panelen att detta genomsnitt behandlingseffekt faktiskt består av två motverkande effekter. För tunga användare, behandlingen minskade användningen men för lätta användare, ökade behandlings användning. Slutligen visar den tredje panelen att den andra behandlingen, som används beskrivande och förbudsföreläggande normer, hade ungefär samma effekt på tunga användare utan mildbumerangeffekten på lätta användare.

Vidare, Schultz och hans kollegor förväntade denna möjlighet, och i det andra tillståndet de utplacerade en något annorlunda behandling, ett särskilt utformat för att eliminera bumerangeffekten. Hushållen i det andra villkoret fick exakt samma behandlings allmänna energisparande tips och information om deras hushållets energianvändning jämfört med sin grannskaps med en liten tillägg: för personer med under genomsnittet konsumtion, forskarna lagt till en :) och för personer med över genomsnittet konsumtion de lagt till en :(. Dessa uttryckssymboler var utformade för att utlösa vad forskarna kallas förbudsföreläggande normer. förbudsföreläggande normer avser uppfattningar om vad som allmänt godkänd (och ej godkända) medan beskrivande normer avser uppfattningar om vad görs vanligtvis (Reno, Cialdini, and Kallgren 1993) .

Genom att lägga till detta en liten uttryckssymbol forskarna minskade dramatiskt bumerangeffekten (Figur 4.4). Genom att göra detta en enkel förändring, en förändring som motiverades av en abstrakt socialpsykologisk teori (Cialdini, Kallgren, and Reno 1991) -de kunde forskarna att vända ett program från en som inte verkar fungera i ett som fungerat, och samtidigt kunde de bidra till den allmänna förståelsen av hur sociala normer påverkar mänskligt beteende.

Vid denna punkt, dock kanske du märker att något är lite annorlunda om detta experiment. I synnerhet inte experimentet av Schultz och hans kollegor inte riktigt har en kontrollgrupp på samma sätt som randomiserade kontrollerade experiment gör. Jämförelsen mellan denna design och konstruktion av Restivo och van de Rijt illustrerar skillnaderna mellan två större utformningar som används av forskare. I mellan-ämnen mönster, såsom Restivo och van de Rijt finns en behandlingsgrupp och en kontrollgrupp, och inom-ämnen designar beteende deltagarna jämförs före och efter behandlingen (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . I en inom individer experiment är det som om varje deltagare fungerar som sitt eget kontrollgruppen. Styrkan i mellan-ämnen mönster är att det ger skydd mot confounders (som jag beskrev tidigare), och styrkan av inom-ämnen experiment ökad precision i beräkningarna. När varje deltagare fungerar som sin egen kontroll, är mellan-deltagare variation elimineras (se tekniskt tillägg). Att förebådar en som kommer senare när jag ger råd om att utforma digitala experiment, det finns en slutlig design som kallas en blandad konstruktion, som kombinerar förbättrad precision av inom-ämnen design och skydd mot confounding av mellan-försöks design.

Figur 4.5: Tre experimentell design. Standard randomiserade kontrollerade experiment använder mellan-ämnen mönster. Ett exempel på en mellan-patienter design är Restivo och van de Rijt s (2012) experiment på barnstars och bidrag till Wikipedia: forskare slumpmässigt deltagarna i behandlings- och kontrollgrupper, gav deltagarna i behandlingsgruppen en barnstar, och jämförde resultaten för de två grupper. En andra typ av design är en inom-ämnen design. De två försöken i Schultz och kollega (2007) studie om sociala normer och energianvändning illustrerar en inom-ämnen konstruktion: forskare jämförde elanvändning av deltagarna före och efter att ha fått behandling. Inom-ämnen design erbjuder bättre statistisk precision genom att eliminera mellan ämne varians (se tekniskt tillägg), men de är öppna för möjliga confounders (t.ex. förändringar i vädret mellan förbehandling och behandlingsperioden) (Greenwald 1976, Charness, Gneezy, och Kuhn 2012). Inom-ämnen mönster är också ibland kallas upprepad mätning. Slutligen, blandade mönster kombinerar förbättrad precision av inom utsätter design och skydd mot confounding av mellan-försöks design. I en blandad konstruktion, jämför en forskare förändringen i resultat för människor i behandlings- och kontrollgrupper. När forskare redan har förbehandling information som är fallet i många digitala experiment, blandade mönster är att föredra framför mellan-ämnen mönster på grund av vinster i precision (se tekniskt tillägg).

Figur 4.5: Tre experimentell design. Standard randomiserade kontrollerade experiment använder mellan-ämnen mönster. Ett exempel på en mellan-patienter design är Restivo och van de Rijt s (2012) experiment på barnstars och bidrag till Wikipedia: forskare slumpmässigt deltagarna i behandlings- och kontrollgrupper, gav deltagarna i behandlingsgruppen en barnstar, och jämförde resultaten för de två grupper. En andra typ av design är en inom-ämnen design. De två försöken i Schultz och kollega (2007) studie om sociala normer och energianvändning illustrerar en inom-ämnen konstruktion: forskare jämförde elanvändning av deltagarna före och efter att ha fått behandling. Inom-ämnen design erbjuder bättre statistisk precision genom att eliminera mellan ämne varians (se tekniskt tillägg), men de är öppna för möjliga confounders (t.ex. förändringar i vädret mellan förbehandling och behandlingsperioden) (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . Inom-ämnen mönster är också ibland kallas upprepad mätning. Slutligen, blandade mönster kombinerar förbättrad precision av inom utsätter design och skydd mot confounding av mellan-försöks design. I en blandad konstruktion, jämför en forskare förändringen i resultat för människor i behandlings- och kontrollgrupper. När forskare redan har förbehandling information som är fallet i många digitala experiment, blandade mönster är att föredra framför mellan-ämnen mönster på grund av vinster i precision (se tekniskt tillägg).

Övergripande, utformningen och resultaten av Schultz et al. (2007) visar värdet av att gå längre än enkla experiment. Lyckligtvis behöver du inte vara ett geni för att skapa experiment som denna. Samhällsvetare har utvecklat tre koncept som guidar dig mot rikare och mer kreativa experiment: 1) giltighet, 2) heterogenitet behandlingseffekter, och 3) mekanismer. Det är, om du håller dessa tre idéer i åtanke när du designar experimentet kommer du naturligtvis skapa mer intressanta och användbara experiment. För att åskådliggöra dessa tre begrepp i handling, jag beskriva ett antal uppföljnings delvis digitala fältförsök som byggde på den eleganta designen och spännande resultat i Schultz et al. (2007) . Som ni ser, genom mer noggrann utformning, genomförande, analys och tolkning, kan du också gå bortom enkla experiment.