4.4 Flytning ud over simple eksperimenter

Lad os komme ud over simple eksperimenter. Tre begreber er nyttige for rige eksperimenter: gyldighed, heterogenitet behandling effekter og mekanisme.

Forskere, der er nye til eksperimenter ofte fokuserer på en meget specifik, smal spørgsmål: gør denne behandling "arbejde"? For eksempel giver et telefonopkald fra en frivillig tilskynde nogen til at stemme? Er ændrer en hjemmeside knap fra blå til grøn stigning klikfrekvens? Desværre, løs frasering om, hvad "værker" tilslører, at snævert fokuserede eksperimenter ikke rigtig fortælle dig, om en behandling "værker" i en generel forstand. Snarere, snævert fokuserede eksperimenter besvare et langt mere konkret spørgsmål: Hvad er den gennemsnitlige effekt af denne specifikke behandling med denne specifikke implementering til denne population af deltagere på dette tidspunkt? Jeg ringer eksperimenter, der fokuserer på dette smalle spørgsmål simple eksperimenter.

Simple eksperimenter kan give værdifulde oplysninger, men de undlader at besvare mange spørgsmål, der er både vigtige og interessante, såsom: er der nogle mennesker, for hvem behandlingen havde en større eller mindre effekt ?; er der en anden behandling, der ville være mere effektiv ?; og hvordan dette eksperiment vedrører bredere sociale teorier?

For at vise værdien af at bevæge sig ud over simple eksperimenter, lad os overveje en af mine foretrukne analoge markforsøg, en undersøgelse foretaget af P. Wesley Schultz og kolleger om forholdet mellem sociale normer og energiforbrug (Schultz et al. 2007) . Schultz og kolleger hang doorhangers på 300 husstande i San Marcos, Californien, og disse doorhangers leverede forskellige budskaber, der skal fremme energibesparelser. Derefter Schultz og kolleger målte effekten af ​​disse meddelelser på elforbruget, både efter en uge og tre uger; se figur 4.3 for en nærmere beskrivelse af det eksperimentelle design.

Figur 4.3: Skematisk af design fra Schultz et al. (2007). Feltet Forsøget involverede besøger omkring 300 husstande i San Marcos, Californien fem gange i løbet af en otte ugers periode. På hvert besøg forskerne tog en læsning fra huset magt meter manuelt. På to af besøgene placeret forskerne doorhangers på huset giver nogle oplysninger om deres energiforbrug. Forskningen Spørgsmålet var, hvordan indholdet af disse meddelelser vil påvirke energiforbruget.

Figur 4.3: Skematisk af design fra Schultz et al. (2007) . Feltet Forsøget involverede besøger omkring 300 husstande i San Marcos, Californien fem gange i løbet af en otte ugers periode. På hvert besøg forskerne tog en læsning fra huset magt meter manuelt. På to af besøgene placeret forskerne doorhangers på huset giver nogle oplysninger om deres energiforbrug. Forskningen Spørgsmålet var, hvordan indholdet af disse meddelelser vil påvirke energiforbruget.

Forsøget havde to betingelser. I den første betingelse, husholdninger modtog generel energibesparende tips (f.eks brug fans i stedet for klimaanlæg) og information om deres husstandens energiforbrug i forhold til gennemsnittet af energiforbruget i deres nabolag. Schultz og kolleger kaldte dette beskrivende normative tilstand, fordi oplysningerne om energiforbruget i deres kvarter gav oplysninger om typiske adfærd (dvs. en beskrivende norm). Når Schultz og kolleger så på den resulterende energiforbrug i denne gruppe, behandling syntes at have nogen effekt, hverken på kort sigt eller på lang sigt; med andre ord, havde behandlingen ikke synes at "arbejde" (figur 4.4).

Men heldigvis Schultz et al. (2007) ikke nøjes med denne forsimplede analyse. Før forsøget begyndte de tænkte, at storforbrugere af el-folk over gennemsnittet-kan reducere deres forbrug, og det lys brugere af el-folk under middelværdi kan faktisk øge deres forbrug. Når de så på de data, der er præcis, hvad de fandt (Figur 4.4). Således hvad der lignede en behandling, der havde nogen effekt var faktisk en behandling, der havde to udlignende virkninger. Forskerne kaldte denne kontraproduktiv stigning blandt de lette brugere en boomerang effekt.

Figur 4.4: Resultater fra Schultz et al. (2007). Det første panel viser, at den beskrivende norm behandling har en anslået nul gennemsnitlig behandlingseffekt. det andet panel viser imidlertid, at denne gennemsnitlige behandlingseffekt faktisk er sammensat af to modsatrettede effekter. Til tunge brugere, behandlingen faldt forbrug, men for lette brugere, behandlingen øget forbrug. Endelig den tredje panel viser, at den anden behandling, som anvendte beskrivende og påbud normer, havde nogenlunde samme virkning på storforbrugere men afbødes boomerang effekt på lys brugere.

Figur 4.4: Resultater fra Schultz et al. (2007) . Det første panel viser, at den beskrivende norm behandling har en anslået nul gennemsnitlig behandlingseffekt. det andet panel viser imidlertid, at denne gennemsnitlige behandlingseffekt faktisk er sammensat af to modsatrettede effekter. Til tunge brugere, behandlingen faldt forbrug, men for lette brugere, behandlingen øget forbrug. Endelig den tredje panel viser, at den anden behandling, som anvendte beskrivende og påbud normer, havde nogenlunde samme virkning på storforbrugere men afbødes boomerang effekt på lys brugere.

Endvidere Schultz og kolleger forventes denne mulighed, og i den anden betingelse, de indsat en lidt anden behandling, man udtrykkeligt designet til at fjerne den boomerang effekt. Husholdningerne i den anden betingelse har modtaget de nøjagtige samme behandlingsrelaterede generel energibesparelse tips og oplysninger om deres husstandens energiforbrug sammenlignet med deres kvarter-med en lille tilføjelse: for folk med under gennemsnittet forbrug, tilføjer forskerne en :) og for folk med over gennemsnittet forbrug de tilføjet en :(. Disse humørikoner var designet til at udløse, hvad forskerne kaldte forbudsprocedurers normer. påbud normer refererer til opfattelser af, hvad der er almindeligt godkendt (og afvist), mens beskrivende normer henviser til opfattelsen af, hvad der er almindeligt gjort (Reno, Cialdini, and Kallgren 1993) .

Ved at tilføje denne ene lille humørikon, forskerne dramatisk reduceret boomerang effekt (Figur 4.4). Ved således at gøre dette én simpel ændring-en ændring, der var motiveret af en abstrakt social psykologisk teori (Cialdini, Kallgren, and Reno 1991) -de forskerne var i stand til at vende et program fra en, der ikke synes at arbejde i en, arbejdet, og samtidig var de i stand til at bidrage til den generelle forståelse af, hvordan sociale normer påvirker menneskers adfærd.

På dette tidspunkt, dog kan du bemærke, at noget er en smule anderledes ved dette eksperiment. Navnlig er forsøget med Schultz og kolleger ikke rigtig har en kontrolgruppe på samme måde, som randomiserede kontrollerede eksperimenter gør. Sammenligningen mellem dette design og design af Restivo og van de Rijt illustrerer forskellene mellem to store design, der anvendes af forskere. I mellem-fag designs, såsom Restivo og van de Rijt, der er en behandlingsgruppe og en kontrolgruppe, og inden-fag designs adfærd deltagere sammenlignes før og efter behandlingen (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . I et inden for individet eksperiment er det, som om hver deltager fungerer som sin egen kontrolgruppe. Styrken af ​​mellem-emner design er, at det giver beskyttelse mod konfoundere (som jeg beskrev tidligere), og styrken af ​​inden-fag eksperimenter er forøget præcision i skøn. Når hver deltager fungerer som deres egen kontrol, er mellem-deltager variation elimineret (se teknisk tillæg). At varsle en, der vil komme senere, når jeg tilbyde rådgivning om design af digitale eksperimenter, der er en endelig udformning, der kaldes en blandet design, der kombinerer den forbedrede præcision indenfor-fag designs og beskyttelse mod confounding på mellem-fag designs.

Figur 4.5: Tre eksperimentelle designs. Standard randomiserede kontrollerede eksperimenter bruger mellem-emner designs. Et eksempel på en mellem-fag design er Restivo og van de Rijt s (2012) eksperiment på barnstars og bidrag til Wikipedia: forskere tilfældigt opdelt deltagerne i behandlings- og kontrolgrupper, gav deltagerne i behandlingsgruppen en barnstar, og sammenlignet resultaterne for de to grupper. En anden type design er et inden-fag design. De to eksperimenter i Schultz og kollegas (2007) undersøgelse af sociale normer og energiforbrug illustrerer en inden-emner design: Forskerne sammenlignede elektricitet brug af deltagerne før og efter behandlingen. Inden-fag designs tilbyde bedre statistisk præcision ved at fjerne mellem emne varians (se teknisk tillæg), men de er åbne for mulige confoundere (fx ændringer i vejret mellem forbehandling og behandling periode) (Greenwald 1976 Charness, Gneezy, og Kuhn 2012). Inden-emner design er også undertiden kaldes gentagne målinger designs. Endelig blandede designs kombinerer den forbedrede præcision inden-emner designs og beskyttelse mod confounding på mellem-fag designs. I en blandet design, en forsker sammenligner ændringen i resultaterne for mennesker i behandlings- og kontrolgrupper. Når forskerne allerede har oplysninger forbehandling, som det er tilfældet i mange digitale eksperimenter, blandede designs er at foretrække frem for mellem-emner designs på grund af gevinster i præcision (se teknisk tillæg).

Figur 4.5: Tre eksperimentelle designs. Standard randomiserede kontrollerede eksperimenter bruger mellem-emner designs. Et eksempel på en mellem-fag design er Restivo og van de Rijt s (2012) eksperiment på barnstars og bidrag til Wikipedia: forskere tilfældigt opdelt deltagerne i behandlings- og kontrolgrupper, gav deltagerne i behandlingsgruppen en barnstar, og sammenlignet resultaterne for de to grupper. En anden type design er et inden-fag design. De to eksperimenter i Schultz og kollegas (2007) undersøgelse af sociale normer og energiforbrug illustrerer en inden-emner design: Forskerne sammenlignede elektricitet brug af deltagerne før og efter behandlingen. Inden-fag designs tilbyde bedre statistisk præcision ved at fjerne mellem emne varians (se teknisk tillæg), men de er åbne for mulige confoundere (fx ændringer i vejret mellem forbehandling og behandling periode) (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . Inden-emner design er også undertiden kaldes gentagne målinger designs. Endelig blandede designs kombinerer den forbedrede præcision inden-emner designs og beskyttelse mod confounding på mellem-fag designs. I en blandet design, en forsker sammenligner ændringen i resultaterne for mennesker i behandlings- og kontrolgrupper. Når forskerne allerede har oplysninger forbehandling, som det er tilfældet i mange digitale eksperimenter, blandede designs er at foretrække frem for mellem-emner designs på grund af gevinster i præcision (se teknisk tillæg).

Samlet er udformningen og resultaterne af Schultz et al. (2007) viser værdien for at uddybe simple forsøg. Heldigvis behøver du ikke at være et geni for at skabe eksperimenter som denne. Sociale forskere har udviklet tre begreber, som vil guide dig mod rigere og mere kreative eksperimenter: 1) gyldighed, 2) heterogenitet behandlingseffekt, og 3) mekanismer. Det vil sige, hvis du holder disse tre ideer i tankerne, mens du designer dit eksperiment, vil du naturligvis skabe mere interessante og nyttige eksperimenter. For at illustrere disse tre begreber i aktion, vil jeg beskrive en række opfølgende delvist digitale markforsøg, der er bygget på det elegante design og spændende resultater i Schultz et al. (2007) . Som du vil se, gennem mere omhyggelig design, implementering, analyse og fortolkning, du også kan bevæge sig ud over simple eksperimenter.