4.4 Flytning ud over simple eksperimenter

Lad os gå ud over enkle eksperimenter. Tre koncepter er nyttige til rige eksperimenter: validitet, heterogenitet af behandlingseffekter og mekanismer.

Forskere, der er nye til forsøg, fokuserer ofte på et meget specifikt, smalt spørgsmål: Gør denne behandling "arbejde"? For eksempel opfordrer et telefonopkald fra en frivillig nogen til at stemme? Ændrer du klikfrekvensen ved at ændre en websteds knap fra blå til grøn? Desværre løst formulering om, hvad "værker" dækker det faktum, at snævert fokuserede eksperimenter ikke rigtig fortæller dig, om en behandling "virker" i generel forstand. I stedet for snævert fokuserede eksperimenter svarer et meget mere specifikt spørgsmål: Hvad er den gennemsnitlige effekt af denne specifikke behandling med denne specifikke implementering for denne population af deltagere på dette tidspunkt? Jeg ringer eksperimenter, der fokuserer på dette smalle spørgsmål, enkle eksperimenter .

Enkle eksperimenter kan give værdifuld information, men de undlader at besvare mange spørgsmål, der er både vigtige og interessante, som om der er nogle mennesker, for hvem behandlingen havde en større eller mindre effekt; om der er en anden behandling, der ville være mere effektiv; og om dette forsøg vedrører bredere sociale teorier.

For at vise værdien af ​​at gå ud over enkle eksperimenter, lad os overveje et analogt felteksperiment af P. Wesley Schultz og kolleger om forholdet mellem sociale normer og energiforbrug (Schultz et al. 2007) . Schultz og kolleger hængte dørhængere på 300 husstande i San Marcos, Californien, og disse dørhugger leverede forskellige meddelelser designet til at fremme energibesparelse. Derefter målte Schultz og kolleger effekten af ​​disse meddelelser på elforbrug, både efter en uge og efter tre uger; se figur 4.3 for en mere detaljeret beskrivelse af det eksperimentelle design.

Figur 4.3: Skematisk af eksperimentelt design fra Schultz et al. (2007). Field eksperimentet involverede besøger omkring 300 husstande i San Marcos, Californien fem gange over en otte uger periode. På hvert besøg tog forskerne manuelt en læsning fra husets kraftmåler. På to af besøgene anbragte de dørhængere på hvert hus og gav nogle oplysninger om husstandens energiforbrug. Forskningsspørgsmålet var, hvordan indholdet af disse meddelelser ville påvirke energiforbruget.

Figur 4.3: Skematisk af eksperimentelt design fra Schultz et al. (2007) . Field eksperimentet involverede besøger omkring 300 husstande i San Marcos, Californien fem gange over en otte uger periode. På hvert besøg tog forskerne manuelt en læsning fra husets kraftmåler. På to af besøgene anbragte de dørhængere på hvert hus og gav nogle oplysninger om husstandens energiforbrug. Forskningsspørgsmålet var, hvordan indholdet af disse meddelelser ville påvirke energiforbruget.

Forsøget havde to betingelser. I den første fik husstandene generelle energibesparende tips (f.eks. Brug fans i stedet for klimaanlæg) og oplysninger om deres energiforbrug i forhold til den gennemsnitlige energiforbrug i deres kvarter. Schultz og kolleger kaldte dette den beskrivende normative tilstand, fordi oplysningerne om energiforbruget i kvarteret gav information om typisk adfærd (dvs. en beskrivende norm). Da Schultz og kolleger kiggede på den resulterende energiforbrug i denne gruppe, syntes behandlingen ikke at have nogen virkning på kort eller lang sigt; Med andre ord syntes behandlingen ikke at "arbejde" (figur 4.4).

Heldigvis slog Schultz og kolleger ikke sig for denne forenklede analyse. Før eksperimentet begyndte, redegjorde de for, at tunge brugere af el-personer over gennemsnittet kunne reducere forbruget, og at de lette brugere af elektricitet under de gennemsnitlige kunne øge deres forbrug. Når de så på dataene, er det præcis det, de fandt (figur 4.4). Således, hvad der lignede en behandling, der ikke havde nogen effekt, var faktisk en behandling, der havde to kompenserende virkninger. Denne modproduktive stigning blandt de lette brugere er et eksempel på en boomerang-effekt , hvor en behandling kan have den modsatte effekt fra det, der var beregnet.

Figur 4.4: Resultater fra Schultz et al. (2007). Panel (a) viser, at den beskrivende normbehandling har en estimeret nul gennemsnitlig behandlingseffekt. Panel (b) viser imidlertid, at denne gennemsnitlige behandlingseffekt faktisk er sammensat af to kompenserende effekter. For tunge brugere reducerede behandlingen brugen, men for lette brugere øgede behandlingen brugen. Endelig viser panel (c), at den anden behandling, der anvendte beskrivende og injunctive normer, havde stort set den samme virkning på tunge brugere, men reducerede boomerang-effekten på lette brugere. Tilpasset fra Schultz et al. (2007).

Figur 4.4: Resultater fra Schultz et al. (2007) . Panel (a) viser, at den beskrivende normbehandling har en estimeret nul gennemsnitlig behandlingseffekt. Panel (b) viser imidlertid, at denne gennemsnitlige behandlingseffekt faktisk er sammensat af to kompenserende effekter. For tunge brugere reducerede behandlingen brugen, men for lette brugere øgede behandlingen brugen. Endelig viser panel (c), at den anden behandling, der anvendte beskrivende og injunctive normer, havde stort set den samme virkning på tunge brugere, men reducerede boomerang-effekten på lette brugere. Tilpasset fra Schultz et al. (2007) .

Samtidig med den første betingelse løb Schultz og kolleger også en anden betingelse. Husholdningerne i den anden betingelse modtog nøjagtig samme generelle energibesparende tips og oplysninger om deres husstands energiforbrug i forhold til gennemsnittet for deres kvarter - med en lille tilføjelse: For personer med undergennemsnitligt forbrug tilføjede forskerne en: ) og for personer med over gennemsnittet forbrug tilføjede de: (Disse emoticons var designet til at udløse hvad forskerne kaldte injunctive normer . Injunktive normer refererer til opfattelser af, hvad der almindeligvis godkendes (og afvist), mens beskrivende normer refererer til opfattelser af Hvad er der almindeligvis gjort (Reno, Cialdini, and Kallgren 1993) .

Ved at tilføje dette lille emoticon, reducerede forskerne dramatisk boomerang-effekten (figur 4.4). Ved at gøre denne ene enkle forandring - en ændring, der var motiveret af en abstrakt social psykologisk teori (Cialdini, Kallgren, and Reno 1991) - forskerne var i stand til at dreje et program, der ikke syntes at virke i en, der fungerede, og samtidig kunne de bidrage til den generelle forståelse af, hvordan sociale normer påvirker menneskelig adfærd.

På dette tidspunkt kan du dog bemærke, at noget er lidt anderledes med dette eksperiment. Eksempelvis har eksperimentet fra Schultz og kolleger ikke rigtig en kontrolgruppe på samme måde som randomiserede kontrollerede eksperimenter gør. En sammenligning mellem dette design og Restivo og van de Rijt illustrerer forskellene mellem to store eksperimentelle designs. I mellem-emner design , som for Restivo og van de Rijt, er der en behandlingsgruppe og en kontrolgruppe. I emner indenfor emner sammenlignes deltagernes adfærd før og efter behandlingen (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . I et eksperiment indenfor fag er det som om hver deltager fungerer som sin egen kontrolgruppe. Styrken af ​​mellem-emner design er, at de giver beskyttelse mod confounders (som jeg tidligere beskrev), mens styrken af ​​inden-fag eksperimenter er øget præcision af estimater. Endelig, for at foreshadow en idé, der kommer senere, når jeg giver råd om design af digitale eksperimenter, kombinerer et blandet design_ den forbedrede præcision indenfor emner og beskyttelse mod konfrontering af mellem-emner design (figur 4.5).

Figur 4.5: Tre eksperimentelle designs. Standard randomiserede kontrollerede eksperimenter bruger mellem-emner design. Et eksempel på et mellem-emne-design er Restivo og van de Rijts (2012) eksperiment på barnstars og bidrag til Wikipedia: forskerne tilfældigt delt op i behandlings- og kontrolgrupper gav deltagerne i behandlingsgruppen en barnestjerne og sammenlignede resultaterne for to grupper. Den anden type design er et indenfor emner design. De to eksperimenter i Schultz og kollegernes (2007) undersøgelse om sociale normer og energiforbrug illustrerer et emne-design: forskerne sammenlignede elforbruget af deltagere før og efter behandlingen. Indenfor emner tilbyder forbedret statistisk præcision, men de er åbne for mulige konfronteringer (fx ændringer i vejr mellem præbehandling og behandlingsperioder) (Greenwald 1976, Charness, Gneezy og Kuhn 2012). Indenfor emner design kaldes også nogle gange gentagne måder design. Endelig kombinerer blandede design den forbedrede præcision indenfor emner og beskyttelse mod forstyrrelse af mellem-emner design. I et blandet design sammenligner en forsker forandringen i resultater for personer i behandlings- og kontrolgrupper. Når forskere allerede har forbehandling oplysninger, som det er tilfældet i mange digitale eksperimenter, er blandede design generelt foretrukne for mellem-emner design, fordi de resulterer i forbedret præcision af estimater.

Figur 4.5: Tre eksperimentelle designs. Standard randomiserede kontrollerede eksperimenter bruger mellem-emner design. Et eksempel på et mellem-emne-design er Restivo og van de Rijts (2012) eksperiment på barnstars og bidrag til Wikipedia: forskerne tilfældigt delt op i behandlings- og kontrolgrupper gav deltagerne i behandlingsgruppen en barnestjerne og sammenlignede resultaterne for to grupper. Den anden type design er et indenfor emner design. De to eksperimenter i Schultz og kollegernes (2007) undersøgelse om sociale normer og energiforbrug illustrerer et emne-design: forskerne sammenlignede elforbruget af deltagere før og efter behandlingen. Indenfor emner tilbyder forbedret statistisk præcision, men de er åbne for mulige konfronteringer (f.eks. Ændringer i vejr mellem præbehandling og behandlingsperioder) (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . Indenfor emner design kaldes også nogle gange gentagne måder design. Endelig kombinerer blandede design den forbedrede præcision indenfor emner og beskyttelse mod forstyrrelse af mellem-emner design. I et blandet design sammenligner en forsker forandringen i resultater for personer i behandlings- og kontrolgrupper. Når forskere allerede har forbehandling oplysninger, som det er tilfældet i mange digitale eksperimenter, er blandede design generelt foretrukne for mellem-emner design, fordi de resulterer i forbedret præcision af estimater.

Samlet set viser designet og resultaterne af undersøgelsen af ​​Schultz og kolleger (2007) værdien af ​​at gå videre end enkle eksperimenter. Heldigvis behøver du ikke være et kreativt geni til at designe eksperimenter som dette. Socialforskere har udviklet tre begreber, der vil lede dig mod rigere eksperimenter: (1) validitet, (2) behandlingseffekternes heterogenitet og (3) mekanismer. Det vil sige, hvis du holder disse tre ideer i tankerne, mens du designer dit eksperiment, vil du naturligvis oprette et mere interessant og nyttigt eksperiment. For at illustrere disse tre begreber i aktion beskriver jeg en række opfølgende delvist digitale felteksperimenter, der bygger på Schultz og kollegernes elegante design og spændende resultater (2007) . Som du vil se, kan du gennem mere omhyggeligt design, implementering, analyse og fortolkning også bevæge dig ud over enkle eksperimenter.