4.4 Moving utover enkle eksperimenter

La oss bevege seg utover enkle eksperimenter. Tre konsepter er nyttige for rike eksperimenter: validitet, heterogenitet av behandlingseffekter og mekanismer.

Forskere som er nye for eksperimenter, fokuserer ofte på et svært spesifikt, smalt spørsmål: Fungerer denne behandlingen "arbeid"? For eksempel oppfordrer en telefonsamtale fra en frivillig noen til å stemme? Endrer du en nettside-knapp fra blå til grønn, øker klikkfrekvensen? Dessverre løses løsningen om hva som "fungerer" for det faktum at smalt fokuserte eksperimenter ikke forteller deg om en behandling "virker" i generell forstand. Snarere, smalt fokuserte eksperimenter svarer på et mye mer spesifikt spørsmål: Hva er den gjennomsnittlige effekten av denne spesifikke behandlingen med denne spesifikke implementeringen for denne populasjonen av deltakere på dette tidspunktet? Jeg ringer eksperimenter som fokuserer på dette smale spørsmålet enkle eksperimenter .

Enkle eksperimenter kan gi verdifull informasjon, men de klarer ikke å svare på mange spørsmål som er både viktige og interessante, for eksempel om det er noen mennesker for hvem behandlingen hadde større eller mindre effekt. om det er en annen behandling som ville være mer effektiv; og om dette eksperimentet gjelder bredere sosiale teorier.

For å vise verdien av å bevege seg utover enkle eksperimenter, la oss vurdere et analogt felteksperiment av P. Wesley Schultz og kolleger om forholdet mellom sosiale normer og energiforbruk (Schultz et al. 2007) . Schultz og kolleger hengte dørhengere på 300 husstander i San Marcos, California, og disse dørhengere leverte forskjellige meldinger designet for å oppmuntre til energibesparelse. Deretter målte Schultz og kollegaer effekten av disse meldingene på strømforbruket, både etter en uke og etter tre uker; se figur 4.3 for en mer detaljert beskrivelse av eksperimentell design.

Figur 4.3: Skjematisk av eksperimentell design fra Schultz et al. (2007). Feltforsøket involverte å besøke ca 300 husholdninger i San Marcos, California fem ganger over en åtte-ukes periode. På hvert besøk tok forskerne manuelt en lesning fra husets kraftmåler. På to av besøkene plasserte de dørhengere på hvert hus, noe som gir litt informasjon om husholdningens energiforbruk. Forskningsspørsmålet var hvordan innholdet i disse meldingene ville påvirke energiforbruket.

Figur 4.3: Skjematisk av eksperimentell design fra Schultz et al. (2007) . Feltforsøket involverte å besøke ca 300 husholdninger i San Marcos, California fem ganger over en åtte-ukes periode. På hvert besøk tok forskerne manuelt en lesning fra husets kraftmåler. På to av besøkene plasserte de dørhengere på hvert hus, noe som gir litt informasjon om husholdningens energiforbruk. Forskningsspørsmålet var hvordan innholdet i disse meldingene ville påvirke energiforbruket.

Forsøket hadde to forhold. I den første fikk husholdningene generelle energibesparende tips (f.eks. Bruk fans i stedet for klimaanlegg) og informasjon om deres energiforbruk i forhold til gjennomsnittlig energiforbruk i nabolaget. Schultz og kolleger kalte dette den beskrivende normative tilstanden fordi informasjonen om energiforbruket i nabolaget ga informasjon om typisk oppførsel (dvs. en beskrivende norm). Da Schultz og kollegaer så på den resulterende energiforbruket i denne gruppen, syntes behandlingen ikke å ha noen effekt på kort eller lang sikt; Med andre ord syntes behandlingen ikke å "virke" (figur 4.4).

Heldigvis slo ikke Schultz og kolleger seg for denne enkle analysen. Før eksperimentet startet, begrunnet de at tunge brukere av elektrisitet over mennesker kunne redusere forbruket, og at lette brukere av elektrisitet, folk under gjennomsnittet, kanskje øker forbruket. Når de så på dataene, er det akkurat det de fant (figur 4.4). Således, som så ut som en behandling som ikke hadde noen effekt, var faktisk en behandling som hadde to kompenserende effekter. Denne kontraproduktive økningen blant de lette brukerne er et eksempel på en boomerang-effekt , hvor en behandling kan ha motsatt effekt fra det som var ment.

Figur 4.4: Resultat fra Schultz et al. (2007). Panel (a) viser at den beskrivende normbehandlingen har en estimert null gjennomsnittlig behandlingseffekt. Panelet (b) viser imidlertid at denne gjennomsnittlige behandlingseffekten faktisk består av to kompensasjonseffekter. For tunge brukere, reduserte behandlingen bruken, men for lette brukere økte behandlingen bruken. Endelig viser panel (c) at den andre behandlingen, som brukte beskrivende og injunctive normer, hadde omtrent samme effekt på tunge brukere, men reduserte boomerang-effekten på lette brukere. Tilpasset fra Schultz et al. (2007).

Figur 4.4: Resultat fra Schultz et al. (2007) . Panel (a) viser at den beskrivende normbehandlingen har en estimert null gjennomsnittlig behandlingseffekt. Panelet (b) viser imidlertid at denne gjennomsnittlige behandlingseffekten faktisk består av to kompensasjonseffekter. For tunge brukere, reduserte behandlingen bruken, men for lette brukere økte behandlingen bruken. Endelig viser panel (c) at den andre behandlingen, som brukte beskrivende og injunctive normer, hadde omtrent samme effekt på tunge brukere, men reduserte boomerang-effekten på lette brukere. Tilpasset fra Schultz et al. (2007) .

Samtidig med den første tilstanden, løp Schultz og kolleger også en annen betingelse. Husholdningene i den andre tilstanden mottok nøyaktig samme generell energibesparende tips og informasjon om husholdningens energiforbruk i forhold til gjennomsnittet for deres nabolag - med et lite tillegg: For folk med under gjennomsnittlig forbruk la forskerne til: ) og for personer med over gjennomsnittet forbruk de la til: (Disse uttrykksikoner ble utformet for å utløse hva forskerne kalte forbudt normer . Injunktive normer refererer til oppfatninger av hva som er vanlig godkjent (og ikke godkjent), mens beskrivende normer refererer til oppfatninger av Hva gjøres vanligvis (Reno, Cialdini, and Kallgren 1993) .

Ved å legge til dette lille lille uttrykket, reduserte forskerne dramatisk boomerang-effekten (figur 4.4). Ved å gjøre denne enkle forandringen - en forandring som var motivert av en abstrakt sosialpsykologisk teori (Cialdini, Kallgren, and Reno 1991) - var forskerne i stand til å snu et program som ikke syntes å fungere i en som fungerte, og samtidig kunne de bidra til den generelle forståelsen av hvordan sosiale normer påvirker menneskelig atferd.

På dette punktet kan du imidlertid merke at noe er litt annerledes om dette eksperimentet. Spesielt har eksperimentet fra Schultz og kollegaer egentlig ikke en kontrollgruppe på samme måte som randomiserte kontrollerte eksperimenter gjør. En sammenligning mellom denne utformingen og Restivo og van de Rijt illustrerer forskjellene mellom to store eksperimentelle design. I mellomfagsmodeller , som for Restivo og van de Rijt, er det en behandlingsgruppe og en kontrollgruppe. I design innen emner , derimot, er deltakerens oppførsel sammenlignet før og etter behandlingen (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . I et internt eksperiment er det som om hver deltaker fungerer som sin egen kontrollgruppe. Styrken mellom designene mellom fagene er at de gir beskyttelse mot forstyrrelser (som jeg tidligere beskrev), mens styrken av eksperimenter innenfor fagene øker presisjonen av estimater. Til slutt, for å foreskygge en ide som kommer senere når jeg gir råd om design av digitale eksperimenter, kombinerer en blandet design_ den forbedrede presisjonen innen motivene og beskyttelse mot forvirring av mellom-emner design (figur 4.5).

Figur 4.5: Tre eksperimentelle design. Standard randomiserte kontrollerte eksperimenter bruker mellom-emner design. Et eksempel på en mellomfaglig design er Restivo og van de Rijts (2012) -eksperiment på barnstars og bidrag til Wikipedia: forskerne tilfeldig delte deltakere i behandlings- og kontrollgrupper, ga deltakerne i behandlingsgruppen en barnstjerne, og sammenlignet resultatene for to grupper. Den andre typen design er en innenfagdesign. De to forsøkene i Schultz og kollegernes (2007) studie om sosiale normer og energibruk illustrerer en emne-design: forskerne sammenlignet elbruk av deltakere før og etter behandling. Innenfor emnene gir forbedret statistisk presisjon, men de er åpne for mulige forstyrrelser (for eksempel endringer i vær mellom forbehandling og behandlingsperioder) (Greenwald 1976, Charness, Gneezy og Kuhn 2012). Innen-emner design er også noen ganger kalt gjentatte målinger design. Til slutt kombinerer blandede design den forbedrede presisjonen innen motivene i motivet og beskyttelse mot forstyrrelser av mellom-emner. I en blandet design sammenligner en forsker endringen i utfall for personer i behandlings- og kontrollgruppene. Når forskere allerede har forhåndsbehandlingsinformasjon, som det er tilfellet i mange digitale eksperimenter, er blandede design generelt foretrukket for mellom-emner, fordi de resulterer i bedre presisjon av estimater.

Figur 4.5: Tre eksperimentelle design. Standard randomiserte kontrollerte eksperimenter bruker mellom-emner design. Et eksempel på en mellomfaglig design er Restivo og van de Rijts (2012) -eksperiment på barnstars og bidrag til Wikipedia: forskerne tilfeldig delte deltakere i behandlings- og kontrollgrupper, ga deltakerne i behandlingsgruppen en barnstjerne, og sammenlignet resultatene for to grupper. Den andre typen design er en innenfagdesign . De to forsøkene i Schultz og kollegernes (2007) studie om sosiale normer og energibruk illustrerer en emne-design: forskerne sammenlignet elbruk av deltakere før og etter behandling. Innenfor emner gir forbedret statistisk presisjon, men de er åpne for mulige forstyrrelser (for eksempel endringer i vær mellom forbehandling og behandlingsperioder) (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . Innen-emner design er også noen ganger kalt gjentatte målinger design. Til slutt kombinerer blandede design den forbedrede presisjonen innen motivene i motivet og beskyttelse mot forstyrrelser av mellom-emner. I en blandet design sammenligner en forsker endringen i utfall for personer i behandlings- og kontrollgruppene. Når forskere allerede har forhåndsbehandlingsinformasjon, som det er tilfellet i mange digitale eksperimenter, er blandede design generelt foretrukket for mellom-emner, fordi de resulterer i bedre presisjon av estimater.

Samlet sett viser design og resultater av studien av Schultz og kolleger (2007) verdien av å bevege seg utover enkle eksperimenter. Heldigvis trenger du ikke å være et kreativt geni for å designe eksperimenter som dette. Sosialforskere har utviklet tre konsepter som vil lede deg mot rikere eksperimenter: (1) validitet, (2) heterogenitet av behandlingseffekter og (3) mekanismer. Det vil si at hvis du holder disse tre ideene i bakhodet mens du utformer eksperimentet ditt, vil du selvsagt lage et mer interessant og nyttig eksperiment. For å illustrere disse tre konseptene i aksjon, beskriver jeg en rekke oppfølging, delvis digitale felteksperimenter som bygger på den elegante designen og spennende resultatene fra Schultz og kolleger (2007) . Som du vil se, kan du gjennom mer forsiktig utforming, implementering, analyse og tolkning også bevege deg utover enkle eksperimenter.