4.4 Moving utover enkle eksperimenter

La oss gå utover enkle eksperimenter. Tre begreper er nyttige for rike eksperimenter: validitet, heterogenitet av behandlingseffekter og mekanisme.

Forskere som er nye eksperimenter ofte fokus på en helt bestemt, smale Spørsmål: Har denne behandlingen "arbeid"? For eksempel, gjør en telefon fra en frivillig oppfordre noen til å stemme? Betyr endre en nettside knappen fra blå til grønn vekst klikkfrekvens? Dessverre, løs frasering om hva "virker" tilslører det faktum at innskrenkede eksperimentene ikke egentlig fortelle deg om en behandling "fungerer" i en generell forstand. Snarere snevert fokusert eksperimenter svare på et mye mer spesifikt spørsmål: hva er den gjennomsnittlige effekten av denne spesifikke behandling med dette spesifikke implementasjonen for denne populasjonen av deltakere på denne tiden? Jeg ringer eksperimenter som fokuserer på denne smale spørsmåls enkle eksperimenter.

Enkle eksperimenter kan gi verdifull informasjon, men de ikke klarer å svare på mange spørsmål som er både viktig og interessant eksempel: er det noen mennesker for hvem behandling hadde en større eller mindre effekt ?; er det en annen behandling som ville være mer effektivt ?; og hvordan dette eksperimentet forholde seg til bredere sosiale teorier?

For å vise verdien av å gå utover enkle forsøk, la oss vurdere en av mine favoritt analoge feltforsøk, en studie av P. Wesley Schultz og kolleger på forholdet mellom sosiale normer og energiforbruk (Schultz et al. 2007) . Schultz og kolleger hengt doorhangers på 300 husstander i San Marcos, California, og disse doorhangers levert ulike meldinger designet for å oppmuntre til energisparing. Deretter Schultz og kolleger målte effekten av disse meldingene om strømforbruket, både etter en uke og tre uker; se figur 4.3 for en mer detaljert beskrivelse av den eksperimentelle design.

Figur 4.3: Skjematisk av design fra Schultz et al. (2007). Feltforsøket involvert besøker rundt 300 husstander i San Marcos, California fem ganger over en åtte ukers periode. På hvert besøk forskerne manuelt tok en lesning fra husets strømmåleren. På to av besøkene forskerne plassert doorhangers på huset å gi litt informasjon om sitt energiforbruk. Spørsmålet var hvordan innholdet i disse meldingene vil påvirke energibruken.

Figur 4.3: Skjematisk av design fra Schultz et al. (2007) . Feltforsøket involvert besøker rundt 300 husstander i San Marcos, California fem ganger over en åtte ukers periode. På hvert besøk forskerne manuelt tok en lesning fra husets strømmåleren. På to av besøkene forskerne plassert doorhangers på huset å gi litt informasjon om sitt energiforbruk. Spørsmålet var hvordan innholdet i disse meldingene vil påvirke energibruken.

Forsøket hadde to forhold. I den første betingelsen, husholdninger mottok generell energisparing tips (for eksempel bruke vifter i stedet for klimaanlegg) og informasjon om deres husholdningens energiforbruk sammenlignet med gjennomsnittet av energiforbruket i deres nabolag. Schultz og kolleger kalte dette den beskrivende normative tilstand fordi informasjonen om energibruken i deres nabolag gitt informasjon om typisk oppførsel (dvs. en beskrivende norm). Når Schultz og kolleger sett på den resulterende energibruken i denne gruppen, behandling syntes å ha noen effekt, enten på kort sikt eller lang sikt; med andre ord, gjorde behandlingen ikke ser ut til å "arbeide" (figur 4.4).

Men, heldigvis, Schultz et al. (2007) gjorde ikke betale for denne forenklede analyse. Før eksperimentet begynte de begrunnet at tunge brukere av elektrisitet-folk over middel kan redusere sitt forbruk, og at lys brukere av elektrisitet-folk under gjennomsnittet-kan faktisk øke sitt forbruk. Når de så på data, er det akkurat det de fant (figur 4.4). Dermed, det så ut som en behandling som hadde noen effekt var faktisk en behandling som hadde to motvirkende effekter. Forskerne kalte dette kontraproduktivt økning blant småbrukere en boomerang effekt.

Figur 4.4: Resultater fra Schultz et al. (2007). Den første panelet viser at det beskrivende normen behandling har en estimert null gjennomsnittlig behandlingseffekt. Imidlertid viser det andre panelet at dette gjennomsnittlig behandlingseffekt er faktisk består av to motvirkende effekter. For storbrukere, reduserte behandlingen bruk, men for lys brukere, ved behandling av økt bruk. Til slutt viser den tredje panel som den andre behandlingen, som brukte beskrivende og forføyninger normer, hadde omtrent samme effekt på tunge brukere, men dempet bumerangen effekt på lette brukere.

Figur 4.4: Resultater fra Schultz et al. (2007) . Den første panelet viser at det beskrivende normen behandling har en estimert null gjennomsnittlig behandlingseffekt. Imidlertid viser det andre panelet at dette gjennomsnittlig behandlingseffekt er faktisk består av to motvirkende effekter. For storbrukere, reduserte behandlingen bruk, men for lys brukere, ved behandling av økt bruk. Til slutt viser den tredje panel som den andre behandlingen, som brukte beskrivende og forføyninger normer, hadde omtrent samme effekt på tunge brukere, men dempet bumerangen effekt på lette brukere.

Videre, Schultz og medarbeidere forventet denne mulighet, og i den andre tilstand de utplassert en litt annen behandling, en eksplisitt konstruert for å eliminere Bumerangeffekten. Husholdningene i andre betingelsen fått nøyaktig samme behandlings generell energisparing tips og informasjon om deres husholdningens energiforbruk i forhold til deres nabolag-med en liten tillegg: for personer med under middels forbruk, forskerne lagt en :) og for mennesker med over gjennomsnittet forbruket de lagt en :(. Disse emoticons ble utformet for å utløse det forskerne kalte forføyninger normer. påleggs normer refererer til oppfatninger av hva som er allment godkjent (og godkjent), mens beskrivende normer refererer til oppfatninger av hva som er allment gjort (Reno, Cialdini, and Kallgren 1993) .

Ved å legge denne lille uttrykksikon, forskerne dramatisk redusert boomerang effekt (figur 4.4). Ved å gjøre dette en enkel endring-en endring som var motivert av et abstrakt sosialpsykologisk teori (Cialdini, Kallgren, and Reno 1991) -De var forskerne i stand til å slå et program fra en som ikke synes å fungere til en som arbeidet, og samtidig var de i stand til å bidra til generell forståelse av hvordan sosiale normer påvirker menneskelig atferd.

På dette punktet, men kan du legge merke til at noe er litt annerledes om dette eksperimentet. Spesielt er det ingen eksperimentet av Schultz og medarbeidere ikke egentlig har en kontrollgruppe på samme måte som randomiserte kontrollerte eksperimenter gjør. Sammenligningen mellom denne design og utforming av Restivo og van de Rijt illustrerer forskjellene mellom to store design som brukes av forskere. I mellom-fag design, for eksempel Restivo og van de Rijt, er det en behandlingsgruppe og en kontrollgruppe, og i løpet av-fag design oppførselen til deltakerne blir sammenlignet før og etter behandlingen (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . I en innen-faget eksperiment er det som om hver deltaker opptrer som sin egen kontrollgruppe. Styrken i mellom-fagene design er at det gir beskyttelse mot confounders (som jeg beskrev tidligere), og styrken av innenfor-fagene eksperimenter er økt presisjon i estimatene. Når hver deltaker fungerer som sin egen kontroll, er mellom-deltaker variasjon eliminert (se Teknisk vedlegg). Å forbilde en som vil komme senere når jeg gir råd om å designe digitale eksperimenter, er det en endelige utformingen, kalles en blandet design, som kombinerer forbedret presisjonen innenfor-fagene design og beskyttelse mot confounding på mellom-fagene design.

Figur 4.5: Tre eksperimentelle design. Standard randomiserte kontrollerte eksperimenter bruke mellom-fag design. Et eksempel på et mellom-fagene design er Restivo og van de Rijt-tallet (2012) eksperiment på barnstars og bidrag til Wikipedia: Forskerne tilfeldig delt deltakerne inn i behandlings- og kontrollgrupper, ga deltakerne i behandlingsgruppen en barnstar, og sammenlignet resultatene for de to grupper. En annen type design er en innenfor-fagene design. De to eksperimenter i Schultz og kollega (2007) studie av sosiale normer og energibruk illustrere en innen-fagene utforming: Forskerne sammenlignet elektrisitet bruk av deltakerne før og etter å ha mottatt behandling. Innen-fagene design gir bedre statistisk presisjon ved å eliminere mellom subjekt varians (se Teknisk vedlegg), men de er åpne for mulige confounders (f.eks endringer i været mellom pre-behandling og behandlingsperioden) (Greenwald 1976; Charness, Gneezy, og Kuhn 2012). Innen-fagene design er også noen ganger kalt gjentatte tiltak design. Endelig blandede design kombinerer forbedret presisjonen innen-fagene design og beskyttelse mot confounding på mellom-fagene design. I en blandet design, sammen forsker endring i resultatene for folk i behandlings- og kontrollgrupper. Når forskerne allerede har forbehandling informasjon, slik tilfellet er i mange digitale eksperimenter, blandet design er å foretrekke fremfor mellom-fagene design på grunn av gevinster i presisjon (se Teknisk vedlegg).

Figur 4.5: Tre eksperimentelle design. Standard randomiserte kontrollerte eksperimenter bruke mellom-fag design. Et eksempel på et mellom-fagene design er Restivo og van de Rijt s (2012) eksperiment på barnstars og bidrag til Wikipedia: Forskerne tilfeldig delt deltakerne inn i behandlings- og kontrollgrupper, ga deltakerne i behandlingsgruppen en barnstar, og sammenlignet resultatene for de to grupper. En annen type design er en innenfor-fagene design. De to eksperimenter i Schultz og kollega (2007) studie av sosiale normer og energibruk illustrere en innen-fagene utforming: Forskerne sammenlignet elektrisitet bruk av deltakerne før og etter å ha mottatt behandling. Innen-fagene design gir bedre statistisk presisjon ved å eliminere mellom subjekt varians (se Teknisk vedlegg), men de er åpne for mulige confounders (f.eks endringer i været mellom pre-behandling og behandlingsperioden) (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . Innen-fagene design er også noen ganger kalt gjentatte tiltak design. Endelig blandede design kombinerer forbedret presisjonen innen-fagene design og beskyttelse mot confounding på mellom-fagene design. I en blandet design, sammen forsker endring i resultatene for folk i behandlings- og kontrollgrupper. Når forskerne allerede har forbehandling informasjon, slik tilfellet er i mange digitale eksperimenter, blandet design er å foretrekke fremfor mellom-fagene design på grunn av gevinster i presisjon (se Teknisk vedlegg).

Samlet, design og resultatene av Schultz et al. (2007) viser verdien av å gå utover enkle eksperimenter. Heldigvis trenger du ikke å være et geni for å lage eksperimenter som dette. Samfunnsvitere har utviklet tre konsepter som vil veilede deg mot rikere og mer kreative eksperimenter: 1) validitet, 2) heterogenitet av behandlingseffekter, og 3) mekanismer. Det vil si, hvis du holder disse tre ideer i bakhodet mens du utformer eksperimentet, vil du naturligvis lage mer interessante og nyttige eksperimenter. For å illustrere disse tre begrepene i aksjon, vil jeg beskrive en rekke oppfølgings delvis digitale feltforsøk som bygget på den elegante design og spennende resultater i Schultz et al. (2007) . Som du vil se, gjennom mer forsiktig design, implementering, analyse og tolkning, du kan også gå utover enkle eksperimenter.