4.4 beweeg buite eenvoudige eksperimente

Kom ons beweeg buite eenvoudige eksperimente. Drie konsepte is nuttig vir 'n ryk eksperimente: geldigheid, heterogeniteit van behandeling effekte, en meganisme.

Navorsers wat nuut is in eksperimente dikwels fokus op 'n baie spesifieke, smal vraag: doen dit behandeling "werk"? Byvoorbeeld, het 'n oproep van 'n vrywilliger aan te moedig iemand om te stem? Is die verandering van 'n webwerf knoppie van blou na groen toename deurkliektempo? Ongelukkig los frasering oor wat "werk" verberg die feit dat eng gefokus eksperimente wat jy nie regtig weet of 'n behandeling "werk" in 'n algemene sin. Inteendeel, eng gefokus eksperimente beantwoord 'n baie meer spesifieke vraag: Wat is die gemiddelde effek van hierdie spesifieke behandeling met hierdie spesifieke implementering vir hierdie bevolking van deelnemers in hierdie tyd? Ek sal eksperimente wat fokus op hierdie smal vraag eenvoudige eksperimente te bel.

Eenvoudige eksperimente kan waardevolle inligting verskaf, maar hulle versuim om baie vrae wat beide belangrik en interessant soos is te beantwoord: is daar 'n paar mense vir wie die behandeling 'n groter of kleiner uitwerking gehad ?; is daar 'n ander behandeling wat meer effektief sal wees ?; en hoe hierdie eksperiment verband hou met breër sosiale teorieë?

Ten einde die waarde van die beweging van buite eenvoudige eksperimente te wys, kom ons kyk na een van my gunsteling analoog veldeksperimente, 'n studie deur P. Wesley Schultz en kollegas oor die verhouding tussen sosiale norme en energieverbruik (Schultz et al. 2007) . Schultz en kollegas gehang doorhangers op 300 huishoudings in San Marcos, Kalifornië, en hierdie doorhangers gelewer verskillende boodskappe wat ontwerp is om energie te bespaar moedig. Dan, Schultz en kollegas gemeet die effek van hierdie boodskappe op elektrisiteitsverbruik, beide na 'n week en drie weke; sien Figuur 4.3 vir 'n meer gedetailleerde beskrywing van die eksperimentele ontwerp.

Figuur 4.3: Skematiese ontwerp van Schultz et al. (2007). Die veld eksperiment betrokke besoek ongeveer 300 huishoudings in San Marcos, Kalifornië vyf keer meer as 'n agt week tydperk. Op elke besoek die navorsers met die hand 'n voorlesing uit die mag van die huis se meter het. Op twee van die besoeke geplaas het die navorsers doorhangers op die huis verskaffing inligting oor hul energie gebruik. Die navorsingsvraag was hoe die inhoud van hierdie boodskappe energieverbruik 'n invloed.

Figuur 4.3: Skematiese ontwerp van Schultz et al. (2007) . Die veld eksperiment betrokke besoek ongeveer 300 huishoudings in San Marcos, Kalifornië vyf keer meer as 'n agt week tydperk. Op elke besoek die navorsers met die hand 'n voorlesing uit die mag van die huis se meter het. Op twee van die besoeke geplaas het die navorsers doorhangers op die huis verskaffing inligting oor hul energie gebruik. Die navorsingsvraag was hoe die inhoud van hierdie boodskappe energieverbruik 'n invloed.

Die eksperiment het twee voorwaardes. In die eerste voorwaarde, ontvang huishoudings algemene energiebesparende wenke (bv, gebruik ondersteuners in plaas van lugversorgers) en inligting oor energieverbruik hul huishouding in vergelyking met die gemiddelde van die energieverbruik in hul omgewing. Schultz en kollegas noem dit die beskrywende normatiewe toestand omdat die inligting oor die gebruik van energie in hul omgewing verskaf inligting oor tipiese gedrag (dit wil sê, 'n beskrywende norm). Wanneer Schultz en kollegas het gekyk na die gevolglike energieverbruik in hierdie groep, die behandeling oënskynlik geen effek het, hetsy in die kort termyn of die langtermyn; Met ander woorde, het die behandeling nie blyk te "werk" (Figuur 4.4).

Maar, gelukkig, Schultz et al. (2007) het nie skik vir hierdie simplistiese analise. Voordat die eksperiment het hulle geredeneer dat swaar gebruikers van elektrisiteit-mense bo die gemiddelde-dalk hul verbruik te verminder, en dat verligting gebruikers van elektrisiteit-mense onder die gemiddelde-dalk hul verbruik eintlik verhoog. Toe hulle kyk na die data, dit is presies wat hulle gevind het (Figuur 4.4). So, wat lyk soos 'n behandeling wat met geen effek was eintlik 'n behandeling wat twee verrekening gevolge gehad. Die navorsers het hierdie teenproduktief toename onder die lig gebruikers 'n boemerang effek.

Figuur 4.4: Resultate van Schultz et al. (2007). Die eerste paneel wys dat die beskrywende norm behandeling het 'n geskatte nul gemiddelde behandeling effek. Maar die tweede paneel toon dat die gemiddelde wisselkoers behandeling effek eintlik bestaan ​​uit twee verrekening effekte. Vir swaar gebruikers, die behandeling afgeneem gebruik, maar vir ligte gebruikers, die behandeling verhoogde gebruik. Ten slotte, die derde paneel toon dat die tweede behandeling, wat beskrywende en injunctive norme gebruik, het min of meer dieselfde uitwerking op swaar gebruikers, maar versag die boemerang-effek op ligte gebruikers.

Figuur 4.4: Resultate van Schultz et al. (2007) . Die eerste paneel wys dat die beskrywende norm behandeling het 'n geskatte nul gemiddelde behandeling effek. Maar die tweede paneel toon dat die gemiddelde wisselkoers behandeling effek eintlik bestaan ​​uit twee verrekening effekte. Vir swaar gebruikers, die behandeling afgeneem gebruik, maar vir ligte gebruikers, die behandeling verhoogde gebruik. Ten slotte, die derde paneel toon dat die tweede behandeling, wat beskrywende en injunctive norme gebruik, het min of meer dieselfde uitwerking op swaar gebruikers, maar versag die boemerang-effek op ligte gebruikers.

Verder Schultz en kollegas verwag hierdie moontlikheid, en in die tweede voorwaarde ontplooi hulle 'n effens ander behandeling, een uitdruklik ontwerp om die boemerang-effek uit te skakel. Die huishoudings in die tweede toestand ontvang presies dieselfde behandeling-generaal energiebesparende wenke en inligting oor energieverbruik hul huishouding in vergelyking met die hul buurt-met een klein toevoeging: vir mense met onder-gemiddelde verbruik, het die navorsers het bygevoeg 'n :) en vir mense met bogemiddelde verbruik hulle het bygevoeg 'n :(. Hierdie emoticons is ontwerp om te aktiveer wat die navorsers genoem injunctive norme. Injunktiewe norme verwys na persepsies van wat algemeen goedgekeur (en afgekeur) terwyl beskrywende norme verwys na persepsies van wat algemeen gedoen (Reno, Cialdini, and Kallgren 1993) .

Deur die toevoeging van hierdie een klein emoticon, het die navorsers dramaties verminder die boemerang-effek (Figuur 4.4). Dus, deur die maak van hierdie 'n eenvoudige verandering-verandering wat gemotiveer deur 'n abstrakte sosiale sielkundige teorie (Cialdini, Kallgren, and Reno 1991) -die navorsers in staat was om 'n program omdraai van die een wat nie lyk om te werk in een wat gewerk, en gelyktydig, was hulle in staat om by te dra tot die algemene begrip van hoe sosiale norme beïnvloed menslike gedrag.

Op hierdie punt, maar kan jy agterkom dat iets 'n bietjie anders oor hierdie eksperiment. In die besonder, het die eksperiment van Schultz en kollegas nie regtig 'n kontrole groep in die dieselfde manier as wat ewekansig gekontroleerde eksperimente te doen. Die vergelyking tussen hierdie ontwerp en die ontwerp van Restivo en van die Rijt illustreer die verskille tussen twee groot ontwerpe wat gebruik word deur navorsers. In tussen-vakke ontwerpe, soos Restivo en van die Rijt, is daar 'n behandeling groep en 'n kontrole groep, en binne-vakke ontwerpe die gedrag van die deelnemers is in vergelyking voor en na die behandeling (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . In 'n binne-onderwerp eksperiment is dit asof elke deelnemer tree op as haar eie kontrole groep. Die sterkte van tussen-vakke ontwerpe is dat dit bied beskerming teen confounders (soos ek vroeër beskryf), en die krag van binne-vakke eksperimente verhoog presisie in skattings. Wanneer elke deelnemer tree op as hul eie beheer, tussen-deelnemer variasie uitgeskakel (sien Tegniese bylaag). Om kondig 'n wat later sal kom wanneer ek bied advies oor die ontwerp van digitale eksperimente, is daar 'n finale ontwerp, bekend as 'n gemengde ontwerp, wat die verbeterde akkuraatheid van binne-vakke ontwerpe en die beskerming teen confounding van tussen-vakke ontwerpe kombineer.

Figuur 4.5: Drie eksperimentele ontwerpe. Standard gerandomiseerde beheerde eksperimente gebruik tussen-vakke ontwerpe. 'N Voorbeeld van 'n tussen-vakke ontwerp is Restivo en van die Rijt se (2012) eksperiment op barnstars en bydraes tot Wikipedia: navorsers lukraak verdeel deelnemers in die behandeling en beheer groepe, het deelnemers aan die behandeling groep 'n barnstar, en in vergelyking uitkomste vir die twee groepe. 'N Tweede tipe ontwerp is 'n binne-vakke ontwerp. Die twee eksperimente in Schultz en kollega se (2007) studie oor sosiale norme en energieverbruik te illustreer n binne-vakke ontwerp: navorsers vergelyk met die gebruik van elektrisiteit van deelnemers voor en na die ontvangs van die behandeling. Binne-vakke ontwerpe bied verbeterde statistiek presisie deur die uitskakeling van tussen onderwerp variansie (sien Tegniese bylaag), maar hulle is oop vir moontlike confounders (bv, veranderinge in die weer tussen die pre-behandeling en behandeling tydperk) (Greenwald 1976; Charness, Gneezy, en Kuhn 2012). Binne-vakke ontwerpe is ook soms genoem herhaal maatreëls ontwerpe. Ten slotte, gemengde ontwerpe kombineer die verbeterde akkuraatheid van binne-vakke ontwerpe en die beskerming teen confounding van tussen-vakke ontwerpe. In 'n gemengde ontwerp, 'n navorser vergelyk die verandering in uitkomste vir mense in die behandeling en beheer groepe. Wanneer navorsers het reeds pre-behandeling inligting, soos in die geval in baie digitale eksperimente, gemengde ontwerpe is verkieslik om tussen-vakke ontwerpe as gevolg van stygings in presisie (sien Tegniese bylaag).

Figuur 4.5: Drie eksperimentele ontwerpe. Standard gerandomiseerde beheerde eksperimente gebruik tussen-vakke ontwerpe. 'N Voorbeeld van 'n tussen-vakke ontwerp is Restivo en van die Rijt se (2012) eksperiment op barnstars en bydraes tot Wikipedia: navorsers lukraak verdeel deelnemers in die behandeling en beheer groepe, het deelnemers aan die behandeling groep 'n barnstar, en in vergelyking uitkomste vir die twee groepe. 'N Tweede tipe ontwerp is 'n binne-vakke ontwerp. Die twee eksperimente in Schultz en kollega se (2007) studie oor sosiale norme en energieverbruik te illustreer n binne-vakke ontwerp: navorsers vergelyk met die gebruik van elektrisiteit van deelnemers voor en na die ontvangs van die behandeling. Binne-vakke ontwerpe bied verbeterde statistiek presisie deur die uitskakeling van tussen onderwerp variansie (sien Tegniese bylaag), maar hulle is oop vir moontlike confounders (bv, veranderinge in die weer tussen die pre-behandeling en behandeling tydperk) (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . Binne-vakke ontwerpe is ook soms genoem herhaal maatreëls ontwerpe. Ten slotte, gemengde ontwerpe kombineer die verbeterde akkuraatheid van binne-vakke ontwerpe en die beskerming teen confounding van tussen-vakke ontwerpe. In 'n gemengde ontwerp, 'n navorser vergelyk die verandering in uitkomste vir mense in die behandeling en beheer groepe. Wanneer navorsers het reeds pre-behandeling inligting, soos in die geval in baie digitale eksperimente, gemengde ontwerpe is verkieslik om tussen-vakke ontwerpe as gevolg van stygings in presisie (sien Tegniese bylaag).

Algehele, die ontwerp en resultate van Schultz et al. (2007) wys die waarde van die beweging van buite eenvoudige eksperimente. Gelukkig, het jy nie nodig het om 'n geniale om eksperimente soos hierdie te skep. 1) geldigheid, 2) heterogeniteit van behandeling effekte, en 3) meganismes: sosiale wetenskaplikes het drie konsepte wat jy sal lei in die rigting van ryker en meer kreatiewe eksperimente ontwikkel. Dit is, as jy hierdie drie idees in gedagte hou terwyl jy die ontwerp van jou eksperiment, sal jy natuurlik maak meer interessant en nuttig eksperimente. Ten einde hierdie drie konsepte in aksie te illustreer, sal ek 'n aantal opvolg gedeeltelik digitale veldeksperimente Van die bouers aan die elegante ontwerp en opwindende resultate in beskryf Schultz et al. (2007) . Soos jy sal sien, met meer versigtig ontwerp, uitvoering, verwerking en interpretasie, wat jy ook kan gaan as eenvoudige eksperimente.