4.4 beweeg buite eenvoudige eksperimente

Kom ons beweeg verder as eenvoudige eksperimente. Drie konsepte is nuttig vir ryk eksperimente: geldigheid, heterogeniteit van behandelingseffekte en meganismes.

Navorsers wat nuut is vir eksperimente, fokus dikwels op 'n baie spesifieke, eng vraag: Is hierdie behandeling "werk"? Byvoorbeeld, word 'n oproep van 'n vrywilliger aangemoedig om iemand te stem? Verandering van 'n webwerf knoppie van blou na groen, verhoog die deurkliektempo? Ongelukkig, los woorde oor wat "werk" verberg die feit dat nou gefokusde eksperimente nie regtig vertel of 'n behandeling in 'n algemene sin werk nie. Eerder, noukeurig gefokusde eksperimente beantwoord 'n baie meer spesifieke vraag: Wat is die gemiddelde effek van hierdie spesifieke behandeling met hierdie spesifieke implementering vir hierdie populasie deelnemers op die oomblik? Ek sal eksperimente noem wat fokus op hierdie eenvoudige vraag, eenvoudige eksperimente .

Eenvoudige eksperimente kan waardevolle inligting verskaf, maar hulle beantwoord nie baie vrae wat belangrik en interessant is nie, soos of daar sommige mense is vir wie die behandeling 'n groter of kleiner effek gehad het; of daar nog 'n behandeling is wat meer effektief sou wees; en of hierdie eksperiment verband hou met breër sosiale teorieë.

Om die waarde van die verloop van eenvoudige eksperimente te wys, kom ons kyk na 'n analoog veld eksperiment deur P. Wesley Schultz en kollegas oor die verhouding tussen sosiale norme en energieverbruik (Schultz et al. 2007) . Schultz en sy kollegas het op 300 huishoudings in San Marcos, Kalifornië, hangers gehang. Hierdie deurhangers het verskillende boodskappe gelewer wat ontwerp is om energiebewaring aan te moedig. Toe het Schultz en kollegas die effek van hierdie boodskappe op elektrisiteitsverbruik gemeet, beide na een week en na drie weke; sien figuur 4.3 vir 'n meer gedetailleerde beskrywing van die eksperimentele ontwerp.

Figuur 4.3: Skematiese van die eksperimentele ontwerp van Schultz et al. (2007). Die veldeksperiment was vyf keer oor 'n tydperk van agt weke om ongeveer 300 huishoudings in San Marcos, Kalifornië, te besoek. By elke besoek het die navorsers handmatig 'n lesing van die huis se kragmeter geneem. By twee van die besoeke het hulle deurhangers op elke huis geplaas, wat inligting verskaf oor die huishouding se energieverbruik. Die navorsingsvraag was hoe die inhoud van hierdie boodskappe die gebruik van energie sou beïnvloed.

Figuur 4.3: Skematiese van die eksperimentele ontwerp van Schultz et al. (2007) . Die veldeksperiment was vyf keer oor 'n tydperk van agt weke om ongeveer 300 huishoudings in San Marcos, Kalifornië, te besoek. By elke besoek het die navorsers handmatig 'n lesing van die huis se kragmeter geneem. By twee van die besoeke het hulle deurhangers op elke huis geplaas, wat inligting verskaf oor die huishouding se energieverbruik. Die navorsingsvraag was hoe die inhoud van hierdie boodskappe die gebruik van energie sou beïnvloed.

Die eksperiment het twee toestande gehad. In die eerste plek het huishoudings algemene energiebesparende wenke ontvang (bv. Gebruik fans in plaas van lugversorgers) en inligting oor hul energieverbruik in vergelyking met die gemiddelde energieverbruik in hul omgewing. Schultz en kollegas het dit die beskrywende normatiewe toestand genoem omdat die inligting oor die energieverbruik in die omgewing inligting verskaf oor tipiese gedrag (dws 'n beskrywende norm). Toe Schultz en kollegas gekyk het na die gevolglike energieverbruik in hierdie groep, het die behandeling geen invloed gehad op die kort of langtermyn nie; Met ander woorde, die behandeling lyk nie asof dit "werk" is nie (figuur 4.4).

Gelukkig het Schultz en kollegas nie vir hierdie simplistiese analise besluit nie. Voordat die eksperiment begin het, het hulle geredeneer dat swaar gebruikers van elektrisiteitsverbruikers bo die gemiddelde kan hul verbruik verminder, en dat die ligte gebruikers van elektrisiteit onder die gemiddelde kan werklik hul verbruik verhoog. Toe hulle na die data gekyk het, is dit presies wat hulle gevind het (figuur 4.4). Dus, wat lyk soos 'n behandeling wat geen effek gehad het nie, was eintlik 'n behandeling wat twee teenwerkende effekte gehad het. Hierdie teenproduktiewe toename onder die ligte gebruikers is 'n voorbeeld van 'n boemerang-effek , waar 'n behandeling die teenoorgestelde effek kan hê van wat bedoel is.

Figuur 4.4: Resultate van Schultz et al. (2007). Paneel (a) toon dat die beskrywende normbehandeling 'n geraamde nul-gemiddelde behandelingseffek het. Paneel (b) toon egter dat hierdie gemiddelde behandelingseffek eintlik uit twee verrekeningseffekte bestaan. Vir swaar gebruikers, die behandeling verminder gebruik, maar vir ligte gebruikers, die behandeling toegeneem gebruik. Ten slotte toon paneel (c) dat die tweede behandeling, wat beskrywende en voorwaardelike norme gebruik het, omtrent dieselfde effek op swaar gebruikers gehad het maar die boemerang-effek op ligte gebruikers verminder het. Aangepas uit Schultz et al. (2007).

Figuur 4.4: Resultate van Schultz et al. (2007) . Paneel (a) toon dat die beskrywende normbehandeling 'n geraamde nul-gemiddelde behandelingseffek het. Paneel (b) toon egter dat hierdie gemiddelde behandelingseffek eintlik uit twee verrekeningseffekte bestaan. Vir swaar gebruikers, die behandeling verminder gebruik, maar vir ligte gebruikers, die behandeling toegeneem gebruik. Ten slotte toon paneel (c) dat die tweede behandeling, wat beskrywende en voorwaardelike norme gebruik het, omtrent dieselfde effek op swaar gebruikers gehad het maar die boemerang-effek op ligte gebruikers verminder het. Aangepas uit Schultz et al. (2007) .

Gelyktydig met die eerste voorwaarde, het Schultz en kollegas ook 'n tweede voorwaarde gehardloop. Die huishoudings in die tweede voorwaarde het presies dieselfde behandelings-algemene energiebesparende wenke en inligting oor hul huishouding se energieverbruik in vergelyking met die gemiddelde vir hul omgewing gehad - met 'n klein byvoeging. Vir mense met 'n ondergemiddelde verbruik het die navorsers bygevoeg: ) en vir mense met 'n bo-gemiddelde verbruik het hulle 'n: (Hierdie emosieë is ontwerp om te aktiveer wat die navorsers opdraggewende norme genoem het . Injunktiewe norme verwys na persepsies van wat algemeen goedgekeur word (en afgekeur), terwyl beskrywende norme verwys na persepsies van Wat is algemeen gedoen (Reno, Cialdini, and Kallgren 1993) .

Deur hierdie een klein emosie by te voeg, het die navorsers die boemerang-effek dramaties verminder (figuur 4.4). Dus, deur hierdie een eenvoudige verandering te maak - 'n verandering wat deur 'n abstrakte sosiale sielkundige teorie (Cialdini, Kallgren, and Reno 1991) was die navorsers in staat om 'n program te verander wat nie in een werk gewerk het nie, en terselfdertyd kon hulle bydra tot die algemene begrip van hoe sosiale norme menslike gedrag beïnvloed.

Op hierdie stadium kan jy egter agterkom dat daar iets anders oor hierdie eksperiment is. In die besonder, die eksperiment van Schultz en kollegas het nie regtig 'n kontrolegroep op dieselfde manier as die gerandomiseerde beheerde eksperimente nie. 'N Vergelyking tussen hierdie ontwerp en dié van Restivo en van de Rijt illustreer die verskille tussen twee groot eksperimentele ontwerpe. In tussen-vakke ontwerpe , soos dié van Restivo en van de Rijt, is daar 'n behandelingsgroep en 'n kontrolegroep. In binne-vakke ontwerpe word daarenteen die gedrag van deelnemers vergelyk voor en na die behandeling (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . In 'n binne-onderwerp eksperiment is dit asof elke deelnemer as haar eie beheergroep optree. Die sterkte van tussen-vakke-ontwerpe is dat hulle beskerming bied teen confounders (soos ek vroeër beskryf het), terwyl die krag van binne-proefnemings eksperimente die akkuraatheid van skattings verhoog. Ten slotte, om 'n idee wat later sal kom wanneer ek raad gee oor die ontwerp van digitale eksperimente, 'n kombinasie van die verbeterde akkuraatheid van binne-vakke ontwerpe en die beskerming teen verwarring van tussen-vakke ontwerpe (figuur 4.5), word 'n uiteensetting gegee.

Figuur 4.5: Drie eksperimentele ontwerpe. Standaard gerandomiseerde beheerde eksperimente gebruik tussen-vakke ontwerpe. 'N Voorbeeld van 'n tussenvak-ontwerp is Restivo en Van de Rijt (2012) se eksperiment op barnstars en bydraes tot Wikipedia. Die navorsers wat willekeurig verdeel is in behandelings- en beheergroepe, het deelnemers aan die behandelingsgroep 'n skutster gegee, en die uitkomste vir die twee groepe. Die tweede tipe ontwerp is 'n binne-vak ontwerp. Die twee eksperimente in die studie van Schultz en kollegas (2007) oor sosiale norme en energieverbruik illustreer 'n binne-vakontwerp: die navorsers vergelyk die elektrisiteitsgebruik van deelnemers voor en na die behandeling. Binne-vakke-ontwerpe bied verbeterde statistiese presisie, maar hulle is oop vir moontlike botsings (bv. Veranderinge in weer tussen die behandelingsperiodes) (Greenwald 1976, Charness, Gneezy, en Kuhn 2012). Binne-vakkeontwerpe word ook soms herhaalde meetontwerpe genoem. Ten slotte kombineer gemengde ontwerpe die verbeterde akkuraatheid van binne-vakke-ontwerpe en die beskerming teen verwarring van tussen-vakkeontwerpe. In 'n gemengde ontwerp vergelyk 'n navorser die verandering in uitkomste vir mense in die behandelings- en kontrolegroepe. Wanneer navorsers reeds vooraf behandelingsinligting het, soos in baie digitale eksperimente, is gemengde ontwerpe gewoonlik verkieslik tussen interwerpe-ontwerpe omdat dit lei tot verbeterde akkuraatheid van ramings.

Figuur 4.5: Drie eksperimentele ontwerpe. Standaard gerandomiseerde beheerde eksperimente gebruik tussen-vakke ontwerpe. 'N Voorbeeld van 'n tussenvak-ontwerp is Restivo en Van de Rijt (2012) eksperiment op barnstars en bydraes tot Wikipedia. Die navorsers wat willekeurig verdeel is in behandelings- en beheergroepe, het deelnemers aan die behandelingsgroep 'n skutster gegee, en die uitkomste vir die twee groepe. Die tweede tipe ontwerp is 'n binne-vak ontwerp. Die twee eksperimente in die studie van Schultz en kollegas (2007) oor sosiale norme en energieverbruik illustreer 'n binne-vakontwerp: die navorsers vergelyk die elektrisiteitsgebruik van deelnemers voor en na die behandeling. Binne-vakke-ontwerpe bied verbeterde statistiese presisie, maar hulle is oop vir moontlike botsings (bv. Veranderinge in weer tussen die behandelingsperiodes) (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . Binne-vakkeontwerpe word ook soms herhaalde meetontwerpe genoem. Ten slotte kombineer gemengde ontwerpe die verbeterde akkuraatheid van binne-vakke-ontwerpe en die beskerming teen verwarring van tussen-vakkeontwerpe. In 'n gemengde ontwerp vergelyk 'n navorser die verandering in uitkomste vir mense in die behandelings- en kontrolegroepe. Wanneer navorsers reeds vooraf behandelingsinligting het, soos in baie digitale eksperimente, is gemengde ontwerpe gewoonlik verkieslik tussen interwerpe-ontwerpe omdat dit lei tot verbeterde akkuraatheid van ramings.

Oor die algemeen toon die ontwerp en resultate van die studie deur Schultz en kollegas (2007) die waarde daarvan om verder as eenvoudige eksperimente te beweeg. Gelukkig hoef jy nie 'n kreatiewe genie te wees om eksperimente soos hierdie te ontwerp nie. Sosiale wetenskaplikes het drie konsepte ontwikkel wat jou sal lei na ryker eksperimente: (1) geldigheid, (2) heterogeniteit van behandelingseffekte, en (3) meganismes. Dit is, as jy hierdie drie idees in gedagte hou terwyl jy jou eksperiment ontwerp, sal jy natuurlik 'n meer interessante en nuttige eksperiment skep. Om hierdie drie konsepte in aksie te illustreer, beskryf ek 'n aantal opvolg-gedeeltelik digitale veld eksperimente wat op die elegante ontwerp en opwindende resultate van Schultz en kollegas (2007) . Soos u sal sien, kan u deur meer versigtige ontwerp, implementering, analise en interpretasie ook verder as eenvoudige eksperimente beweeg.