4.4 Moving verder dan eenvoudige experimenten

Laten we verder gaan dan eenvoudige experimenten. Drie concepten zijn nuttig voor rijke experimenten: geldigheid, heterogeniteit van de effecten van de behandeling, en het mechanisme.

Onderzoekers die nieuw zijn voor experimenten richten zich vaak op een heel specifieke, smalle vraag: doet deze behandeling "werk"? Bijvoorbeeld, een telefoontje van een vrijwilliger aan te moedigen iemand om te stemmen? Doet het veranderen van een website knop van blauw naar groen stijging click-through rate? Helaas, losse frasering over wat "werkt" verduistert het feit dat een sterk gefocuste experimenten je niet echt vertellen of een behandeling "werken" in algemene zin. Integendeel, nauwkeurig gerichte experimenten beantwoord een veel meer specifieke vraag: wat is het gemiddelde effect van deze specifieke behandeling met deze specifieke implementatie voor deze populatie van de deelnemers op dit moment? Ik zal experimenten die zich richten op deze smalle vraag eenvoudige experimenten noemen.

Eenvoudige experimenten kunnen waardevolle informatie verstrekken, maar ze niet te veel vragen die zowel belangrijk en interessant, zoals zijn te beantwoorden: zijn er een aantal mensen voor wie de behandeling van een groter of kleiner effect gehad ?; is er een andere behandeling die doeltreffender zou zijn ?; en hoe verhoudt dit experiment relateren aan bredere sociale theorieën?

Met het oog op de waarde van het verplaatsen dan eenvoudige experimenten laten zien, laten we eens kijken een van mijn favoriete analoge veldexperimenten, een studie van P. Wesley Schultz en zijn collega's over de relatie tussen sociale normen en het energieverbruik (Schultz et al. 2007) . Schultz en zijn collega's opgehangen deurhangers op 300 huishoudens in San Marcos, Californië, en deze deurhangers geleverd verschillende berichten ontworpen om energiebesparing te stimuleren. Vervolgens Schultz en medewerkers het effect gemeten van deze berichten op het elektriciteitsverbruik, zowel na één week en drie weken; zie figuur 4.3 voor een meer gedetailleerde beschrijving van de experimentele opzet.

Figuur 4.3: Schematische voorstelling van het ontwerp van Schultz et al. (2007). Het veld experiment omvatte een bezoek aan ongeveer 300 huishoudens in San Marcos, Californië vijf keer over een periode van acht weken. Op elk bezoek de onderzoekers handmatig een lezing uit de macht van het huis meter nam. Op twee van de bezoeken plaatste de onderzoekers deurhangers op het huis verstrekken van een aantal informatie over hun energieverbruik. De onderzoeksvraag was hoe de inhoud van deze berichten energiegebruik zou beïnvloeden.

Figuur 4.3: Schematische voorstelling van het ontwerp van Schultz et al. (2007) . Het veld experiment omvatte een bezoek aan ongeveer 300 huishoudens in San Marcos, Californië vijf keer over een periode van acht weken. Op elk bezoek de onderzoekers handmatig een lezing uit de macht van het huis meter nam. Op twee van de bezoeken plaatste de onderzoekers deurhangers op het huis verstrekken van een aantal informatie over hun energieverbruik. De onderzoeksvraag was hoe de inhoud van deze berichten energiegebruik zou beïnvloeden.

De proef had twee voorwaarden. In de eerste voorwaarde, ontvingen de huishoudens algemene tips voor energiebesparing (bijvoorbeeld het gebruik fans in plaats van airconditioners) en informatie over het energieverbruik van hun huishouden in vergelijking met het gemiddelde van het energieverbruik in hun buurt. Schultz en zijn collega's noemde dit het beschrijvende normatieve toestand, omdat de informatie over het energieverbruik in hun buurt informatie verstrekt over typisch gedrag (dat wil zeggen, een beschrijvende norm). Wanneer Schultz en collega's keken naar de resulterende energieverbruik in deze groep, de behandeling bleek geen effect te hebben, zowel op de korte termijn of op de lange termijn; in andere woorden, de behandeling niet te "werken" (Figuur 4.4).

Maar gelukkig Schultz et al. (2007) geen genoegen met deze simplistische analyse. Voordat het experiment begonnen ze met redenen omkleed dat zware gebruikers van elektriciteit-mensen boven de gemiddelde-zou hun verbruik te verminderen, en dat licht de gebruikers van elektriciteit-mensen onder het gemiddelde-zou hun verbruik daadwerkelijk te verhogen. Toen ze keek naar de gegevens, dat is precies wat ze vonden (Figuur 4.4). Dus, wat leek op een behandeling die had geen effect was eigenlijk een behandeling die twee compenserende effecten gehad. De onderzoekers noemden dit contra-productief stijging bij de light users een boemerang effect.

Figuur 4.4: Resultaten van Schultz et al. (2007). Het eerste paneel toont aan dat de descriptieve norm behandeling heeft een geschatte nul gemiddelde effect van de behandeling. Het tweede paneel toont dat gemiddelde behandelingseffect eigenlijk uit twee compenserende effecten. Voor zware gebruikers, de behandeling verminderd gebruik, maar voor lichte gebruikers, de behandeling toegenomen gebruik. Ten slotte is de derde paneel toont dat de tweede behandeling, die beschrijvende en injunctief normen gebruikt, had ongeveer hetzelfde effect op de zware gebruikers, maar verzacht de boemerang effect op lichte gebruikers.

Figuur 4.4: Resultaten van Schultz et al. (2007) . Het eerste paneel toont aan dat de descriptieve norm behandeling heeft een geschatte nul gemiddelde effect van de behandeling. Het tweede paneel toont dat gemiddelde behandelingseffect eigenlijk uit twee compenserende effecten. Voor zware gebruikers, de behandeling verminderd gebruik, maar voor lichte gebruikers, de behandeling toegenomen gebruik. Ten slotte is de derde paneel toont dat de tweede behandeling, die beschrijvende en injunctief normen gebruikt, had ongeveer hetzelfde effect op de zware gebruikers, maar verzacht de boemerang effect op lichte gebruikers.

Verder Schultz en medewerkers verwacht deze mogelijkheid, en in de tweede toestand ingezet dat het een iets andere behandeling, een expliciet ontworpen om de boemerang effect te elimineren. De huishoudens in de tweede voorwaarde kreeg exact dezelfde behandeling-generaal energiebesparende tips en informatie over het energieverbruik van hun huishouden in vergelijking met de hun buurt-met een kleine toevoeging: voor mensen met een lager dan gemiddelde verbruik, de onderzoekers nog een :) en voor mensen met een bovengemiddeld verbruik ze nog een :(. Deze emoticons zijn ontworpen op gang te brengen wat de onderzoekers genoemd injunctief normen. Voorlopige normen verwijzen naar de perceptie van wat algemeen wordt erkend (en afgekeurd), terwijl beschrijvende normen verwijzen naar de perceptie van wat algemeen wordt gedaan (Reno, Cialdini, and Kallgren 1993) .

Door de toevoeging van deze ene kleine emoticon, de onderzoekers drastisch verminderd het boemerangeffect (Figuur 4.4). Dus, door het maken van deze ene simpele verandering-een verandering die werd ingegeven door een abstracte sociaal psychologische theorie (Cialdini, Kallgren, and Reno 1991) -het onderzoekers waren in staat om een programma te zetten van de ene die niet lijkt te werken in een die werkte, en, tegelijkertijd, waren ze in staat om bij te dragen aan de algemene begrip van hoe de sociale normen van invloed op het menselijk gedrag.

Op dit punt, echter, zou je merkt dat er iets een beetje anders over dit experiment. Met name ook het experiment van Schultz en zijn collega's niet echt een controlegroep op dezelfde manier dat gerandomiseerde gecontroleerde experimenten te doen. De vergelijking tussen dit ontwerp en het ontwerp van Restivo en Van de Rijt illustreert de verschillen tussen de twee belangrijkste ontwerpen die worden gebruikt door onderzoekers. Tussen-subjects designs, zoals Restivo en van de Rijt is er een behandelgroep en een controlegroep, en binnen-subjects ontwerpen het gedrag van de vergeleken vóór en na de behandeling (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . In een within-subject experiment is het alsof elke deelnemer fungeert als haar eigen controlegroep. De sterkte van tussen-onderwerpen ontwerpen is dat het bescherming biedt tegen verstorende factoren (zoals ik al eerder beschreven), en de kracht van binnen-proefpersonen experimenten grotere precisie in de ramingen. Wanneer elke deelnemer fungeert als hun eigen controle, tussen-deelnemer variatie wordt geëlimineerd (zie technische bijlage). Om een voorafschaduwing die later zal komen wanneer ik advies geven over het ontwerpen van digitale experimenten, is er een definitief ontwerp, een zogenaamde gemengde ontwerp, dat de verbeterde nauwkeurigheid van within-subjects designs en de bescherming tegen verstorende tussen-proefpersonen design combineert.

Figuur 4.5: Drie experimentele ontwerpen. Standard gerandomiseerde gecontroleerde experimenten gebruiken tussen-subjects designs. Een voorbeeld van een tussen-proefpersonen ontwerp is Restivo en Van de Rijt's (2012) experiment met barnstars en bijdragen aan Wikipedia: onderzoekers willekeurig verdeeld de deelnemers in de behandeling en controle groepen, gaf de deelnemers in de behandelde groep een barnstar, en vergeleken de resultaten voor de twee groepen. Een tweede type van het ontwerp is een within-subjects design. De twee experimenten in Schultz en collega's (2007) studie over sociale normen en het energieverbruik illustreren een within-subjects design: onderzoekers vergeleken het gebruik van elektriciteit van de deelnemers voor en na het ontvangen van de behandeling. Within-subjects designs bieden betere statistische precisie door het elimineren tussen subject variantie (zie technische bijlage), maar ze staan ​​open voor mogelijke verstorende factoren (bijvoorbeeld veranderingen in het weer tussen de voorbehandeling en behandelingsperiode) (Greenwald 1976 Charness, Gneezy, en Kuhn 2012). Within-subjects design is ook soms genoemd herhaalde metingen ontwerpen. Tot slot, gemengde ontwerpen combineren de verbeterde nauwkeurigheid van binnen-onderwerpen ontwerpen en de bescherming tegen verstorende tussen-subjects designs. In een gemengde ontwerp, onderzoeker vergelijkt de verandering in uitkomst voor mensen in de behandeling en controlegroepen. Toen onderzoekers reeds voorbehandeling informatie, zoals het geval is in veel digitale experimenten, gemengde ontwerpen voorkeur tussen-subjects designs door winst in nauwkeurigheid (zie technisch aanhangsel).

Figuur 4.5: Drie experimentele ontwerpen. Standard gerandomiseerde gecontroleerde experimenten gebruiken tussen-subjects designs. Een voorbeeld van een tussen-proefpersonen ontwerp is Restivo en Van de Rijt's (2012) experiment met barnstars en bijdragen aan Wikipedia: onderzoekers willekeurig verdeeld de deelnemers in de behandeling en controle groepen, gaf de deelnemers in de behandelde groep een barnstar, en vergeleken de resultaten voor de twee groepen. Een tweede type van het ontwerp is een within-subjects design. De twee experimenten in Schultz en collega's (2007) studie over sociale normen en het energieverbruik illustreren een within-subjects design: onderzoekers vergeleken het gebruik van elektriciteit van de deelnemers voor en na het ontvangen van de behandeling. Within-subjects designs bieden betere statistische precisie door het elimineren tussen subject variantie (zie technische bijlage), maar ze staan ​​open voor mogelijke verstorende factoren (bijvoorbeeld veranderingen in het weer tussen de voorbehandeling en behandelingsperiode) (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . Within-subjects design is ook soms genoemd herhaalde metingen ontwerpen. Tot slot, gemengde ontwerpen combineren de verbeterde nauwkeurigheid van binnen-onderwerpen ontwerpen en de bescherming tegen verstorende tussen-subjects designs. In een gemengde ontwerp, onderzoeker vergelijkt de verandering in uitkomst voor mensen in de behandeling en controlegroepen. Toen onderzoekers reeds voorbehandeling informatie, zoals het geval is in veel digitale experimenten, gemengde ontwerpen voorkeur tussen-subjects designs door winst in nauwkeurigheid (zie technisch aanhangsel).

Over het algemeen, het ontwerp en de resultaten van Schultz et al. (2007) , de omvang van het verplaatsen dan eenvoudige experimenten. Gelukkig hoef je niet nodig om een ​​genie te zijn om experimenten als deze te creëren. 1) geldigheid, 2) heterogeniteit van de effecten van de behandeling, en 3) mechanismen: sociale wetenschappers hebben drie begrippen die u zal begeleiden in de richting van rijkere en meer creatieve experimenten ontwikkeld. Dat wil zeggen, als je deze drie ideeën in gedachten te houden terwijl u het ontwerpen van uw experiment, zult u uiteraard leiden tot meer interessant en nuttig experimenten. Om deze drie begrippen in actie te illustreren, zal ik een aantal follow-up gedeeltelijk digitale veldexperimenten dat gebouwd op het elegante design en spannende resultaten in beschrijven Schultz et al. (2007) . Zoals u zult zien, door middel van meer zorgvuldige ontwerp, implementatie, analyse en interpretatie, ook u kunt gaan dan eenvoudige experimenten.