4.2 Wat zijn experimenten?

Gerandomiseerde gecontroleerde experimenten hebben vier belangrijkste ingrediënten: werving van deelnemers, randomisatie van de behandeling, de levering van de behandeling, en het meten van resultaten.

Gerandomiseerde, gecontroleerde experimenten hebben vier hoofdingrediënten: werving van deelnemers, randomisatie van de behandeling, levering van de behandeling en meting van de resultaten. Het digitale tijdperk verandert niets aan de fundamentele aard van experimenten, maar maakt het wel logistiek eenvoudiger. In het verleden bijvoorbeeld, was het misschien moeilijk om het gedrag van miljoenen mensen te meten, maar dat gebeurt nu routinematig in veel digitale systemen. Onderzoekers die kunnen uitzoeken hoe deze nieuwe mogelijkheden kunnen worden aangewend, zullen experimenten kunnen uitvoeren die voorheen onmogelijk waren.

Om dit allemaal een beetje concreter te maken - zowel wat hetzelfde is gebleven als wat is veranderd - laten we een experiment van Michael Restivo en Arnout van de Rijt (2012) . Ze wilden het effect van informele peer-rewards op redactionele bijdragen aan Wikipedia begrijpen. In het bijzonder bestudeerden ze de effecten van barnstars , een prijs die elke Wikipedian aan elke andere Wikipedian kan geven om hard werk en due diligence te erkennen. Restivo en van de Rijt gaven barnstars aan 100 verdienende Wikipedians. Daarna volgden ze de volgende bijdragen van de ontvangers aan Wikipedia in de komende 90 dagen. Tot hun grote verbazing, de mensen aan wie ze uitgereikt barnstars neiging om minder bewerkingen uit te voeren na het ontvangen van één. Met andere woorden, de barnstars leken eerder ontmoedigend dan bemoedigend.

Gelukkig hadden Restivo en van de Rijt geen "perturb and observe" -experiment; ze voerden een gerandomiseerd gecontroleerd experiment uit. Dus, naast het kiezen van 100 beste bijdragers om een ​​barnstar te ontvangen, kochten ze ook 100 beste bijdragers aan wie ze er geen hebben gegeven. Deze 100 dienden als een controlegroep. En, kritisch, wie in de behandelingsgroep zat en wie in de controlegroep was, werd willekeurig bepaald.

Toen Restivo en van de Rijt naar het gedrag van mensen in de controlegroep keken, ontdekten ze dat hun bijdragen ook afnamen. Verder, toen Restivo en van de Rijt mensen in de behandelingsgroep (dwz ontvangen barnstars) vergeleken met mensen in de controlegroep, ontdekten ze dat mensen in de behandelingsgroep ongeveer 60% meer bijdroegen. Met andere woorden, de bijdragen van beide groepen waren aan het afnemen, maar die van de controlegroep deden zoveel sneller.

Zoals deze studie illustreert, is de controlegroep in experimenten kritisch op een manier die enigszins paradoxaal is. Om het effect van barnstars precies te meten, moesten Restivo en van de Rijt mensen observeren die geen barnstars ontvingen. Vaak begrijpen onderzoekers die niet bekend zijn met experimenten de ongelooflijke waarde van de controlegroep niet. Als Restivo en van de Rijt geen controlegroep hadden gehad, hadden ze precies de verkeerde conclusie getrokken. Controlegroepen zijn zo belangrijk dat de CEO van een groot casinobedrijf heeft gezegd dat er slechts drie manieren zijn waarop werknemers uit zijn bedrijf kunnen worden ontslagen: voor diefstal, voor seksuele intimidatie, of voor het uitvoeren van een experiment zonder een controlegroep (Schrage 2011) .

De studie van Restivo en van de Rijt illustreert de vier belangrijkste ingrediënten van een experiment: werving, randomisatie, interventie en uitkomsten. Samen zorgen deze vier ingrediënten ervoor dat wetenschappers verder gaan dan de correlaties en het causale effect van behandelingen meten. Met name betekent randomisatie dat mensen in de behandelings- en controlegroepen vergelijkbaar zijn. Dit is belangrijk omdat het betekent dat elk verschil in uitkomsten tussen de twee groepen kan worden toegeschreven aan de behandeling en niet aan een confounder.

De studie van Restivo en van de Rijt laat niet alleen een mooie illustratie zien van de mechanica van experimenten, maar laat ook zien dat de logistiek van digitale experimenten compleet anders kan zijn dan die van analoge experimenten. In het experiment van Restivo en van de Rijt was het gemakkelijk om de barnstar aan iedereen te geven, en het was gemakkelijk om het resultaat-aantal bewerkingen na te gaan gedurende een langere periode (omdat de bewerkingsgeschiedenis automatisch wordt opgenomen door Wikipedia). Dit vermogen om kosteloos behandelingen en meetresultaten te leveren, is kwalitatief in tegenstelling tot experimenten in het verleden. Hoewel dit experiment 200 mensen omvatte, had het met 2000 of zelfs 20.000 mensen kunnen worden uitgevoerd. Het belangrijkste dat de onderzoekers verhinderde om hun experiment met een factor 100 op te schalen, was geen kostenpost; het was ethiek. Dat wil zeggen dat Restivo en van de Rijt geen barnstars wilden geven aan onverdiende redacteuren, en ze wilden niet dat hun experiment de Wikipedia-gemeenschap verstoorde (Restivo and Rijt 2012, 2014) . Ik zal terugkeren naar enkele van de ethische overwegingen die naar voren zijn gebracht door experimenten later in dit hoofdstuk en in hoofdstuk 6.

Concluderend laat het experiment van Restivo en van de Rijt duidelijk zien dat, hoewel de basislogica van het experiment niet is veranderd, de logistiek van digitale-leeftijds-experimenten dramatisch kan verschillen. Vervolgens, om de kansen die deze veranderingen met zich meebrengen duidelijker te isoleren, vergelijk ik de experimenten die onderzoekers nu kunnen doen met de soorten experimenten die in het verleden zijn gedaan.