4.2 Wat zijn experimenten?

Deze vertaling werd gemaakt door een computer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.2 Wat zijn experimenten?

Gerandomiseerde gecontroleerde experimenten hebben vier belangrijkste ingrediënten: werving van deelnemers, randomisatie van de behandeling, de levering van de behandeling, en het meten van resultaten.

Gerandomiseerde experimenten kan vele vormen aannemen en kan worden gebruikt om vele soorten gedrag te bestuderen. Maar, in hun kern, gerandomiseerde gecontroleerde experimenten hebben vier belangrijkste ingrediënten: werving van deelnemers, randomisatie van de behandeling, de levering van de behandeling, en het meten van resultaten. Het digitale tijdperk niet de fundamentele aard van experimenten te veranderen, maar het maakt ze makkelijker logistiek. Bijvoorbeeld, in het verleden het misschien moeilijk om het gedrag van miljoenen mensen meten, maar dat nu routinematig gebeuren in veel digitale systemen. Onderzoekers die kunnen uitzoeken hoe deze nieuwe kansen te benutten zal in staat zijn om experimenten die voorheen onmogelijk waren lopen.

Om dit allemaal een beetje meer concrete, zowel wat is hetzelfde gebleven en wat er veranderd is-laten we eens kijken Michael Restivo en Arnout van de Rijt's te maken (2012) . De onderzoekers wilden het effect van informele peer-beloningen op redactionele bijdragen aan Wikipedia te begrijpen. In het bijzonder, bestudeerden ze de effecten van barnstars, een onderscheiding die elke Wikipedian kan geven aan een andere Wikipedian om hard te werken en due diligence te erkennen. Restivo en Van de Rijt gaf barnstars tot 100 verdienstelijke Wikipedianen. Vervolgens Restivo en Van de Rijt gevolgd latere bijdragen voor de ontvangers om Wikipedia in de komende 90 dagen. Tot hun grote verbazing, de mensen aan wie ze uitgereikt barnstars neiging om minder bewerkingen uit te voeren na het ontvangen van één. Met andere woorden, de barnstars leek te ontmoedigen gelegd dan op bijdrage.

Gelukkig Restivo en Van de Rijt liepen niet van een "verstoren en waarnemen" experiment; ze liepen een gerandomiseerd experiment. Dus, in aanvulling op het kiezen van 100 top bijdragen aan een barnstar ontvangen, ze haalden ook de top 100 medewerkers aan wie zij geen barnstar gaf. Deze honderd diende als controlegroep en die kreeg een barnstar en die niet werd willekeurig bepaald. Wanneer Restivo en Van de Rijt keek naar de controlegroep vonden zij dat het had een sterke daling van de bijdragen ook. Tenslotte, wanneer de onderzoekers vergeleken mensen in de behandelingsgroep (dwz ontvangen barnstars) en mensen in de controlegroep, vonden zij dat het barnstar veroorzaakt redactie tot ongeveer 60% meer te dragen. Maar, deze verhoging van de bijdrage plaatsvond als onderdeel van een algemene daling van de beide groepen.

Aangezien deze studie illustreert de controlegroep op experimenten kritisch op een manier die enigszins paradoxaal. Om het effect van barnstars nauwkeurig meten Restivo en Van der Rijt nodig mensen die niet barnstars ontvingen acht. Vele malen onderzoekers die niet bekend zijn met experimenten niet aan de ongelooflijke waarde van de controlegroep te waarderen. Als Restivo en Van de Rijt een controle groep had, zouden ze hebben precies de verkeerde conclusie getrokken. Controlegroepen zijn zo belangrijk dat de CEO van een groot casino bedrijf heeft gezegd dat er slechts drie manieren waarop werknemers kunnen worden ontslagen van zijn bedrijf: diefstal, seksuele intimidatie en het uitvoeren van een experiment zonder controlegroep (Schrage 2011) .

Restivo en Van de Rijt studie illustreert de vier belangrijkste ingrediënten van een experiment: recruitment, randomisatie, interventie, en de resultaten. Samen vormen deze vier ingrediënten kunnen wetenschappers verder te gaan dan correlaties en meet het causale effect van de behandelingen. Concreet randomisatie betekent dat wanneer u de resultaten voor de behandeling en controle groepen vergelijk je een schatting van het causale effect van de interventie voor die set van de deelnemers te krijgen. Met andere woorden, met een gerandomiseerde gecontroleerde experiment kun je er zeker van zijn dat eventuele verschillen in uitkomsten worden veroorzaakt door de interventie en niet een confounder, een claim die ik maak precies te zijn in het technisch aanhangsel met behulp van de mogelijke uitkomsten kader.

Naast het feit dat een mooie illustratie van de mechanica van experimenten Restivo en Van de Rijt studie toont ook aan dat de logistiek van digitale experimenten totaal verschillend van analoge experimenten kunnen worden. In Restivo en experiment van de Rijt's, was het gemakkelijk om de barnstar te geven aan iedereen in de wereld en het was gemakkelijk om de uitkomst-aantal bewerkingen-over een langere periode (omdat u wijzigingen wordt automatisch geregistreerd door Wikipedia) te volgen. Dit vermogen om behandelingen te leveren en meten van de resultaten zonder kosten is kwalitatief in tegenstelling tot experimenten in het verleden. Hoewel dit experiment betrokken zijn 200 mensen, het kan zijn uitgevoerd met 2.000 of 20.000 mensen. Het belangrijkste verhinderen de onderzoekers geschaald hun experimenten met een factor van 100 is niet kosteneffectief, was ethisch. Dat wil zeggen Restivo en Van de Rijt wilde niet barnstars te onwaardig redacteuren geven en ze niet willen dat hun experiment om de Wikipedia-gemeenschap verstoren (Restivo and Rijt 2012; Restivo and Rijt 2014) . Dus, hoewel het experiment van Restivo en Van de Rijt is relatief eenvoudig, het toont duidelijk aan dat sommige dingen over experimenten hetzelfde zijn gebleven en sommige zijn veranderd. Met name de basislogica experimenten is hetzelfde, maar de logistiek zijn veranderd. Next, om duidelijker de mogelijkheden te isoleren door deze verandering, zal ik de experimenten dat de onderzoekers nu kunnen doen om de soorten proeven die zijn gedaan in het verleden te vergelijken.