4.6.2 Bouw ethiek in uw ontwerp: vervangen, verfijnen en verminderen

Maak uw experiment menselijker door het vervangen van experimenten met niet-experimentele studies, het verfijnen van de behandelingen, en het verminderen van het aantal deelnemers.

Het tweede advies dat ik zou willen geven over het ontwerpen van digitale experimenten betreft ethiek. Zoals het experiment van Restivo en van de Rijt op barnstars op Wikipedia laat zien, betekent lagere kosten dat ethiek een steeds belangrijker onderdeel wordt van onderzoeksdesign. Naast de ethische kaders die onderzoek naar menselijke proefpersonen begeleiden, dat ik in hoofdstuk 6 zal beschrijven, kunnen onderzoekers die digitale experimenten ontwerpen ook putten uit ethische ideeën uit een andere bron: de ethische principes die zijn ontwikkeld om experimenten met dieren te begeleiden. In het bijzonder, in hun toonaangevende boek Principles of Humane Experimental Technique , stelden Russell and Burch (1959) drie principes voor die als leidraad dienen voor dieronderzoek: vervangen, verfijnen en verminderen. Ik zou willen voorstellen dat deze drie R's ook kunnen worden gebruikt - in een enigszins aangepaste vorm - om het ontwerp van menselijke experimenten te begeleiden. Met name,

  • Vervangen: vervang experimenten indien mogelijk met minder invasieve methoden.
  • Verfijnen: verfijn de behandeling om deze zo onschuldig mogelijk te maken.
  • Verkleinen: verlaag het aantal deelnemers aan uw experiment zo veel mogelijk.

Om deze drie R's concreet te maken en te laten zien hoe ze mogelijk kunnen leiden tot een beter en meer humaan experimenteel ontwerp, zal ik een online veldexperiment beschrijven dat een ethisch debat opleverde. Vervolgens zal ik beschrijven hoe de drie R's concrete en praktische veranderingen in het ontwerp van het experiment suggereren.

Een van de meest ethisch besproken digitale veldexperimenten werd uitgevoerd door Adam Kramer, Jamie Guillroy en Jeffrey Hancock (2014) en wordt nu 'Emotionele besmetting' genoemd. Het experiment vond plaats op Facebook en werd gemotiveerd door een mix van wetenschappelijke en praktische vragen. In die tijd was de belangrijkste manier waarop gebruikers op Facebook interageerden de nieuwsfeed, een algoritmisch samengestelde set Facebook-statusupdates van de Facebook-vrienden van een gebruiker. Sommige critici van Facebook hadden gesuggereerd dat, omdat de nieuwsfeed meestal positieve berichten bevat - vrienden die hun nieuwste feest uitzenden - dit ervoor kan zorgen dat gebruikers zich verdrietig voelen omdat hun leven in vergelijking minder opwindend leek. Aan de andere kant is het effect misschien precies het tegenovergestelde: misschien dat je je gelukkig voelt als je ziet dat je vriend een leuke tijd heeft. Om deze tegenstrijdige hypothesen aan te pakken - en ons begrip van hoe de emoties van een persoon worden beïnvloed door de emoties van haar vrienden - hebben Kramer en collega's een experiment uitgevoerd. Ze plaatsten ongeveer 700.000 gebruikers in vier groepen gedurende één week: een groep met "negativiteitsvermindering", voor wie berichten met negatieve woorden (bijv. "Verdrietig") willekeurig werden geblokkeerd voor weergave in de nieuwsfeed; een groep met 'positiviteitsvermindering' waarvoor berichten met positieve woorden (bijvoorbeeld 'blij') willekeurig werden geblokkeerd; en twee controlegroepen. In de controlegroep voor de groep 'negativiteitsverminderd' werden posts willekeurig geblokkeerd in dezelfde snelheid als de groep 'negativiteitsverminderd', maar zonder rekening te houden met de emotionele inhoud. De controlegroep voor de groep met "positiviteitsvermindering" werd op een parallelle manier geconstrueerd. Het ontwerp van dit experiment illustreert dat de juiste controlegroep niet altijd een is zonder veranderingen. In plaats daarvan ontvangt de controlegroep soms een behandeling om de precieze vergelijking te maken die een onderzoeksvraag vereist. In alle gevallen waren de berichten die waren geblokkeerd in de nieuwsfeed nog steeds beschikbaar voor gebruikers via andere delen van de Facebook-website.

Kramer en collega's ontdekten dat voor deelnemers aan de situatie met positievermindering het percentage positieve woorden in hun statusupdates afnam en het percentage negatieve woorden toenam. Aan de andere kant nam het percentage positieve woorden voor deelnemers in de conditie met verminderde conditie toe en die van negatieve woorden (figuur 4.24). Deze effecten waren echter vrij klein: het verschil in positieve en negatieve woorden tussen behandelingen en controles was ongeveer 1 op de 1.000 woorden.

Figuur 4.24: Bewijs van emotionele besmetting (Kramer, Guillory en Hancock 2014). Deelnemers in de situatie met negativiteitsvermindering gebruikten minder negatieve woorden en positievere woorden, en deelnemers aan positievermindering gebruikten meer negatieve woorden en minder positieve woorden. Staven vertegenwoordigen geschatte standaardfouten. Aangepast door Kramer, Guillory en Hancock (2014), figuur 1.

Figuur 4.24: Bewijs van emotionele besmetting (Kramer, Guillory, and Hancock 2014) . Deelnemers in de situatie met negativiteitsvermindering gebruikten minder negatieve woorden en positievere woorden, en deelnemers aan positievermindering gebruikten meer negatieve woorden en minder positieve woorden. Staven vertegenwoordigen geschatte standaardfouten. Aangepast door Kramer, Guillory, and Hancock (2014) , figuur 1.

Voordat ik inga op de ethische kwesties die dit experiment met zich meebrengt, wil ik drie wetenschappelijke kwesties beschrijven aan de hand van enkele ideeën uit het vorige hoofdstuk. Ten eerste is het niet duidelijk hoe de feitelijke details van het experiment aansluiten op de theoretische claims; met andere woorden, er zijn vragen over constructvaliditeit. Het is niet duidelijk dat de positieve en negatieve woordentellingen in feite een goede indicator zijn van de emotionele toestand van deelnemers, omdat (1) het niet duidelijk is dat de woorden die mensen plaatsen een goede indicator zijn van hun emoties en (2) het is niet duidelijk dat de specifieke sentimentanalysetechniek die de onderzoekers gebruikten, in staat is om op een betrouwbare manier emoties af te leiden (Beasley and Mason 2015; Panger 2016) . Met andere woorden, er kan een slechte maat zijn voor een vooringenomen signaal. Ten tweede, het ontwerp en de analyse van het experiment vertellen ons niets over wie het meest werd beïnvloed (dwz er is geen analyse van de heterogeniteit van behandeleffecten) en wat het mechanisme zou kunnen zijn. In dit geval hadden de onderzoekers veel informatie over de deelnemers, maar ze werden in essentie behandeld als widgets in de analyse. Ten derde was de effectgrootte in dit experiment erg klein; het verschil tussen de behandelings- en controlevoorwaarden is ongeveer 1 op de 1.000 woorden. In hun paper beweren Kramer en collega's dat een effect van deze omvang belangrijk is omdat honderden miljoenen mensen elke dag toegang hebben tot hun nieuwsfeed. Met andere woorden, ze beweren dat zelfs als effecten klein zijn voor elke persoon, ze in totaal groot zijn. Zelfs als je dit argument zou accepteren, is het nog steeds niet duidelijk of een effect van deze omvang belangrijk is met betrekking tot de meer algemene wetenschappelijke vraag over de verspreiding van emoties (Prentice and Miller 1992) .

Naast deze wetenschappelijke vragen, enkele dagen nadat dit artikel in Proceedings van de National Academy of Sciences werd gepubliceerd, was er een enorme verontwaardiging van zowel onderzoekers als de pers (ik zal de argumenten in dit debat in hoofdstuk 6 gedetailleerder beschrijven) ). De kwesties die in dit debat naar voren werden gebracht, zorgden ervoor dat het tijdschrift een zeldzame "redactionele uiting van bezorgdheid" publiceerde over de ethiek en het ethische evaluatieproces voor het onderzoek (Verma 2014) .

Gezien die achtergrond over Emotionele Besmetting, zou ik nu willen aantonen dat de drie R's concrete, praktische verbeteringen kunnen suggereren voor echte studies (wat je ook zou mogen denken over de ethiek van dit specifieke experiment). De eerste R is vervangen : onderzoekers moeten proberen experimenten te vervangen door minder invasieve en risicovolle technieken, indien mogelijk. In plaats van een gerandomiseerd gecontroleerd experiment uit te voeren, hadden de onderzoekers bijvoorbeeld een natuurlijk experiment kunnen gebruiken . Zoals beschreven in hoofdstuk 2 zijn natuurlijke experimenten situaties waarin iets in de wereld gebeurt dat de willekeurige toewijzing van behandelingen benadert (bijv. Een loterij om te beslissen wie in het leger zal worden opgeroepen). Het ethische voordeel van een natuurlijk experiment is dat de onderzoeker geen behandelingen hoeft te leveren: de omgeving doet dat voor u. Bijvoorbeeld, bijna gelijktijdig met het Emotional Contagion-experiment, Lorenzo Coviello et al. (2014) maakten gebruik van wat een natuurlijk experiment met Emotionele Besmetting zou kunnen worden genoemd. Coviello en collega's ontdekten dat mensen meer negatieve woorden en minder positieve woorden posten op dagen waarop het regent. Daarom konden ze, door willekeurige variatie in het weer te gebruiken, het effect van veranderingen in de nieuwsfeed bestuderen zonder de noodzaak om überhaupt in te grijpen. Het was alsof het weer hun experiment voor hen uitvoerde. De details van hun procedure zijn een beetje gecompliceerd, maar het belangrijkste punt voor onze doeleinden hier is dat Coviello en zijn collega's, door een natuurlijk experiment te gebruiken, in staat waren om te leren over de verspreiding van emoties zonder de noodzaak om hun eigen experiment uit te voeren.

De tweede van de drie R's is verfijnen : onderzoekers moeten proberen hun behandelingen te verfijnen om ze zo onschadelijk mogelijk te maken. In plaats van inhoud te blokkeren die positief of negatief was, hadden de onderzoekers bijvoorbeeld inhoud kunnen stimuleren die positief of negatief was. Dit stimulerende ontwerp zou de emotionele inhoud van de nieuwsfeeds van de deelnemers hebben veranderd, maar het zou een van de zorgen hebben behandeld die critici uitten: dat de experimenten de deelnemers belangrijke informatie in hun nieuwsfeed hadden kunnen ontnemen. Met het ontwerp dat door Kramer en collega's wordt gebruikt, is een bericht dat belangrijk is, net zo waarschijnlijk geblokkeerd als een bericht dat dat niet is. Met een opdrijvend ontwerp zouden de berichten die zouden worden verplaatst echter minder belangrijk zijn.

Ten slotte wordt de derde R verkleind : onderzoekers moeten proberen het aantal deelnemers aan hun experiment te beperken tot het minimum dat nodig is om hun wetenschappelijke doel te bereiken. In analoge experimenten gebeurde dit natuurlijk vanwege de hoge variabele kosten van deelnemers. Maar in digitale experimenten, met name die met nul variabele kosten, worden onderzoekers niet geconfronteerd met een kostenbeperking voor de omvang van hun experiment, en dit kan leiden tot onnodig grote experimenten.

Kramer en zijn collega's hadden bijvoorbeeld informatie over de pre-behandeling kunnen gebruiken over hun deelnemers, zoals het gedrag van de behandeling voorafgaand aan de behandeling, om hun analyse efficiënter te maken. Meer specifiek, in plaats van het vergelijken van het aantal positieve woorden in de behandelings- en controlevoorwaarden, hadden Kramer en collega's de verandering in de verhouding van positieve woorden tussen de omstandigheden kunnen vergelijken; een benadering die soms een gemengd ontwerp wordt genoemd (figuur 4.5) en soms een difference-in-differences-schatter wordt genoemd. Dat wil zeggen, voor elke deelnemer hadden de onderzoekers een veranderingsscore (gedrag van de nabehandeling \(-\) voorbehandeling \(-\) kunnen hebben gemaakt en vervolgens de veranderingenscores van deelnemers in de behandelings- en controlevoorwaarden vergeleken. Deze verschil-in-verschillen benadering is statistisch gezien efficiënter, wat betekent dat onderzoekers hetzelfde statistische vertrouwen kunnen bereiken met behulp van veel kleinere monsters.

Zonder de onbewerkte gegevens te hebben, is het moeilijk om precies te weten hoeveel efficiënter een verschil-in-verschillen-schatter in dit geval zou zijn geweest. Maar we kunnen andere gerelateerde experimenten bekijken voor een ruw idee. Deng et al. (2013) rapporteerden dat ze, door een vorm van de difference-in-differences-schatter te gebruiken, in drie verschillende online-experimenten de variantie van hun schattingen met ongeveer 50% konden verminderen; vergelijkbare resultaten zijn gemeld door Xie and Aurisset (2016) . Deze 50% variantiereductie betekent dat de onderzoekers van Emotionele Besmetting in staat zouden zijn geweest om hun steekproef in twee te knippen als ze een iets andere analysemethode hadden gebruikt. Met andere woorden, met een kleine verandering in de analyse konden 350.000 mensen de deelname aan het experiment hebben bespaard.

Op dit punt vraag je je wellicht af waarom onderzoekers zich zorgen moeten maken als 350.000 mensen onnodig Emotionele Besmetting hebben. Er zijn twee specifieke kenmerken van Emotionele besmetting die zorgen maken over een te grote omvang, en deze functies worden gedeeld door vele digitale veldexperimenten: (1) er bestaat onzekerheid over de vraag of het experiment ten minste sommige deelnemers schade zal berokkenen en (2) deelname was niet vrijwillig. Het lijkt redelijk om te proberen experimenten met deze functies zo klein mogelijk te houden.

Voor alle duidelijkheid: de wens om de omvang van uw experiment te verkleinen, betekent niet dat u geen grote experimenten met variabele kosten mag uitvoeren. Het betekent alleen dat je experimenten niet groter mogen zijn dan je nodig hebt om je wetenschappelijke doel te bereiken. Een belangrijke manier om er zeker van te zijn dat een experiment de juiste grootte heeft, is het uitvoeren van een vermogensanalyse (Cohen 1988) . In het analoge tijdperk deden onderzoekers over het algemeen vermogensanalyses om ervoor te zorgen dat hun studie niet te klein was (dat wil zeggen onderbenut). Nu moeten onderzoekers echter een vermogensanalyse uitvoeren om ervoor te zorgen dat hun studie niet te groot is (dat wil zeggen, over-powered).

Samenvattend, de drie R's-vervangen, verfijnen en verminderen-bieden principes die onderzoekers kunnen helpen bij het opbouwen van ethiek in hun experimentele ontwerpen. Natuurlijk introduceert elk van deze mogelijke veranderingen in Emotionele Besmettingen compromissen. Bewijsmateriaal afkomstig van natuurlijke experimenten is bijvoorbeeld niet altijd zo schoon als dat van gerandomiseerde experimenten, en het stimuleren van inhoud was logistiek moeilijker te implementeren dan het blokkeren van inhoud. Het doel van het suggereren van deze veranderingen was dus niet om de beslissingen van andere onderzoekers ten tweede te raden. Het was eerder bedoeld om te illustreren hoe de drie R's kunnen worden toegepast in een realistische situatie. Sterker nog, de kwestie van trade-offs komt altijd naar voren in research design, en in het digitale tijdperk zullen deze trade-offs steeds meer ethische overwegingen met zich meebrengen. Later, in hoofdstuk 6, zal ik enkele principes en ethische kaders aanbieden die onderzoekers kunnen helpen deze wisselwerkingen te begrijpen en te bespreken.