4.6.2 Vervang, verfyn, en Verminder

Maak jou eksperiment meer menslik deur die vervanging van eksperimente met nie-eksperimentele studies, verfyning van die behandelings, en die vermindering van die aantal deelnemers.

Die tweede stuk van die raad wat ek wil graag aan te bied oor die ontwerp van digitale eksperimente gaan oor etiek. Soos die Restivo en van die Rijt eksperiment op barnstars in Wikipedia shows, afgeneem koste beteken dat etiek 'n belangrike deel van navorsingsontwerp sal word. Benewens die etiese raamwerke lei menslike vakke navorsing wat ek sal beskryf in Hoofstuk 6, kan navorsers ontwerp digitale eksperimente ook gebruik maak van etiese idees uit 'n ander bron: die etiese beginsels wat ontwikkel is om eksperimente met diere te lei. In die besonder, in hul boek landmerk Beginsels van Humane eksperimentele tegniek, Russell and Burch (1959) voorgestel drie beginsels wat diere navorsing moet lei: Vervang, verfyn en te verminder. Ek wil graag voorstel dat hierdie drie R's kan ook gebruik word-in 'n effens gewysigde vorm tot die ontwerp van die menslike eksperimente begelei. In die besonder,

  • Vervang: Vervang eksperimente met minder indringende metodes indien moontlik
  • Verfyn: verfyn die behandeling om dit as skadeloos as moontlik te maak
  • Verminder: Verminder die aantal deelnemers in jou eksperiment soveel as moontlik

Met die oog op konkrete hierdie drie R's maak en wys hoe hulle potensieel kan lei tot 'n beter en meer menslik eksperimentele ontwerp, sal ek 'n aanlyn veld eksperiment wat etiese debat gegenereer beskryf. Dan sal ek beskryf hoe die drie R'e stel konkrete en praktiese veranderinge aan die ontwerp van die eksperiment.

Een van die mees eties gedebatteer digitale veldeksperimente is "Emosionele Contagion", wat is gedoen deur Adam Kramer, Jamie Gillroyleer, en Jeffrey Hancock (2014) . Die eksperiment het plaasgevind op Facebook en is gemotiveer deur 'n mengsel van wetenskaplike en praktiese vrae. Op die oomblik, die dominante manier waarop gebruikers interaksie met Facebook was die Nuusvoer, 'n algoritmies saamgestel stel Facebook status updates from 'n gebruiker se Facebook-vriende. Sommige kritici van Facebook het voorgestel dat as gevolg van die Nuusvoer het meestal positiewe poste-vriende wat uit hul nuutste partytjie-dit kan veroorsaak dat gebruikers voel hartseer, want hulle lewens minder opwindend in vergelyking lyk. Aan die ander kant, miskien die effek is presies die teenoorgestelde; Miskien sien jou vriend 'n goeie tyd sal maak dat jy gelukkig voel? Ten einde aan te spreek hierdie mededingende hipotese-en tot ons begrip van hoe 'n mens se emosies is geraak deur haar vriende se bevorder emosies-Kramer en kollegas het 'n eksperiment. Die navorsers geplaas oor 700,000 gebruikers in vier groepe een week 'n "negatiwiteit verminder" groep, ter wille van wie poste met 'n negatiewe woorde (bv, hartseer) is ewekansig geblokkeer verskyn die Nuusvoer; 'n "positiwiteit verminder" groep vir wie poste met positiewe woorde (bv, gelukkig) lukraak is geblokkeer; en twee kontrolegroepe. In die kontrole groep vir die "negatiwiteit verminder" groep, is poste lukraak geblokkeer teen dieselfde tempo as die "negatiwiteit verminder" groep, maar sonder inagneming van die emosionele inhoud. Die kontrole groep vir die "positiwiteit verminder" groep gebou in 'n parallelle wyse. Die ontwerp van hierdie eksperiment illustreer dat die toepaslike kontrole groep is nie altyd een met geen veranderinge. Inteendeel, soms kry die kontrole groep 'n behandeling ten einde die presiese vergelyking te skep wat 'n navorsingsvraag vereis. In alle gevalle, die poste wat geblokkeer die Nuusvoer nog beskikbaar vir gebruikers deur middel van ander dele van die Facebook webwerf.

Kramer en kollegas het bevind dat vir deelnemers aan die positiwiteit verminder toestand, die persentasie van positiewe woorde in hul status updates afgeneem en die persentasie van negatiewe woorde toegeneem. Aan die ander kant, vir deelnemers aan die negatiwiteit verminder toestand, die persentasie van positiewe woorde toegeneem en die persentasie van negatiewe woorde afgeneem (Figuur 4.23). Maar hierdie effekte is baie klein: die verskil in positiewe en negatiewe woorde tussen behandelings en kontroles was sowat 1 in 1000 woorde.

Figuur 4.23: Bewyse van emosionele besmetting (Kramer, Guillory, en Hancock 2014). Persentasie van positiewe woorde en negatiewe woorde deur eksperimentele toestand. Bars verteenwoordig beraamde standaardfoute.

Figuur 4.23: Bewyse van emosionele besmetting (Kramer, Guillory, and Hancock 2014) . Persentasie van positiewe woorde en negatiewe woorde deur eksperimentele toestand. Bars verteenwoordig beraamde standaardfoute.

Ek het 'n bespreking van die wetenskaplike aspekte van hierdie eksperiment het in die verdere leesgedeelte aan die einde van die hoofstuk, maar ongelukkig, hierdie eksperiment is die meeste bekende vir die opwekking van etiese debat. Net dae nadat die vraestel in Verrigtinge van die Nasionale Akademie van Wetenskappe gepubliseer is, was daar 'n geweldige geskreeu van beide navorsers en die pers. Verontwaardiging rondom die papier gefokus op twee hoofpunte: 1) deelnemers het geen toestemming buite die standaard Facebook terme van die diens vir 'n behandeling wat sommige het gedink skade kan veroorsaak aan deelnemers en 2) die studie het nie ondergaan derde party etiese verskaf hersiening (Grimmelmann 2015) . Die etiese vrae wat geopper word in hierdie debat het veroorsaak dat die tydskrif 'n seldsame "redaksionele uitdrukking van kommer" oor die etiek en etiese hersieningsproses vir die navorsing vinnig publiseer (Verma 2014) . In die daaropvolgende jaar het die eksperiment het voortgegaan om 'n bron van intense debat en meningsverskil wees, en hierdie meningsverskil kan die onbedoelde uitwerking van die bestuur in die skadu baie ander eksperimente wat uitgevoer word deur maatskappye gehad het (Meyer 2014) .

Gegewe dat agtergrond oor Emosionele Contagion, sou ek nou graag om te wys dat die 3 R's kan stel konkrete, praktiese verbeterings vir die regte studies (wat ook al jy dalk persoonlik dink oor die etiek van hierdie spesifieke eksperiment). Die eerste R is vervang: navorsers moet poog om eksperimente te vervang met minder indringende en riskante tegnieke, indien moontlik. Byvoorbeeld, in plaas van 'n eksperiment, het die navorsers kon 'n natuurlike eksperiment uitgebuit. Soos beskryf in Hoofstuk 2, natuurlike eksperimente is situasies waar daar iets gebeur in die wêreld wat die ewekansige toewysing van behandelings by benadering (bv, 'n lotery te besluit wie sal opgestel word in die militêre). Die voordeel van 'n natuurlike eksperiment is dat die navorser nie hoef te behandelings lewer; die omgewing doen dit vir jou. Met ander woorde, met 'n natuurlike eksperiment, navorsers sou nie nodig het om eksperimenteel te manipuleer mense se Nuus Feeds.

Trouens, feitlik gelyktydig met die emosionele Contagion eksperiment, Coviello et al. (2014) is die ontginning van wat 'n emosionele Contagion natuurlike eksperiment genoem kan word. Hul benadering, wat 'n tegniek genaamd instrumentale veranderlikes gebruik, is 'n bietjie ingewikkeld as jy dit nog nooit vantevore gesien het. So, ten einde te verduidelik waarom dit nodig was, kom ons bou tot dit. Die eerste gedagte dat sommige navorsers dalk emosionele besmetting bestudeer sou wees om jou poste te vergelyk op dae waar jou Nuusvoer was baie positief om jou poste op dae waar jou Nuusvoer was baie negatief. Hierdie benadering sal goed wees as die doel was net om die emosionele inhoud van jou poste te voorspel, maar hierdie benadering is problematies as die doel is om die oorsaaklike uitwerking van jou Nuusvoer op jou poste te bestudeer. Om die probleem met hierdie ontwerp sien, oorweeg Thanksgiving. In die VSA, positiewe poste piek en negatiewe poste skietlood op Thanksgiving. So, op Thanksgiving, navorsers kon sien dat jou Nuusvoer was baie positief en dat julle op hoogte positiewe dinge so goed. Maar, kan u positiewe poste gewees het wat veroorsaak word deur Thanksgiving nie deur die inhoud van jou Nuusvoer. In plaas daarvan, ten einde die oorsaaklike uitwerking navorsers iets wat die inhoud van jou Nuusvoer verander sonder direk die verandering van jou emosies moet skat. Gelukkig is daar is iets soos dit gebeur al die tyd: die weer.

Coviello en kollegas het bevind dat 'n reënerige dag in iemand se stad sal gemiddeld verlaag die persentasie poste wat positief met sowat 1 persentasiepunt is en die verhoging van die persentasie poste wat negatief deur sowat 1 persentasiepunt is. Dan, Coviello en kollegas uitgebuit hierdie feit emosionele besmetting te bestudeer sonder die behoefte om eksperimenteel te manipuleer iemand se Nuusvoer. In wese is wat hulle gedoen het is meet hoe jou poste is beïnvloed deur die weer in die stede waar jou vriende leef. Om te sien waarom dit maak sin, dink dat jy woon in New York, en jy het 'n vriend wat in Seattle woon. Nou dink dat een dag dit begin reën in Seattle. Dit reën in Seattle sal nie direk invloed op jou gemoed, maar dit sal veroorsaak dat jou Nuusvoer minder positief en meer negatief wees as gevolg van poste jou vriend. So, die reën in Seattle manipuleer lukraak jou Nuusvoer. Draai hierdie intuïsie in 'n betroubare statistiese prosedure is ingewikkeld (en die presiese benadering wat gebruik word deur Coviello en kollegas is 'n bietjie nie-standaard) so ek het 'n meer gedetailleerde bespreking sit in die verdere leesgedeelte. Die belangrikste ding om te onthou oor Coviello en benadering kollega se is dat dit hulle in staat gestel om emosionele besmetting te bestudeer sonder die behoefte om 'n eksperiment wat potensieel deelnemers kan benadeel hardloop, en dit kan die geval dat in baie ander instellings kan jy eksperimenteer met verskillende vervang word tegnieke.

Tweede in die 3 Rs is verfyn: navorsers moet poog om hul behandeling te verfyn ten einde die kleinste skade moontlik veroorsaak. Byvoorbeeld, in plaas van die sluit van die inhoud wat positief of negatief was, het die navorsers kon inhoud wat positief of negatief was aangehelp. Dit stimuleer ontwerp sou die emosionele inhoud van deelnemers Nuus Feeds verander, maar dit sal aangespreek een van die kommer dat kritici uitgespreek: dat die eksperimente kon veroorsaak het deelnemers om belangrike inligting in hul Nuusvoer mis. Met die ontwerp gebruik word deur Kramer en kollegas, 'n boodskap wat belangrik is meer geneig om geblokkeer soos een wat nie is. Maar met 'n bevordering van die ontwerp, die boodskappe wat jou sal verplaas sou diegene wat minder belangrik is nie.

Ten slotte, die derde R is Verminder: navorsers moet poog om die aantal deelnemers te verminder in hul eksperiment, indien moontlik. In die verlede, hierdie vermindering gebeur natuurlik omdat die veranderlike koste van analoog eksperimente was hoog, wat navorsing aangemoedig om hul ontwerp en ontleding te optimaliseer. Maar wanneer daar 'n nul veranderlike koste data, navorsers nie die gesig staar 'n koste beperking op die grootte van hul eksperiment, en dit het die potensiaal om te lei tot onnodig groot eksperimente.

Byvoorbeeld, kan Kramer en kollegas gebruik pre-behandeling inligting oor hul deelnemers-soos pre-behandeling plaas hul ontleding doeltreffender gedrag-maak. Meer spesifiek, eerder as om te vergelyk die verhouding van positiewe woorde in die behandeling en beheer voorwaardes, Kramer en kollegas kon die verandering in die persentasie van positiewe woorde tussen toestande in vergelyking; 'n benadering wat dikwels genoem verskil-in-verskille en wat nou verwant is aan die gemengde ontwerp wat ek vroeër beskryf in die hoofstuk (Figuur 4.5). Dit is, vir elke deelnemer, het die navorsers kon 'n verandering telling (post-behandeling gedrag - pre-behandeling gedrag) geskep en dan vergelyk met die verandering tellings van deelnemers in die behandeling en beheer voorwaardes. Hierdie verskil-in-verskille benadering is meer doeltreffend statisties, wat beteken dat navorsers dieselfde statistiese vertroue met behulp van baie kleiner monsters kan bereik. Met ander woorde, deur nie die behandeling van deelnemers soos "widgets", navorsers kan dikwels meer akkurate skattings.

Sonder die rou data dit is moeilik om te weet presies hoeveel meer doeltreffend 'n verskil-in-verskille benadering in hierdie geval sou gewees het. Maar, Deng et al. (2013) berig dat daar in drie aanlyn eksperimente op die Bing soektog het hulle in staat om die variansie van hul skattings te verminder met ongeveer 50%, en soortgelyke resultate is aangemeld vir 'n paar aanlyn eksperimente op Netflix (Xie and Aurisset 2016) . Dit 50% variansie vermindering beteken dat die emosionele Contagion navorsers in staat om hul voorbeeld in die helfte te sny as hulle 'n effens ander analise metodes gebruik het kon gewees het. Met ander woorde, met 'n klein verandering in die analise, 350,000 mense kon gewees het, nie gespaar het deelname aan die eksperiment.

Op hierdie stadium mag dalk wonder waarom navorsers moet sorg as 350,000 mense was in Emosionele Contagion onnodig. Daar is twee besondere kenmerke van Emosionele Contagion dat kommer met oormatige grootte toepaslik maak, en hierdie eienskappe word gedeel deur baie digitale veldeksperimente: 1) Daar is onsekerheid oor die vraag of die eksperiment skade sal veroorsaak dat ten minste sommige deelnemers en 2) deelname was nie vrywillig. In eksperimente met hierdie twee eienskappe dit lyk raadsaam om die eksperimente so klein as moontlik te hou.

Ten slotte, die drie R's-Vervang, verfyn, en die vermindering van-voorsien beginsels wat kan help navorsers bou etiek in hul eksperimentele ontwerpe. Natuurlik, elkeen van hierdie moontlike veranderinge aan Emosionele Contagion stel trade-offs. Byvoorbeeld, bewyse uit natuurlike eksperimente is nie altyd so skoon as bewyse uit ewekansige eksperimente en die bevordering van dalk meer logisties moeilik om te implementeer as blok gewees het. So, met die doel om daarop dui hierdie veranderinge was nie om tweede raai die besluite van ander navorsers. Inteendeel, dit was om te illustreer hoe die drie R'e in 'n realistiese situasie toegepas kan word.