4.6.2 Bou etiek in jou ontwerp: vervang, verfyn en verminder

Maak jou eksperiment meer menslik deur die vervanging van eksperimente met nie-eksperimentele studies, verfyning van die behandelings, en die vermindering van die aantal deelnemers.

Die tweede stuk raad wat ek wil aanbied oor die ontwerp van digitale eksperimente het betrekking op etiek. Soos die Restivo en van de Rijt-eksperiment op barnstars in Wikipedia toon, beteken verlaagde koste dat etiek 'n toenemend belangrike deel van navorsingsontwerp sal word. Benewens die etiese raamwerke wat menslike vakkundig navorsing lei wat ek in hoofstuk 6 sal beskryf, kan navorsers wat digitale eksperimente ontwerp, ook etiese idees uit 'n ander bron gebruik: die etiese beginsels ontwikkel om eksperimente met diere te lei. In die besonder het hulle in hul landmerkboek Beginsels van Menslike Eksperimentele Tegniek , Russell and Burch (1959) drie beginsels voorgestel wat diernavorsing moet rig: vervang, verfyn en verminder. Ek stel voor dat hierdie drie R's ook gebruik kan word - in 'n effens aangepaste vorm - om die ontwerp van menslike eksperimente te rig. In die besonder,

  • Vervang: Vervang eksperimente met minder indringende metodes indien moontlik.
  • Verfyn: Verfyn die behandeling om dit so onskadelik moontlik te maak.
  • Verminder: Verminder die aantal deelnemers in jou eksperiment so veel as moontlik.

Om hierdie drie R's konkreet te maak en te wys hoe dit moontlik kan lei tot beter en meer menslike eksperimentele ontwerp, sal ek 'n aanlynveldeksperiment beskryf wat etiese debat opgewek het. Dan sal ek beskryf hoe die drie R's konkrete en praktiese veranderinge aan die ontwerp van die eksperiment voorstel.

Een van die mees eties-gedebatteerde digitale veld eksperimente is deur Adam Kramer, Jamie Guillroy, en Jeffrey Hancock (2014) . Dit word genoem "Emosionele Contagion." Die eksperiment het op Facebook plaasgevind en is gemotiveer deur 'n mengsel van wetenskaplike en praktiese vrae. Die dominante manier waarop gebruikers met Facebook geïnspireer het, was die Nuusvoer, 'n algoritmies gekalikeerde stel Facebook status updates van 'n gebruiker se Facebook-vriende. Sommige kritici van Facebook het voorgestel dat omdat die Nuusvoedsel meestal positiewe plasings het, vriende wat hul nuutste party wys, dit kan veroorsaak dat gebruikers hartseer voel omdat hul lewens minder opwindend lyk in vergelyking. Aan die ander kant, miskien is die effek presies die teenoorgestelde: Miskien sal jou vriend 'n goeie tyd hê om jou gelukkig te laat voel. Om hierdie mededingende hipoteses aan te spreek en om ons begrip van hoe 'n mens se emosies beïnvloed word deur haar vriende se emosies, het Kramer en kollegas 'n eksperiment uitgevoer. Hulle het vir ongeveer een week ongeveer 700,000 gebruikers in vier groepe geplaas: 'n negatiwiteitsverminderde groep, vir wie poste met negatiewe woorde (bv. "Hartseer") is willekeurig geblokkeer om nie in die Nuusvoer te verskyn nie; 'n "positiwiteitsverminderde" groep vir wie poste met positiewe woorde (bv. "gelukkig") is lukraak geblokkeer; en twee kontrolegroepe. In die kontrolegroep vir die "negatiwiteitsverminderde" groep is poste ewekansig geblokkeer teen dieselfde koers as die negativiteitsverminderde groep, maar sonder inagneming van die emosionele inhoud. Die kontrolegroep vir die "positiwiteitsverminderde" groep is op 'n parallelle wyse gebou. Die ontwerp van hierdie eksperiment illustreer dat die toepaslike beheergroep nie altyd een is sonder veranderings nie. Soms ontvang die kontrole groep soms 'n behandeling om die presiese vergelyking wat 'n navorsingsvraag vereis, te skep. In alle gevalle is die poste wat uit die Nuusvoer geblokkeer is, steeds beskikbaar vir gebruikers deur ander dele van die Facebook-webwerf.

Kramer en kollegas het bevind dat die persentasie positiewe woorde in hul statusopdaterings vir deelnemers in die positiwiteitsvermindering verlaag en die persentasie negatiewe woorde toegeneem het. Aan die ander kant, vir deelnemers in die negativiteitsverminderde toestand, het die persentasie positiewe woorde toegeneem en die negatiewe woorde afgeneem (figuur 4.24). Hierdie effekte was egter redelik klein: die verskil in positiewe en negatiewe woorde tussen behandelings en kontroles was ongeveer 1 in 1000 woorde.

Figuur 4.24: Bewyse van emosionele besmetting (Kramer, Guillory, en Hancock 2014). Deelnemers in die negativiteitsverminderde toestand gebruik minder negatiewe woorde en meer positiewe woorde, en deelnemers in die positiwiteitsverminderde toestand gebruik meer negatiewe woorde en minder positiewe woorde. Bars verteenwoordig geraamde standaardfoute. Aangepas uit Kramer, Guillory, en Hancock (2014), figuur 1.

Figuur 4.24: Bewyse van emosionele besmetting (Kramer, Guillory, and Hancock 2014) . Deelnemers in die negativiteitsverminderde toestand gebruik minder negatiewe woorde en meer positiewe woorde, en deelnemers in die positiwiteitsverminderde toestand gebruik meer negatiewe woorde en minder positiewe woorde. Bars verteenwoordig geraamde standaardfoute. Aangepas uit Kramer, Guillory, and Hancock (2014) , figuur 1.

Voordat ek die etiese kwessies bespreek wat deur hierdie eksperiment geopper word, wil ek drie wetenskaplike kwessies beskryf deur van die idees van vroeër in die hoofstuk gebruik te maak. Eerstens is dit nie duidelik hoe die werklike besonderhede van die eksperiment verband hou met die teoretiese eise nie; Met ander woorde, daar is vrae oor die konstruksiegeldigheid. Dit is nie duidelik dat die positiewe en negatiewe woordtellings eintlik 'n goeie aanduider is van die emosionele toestand van deelnemers nie, want (1) dit is nie duidelik dat die woorde wat mense plaas 'n goeie aanduiding is van hul emosies nie en (2) dit nie Duidelike dat die spesifieke sentiment analise tegniek wat die navorsers gebruik, in staat is om emosies betroubaar af te lei (Beasley and Mason 2015; Panger 2016) . Met ander woorde, daar is dalk 'n slegte maatstaf van 'n bevooroordeelde sein. Tweedens, die ontwerp en analise van die eksperiment vertel ons niks van wie die grootste impak gehad het nie (dws daar is geen ontleding van heterogeniteit van behandelingseffekte nie) en wat die meganisme kan wees. In hierdie geval het die navorsers baie inligting oor die deelnemers gehad, maar hulle is in wese as widgets in die analise behandel. Derdens was die effekgrootte in hierdie eksperiment baie klein; Die verskil tussen die behandeling- en beheermaatreëls is ongeveer 1 in 1000 woorde. Kramer en sy kollegas maak in hul koerant die saak dat 'n effek van hierdie grootte belangrik is omdat honderde miljoene mense elke dag hul Nuusvoertuig toegang verkry. Met ander woorde, hulle redeneer dat alhoewel effekte klein is vir elke persoon, is hulle groot in totaal. Selfs as u hierdie argument sou aanvaar, is dit nog nie duidelik of 'n effek van hierdie grootte belangrik is ten opsigte van die meer algemene wetenskaplike vraag oor die verspreiding van emosie nie (Prentice and Miller 1992) .

Benewens hierdie wetenskaplike vrae, was daar net 'n paar dae nadat hierdie referaat gepubliseer is in die Verrigtinge van die Nasionale Akademie van Wetenskappe 'n enorme uitroep van beide navorsers en die pers (ek sal die argumente in hierdie debat meer volledig beskryf in hoofstuk 6 ). Die kwessies wat in hierdie debat geopper is, het veroorsaak dat die joernaal 'n seldsame "redaksionele uitdrukking van kommer" gepubliseer het oor die etiek en die etiese hersieningsproses vir die navorsing (Verma 2014) .

Gegewe die agtergrond oor Emosionele Besmetting, wil ek nou wys dat die drie R's konkrete, praktiese verbeteringe vir werklike studies kan voorstel (wat jy ook persoonlik aan die etiek van hierdie spesifieke eksperiment sou dink). Die eerste R is vervang : navorsers moet probeer om eksperimente met minder indringende en riskante tegnieke te vervang, indien moontlik. Byvoorbeeld, eerder as om 'n gerandomiseerde beheerde eksperiment te voer, kon die navorsers 'n natuurlike eksperiment ontgin het. Soos beskryf in hoofstuk 2, is natuurlike eksperimente situasies waar daar in die wêreld iets gebeur wat die willekeurige opdrag van behandelings benader (bv. 'N lotery om te besluit wie in die weermag opgestel sal word). Die etiese voordeel van 'n natuurlike eksperiment is dat die navorser nie behandelings hoef te lewer nie: die omgewing doen dit vir jou. Byvoorbeeld, byna gelyktydig met die Emosionele Besmetting eksperiment, Lorenzo Coviello et al. (2014) het ontgin wat 'n natuurlike eksperiment vir emosionele versteuring genoem kan word. Coviello en kollegas het ontdek dat mense op meer dae negatiewe woorde en minder positiewe woorde plaas. Daarom kon hulle die effek van veranderinge in die Nuusvoer deur die gebruik van ewekansige variasie in die weer bestudeer, sonder dat dit hoegenaamd hoegenaamd ingryp moet word nie. Dit was asof die weer hul eksperiment vir hulle uitgevoer het. Die besonderhede van hul prosedure is 'n bietjie ingewikkeld, maar die belangrikste punt vir ons doeleindes hier is dat Coviello en kollegas met behulp van 'n natuurlike eksperiment kon leer oor die verspreiding van emosies sonder dat hulle hul eie eksperiment moes uitvoer.

Die tweede van die drie R's word verfyn : navorsers moet hul behandelings verfyn om hulle so onskadelik moontlik te maak. Byvoorbeeld, eerder as om inhoud wat positief of negatief was, te blokkeer, kon die navorsers die inhoud wat positief of negatief was, versterk het. Hierdie versterkingsontwerp sou die emosionele inhoud van deelnemers se Nuusfeeds verander het, maar dit sou een van die bekommernisse wat kritici uitgespreek het, aangespreek het: dat die eksperimente die deelnemers belangrike inligting in hul Nuusvoer kon misloop. Met die ontwerp wat Kramer en kollegas gebruik, is 'n belangrike boodskap waarskynlik geblokkeer as een wat nie. Met 'n versterkende ontwerp sal die boodskappe wat verplaas word egter diegene wat minder belangrik is.

Ten slotte word die derde R verminder : navorsers moet poog om die aantal deelnemers in hul eksperiment te verminder tot die minimum wat nodig is om hul wetenskaplike doelwit te bereik. In analoog eksperimente het dit natuurlik gebeur as gevolg van die hoë veranderlike koste van deelnemers. Maar in digitale eksperimente, veral dié met nul veranderlike koste, het navorsers nie 'n kostebeperking op die grootte van hul eksperiment, en dit het die potensiaal om onnodig groot eksperimente te lei.

Kramer en sy kollegas kon byvoorbeeld vooraf behandelingsinligting oor hul deelnemers gebruik het - soos voorbehandeling posgedrag - om hul analise doeltreffender te maak. Meer spesifiek, eerder as om die deel van positiewe woorde in die behandelings- en beheermaatreëls te vergelyk, kon Kramer en kollegas die verandering in die verhouding positiewe woorde tussen toestande vergelyk het; 'n benadering wat soms 'n gemengde ontwerp genoem word (figuur 4.5) en soms 'n verskil-in-verskille-beramer genoem. Dit is, vir elke deelnemer, kon die navorsers 'n veranderingstelling (na-behandelingsgedrag \(-\) voorbehandelingsgedrag) geskep het en dan die veranderingstellings van deelnemers in die behandelings- en beheermaatreëls vergelyk. Hierdie verskil-in-verskille benadering is statisties meer doeltreffend, wat beteken dat navorsers dieselfde statistiese vertroue kan gebruik deur veel kleiner monsters te gebruik.

Sonder om die rou data te hê, is dit moeilik om presies te weet hoeveel doeltreffend 'n verskil-in-verskilleberegter in hierdie geval sou gewees het. Maar ons kan na ander verwante eksperimente kyk vir 'n rowwe idee. Deng et al. (2013) berig dat hulle die variansie van hul ramings met ongeveer 50% in drie verskillende aanlyn-eksperimente kon gebruik deur 'n vorm van die verskil-in-verskille-beramer te gebruik; Soortgelyke resultate is deur Xie and Aurisset (2016) gerapporteer. Hierdie 50% afwykingsvermindering beteken dat die emosionele besmetting navorsers hulle steekproef in die helfte kon sny as hulle 'n effens ander analise metode gebruik het. Met ander woorde, met 'n klein verandering in die analise kon 350,000 mense deelgeneem het aan die eksperiment.

Op hierdie stadium kan jy wonder hoekom navorsers moet sorg as 350 000 mense onnodig in emosionele besmetting was. Daar is twee besondere kenmerke van emosionele besmetting wat besorgdheid met oormatige grootte toepas, en hierdie eienskappe word gedeel deur baie digitale veld eksperimente: (1) daar is onsekerheid oor of die eksperiment skade aan ten minste sommige deelnemers sal veroorsaak en (2) deelname was nie vrywillig nie. Dit lyk redelik om eksperimente wat hierdie eienskappe so klein as moontlik het, te probeer probeer hou.

Om duidelik te wees, beteken die begeerte om die grootte van jou eksperiment te verminder nie dat jy nie groot, nul-veranderlike koste-eksperimente moet uitvoer nie. Dit beteken net dat jou eksperimente nie groter moet wees as wat jy nodig het om jou wetenskaplike doelwit te bereik nie. Een belangrike manier om seker te maak dat 'n eksperiment gepas is, is om 'n kraganalise te doen (Cohen 1988) . In die analoë ouderdom het navorsers oor die algemeen kragontleding gedoen om seker te maak dat hul studie nie te klein was nie (dws onder-aangedrewe). Nou moet navorsers egter kraganalise doen om seker te maak dat hul studie nie te groot is nie (dws oor-aangedrewe).

Ten slotte, die drie R's-vervang, verfyn en verminder-voorsiening beginsels wat kan help navorsers bou etiek in hul eksperimentele ontwerpe. Uiteraard stel elk van hierdie moontlike veranderinge aan Emosionele Besmetting verhandelings voor. Byvoorbeeld, bewyse uit natuurlike eksperimente is nie altyd so skoon soos dit uit gerandomiseerde eksperimente nie, en die bevordering van inhoud kan logisties moeiliker wees om te implementeer as om inhoud te blokkeer. Dus, die doel om hierdie veranderinge voor te stel, was nie om die navorsers se besluite te bepaal nie. Dit was eerder om te illustreer hoe die drie R's in 'n realistiese situasie toegepas kan word. Trouens, die kwessie van afwykings kom alreeds in navorsingsontwerp voor, en in die digitale ouderdom sal hierdie verhandelings toenemend etiese oorwegings betrek. Later, in hoofstuk 6, bied ek 'n paar beginsels en etiese raamwerke aan wat navorsers kan help om hierdie verhandelings te verstaan ​​en te bespreek.