4.6.2 Byg etik ind i dit design: Udskift, forbedre og reducere

Denne oversættelse blev skabt af en computer. ×

4.6.2 Byg etik ind i dit design: Udskift, forbedre og reducere

Gør dit eksperiment mere human ved at erstatte forsøg med ikke-eksperimentelle undersøgelser, raffinering behandlingerne, og reducere antallet af deltagere.

Det andet råd, jeg gerne vil tilbyde om at designe digitale eksperimenter, vedrører etik. Som det fremgår af Restivo og van de Rijt-eksperimentet på barnstars i Wikipedia, betyder nedsat pris, at etik vil blive en stadig vigtigere del af forskningsdesign. Ud over de etiske rammer, der styrer menneskelige fagforskninger, som jeg beskriver i kapitel 6, kan forskere, der designer digitale eksperimenter, også drage på etiske ideer fra en anden kilde: de etiske principper udviklet til at guide eksperimenter med dyr. Især i deres milepælbog Principles of Human Experimental Technique , Russell and Burch (1959) foreslået tre principper, der skulle guide dyrforskning: erstatte, forfine og reducere. Jeg vil gerne foreslå, at disse tre R'er også kan bruges - i en lidt ændret form - til at guide udformningen af menneskelige eksperimenter. I særdeleshed,

Udskift: Udskift eksperimenter med mindre invasive metoder, hvis det er muligt.
Forfin: Begræns behandlingen for at gøre det så harmløst som muligt.
Reducer: Reducer antallet af deltagere i dit eksperiment så meget som muligt.

For at gøre disse tre R'er konkrete og vise, hvordan de potentielt kan føre til bedre og mere humane eksperimentelle design, vil jeg beskrive et onlinefelteksperiment, der genererede etisk debat. Derefter vil jeg beskrive hvordan de tre R'er foreslår konkrete og praktiske ændringer i designet af eksperimentet.

Et af de mest etisk debatterede digitale felteksperimenter blev udført af Adam Kramer, Jamie Guillroy og Jeffrey Hancock (2014) og er blevet kaldt "Emotional Contagion." Eksperimentet fandt sted på Facebook og blev motiveret af en blanding af videnskabelig og praktiske spørgsmål. På den tid var den dominerende måde, som brugere interagerede med Facebook, News Feed, et algoritmisk kureret sæt af Facebook statusopdateringer fra en brugers Facebook-venner. Nogle kritikere af Facebook havde foreslået, at fordi News Feed har for det meste positive indlæg-venner, der viser deres seneste fest - det kan få brugere til at føle sig triste, fordi deres liv syntes mindre spændende i sammenligning. På den anden side er virkningen måske lige præcis det modsatte: måske ser din ven at have en god tid, få dig til at føle dig glad. For at imødegå disse konkurrerende hypoteser - og for at fremme vores forståelse for, hvordan en persons følelser påvirkes af sine venners følelser - kørte Kramer og kolleger et eksperiment. De lagde omkring 700.000 brugere i fire grupper i en uge: en "negativitetsreduceret" gruppe, for hvem indlæg med negative ord (f.eks. "Trist") blev tilfældigt blokeret fra at blive vist i nyhedsfeeden; en "positivitetsreduceret" gruppe for hvem indlæg med positive ord (fx "glad") blev tilfældigt blokeret; og to kontrolgrupper. I kontrolgruppen for den "negativitetsreducerede" gruppe blev indlæg tilfældigt blokeret i samme takt som den "negativitetsreducerede" gruppe, men uden hensyn til det følelsesmæssige indhold. Kontrolgruppen for den "positivitetsreducerede" gruppe blev konstrueret på en parallel måde. Udformningen af dette eksperiment illustrerer, at den passende kontrolgruppe ikke altid er en uden ændringer. I nogle tilfælde modtager kontrolgruppen en behandling for at skabe den præcise sammenligning, som et forskningsspørgsmål kræver. I alle tilfælde var de stillinger, der blev blokeret fra nyhedsfeeden, stadig tilgængelige for brugerne via andre dele af Facebook-webstedet.

Kramer og kolleger konstaterede, at for deltagere i positivitetsreduceret tilstand faldt procentdelen af positive ord i deres statusopdateringer og procentdelen af negative ord steg. På den anden side for deltagerne i den negativitetsreducerede tilstand steg andelen af positive ord og negative ord faldt (figur 4.24). Imidlertid var disse virkninger ret små: forskellen i positive og negative ord mellem behandlinger og kontroller var omkring 1 på 1000 ord.

Figur 4.24: Bevis for følelsesmæssig smitte (Kramer, Guillory og Hancock 2014). Deltagere i negativitetsreducerede tilstand brugte færre negative ord og mere positive ord, og deltagere i positivitetsreducerede tilstand brugte mere negative ord og færre positive ord. Barer repræsenterer estimerede standardfejl. Tilpasset fra Kramer, Guillory og Hancock (2014), figur 1.

Figur 4.24: Bevis for følelsesmæssig smitte (Kramer, Guillory, and Hancock 2014) . Deltagere i negativitetsreducerede tilstand brugte færre negative ord og mere positive ord, og deltagere i positivitetsreducerede tilstand brugte mere negative ord og færre positive ord. Barer repræsenterer estimerede standardfejl. Tilpasset fra Kramer, Guillory, and Hancock (2014) , figur 1.

Inden jeg diskuterer de etiske problemer, der er rejst med dette eksperiment, vil jeg gerne beskrive tre videnskabelige spørgsmål ved hjælp af nogle af de ideer, der var tidligere i kapitlet. For det første er det ikke klart, hvordan de faktiske detaljer i eksperimentet forbinder de teoretiske krav; med andre ord er der spørgsmål om konstruktiv validitet. Det er ikke klart, at de positive og negative ordtællinger faktisk er en god indikator for deltagernes følelsesmæssige tilstand, fordi (1) det er ikke klart, at de ord, som folk posterer er en god indikator for deres følelser og (2) det er ikke klart at den særlige sentimentanalyse teknik, som forskerne brugte, er i stand til pålideligt at (Beasley and Mason 2015; Panger 2016) følelser (Beasley and Mason 2015; Panger 2016) . Med andre ord kan der være et dårligt mål for et forudindtaget signal. For det andet fortæller design og analyse af forsøget os ingenting om, hvem der var mest påvirket (dvs. der er ingen analyse af heterogenitet af behandlingseffekter) og hvad mekanismen kan være. I dette tilfælde havde forskerne mange oplysninger om deltagerne, men de blev i det væsentlige behandlet som widgets i analysen. For det tredje var effektstørrelsen i dette forsøg meget lille; forskellen mellem behandlings- og kontrolbetingelserne er ca. 1 på 1.000 ord. I deres papir gør Kramer og kolleger sagen, at en effekt af denne størrelse er vigtig, fordi hundredvis af millioner mennesker får adgang til deres nyhedsfeed hver dag. Med andre ord hævder de, at selvom virkningerne er små for hver person, er de store i sammenfald. Selv om du skulle acceptere dette argument, er det stadig ikke klart, om en effekt af denne størrelse er vigtig med hensyn til det mere generelle videnskabelige spørgsmål om spredning af følelser (Prentice and Miller 1992) .

Ud over disse videnskabelige spørgsmål var der lige få dage efter, at dette papir blev offentliggjort i Proceedings of the National Academy of Sciences , et enormt skrig fra både forskere og pressen (jeg beskriver nærmere argumenterne i denne debat i kapitel 6 ). De spørgsmål, der blev rejst under denne debat, førte til, at tidsskriftet offentliggjorde et sjældent "redaktionelt udtryk for bekymring" om etikken og den etiske gennemgangsproces for forskningen (Verma 2014) .

På baggrund af denne baggrund om følelsesmæssig forurening vil jeg nu gerne vise, at de tre R'er kan foreslå konkrete, praktiske forbedringer for virkelige studier (hvad end du måske personligt tænker på etiket i dette eksperiment). Den første R erstatter : Forskere bør søge at erstatte eksperimenter med mindre invasive og risikable teknikker, hvis det er muligt. For eksempel, i stedet for at køre et randomiseret kontrolleret eksperiment, kunne forskerne have udnyttet et naturligt eksperiment . Som beskrevet i kapitel 2 er naturlige eksperimenter situationer, hvor der sker noget i verden, der nærmer sig den tilfældige tildeling af behandlinger (f. Eks. Et lotteri for at bestemme, hvem der skal udfærdiges i militæret). Den etiske fordel ved et naturligt eksperiment er, at forskeren ikke behøver at levere behandlinger: miljøet gør det for dig. For eksempel næsten Lorenzo Coviello et al. (2014) udnyttede det, der kunne kaldes et naturligt eksperiment med følelsesmæssig forurening. Coviello og kolleger opdagede, at folk sender flere negative ord og færre positive ord på dage, hvor det regner. Derfor kunne de ved hjælp af tilfældig variation i vejret studere effekten af ændringer i nyhedsfeeden uden at skulle intervenere overhovedet. Det var som om vejret kørte deres eksperiment for dem. Detaljerne i deres procedure er lidt komplicerede, men det vigtigste punkt for vores formål her er, at ved hjælp af et naturligt eksperiment kunne Coviello og kolleger lære om spredning af følelser uden at skulle køre deres eget eksperiment.

Den anden af de tre R'er er forfinet : Forskere bør forsøge at forfine deres behandlinger for at gøre dem så harmløse som muligt. For eksempel, i stedet for at blokere indhold, der var enten positivt eller negativt, kunne forskerne have forstærket indhold, der var positivt eller negativt. Dette forstærkende design ville have ændret det følelsesmæssige indhold af deltagernes nyhedsfeeds, men det ville have adresseret en af de bekymringer, som kritikerne udtrykte: at eksperimenterne kunne have fået deltagere til at savne vigtige oplysninger i deres nyhedsfeed. Med det design, der bruges af Kramer og kolleger, er en sandsynlig sandsynlighed for at blive blokeret som en, der ikke er. Men med et forstærkende design ville de budskaber, der ville blive forskudt, være dem, der er mindre vigtige.

Endelig reduceres den tredje R: forskere bør søge at reducere antallet af deltagere i deres forsøg til det minimum, der er nødvendigt for at nå deres videnskabelige mål. I analoge forsøg skete det naturligvis på grund af de høje variable omkostninger for deltagere. Men i digitale eksperimenter, især dem med nul variable omkostninger, står forskerne ikke over for en omkostningsbegrænsning på størrelsen af deres eksperiment, og dette har potentialet til at føre til unødigt store eksperimenter.

For eksempel kunne Kramer og kolleger have brugt forhåndsbehandlingsinformation om deres deltagere - som forbehandling af opførsel - for at gøre deres analyse mere effektiv. Mere specifikt, end at sammenligne andelen af positive ord i behandlings- og kontrolforholdene, kunne Kramer og kolleger have sammenlignet ændringen i andelen af positive ord mellem forholdene; en tilgang, der undertiden kaldes et blandet design (figur 4.5) og undertiden kaldes en forskellen i forskelle estimator. Det vil sige for hver deltager, at forskerne kunne have skabt en forandringsscore (efterbehandlingsadfærd $-$ forbehandlingens adfærd) og derefter sammenlignet ændringernes scoringer af deltagere i behandlings- og kontrolforholdene. Denne forskel i forskelle tilgang er mere effektiv statistisk, hvilket betyder, at forskere kan opnå samme statistiske tillid ved at bruge meget mindre prøver.

Uden at have de rå data, er det svært at vide præcis, hvor meget mere effektiv en forskel i forskelle estimator ville have været i dette tilfælde. Men vi kan se på andre relaterede eksperimenter for en grov ide. Deng et al. (2013) rapporterede, at de ved hjælp af en form for forskellen i forskelle estimator kunne reducere variansen af deres estimater med ca. 50% i tre forskellige online eksperimenter; lignende resultater er blevet rapporteret af Xie and Aurisset (2016) . Denne 50% variansreduktion betyder, at forskerne i emosionelle forstyrrelser måske har været i stand til at skære deres prøve i halvt, hvis de havde brugt en lidt anden analysemetode. Med andre ord, med en lille ændring i analysen, kunne 350.000 mennesker have været sparet deltagelse i eksperimentet.

På dette tidspunkt vil du måske undre sig over, hvorfor forskere bør passe, hvis 350.000 mennesker var i følelsesmæssig forurening unødigt. Der er to særlige træk ved følelsesmæssig forurening, der giver anledning til overdreven størrelse, og disse funktioner deles af mange digitale felteksperimenter: (1) der er usikkerhed om, hvorvidt eksperimentet vil skade mindst nogle deltagere og (2) deltagelse var ikke frivillig. Det forekommer rimeligt at forsøge at holde eksperimenter, der har disse funktioner så små som muligt.

For at være klar, betyder ønsket om at reducere størrelsen af dit eksperiment ikke, at du ikke bør køre store, nul variable omkostninger eksperimenter. Det betyder bare, at dine eksperimenter ikke skal være større end du behøver for at nå dit videnskabelige mål. En vigtig måde at sikre, at et eksperiment er passende dimensioneret, er at foretage en strømanalyse (Cohen 1988) . I den analoge alder gjorde forskere generelt strømanalyse for at sikre, at deres undersøgelse ikke var for lille (dvs. underdrevet). Nu skal forskerne dog foretage strømanalyse for at sikre, at deres undersøgelse ikke er for stor (dvs. overdrevet).

Afslutningsvis er de tre R'er - erstatter, forfinet og reduceret-giver principper, der kan hjælpe forskere med at opbygge etik i deres eksperimentelle design. Selvfølgelig introducerer hver af disse mulige ændringer til følelsesmæssig forurening afvejninger. For eksempel er beviser fra naturlige eksperimenter ikke altid lige så rene som fra randomiserede forsøg, og det kan have været logistisk vanskeligere at implementere indholdsforøgelse end at blokere indhold. Formålet med at foreslå disse ændringer var således ikke at gætte andre forskeres beslutninger. Det var snarere at illustrere, hvordan de tre R'er kunne anvendes i en realistisk situation. Faktisk kommer spørgsmålet om afvejninger hele tiden op i forskningsmæssigt design, og i digitalalderen vil disse afvejninger i stigende grad inddrage etiske overvejelser. Senere i kapitel 6 vil jeg tilbyde nogle principper og etiske rammer, der kan hjælpe forskere med at forstå og diskutere disse afvejninger.