4.6.2 Bygg etikk inn i ditt design: erstatte, finjustere og redusere

Denne oversettelsen ble skapt av en datamaskin. ×

4.6.2 Bygg etikk inn i ditt design: erstatte, finjustere og redusere

Gjør eksperimentet mer humane ved å erstatte eksperimenter med ikke-eksperimentelle studier, raffinering behandlinger, og redusere antall deltakere.

Det andre råd jeg ønsker å tilby om å designe digitale eksperimenter, gjelder etikk. Som Restivo og van de Rijt-eksperimentet på barnstars i Wikipedia viser, reduserer kostnadene at etikk vil bli en stadig viktigere del av forskningsdesign. I tillegg til de etiske rammene som styrer menneskelig forskning som jeg skal beskrive i kapittel 6, kan forskere som designer digitale eksperimenter, også trekke på etiske ideer fra en annen kilde: De etiske prinsippene utviklet for å lede eksperimenter med dyr. Spesielt i sin landemerkebok Prinsipper for menneskelig eksperimentell teknikk , Russell and Burch (1959) foreslått tre prinsipper som skal veilede dyreforskning: erstatte, forfinne og redusere. Jeg vil gjerne foreslå at disse tre R-ene også kan brukes - i en litt modifisert form - for å veilede utformingen av menneskelige eksperimenter. Spesielt,

Erstatt: Bytt eksperimenter med mindre invasive metoder hvis mulig.
Avgrens: Forbedre behandlingen for å gjøre den så ufarlig som mulig.
Reduser: Reduser antall deltakere i eksperimentet ditt så mye som mulig.

For å gjøre disse tre R-ene konkrete og vise hvordan de kan potensielt føre til bedre og mer menneskelig eksperimentell design, vil jeg beskrive et feltfelteksperiment som genererte etisk debatt. Deretter skal jeg beskrive hvordan de tre R-er foreslår konkrete og praktiske endringer i utformingen av eksperimentet.

Et av de mest etisk debatterte digitale felteksperimentene ble utført av Adam Kramer, Jamie Guillroy, og Jeffrey Hancock (2014) og har blitt kalt "Emosjonell Forstyrrelse." Eksperimentet fant sted på Facebook og var motivert av en blanding av vitenskapelig og praktiske spørsmål. På den tiden var den dominerende måten brukerne samhandlet med Facebook, News Feed, et algoritmisk kurert sett med Facebook statusoppdateringer fra en brukers Facebook-venner. Noen kritikere av Facebook hadde antydet at fordi News Feed har for det meste positive innlegg-venner som viser sitt siste parti, kan det føre til at brukerne føler seg triste fordi deres liv virket mindre spennende i sammenligning. På den annen side, kanskje effekten er akkurat det motsatte: kanskje ser din venn å ha en god tid vil få deg til å føle deg glad. For å møte disse konkurrerende hypotesene - og for å forsterke forståelsen av hvordan en persons følelser påvirkes av vennernes følelser - kjørte Kramer og kolleger et eksperiment. De plasserte rundt 700 000 brukere i fire grupper i en uke: en "negativitetsreduksjon" gruppe, for hvem innlegg med negative ord (f.eks. "Trist") ble tilfeldig blokkert fra å vises i nyhetsfeeden; en "positivitetsredusert" gruppe for hvem innlegg med positive ord (f.eks. "lykkelige") ble tilfeldig blokkert; og to kontrollgrupper. I kontrollgruppen for "negativitetsreduserte" gruppen ble innleggene tilfeldig blokkert i samme takt som "negativitetsreduserte" gruppen, men uten hensyn til emosjonelt innhold. Kontrollgruppen for "positivitetsreduserte" gruppen ble konstruert på en parallell måte. Utformingen av dette eksperimentet illustrerer at den riktige kontrollgruppen ikke alltid er en uten endringer. Snarere får kontrollgruppen en behandling for å skape den nøyaktige sammenligningen som et forskningsspørsmål krever. I alle tilfeller var innleggene som ble blokkert fra nyhetsstrømmen fortsatt tilgjengelige for brukere gjennom andre deler av Facebook-nettstedet.

Kramer og kolleger fant at for deltakere i positivitetsredusert tilstand, ble andelen positive ord i statusoppdateringene redusert og prosentandelen av negative ord økte. På den annen side, for deltakerne i negativitetsredusert tilstand, økte andelen positive ord og negativ ord redusert (figur 4.24). Imidlertid var disse effektene ganske små: forskjellen i positive og negative ord mellom behandlinger og kontroller var omtrent 1 på 1000 ord.

Figur 4.24: Bevis på følelsesmessig smitte (Kramer, Guillory og Hancock 2014). Deltakere i negativitetsreduserte tilstand brukte færre negative ord og mer positive ord, og deltakere i positivitetsreduserte tilstand brukte mer negative ord og færre positive ord. Barer representerer estimerte standardfeil. Tilpasset fra Kramer, Guillory og Hancock (2014), figur 1.

Figur 4.24: Bevis på følelsesmessig smitte (Kramer, Guillory, and Hancock 2014) . Deltakere i negativitetsreduserte tilstand brukte færre negative ord og mer positive ord, og deltakere i positivitetsreduserte tilstand brukte mer negative ord og færre positive ord. Barer representerer estimerte standardfeil. Tilpasset fra Kramer, Guillory, and Hancock (2014) , figur 1.

Før jeg diskuterer de etiske problemene som oppstod av dette eksperimentet, vil jeg gjerne beskrive tre vitenskapelige problemer ved hjelp av noen av ideene fra tidligere i kapittelet. For det første er det ikke klart hvordan de faktiske detaljene i forsøket forbinder de teoretiske kravene; Det er med andre ord spørsmål om konstruksjonsgyldighet. Det er ikke klart at de positive og negative ordtallene faktisk er en god indikator på deltakernes følelsesmessige tilstand fordi (1) det er ikke klart at ordene folk legger inn er en god indikator for deres følelser og (2) det er ikke klart at den spesielle sentimentanalyseteknikken som forskerne brukte, er i stand til å pålide følelser på (Beasley and Mason 2015; Panger 2016) måte (Beasley and Mason 2015; Panger 2016) . Med andre ord kan det være et dårlig mål på et partisk signal. For det andre forteller design og analyse av forsøket oss ingenting om hvem som var mest påvirket (det er ingen analyse av heterogenitet av behandlingseffekter) og hva mekanismen kan være. I dette tilfellet hadde forskerne mye informasjon om deltakerne, men de ble i hovedsak behandlet som widgets i analysen. For det tredje var effektstørrelsen i dette forsøket svært liten; Forskjellen mellom behandlings- og kontrollbetingelsene er omtrent 1 på 1000 ord. Kramer og kollegaer gjør i saken at saken er at en effekt av denne størrelsen er viktig fordi hundrevis av millioner mennesker får tilgang til nyhetsfeeden hver dag. Med andre ord, hevder de at selv om effekter er små for hver person, er de store samlet. Selv om du skulle godta dette argumentet, er det fremdeles ikke klart om en effekt av denne størrelsen er viktig med hensyn til det mer generelle vitenskapelige spørsmålet om spredning av følelser (Prentice and Miller 1992) .

I tillegg til disse vitenskapelige spørsmålene var det bare noen dager etter at dette papiret ble utgitt i Prosedyrene ved Det nasjonale vitenskapsakademiet et enormt skrik fra både forskere og pressen (jeg vil beskrive argumentene i denne debatten nærmere i kapittel 6 ). Spørsmålene som ble reist i denne debatten, førte til at tidsskriftet publiserte et sjeldent "redaksjonelt uttrykk for bekymring" om etikk og etisk gjennomgangsprosess for undersøkelsen (Verma 2014) .

Gitt denne bakgrunnen om følelsesmessig forstyrrelse, vil jeg nå vise at de tre R-ene kan foreslå konkrete, praktiske forbedringer for virkelige studier (hva du kanskje personlig tenker på etikken til dette eksperimentet). Den første R er erstattet : Forskere bør søke å erstatte eksperimenter med mindre invasive og risikable teknikker, om mulig. For eksempel, i stedet for å drive et randomisert kontrollert eksperiment, kunne forskerne ha utnyttet et naturlig eksperiment . Som beskrevet i kapittel 2, er naturlige eksperimenter situasjoner hvor noe skjer i verden som tilnærmer seg tilfeldig tildeling av behandlinger (for eksempel et lotteri for å bestemme hvem som skal bli utarbeidet i militæret). Den etiske fordelen ved et naturlig eksperiment er at forskeren ikke trenger å levere behandlinger: miljøet gjør det for deg. For eksempel, nesten samtidig med eksperimentet med følelsesmessig Lorenzo Coviello et al. (2014) , Lorenzo Coviello et al. (2014) utnyttet det som kunne kalles et naturlig eksperiment. Coviello og kolleger oppdaget at folk legger inn flere negative ord og færre positive ord på dager hvor det regner. Derfor, ved å bruke tilfeldig variasjon i været, var de i stand til å studere effekten av endringer i nyhetsfeeden uten at det måtte trenge innblanding i det hele tatt. Det var som om været hadde kjørt eksperimentet for dem. Detaljer om deres prosedyre er litt kompliserte, men det viktigste poenget for vårt formål her er at ved hjelp av et naturlig eksperiment var Coviello og kollegaer i stand til å lære om spredningen av følelser uten å måtte kjøre sitt eget eksperiment.

Den andre av de tre R-ene er finere : Forskere bør søke å forfine deres behandlinger for å gjøre dem så harmløse som mulig. For eksempel, i stedet for å blokkere innhold som var enten positivt eller negativt, kunne forskerne ha økt innholdet som var positivt eller negativt. Denne økende designen ville ha endret det emosjonelle innholdet til deltakerne Nyhetsmatinger, men det ville ha adressert en av bekymringene som kritikerne uttrykte: at forsøkene kunne ha forårsaket deltakerne å savne viktig informasjon i deres nyhetsfeed. Med designet som brukes av Kramer og kolleger, er en melding som er viktig, like sannsynlig å bli blokkert som en som ikke er. Men med en forsterkende design vil meldingene som ville bli forskjøvet, være de som er mindre viktige.

Endelig reduseres den tredje R: Forskere bør søke å redusere antall deltakere i eksperimentet til det minimum som er nødvendig for å oppnå sitt vitenskapelige mål. I analoge eksperimenter skjedde dette naturlig på grunn av de høye variabelkostnadene til deltakerne. Men i digitale eksperimenter, spesielt de med null variabel kostnad, står forskerne ikke overfor en kostnadsbegrensning på størrelsen av eksperimentet, og dette har potensial til å føre til unødvendig store eksperimenter.

For eksempel kunne Kramer og kollegaer ha brukt forhåndsbehandlingsinformasjon om deltakerne, for eksempel forbehandling av innleggsadferd, for å gjøre analysen mer effektiv. Nærmere bestemt enn å sammenligne andelen positive ord i behandlings- og kontrollforholdene, kunne Kramer og kollegaer ha sammenlignet endringen i andelen positive ord mellom forholdene; en tilnærming som noen ganger kalles en blandet design (figur 4.5) og noen ganger kalt en forskjell i forskjeller estimator. Det vil si for hver deltaker, at forskerne kunne ha skapt en endringspoengsum (etterbehandlingsadferd $-$ prebehandlingsadferd) og deretter sammenlignet endringspoengene av deltakere i behandlings- og kontrollforholdene. Denne forskjellen i forskjellene er mer effektiv statistisk, noe som betyr at forskere kan oppnå samme statistiske tillit ved å bruke mye mindre prøver.

Uten å ha rå data, er det vanskelig å vite nøyaktig hvor mye mer effektiv en forskjell i forskjeller estimator ville ha vært i dette tilfellet. Men vi kan se på andre relaterte eksperimenter for en grov ide. Deng et al. (2013) rapporterte at ved å bruke en form for differanse-i-forskjeller estimatoren, var de i stand til å redusere variansen av sine estimater med ca. 50% i tre forskjellige online-eksperimenter; lignende resultater har blitt rapportert av Xie and Aurisset (2016) . Denne 50% variansreduksjonen betyr at emosjonelle forstyrrelsesforskere kunne ha kuttet sin prøve i halv om de hadde brukt en litt annen analysemetode. Med andre ord, med en liten endring i analysen, kan 350 000 mennesker ha blitt spart deltagelse i forsøket.

På dette tidspunktet kan du kanskje lure på hvorfor forskere bør bryr seg om 350.000 mennesker var i emosjonell forstyrrelse unødvendig. Det er to spesielle trekk ved følelsesmessig forstyrrelse som gir bekymring med overdreven størrelse, og disse funksjonene deles av mange digitale felteksperimenter: (1) det er usikkerhet om eksperimentet vil skade minst noen deltakere og (2) deltakelse var ikke frivillig. Det synes rimelig å prøve å holde eksperimenter som har disse funksjonene så små som mulig.

For å være klar, betyr ikke ønsket om å redusere størrelsen på eksperimentet at du ikke skal kjøre store eksperimenter med variabel kostnad. Det betyr bare at eksperimentene dine ikke burde være større enn du trenger for å oppnå ditt vitenskapelige mål. En viktig måte å sikre at et eksperiment er passende dimensjonert er å gjennomføre en strømanalyse (Cohen 1988) . I den analoge alderen gjorde forskerne generelt maktanalyse for å sikre at studien ikke var for liten (dvs. underdrevet). Nå skal forskerne imidlertid gjøre effektanalyse for å sikre at studien ikke er for stor (dvs. overdrevet).

Til sammen konkluderer de tre R-er, erstatte, forfinne og redusere-gir prinsipper som kan hjelpe forskere bygge etikk i deres eksperimentelle design. Selvfølgelig introduserer hver av disse mulige endringene til Emosjonell Forstyrrelse avvik. For eksempel er bevis fra naturlige eksperimenter ikke alltid så rent som det fra randomiserte eksperimenter, og økning av innhold kan ha vært logistisk vanskeligere å implementere enn å blokkere innhold. Så, formålet med å foreslå disse endringene var ikke å andre guess avgjørelser fra andre forskere. Snarere var det å illustrere hvordan de tre R-ene kunne brukes i en realistisk situasjon. Faktisk kommer spørsmålet om avveining opp hele tiden i forskningsdesign, og i digitalalderen vil disse avgangene i økende grad innebære etiske hensyn. Senere, i kapittel 6, vil jeg tilby noen prinsipper og etiske rammer som kan hjelpe forskere til å forstå og diskutere disse avvägningene.