4.6.2 Erstatt, raffinere, og redusere

Denne oversettelsen ble skapt av en datamaskin. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.6.2 Erstatt, raffinere, og redusere

Gjør eksperimentet mer humane ved å erstatte eksperimenter med ikke-eksperimentelle studier, raffinering behandlinger, og redusere antall deltakere.

Den andre råd som jeg ønsker å tilby om å designe digitale eksperimenter gjelder etikk. Som Restivo og van de Rijt eksperiment på barnstars i Wikipedia viser, reduserte kostnader betyr at etikk blir en stadig viktigere del av forskningsdesign. I tillegg til de etiske rammer guiding mennesker forskning som jeg vil beskrive i kapittel 6, kan forskerne designe digitale eksperimenter også trekke på etiske ideer fra en annen kilde: de etiske prinsipper som er utviklet for å veilede forsøk med dyr. Spesielt i deres landemerke bok Principles of Humane Experimental Technique, Russell and Burch (1959) foreslått tre prinsipper som skulle lede dyreforsøk: Skift, raffinere, og redusere. Jeg vil gjerne foreslå at disse tre R-er kan også brukes i en litt modifisert form-å lede utformingen av menneskelige eksperimenter. Spesielt,

Erstatt: Bytt eksperimenter med mindre invasive metoder hvis mulig
Spesifiser: Spesifiser behandlingen for å gjøre det så ufarlig som mulig
Redusere: Reduser antall deltakere i eksperimentet så mye som mulig

For å gjøre disse tre R'ene betong og vise hvordan de kan potensielt føre til bedre og mer human eksperimentell design, vil jeg beskrive en elektronisk felteksperiment som genererte etisk debatt. Deretter vil jeg beskrive hvordan de tre R foreslå konkrete og praktiske endringer i utformingen av forsøket.

En av de mest etisk debattert digital feltforsøk er "Emotional Contagion", som ble utført av Adam Kramer, Jamie kjøpesenteret Gillroy, og Jeffrey Hancock (2014) . Forsøket fant sted på Facebook og var motivert av en blanding av faglige og praktiske spørsmål. På den tiden den dominerende måte at brukerne samhandlet med Facebook var News Feed, en algoritmer kuratert sett Facebook-statusoppdateringer fra en brukers Facebook-venner. Noen kritikere av Facebook hadde foreslått at fordi News Feed har stort sett positive innlegg-venner viser frem sine nyeste party-det kunne føre brukerne til å føle seg trist fordi livet virke mindre spennende i sammenligning. På den annen side, kanskje virkningen er nøyaktig det motsatte; kanskje se din venn har en god tid ville gjøre deg glad? For å løse disse konkurrerende hypotese-og å fremme vår forståelse av hvordan en persons følelser blir påvirket av hennes venners følelser-Kramer og kolleger kjørte et eksperiment. Forskerne plassert ca 700 000 brukere i fire grupper for en uke: en "negativitet redusert" gruppe, for hvem innlegg med negative ord (for eksempel trist) ble tilfeldig blokkert fra å vises News Feed; en "positivitet redusert" gruppe for hvem innlegg med positive ord (f.eks lykkelig) ble tilfeldig blokkert; og to kontrollgrupper. I kontrollgruppen for den "negativitet redusert" gruppe, ble innlegg tilfeldig blokkert i samme takt som den "negativitet redusert" gruppe, men uten hensyn til den følelsesmessige innhold. Kontrollgruppen for «positivitet redusert" gruppe ble konstruert på en parallell måte. Utformingen av dette forsøket viser at riktig kontrollgruppe er ikke alltid en uten endringer. Heller, noen ganger kontrollgruppen mottar en behandling for å skape nøyaktig sammenligning som en problemstilling krever. I alle tilfeller, de innleggene som ble blokkert fra News Feed var fortsatt tilgjengelig for brukerne gjennom andre deler av Facebook-nettstedet.

Kramer og kolleger fant at for deltakerne i positivitet redusert tilstand, prosentandelen av positive ord i sine statusoppdateringer redusert og andelen av negative ord økt. På den annen side, for deltakere i negativitet redusert tilstand, prosentandelen av positive ord økes og andelen av negative ord redusert (figur 4.23). Men disse effektene var ganske små: forskjellen i positive og negative ord mellom behandlinger og kontroller var ca 1 av 1000 ord.

Figur 4.23: Bevis for emosjonell smitte (Kramer, Guillory, og Hancock 2014). Andel av positive ord og negative ord ved eksperimentell tilstand. Barer representerer estimerte standardfeil.

Figur 4.23: Bevis for emosjonell smitte (Kramer, Guillory, and Hancock 2014) . Andel av positive ord og negative ord ved eksperimentell tilstand. Barer representerer estimerte standardfeil.

Jeg har satt en diskusjon av de vitenskapelige aspektene ved dette eksperimentet i videre lesning delen på slutten av kapitlet, men dessverre er dette eksperimentet mest kjent for å generere etisk debatt. Bare dager etter at denne artikkelen ble publisert i Proceedings of the National Academy of Sciences, det var en enorm ramaskrik fra både forskere og presse. Outrage rundt papiret fokusert på to hovedpunkter: 1) deltakere ikke gi noe samtykke utover standard Facebooks vilkår-of-tjeneste for en behandling som noen trodde kanskje føre til skade på deltakere og 2) studien ikke hadde gjennomgått tredjeparts etisk gjennomgang (Grimmelmann 2015) . De etiske spørsmål som reises i denne debatten førte til at tidsskriftet til raskt å publisere en sjelden "redaksjonelle uttrykk for bekymring" om etikk og etisk vurderingsprosessen for forskning (Verma 2014) . I de påfølgende årene, har forsøket fortsatte å være en kilde til intens debatt og uenighet, og denne uenigheten kan ha hatt den utilsiktede effekten av å kjøre inn i skyggene mange andre eksperimenter som blir utført av selskaper (Meyer 2014) .

Gitt at bakgrunnsinformasjon om Emosjonell Contagion, vil jeg nå gjerne vise at de 3 R'ene kan foreslå konkrete, praktiske forbedringer for reelle studier (hva du kan personlig tenke på etikk denne spesielle eksperiment). Den første R er Erstatt: forskere bør søke å erstatte eksperimenter med mindre invasive og risikable teknikker, hvis mulig. For eksempel, i stedet for å kjøre et eksperiment, forskerne kunne utnytte en naturlig eksperiment. Som beskrevet i kapittel 2, naturlige eksperimenter er situasjoner hvor det skjer noe i verden som er tilnærmet tilfeldig tildeling av behandlinger (for eksempel et lotteri for å bestemme hvem som skal bli innkalt til militæret). Fordelen med en naturlig eksperiment er at forskeren ikke trenger å levere behandlinger; miljøet gjør det for deg. Med andre ord, med en naturlig eksperiment, forskere ville ikke ha behov for å eksperimentelt manipulere folks News Feeds.

Faktisk nesten samtidig med Emosjonell Contagion eksperiment, Coviello et al. (2014) ble utnytte det som kan kalles en emosjonell Contagion naturlig eksperiment. Deres tilnærming, som bruker en teknikk kalt instrumentvariabler, er litt komplisert hvis du aldri har sett det før. Så, for å forklare hvorfor det var nødvendig, la oss bygge opp til det. Den første ideen om at noen forskere kan ha for å studere emosjonell smitte ville være å sammenligne dine innlegg på dager hvor din News Feed var veldig positiv i innleggene dine på dager hvor din News Feed var svært negativt. Denne tilnærmingen ville være fint hvis målet var bare å forutsi det emosjonelle innholdet i innleggene dine, men denne tilnærmingen er problematisk hvis målet er å studere sammenhenger mellom din News Feed på innleggene dine. For å se problemet med denne designen, vurdere Thanksgiving. I USA, positive innlegg pigge og negative innlegg raser nedover på Thanksgiving. Dermed på Thanksgiving, kunne forskerne se at din News Feed var veldig positivt, og at du postet positive ting også. Men, de positive innlegg kunne ha vært forårsaket av Thanksgiving ikke av innholdet i News Feed. I stedet for å estimere den kausale effekten forskerne trenger noe som endrer innholdet i News Feed uten direkte å endre på dine følelser. Heldigvis er det noe sånt skjer hele tiden: været.

Coviello og kolleger fant at en regnfull dag i noens byen vil i gjennomsnitt redusere andelen innlegg som er positivt med om lag 1 prosentpoeng og øke andelen av innlegg som er negativt med om lag 1 prosentpoeng. Deretter Coviello og kolleger utnytte dette faktum til å studere emosjonell smitte uten å måtte eksperimentelt manipulere andres News Feed. I hovedsak hva de gjorde er tiltaket hvordan dine innlegg ble påvirket av været i byene hvor vennene dine bor. For å se hvorfor dette er fornuftig, forestill deg at du bor i New York City, og du har en venn som bor i Seattle. Nå forestille seg at en dag det begynner å regne i Seattle. Dette regn i Seattle vil ikke direkte påvirke humøret, men det vil føre til at News Feed å være mindre positive og mer negative på grunn av dine venners innlegg. Dermed blir regn i Seattle tilfeldig manipulerer din News Feed. Slå denne intuisjonen til en pålitelig statistisk prosedyre er komplisert (og nøyaktig tilnærming brukes av Coviello og kolleger er litt ikke-standard) så jeg har satt en mer detaljert diskusjon i videre lesing delen. Det viktigste å huske om Coviello og kollega tilnærming er at det gjorde dem i stand til å studere emosjonell smitte uten å måtte kjøre et eksperiment som potensielt kan skade deltakere, og det kan være tilfelle at i mange andre innstillinger kan du erstatte eksperimenter med andre teknikker.

Sekund i de 3 R er Spesifisert: forskere bør søke å avgrense sine behandlinger for å forårsake den minste skade mulig. For eksempel, i stedet for å blokkere innhold som var enten positiv eller negativ, forskerne kunne ha styrket innhold som var positiv eller negativ. Dette øker design ville ha endret det emosjonelle innholdet deltakere nyhetsfeeds, men det ville ha adressert en av bekymring for at kritikere uttrykt: at forsøkene kan ha forårsaket deltakerne til å gå glipp av viktig informasjon i deres News Feed. Med design som brukes av Kramer og kolleger, er en melding som er viktig som sannsynligvis vil bli blokkert som en som ikke er det. Imidlertid, med en utforming som øker, meldingene som skulle forskyves ville være de som er mindre viktig.

Endelig er den tredje R Redusere: forskere bør søke å redusere antall deltakere i forsøket deres, hvis mulig. I det siste, har skjedd denne reduksjonen naturlig fordi de variable kostnadene for analoge eksperimenter var høy, som oppfordret forskning for å optimalisere sin design og analyse. Imidlertid, når det er null variable kostnadsdata, forskerne ikke står overfor en kostnad begrensning på størrelsen av deres eksperiment, og dette har potensial til å føre til unødvendig store eksperimenter.

For eksempel kan Kramer og kolleger har brukt pre-behandling informasjon om sine deltakere, for eksempel forbehandling oppslaget atferd å gjøre sine analyser mer effektiv. Nærmere bestemt, i stedet for å sammenligne andelen av positive ord i behandlings- og kontrollbetingelser, Kramer og kolleger kunne sammen endring i andelen av positive ord mellom betingelser; en tilnærming ofte kalt forskjell-i-forskjeller, og som er nært knyttet til den blandede design som jeg beskrevet tidligere under kapittelet (figur 4.5). Det er, for hver deltaker, forskerne kunne ha skapt en endring score (etterbehandling atferd - forbehandling atferd) og deretter sammenlignet endringen score til deltakere i behandlings- og kontrollforhold. Denne forskjellen i-forskjeller tilnærming er mer effektiv statistisk, noe som betyr at forskere kan oppnå den samme statistisk sikkerhet ved bruk av mye mindre prøver. Med andre ord, ved å ikke behandle deltakere som "widgets", forskere kan ofte få mer presise anslag.

Uten å ha rådata er det vanskelig å vite nøyaktig hvor mye mer effektiv en forskjell-i-forskjeller tilnærming ville ha vært i dette tilfellet. Men, Deng et al. (2013) rapporterte at i tre online eksperimenter på Bing søkemotor de var i stand til å redusere variansen til sine estimater med ca 50%, og tilsvarende resultater er rapportert for noen elektroniske eksperimenter på Netflix (Xie and Aurisset 2016) . Denne 50% varians reduksjon betyr at den følelsesmessige Contagion forskere kan ha vært i stand til å kutte sin prøve i to hvis de hadde brukt en litt annen analysemetoder. Med andre ord, med en liten endring i analysen, 350.000 mennesker kan ha blitt spart deltagelse i forsøket.

På dette punktet er du kanskje lurer på hvorfor forskere bør bry seg om 350.000 mennesker var i Emotional Contagion unødvendig. Det er to spesielle trekk ved Emosjonell Contagion som gjør bekymring med overdreven størrelse hensiktsmessig, og disse funksjonene er felles for mange digitale feltforsøk: 1) det er usikkerhet om hvorvidt forsøket vil føre til skade på minst noen deltakere og 2) deltakelse var ikke frivillig. I forsøk med disse to egenskaper synes det tilrådelig å holde forsøkene så liten som mulig.

I konklusjonen, de tre R's-Skift, øker, og redusere-inneholder prinsipper som kan hjelpe forskere bygge etikk i sine eksperimentelle design. Selvfølgelig, introduserer hver av disse mulige endringer i Emotional Contagion avveininger. For eksempel, er bevis fra naturlige eksperimenter ikke alltid er så rent som bevis fra randomiserte forsøk og boosting kan ha vært mer logistisk vanskeligere å implementere enn blokken. Så, med det formål å foreslå disse endringene var ikke til å tvile beslutninger av andre forskere. Snarere var det for å illustrere hvordan de tre R-ene kan anvendes i en realistisk situasjon.