4.6.2 Erstat, Afgræns, og Reducer

Denne oversættelse blev skabt af en computer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.6.2 Erstat, Afgræns, og Reducer

Gør dit eksperiment mere human ved at erstatte forsøg med ikke-eksperimentelle undersøgelser, raffinering behandlingerne, og reducere antallet af deltagere.

Den anden råd, som jeg gerne vil byde om at designe digitale eksperimenter vedrører etik. Som Restivo og van de Rijt eksperiment på barnstars i Wikipedia viser, færre omkostninger betyder, at etik bliver en stadig vigtigere del af forskningsdesign. Ud over de etiske rammer vejledende mennesker forskning, som jeg vil beskrive i kapitel 6, kan forskerne designe digitale eksperimenter også trække på etiske ideer fra en anden kilde: de etiske principper, der er udviklet til at guide forsøg med dyr. Især i deres skelsættende bog Principper for Humane Eksperimentel Teknik, Russell and Burch (1959) foreslog tre principper, der skal lede dyr forskning: Udskift, Avanceret, og reducere. Jeg vil gerne foreslå, at disse tre R'er også kan bruges-i en lidt ændret form-to guide design af menneskelige eksperimenter. I særdeleshed,

Erstat: Udskift eksperimenter med mindre invasive metoder om muligt
Avanceret: Afgræns behandlingen at gøre det så harmløst som muligt
Reducer: Reducer antallet af deltagere i dit eksperiment så meget som muligt

For at gøre disse tre R'er konkrete og vise, hvordan de kan potentielt føre til en bedre og mere human eksperimenterende design, vil jeg beskrive en online markforsøg, der genererede etiske debat. Så vil jeg beskrive, hvordan de tre R'er foreslå konkrete og praktiske ændringer i udformningen af forsøget.

En af de mest etisk omdiskuterede digital markforsøg er "Følelsesmæssig Contagion", som blev gennemført af Adam Kramer, Jamie Gillroy, og Jeffrey Hancock (2014) . Forsøget fandt sted på Facebook og var motiveret af en blanding af videnskabelige og praktiske spørgsmål. På det tidspunkt, den dominerende måde, at brugerne interagerede med Facebook var News Feed, en algoritmisk kurateret sæt Facebook-statusopdateringer fra en brugers Facebook-venner. Nogle kritikere af Facebook havde foreslået, at fordi News Feed har overvejende positive indlæg-venner vise deres nyeste parti-det kunne få dem til at føle sig trist, fordi deres liv synes mindre spændende i sammenligning. På den anden side, måske effekten er nøjagtig det modsatte; måske se din ven have en god tid ville gøre dig glad? For at løse disse konkurrerende hypotese-og for at fremme vores forståelse af, hvordan en persons følelser er påvirket af hendes venners følelser-Kramer og kolleger kørte et eksperiment. Forskerne placeret omkring 700.000 brugere i fire grupper i en uge: en "negativitet reduceret" gruppe, for hvem stillinger med negative ord (f.eks trist) blev tilfældigt blokeret vises News Feed; en "positivitet reduceret" gruppe, for hvem stillinger med positive ord (fx glad) blev tilfældigt blokeret; og to kontrolgrupper. I kontrolgruppen for "negativitet reduceret" gruppe blev stillinger tilfældigt blokeret i samme takt som "negativitet reduceret" gruppe, men uden hensyn til den følelsesmæssige indhold. Gruppen for "positivitet reduceret" gruppe kontrol blev bygget i en parallel måde. Udformningen af dette forsøg viser, at passende kontrolgruppe er ikke altid en med ingen ændringer. Snarere, undertiden kontrolgruppen modtager en behandling for at skabe det præcis sammenligning, at en problemstilling kræver. I alle tilfælde de stillinger, der blev blokeret fra News Feed var stadig til rådighed for brugerne via andre dele af Facebook hjemmeside.

Kramer og kolleger fandt, at der for deltagerne i positivitet reducerede tilstand, procentdelen af positive ord i deres statusopdateringer faldt og andelen af negative ord steget. På den anden side, for deltagerne i negativitet reduceret tilstand, procentdelen af positive ord øges og andelen af negative ord faldt (figur 4.23). Men disse effekter var ganske lille: forskellen i positive og negative ord mellem behandlinger og kontroller var omkring 1 ud af 1.000 ord.

Figur 4.23: Bevis for følelsesmæssig smitte (Kramer, Guillory, og Hancock 2014). Andel af positive ord og negative ord med eksperimentel tilstand. Søjler repræsenterer anslået standardfejl.

Figur 4.23: Bevis for følelsesmæssig smitte (Kramer, Guillory, and Hancock 2014) . Andel af positive ord og negative ord med eksperimentel tilstand. Søjler repræsenterer anslået standardfejl.

Jeg har sat en diskussion af de videnskabelige aspekter af dette eksperiment i yderligere læsning sektion i slutningen af kapitlet, men desværre dette eksperiment er mest kendt for at skabe etiske debat. Kun få dage efter dette papir blev offentliggjort i Proceedings of National Academy of Sciences, der var en enorm ramaskrig fra både forskere og pressen. Outrage omkring papiret fokuseret på to hovedpunkter: 1) deltagerne har ikke give nogen samtykke ud over de almindelige Facebook vilkår-of-service for en behandling, der nogle tanker kan forårsage skade på deltagere og 2) undersøgelsen havde ikke gennemgået tredjepart etisk gennemgang (Grimmelmann 2015) . De etiske spørgsmål i denne debat skyldes tidsskriftet til hurtigt udgive en sjælden "redaktionelle udtryk for bekymring" om etik og etisk gennemgang for forskning (Verma 2014) . I de efterfølgende år, har eksperimentet med at være en kilde til intens debat og uenighed, og denne uoverensstemmelse kan have haft den utilsigtede effekt af at køre ind i skyggen mange andre eksperimenter, der bliver udført af virksomheder (Meyer 2014) .

Eftersom baggrund om Emotional Contagion, vil jeg nu gerne vise, at de 3 R'er kan foreslå konkrete, praktiske forbedringer for reelle undersøgelser (uanset hvad du måske personligt tænke etik i denne særlige eksperiment). Den første R er Erstat: forskere bør søge at erstatte forsøg med mindre invasive og risikofyldte teknikker, hvis det er muligt. For eksempel, i stedet for at køre et eksperiment, forskerne kunne have udnyttet en naturlig eksperiment. Som beskrevet i kapitel 2, naturlige eksperimenter er situationer, hvor der sker noget i verden, der tilnærmer den tilfældige tildeling af behandlinger (f.eks et lotteri at afgøre, hvem vil blive indkaldt til militæret). Fordelen ved et naturligt eksperiment er, at forskeren ikke behøver at levere behandlinger; miljøet gør det for dig. Med andre ord, med en naturlig eksperiment, forskerne ville ikke have behov for at eksperimentelt manipulere folks Nyheder Feeds.

Faktisk næsten i takt med den Emotional Contagion eksperimentet, Coviello et al. (2014) blev udnytte hvad man kunne kalde en Emotional Contagion naturlig eksperiment. Deres tilgang, som bruger en teknik kaldet instrumentale variabler, er en smule kompliceret, hvis du aldrig har set det før. Så for at forklare, hvorfor det var nødvendigt, så lad os bygge op til det. Den første tanke, at nogle forskere måske nødt til at studere følelsesmæssig smitte ville være at sammenligne dine indlæg på dage, hvor dine nyheder var meget positivt til dine indlæg på dage, hvor dine nyheder var meget negativ. Denne fremgangsmåde ville være fint, hvis målet var bare at forudsige den følelsesmæssige indhold i dine indlæg, men denne fremgangsmåde er problematisk, hvis målet er at studere den kausale effekt af dine nyheder på dine indlæg. For at se problemet med dette design, overveje Thanksgiving. I USA, positive indlæg spike og negative stillinger styrtdykke på Thanksgiving. Således på Thanksgiving, kunne forskerne se, at dine nyheder var meget positiv, og at du bogført positive ting så godt. Men, kan dine positive indlæg have været forårsaget af Thanksgiving ikke ved indholdet af dine nyheder. I stedet for at estimere den kausale effekt forskere har brug for noget, der ændrer indholdet af dine nyheder uden direkte at ændre dine følelser. Heldigvis er der sådan noget sker hele tiden: vejret.

Coviello og kolleger fandt, at en regnvejrsdag i nogens byen vil i gennemsnit sænke andelen af stillinger, der er positive med omkring 1 procentpoint og øge andelen af stillinger, der er negative med omkring 1 procentpoint. Derefter Coviello og kolleger udnyttet denne kendsgerning til at studere følelsesmæssig smitte uden behov for eksperimentelt manipulere nogens News Feed. I det væsentlige, hvad de gjorde, er mål, hvordan dine indlæg var påvirket af vejret i byerne, hvor dine venner bor. For at se, hvorfor det giver mening, forestille sig, at du bor i New York, og du har en ven, der bor i Seattle. Nu forestille sig, at det en dag begynder at regne i Seattle. Denne regn i Seattle, vil ikke direkte påvirke dit humør, men det vil få din News Feed til at være mindre positiv og mere negativ på grund af dine venners indlæg. Således regnen i Seattle manipulerer tilfældigt dine nyheder. Drejning denne intuition i en pålidelig statistisk procedure er kompliceret (og den præcise metode, der anvendes af Coviello og kolleger er en smule ikke-standard), så jeg har lagt en mere detaljeret diskussion i yderligere læsning sektion. Den vigtigste ting at huske om Coviello og kollega tilgang er, at det muligt for dem at studere følelsesmæssig smitte uden at skulle køre et eksperiment, der potentielt kan skade deltagerne, og det kan være tilfældet, at i mange andre indstillinger kan du erstatte forsøg med andre teknikker.

Andet i de 3 R'er er Begræns: forskere bør søge at forfine deres behandlinger for at forårsage muligt den mindste skade. For eksempel, i stedet for at blokere indhold, der var enten positive eller negative, forskerne kunne have sat skub indhold, som var positiv eller negativ. Denne styrke design ville have ændret den følelsesmæssige indhold af deltagere News Feeds, men det ville have behandlet en af den bekymring, som kritikerne udtryk: at forsøgene kunne have forårsaget deltagerne til at gå glip af vigtige oplysninger i deres News Feed. Med design anvendes af Kramer og kolleger, en meddelelse, der er vigtigt, er så tilbøjelige til at blive blokeret som en, der ikke. Men med en styrke design, ville de meddelelser, der ville blive flyttet være dem, der er mindre vigtig.

Endelig er den tredje R er Reducer: forskere bør søge at reducere antallet af deltagere i deres eksperiment, hvis det er muligt. I fortiden, denne reduktion skete naturligt, fordi de variable omkostninger ved analoge eksperimenter var høj, som opfordrede forskning for at optimere deres design og analyse. Men når der er nul variable data omkostninger, forskere ikke står en omkostning begrænsning af størrelsen af deres eksperiment, og dette har potentiale til at føre til unødvendigt store eksperimenter.

For eksempel kunne Kramer og kolleger har brugt oplysninger forbehandling om deres deltagere-såsom forbehandling udstationering adfærd-at gøre deres analyse mere effektiv. Mere specifikt, i stedet for at sammenligne andelen af positive ord i behandlingsgruppen og kontrolgruppen betingelser, Kramer og kolleger kunne have sammenlignet ændringen i andelen af positive ord mellem betingelser; en tilgang ofte kaldet forskel-in-forskelle, og som er nært beslægtet med den blandede design, som jeg beskrevet tidligere i kapitlet (figur 4.5). Det vil sige, for hver deltager, forskerne kunne have skabt en ændring score (post-behandling adfærd - forbehandling adfærd) og derefter sammenlignet ændringen snesevis af deltagere i behandling og kontrol betingelser. Denne forskel-in-forskelle tilgang er mere effektiv statistisk, hvilket betyder, at forskerne kan opnå samme statistiske tillid ved brug meget mindre prøver. Med andre ord, ved ikke at behandle deltagerne som "widgets", forskerne kan ofte få mere præcise estimater.

Uden at have de rå data er det vanskeligt at vide præcis, hvor meget mere effektiv en forskel-in-forskelle tilgang ville have været i dette tilfælde. Men, Deng et al. (2013) rapporterede, at i tre online eksperimenter på Bing søgemaskine, de var i stand til at reducere variansen af deres estimater med omkring 50%, og lignende resultater er blevet rapporteret for nogle online eksperimenter ved Netflix (Xie and Aurisset 2016) . Denne 50% reduktion varians betyder, at Emotional Contagion forskerne kunne have været i stand til at skære deres prøve i halve, hvis de havde brugt en lidt anden analysemetoder. Med andre ord, med en lille ændring i analysen, 350.000 mennesker kunne have været sparet deltagelse i forsøget.

På dette tidspunkt, du måske være undrende, hvorfor forskere bør pleje hvis 350.000 mennesker var i Følelsesmæssig Contagion unødigt. Der er to særlige træk ved følelsesmæssig Contagion, der gør bekymring med overdreven størrelse passende, og disse funktioner er delt af mange digitale markforsøg: 1) der er usikkerhed om, hvorvidt forsøget vil forårsage skade på mindst nogle af deltagerne og 2) deltagelse var ikke frivillig. I forsøg med disse to karakteristika forekommer det tilrådeligt at holde eksperimenterne så lille som muligt.

Afslutningsvis de tre R's-erstat, Tilpas, og reducere-give principper, der kan hjælpe forskerne opbygge etik i deres eksperimentelle design. Selvfølgelig, hver af disse mulige ændringer af Emotional Contagion introducerer kompromisser. For eksempel beviser fra naturlige eksperimenter er ikke altid så rent som i randomiserede forsøg og øge kunne have været mere logistisk vanskeligt at gennemføre end blok. Så det formål tyder disse ændringer var ikke til bedrevidende beslutninger andre forskere. Det var snarere at illustrere, hvordan tre R'er kan anvendes i en realistisk situation.