4.6.2 Bygg etik i din design: ersätt, förfina och minska

Gör experimentet humanare genom att ersätta experiment med icke-experimentella studier, förfina behandlingarna, och minska antalet deltagare.

Det andra råd som jag skulle vilja erbjuda om att designa digitala experiment gäller etik. Som restivo och van de Rijt-experimentet på barnstars i Wikipedia visar, innebär minskad kostnad att etik kommer att bli en allt viktigare del av forskningsdesignen. Förutom de etiska ramar som leder till forskning inom mänskliga ämnen som jag beskriver i kapitel 6 kan forskare som utformar digitala experiment också dra på etiska idéer från en annan källa: de etiska principerna utvecklades för att vägleda experiment som involverar djur. I synnerhet, i sin milstolpebok Principer för human experimentell teknik , föreslog Russell and Burch (1959) tre principer som bör leda djurforskning: ersätta, förfina och minska. Jag skulle vilja föreslå att dessa tre R-kan också användas - i en något modifierad form - för att styra utformningen av mänskliga experiment. Särskilt,

  • Ersätt: Byt ut experiment med mindre invasiva metoder om möjligt.
  • Förfina: Förbättra behandlingen så att den blir så ofarlig som möjligt.
  • Minska: Minska antalet deltagare i ditt experiment så mycket som möjligt.

För att göra dessa tre R: s konkreta och visa hur de potentiellt kan leda till bättre och mer human experimentell design, kommer jag att beskriva ett onlinefältförsök som genererade etisk debatt. Sedan ska jag beskriva hur de tre R: arna föreslår konkreta och praktiska förändringar i experimentets utformning.

Ett av de mest etiskt debatterade digitala fältförsöken genomfördes av Adam Kramer, Jamie Guillroy och Jeffrey Hancock (2014) och har kommit att kallas "Emotional Contagion." Experimentet ägde rum på Facebook och motiverades av en blandning av vetenskaplig och praktiska frågor. På den tiden var det dominerande sättet som användarna interagerade med Facebook, News Feed, en algoritmiskt kuraterad uppsättning av Facebook statusuppdateringar från en användares Facebook-vänner. Några kritiker av Facebook hade föreslagit att eftersom nyhetsflödet har mest positiva inlägg-vänner som visar på sin senaste fest - det kan få användare att känna sig ledsna eftersom deras liv verkade mindre spännande i jämförelse. Å andra sidan kanske effekten är exakt motsatsen: kanske ser din vän att ha en bra tid skulle få dig att känna dig lycklig. För att ta itu med dessa konkurrerande hypoteser - och för att öka vår förståelse för hur en persons känslor påverkas av hennes vänners känslor - körde Kramer och kollegor ett experiment. De placerade cirka 700 000 användare i fyra grupper i en vecka: en "negativitetsminskad" grupp, för vilken inlägg med negativa ord (t.ex. "ledsen") slumpmässigt blockerades från att visas i nyhetsflödet; en "positivitetsminskad" grupp för vilken inlägg med positiva ord (t.ex. "glad") slumpmässigt blockerades; och två kontrollgrupper. I kontrollgruppen för gruppen "negativitetsminskad" var inlägget slumpmässigt blockerat i samma takt som den "negativitetsminskade" gruppen men utan hänsyn till det emotionella innehållet. Kontrollgruppen för "positivitetsreducerad" gruppen konstruerades på ett parallellt sätt. Utformningen av detta experiment illustrerar att den lämpliga kontrollgruppen inte alltid är en utan ändringar. Snarare, ibland får kontrollgruppen en behandling för att skapa den exakta jämförelsen som en forskningsfråga kräver. I alla fall var de tjänster som blockerades från nyhetsflödet fortfarande tillgängliga för användare via andra delar av Facebook-webbplatsen.

Kramer och kollegor fann att för deltagare i positivitetsminskning minskade andelen positiva ord i statusuppdateringarna och andelen negativa ord ökade. Å andra sidan ökade andelen positiva ord för deltagare i negativitetsminskat tillstånd och negativa ord minskade (figur 4.24). Emellertid var dessa effekter ganska små: skillnaden i positiva och negativa ord mellan behandlingar och kontroller var ungefär 1 i 1000 ord.

Figur 4.24: Bevis på känslomässig smitta (Kramer, Guillory och Hancock 2014). Deltagarna i det negativitetsminskade tillståndet använde färre negativa ord och mer positiva ord, och deltagare i det positivt-reducerade tillståndet använde mer negativa ord och färre positiva ord. Barer representerar beräknade standardfel. Anpassad från Kramer, Guillory och Hancock (2014), figur 1.

Figur 4.24: Bevis på känslomässig smitta (Kramer, Guillory, and Hancock 2014) . Deltagarna i det negativitetsminskade tillståndet använde färre negativa ord och mer positiva ord, och deltagare i det positivt-reducerade tillståndet använde mer negativa ord och färre positiva ord. Barer representerar beräknade standardfel. Anpassad från Kramer, Guillory, and Hancock (2014) , figur 1.

Innan jag diskuterar de etiska problem som uppstod av detta experiment, skulle jag vilja beskriva tre vetenskapliga problem med hjälp av några av de idéer som tidigare i kapitlet. För det första är det inte klart hur de faktiska detaljerna i experimentet kopplas till de teoretiska kraven; Det finns med andra ord frågor om konstruktiv validitet. Det är inte klart att de positiva och negativa ordet är faktiskt en bra indikator på deltagarnas emotionella tillstånd eftersom (1) det är inte klart att orden som människor postar är en bra indikator på deras känslor och (2) det är inte klargöra att den specifika känslighetsanalystekniken som forskarna använde kan på ett tillförlitligt sätt få känslor (Beasley and Mason 2015; Panger 2016) . Med andra ord kan det vara ett dåligt mått på en partisk signal. För det andra berättar designen och analysen av experimentet inget om vem som var mest påverkad (det finns ingen analys av heterogenitet av behandlingseffekter) och vad mekanismen kan vara. I det här fallet hade forskarna mycket information om deltagarna, men de behandlades huvudsakligen som widgets i analysen. För det tredje var effektstorleken i detta experiment mycket liten; Skillnaden mellan behandlings- och kontrollförhållandena är ungefär 1 i 1000 ord. I sitt papper gör Kramer och kollegor att en effekt av denna storlek är viktig eftersom hundratals miljoner människor får tillgång till deras nyhetsflöde varje dag. Med andra ord hävdar de att även om effekterna är små för varje person är de stora i sammanlagda fall. Även om du skulle acceptera detta argument är det fortfarande inte klart om en effekt av denna storlek är viktig när det gäller den mer generella vetenskapliga frågan om känslans spridning (Prentice and Miller 1992) .

Förutom dessa vetenskapliga frågor, bara några dagar efter det att detta papper publicerades i Proceedings of the National Academy of Sciences , fanns det ett enormt skrik från både forskare och pressen (jag kommer att beskriva argumenten i denna debatt närmare i kapitel 6 ). De frågor som tagits upp i denna debatt orsakade tidningen att publicera ett sällsynt "redaktionellt uttryck för oro" om den etiska och etiska granskningsprocessen för forskningen (Verma 2014) .

Med tanke på den bakgrunden om känslomässig smitta, skulle jag nu vilja visa att de tre R: erna kan föreslå konkreta, praktiska förbättringar för verkliga studier (vad du än personligen kan tänka på etiken i det här experimentet). Den första R ersätter : Forskare bör försöka ersätta experiment med mindre invasiva och riskfyllda tekniker, om möjligt. Till exempel, i stället för att driva ett randomiserat kontrollerat experiment, kunde forskarna ha utnyttjat ett naturligt experiment . Som beskrivs i kapitel 2 är naturliga experiment situationer där någonting händer i världen som approximerar den slumpmässiga tilldelningen av behandlingar (t.ex. en lotteri för att bestämma vem som ska utarbetas i militären). Den etiska fördelen med ett naturligt experiment är att forskaren inte behöver leverera behandlingar: miljön gör det för dig. Till exempel, nästan samtidigt med experimentet med emotionell smittsamhet, Lorenzo Coviello et al. (2014) utnyttjade vad som skulle kunna kallas ett naturligt experiment med emotionell smitta. Coviello och kollegor upptäckte att folk postar mer negativa ord och färre positiva ord på dagar där det regnar. Därför kunde de, genom att använda slumpmässig variation i vädret, studera effekten av förändringar i nyhetsflödet utan att behöva ingripa alls. Det var som om vädret körde sitt experiment för dem. Detaljerna i deras förfarande är lite komplicerade, men den viktigaste punkten för våra syften är att med hjälp av ett naturligt experiment kunde Coviello och kollegor lära känna känslor utan att behöva springa på eget experiment.

Den andra av de tre Rs är förfinad : forskare bör försöka förfina sina behandlingar för att göra dem så ofarliga som möjligt. Till exempel, snarare än att blockera innehåll som var antingen positivt eller negativt, kunde forskarna ha förstärkt innehåll som var positivt eller negativt. Den här förstärkningsdesignen skulle ha förändrat det emotionella innehållet i deltagarnas nyhetsflöden, men det hade tagit upp en av de problem som kritikerna uttryckte: att experimenten kunde ha orsakat deltagarna att missa viktig information i sitt nyhetsflöde. Med den konstruktion som används av Kramer och kollegor är det sannolikt att ett meddelande som är viktigt är blockerat som ett som inte är det. Men med en förstärkt design skulle de meddelanden som skulle förskjutas vara de som är mindre viktiga.

Slutligen minskar den tredje R: forskare bör försöka minska antalet deltagare i deras experiment till det minimum som behövs för att uppnå sitt vetenskapliga mål. I analoga experiment hände detta naturligtvis på grund av deltagarnas höga rörliga kostnader. Men i digitala experiment, särskilt de med nollvariabel kostnad, möter forskare inte en kostnadsbegränsning på storleken av deras experiment, och det här kan leda till onödigt stora experiment.

Till exempel kunde Kramer och kollegor ha använt förbehandlingsinformation om sina deltagare - som förbehandlingspostningsbeteende - för att göra deras analys mer effektiv. Mer specifikt än att jämföra andelen positiva ord i behandlings- och kontrollförhållandena kunde Kramer och kollegor ha jämfört förändringen i andelen positiva ord mellan förhållandena. ett tillvägagångssätt som ibland kallas en blandad design (figur 4.5) och kallas ibland för en skillnad i skillnader estimator. Det vill säga att för varje deltagare kunde forskarna ha skapat en förändringspoäng (efterbehandlingsbeteende \(-\) förbehandlingsbeteende) och sedan jämförde förändringspoängerna av deltagarna i behandlings- och kontrollförhållandena. Denna skillnad i skillnad är mer effektiv statistiskt, vilket innebär att forskare kan uppnå samma statistiska förtroende med mycket mindre prover.

Utan att ha rådata är det svårt att veta exakt hur mycket effektivare en skillnad i skillnader estimator skulle ha varit i detta fall. Men vi kan titta på andra relaterade experiment för en grov idé. Deng et al. (2013) rapporterade att de med hjälp av en form av skillnaden i skillnader uppskattaren kunde minska variationen i sina uppskattningar med cirka 50% i tre olika online-experiment. liknande resultat har rapporterats av Xie and Aurisset (2016) . Denna 50% variansminskning innebär att emosionella kontagionsforskare kunde ha kunnat klippa sitt prov i hälften om de hade använt en något annorlunda analysmetod. Med andra ord, med en liten förändring i analysen, kunde 350 000 personer ha sparats deltagande i experimentet.

Vid denna tidpunkt kanske du undrar varför forskare bör bry sig om 350.000 människor i onödigt smittade. Det finns två specifika särdrag hos känslomässig smittsamhet som är oroliga för överdriven storlek, och dessa egenskaper delas av många digitala fältförsök: (1) det finns osäkerhet om experimentet kommer att skada åtminstone vissa deltagare och (2) deltagande var inte frivillig. Det verkar rimligt att försöka hålla experiment som har dessa egenskaper så små som möjligt.

För att vara tydlig betyder inte önskan att minska storleken på ditt experiment att du inte ska köra stora, experimentella experiment med nollvariabel kostnad. Det betyder bara att dina experiment inte borde vara större än vad du behöver för att uppnå ditt vetenskapliga mål. Ett viktigt sätt att se till att ett experiment är lämpligt dimensionerat är att genomföra en effektanalys (Cohen 1988) . I den analoga åldern gjorde forskare i allmänhet maktanalys för att se till att deras studie inte var för liten (dvs. underdriven). Nu ska dock forskare göra maktanalys för att se till att deras studier inte är för stora (dvs. överdrivna).

Sammanfattningsvis ersätter de tre R-ersättarna, ersätter och reducerar principer som kan hjälpa forskare att bygga etik i sina experimentella mönster. Naturligtvis introducerar varje av dessa möjliga förändringar i Emotional Contagion avvägningar. Exempelvis är bevis från naturliga experiment inte alltid lika rent som det från slumpmässiga experiment, och att öka innehållet kan ha varit logistiskt svårare att genomföra än att blockera innehåll. Så, syftet med att föreslå dessa förändringar var inte att andra gissar andra forskares beslut. Det var snarare att illustrera hur de tre R: erna kunde appliceras i en realistisk situation. Faktum är att frågan om avvägningar kommer upp hela tiden i forskningsdesign, och i den digitala tidsåldern kommer dessa avvägningar alltmer att involvera etiska överväganden. Senare, i kapitel 6, kommer jag att erbjuda några principer och etiska ramar som kan hjälpa forskare att förstå och diskutera dessa avvägningar.