4.6.2 Izgraditi etiku u svoj dizajn: zamijeniti, pročistiti i smanjiti

Učinite svoj ​​eksperiment humanije zamjenom eksperimente s ne-eksperimentalnim studijama, rafiniranje tretmane, te smanjenje broja sudionika.

Drugi savjet koji bih htio ponuditi za projektiranje digitalnih eksperimenata odnosi se na etiku. Kao što eksperiment Restivo i van de Rijt na barnstarsima na Wikipediji pokazuje, smanjeni troškovi znače da će etika postati sve važniji dio dizajna istraživanja. Osim etičkih okvira koji vode istraživanje ljudskih subjekata koje ću opisati u 6. poglavlju, istraživači koji projektuju digitalne eksperimente također mogu privući etičke ideje iz različitih izvora: etička načela razvijena kako bi vodili pokuse koji uključuju životinje. Naročito, u njihovoj značajnoj knjizi Načela humane eksperimentalne tehnike , Russell and Burch (1959) predložili su tri načela koja bi trebala voditi istraživanja životinja: zamijeniti, pročistiti i smanjiti. Htio bih predložiti da se ta tri R-ova također mogu koristiti - u malo promijenjenom obliku - kako bi vodili dizajn ljudskih eksperimenata. Posebno,

  • Zamijenite: Zamijenite pokuse s manje invazivnim metodama, ako je moguće.
  • Precizirati: Precizirati tretman kako biste je učinili bezopasnom što je više moguće.
  • Smanjiti: Smanjite broj sudionika eksperimenta što je više moguće.

Kako bi ova tri R bila konkretna i pokazala kako mogu potencijalno dovesti do boljeg i humanije eksperimentalnog dizajna, opisat ću on-line eksperiment na terenu koji je stvorio etičku raspravu. Zatim ću opisati kako tri R-a predlažu konkretne i praktične promjene dizajna eksperimenta.

Jedan od najvažnijih etnički raspravljanih eksperimenata na digitalnom polju provodio je Adam Kramer, Jamie Guillroy i Jeffrey Hancock (2014) a nazvan je "Emotional Contagion". Eksperiment je održan na Facebooku i motiviran je mješavinom znanstvenih i praktična pitanja. U to vrijeme, dominantan način na koji su korisnici stupili u interakciju s Facebookom bio je News Feed, algoritamski uređen skup ažuriranja statusa Facebooka s prijatelja Facebookovih korisnika. Neki kritičari Facebooka su predložili da zbog Feedova vijesti uglavnom postoje pozitivni postovi - prijatelji koji pokazuju svoju najnoviju zabavu - moglo bi uzrokovati da se korisnici osjećaju tužni jer su im se životovi činili manje uzbudljivima u usporedbi. S druge strane, možda je učinak upravo suprotan: možda bi vidio da vaš prijatelj ima dobar provod bi se osjećao sretnim. Kako bi se riješile ove konkurentske hipoteze - i unaprijediti naše shvaćanje kako su emocije osobe utjecale emocije njezinih prijatelja - Kramer i njegovi kolege izvodili su eksperiment. Oni su stavili oko 700.000 korisnika u četiri skupine tjedan dana: skupina "smanjena negativnosti", za koje su nasumično blokirani postovi u negativnim riječima (npr. "Tužni") u Feedu vijesti; skupinu "smanjene pozitivnosti" za koju su nasumično blokirani postovi s pozitivnim riječima (npr. "sretni"); i dvije kontrolne skupine. U kontrolnoj skupini za "negativno smanjenu" skupinu, postovi su slučajno blokirani istom brzinom kao i "negativno smanjena" skupina, ali bez obzira na emocionalni sadržaj. Kontrolna skupina za skupinu "smanjene pozitivnosti" konstruirana je paralelno. Dizajn ovog eksperimenta ilustrira da odgovarajuća kontrolna skupina nije uvijek bez promjena. Naprotiv, ponekad, kontrolna skupina dobiva tretman kako bi stvorila preciznu usporedbu koja zahtijeva istraživačko pitanje. U svim slučajevima postovi koji su blokirani iz feeda vijesti i dalje su bili dostupni korisnicima putem drugih dijelova Facebookove web stranice.

Kramer i njegovi kolege otkrili su da je za sudionike u stanju smanjenog pozitivnosti postotak pozitivnih riječi u ažuriranjima statusa smanjen, a postotak negativnih riječi povećan. S druge strane, za sudionike u negativnom smanjenom stanju, postotak pozitivnih riječi povećan, a negativnih riječi smanjen (Slika 4.24). Međutim, ovi učinci bili su vrlo mali: razlika između pozitivnih i negativnih riječi između tretmana i kontrola bila je oko 1 u 1000 riječi.

Slika 4.24: Dokaz emocionalne zaraze (Kramer, Guillory i Hancock, 2014). Sudionici u uvjetima smanjene negativnosti koristili su manje negativnih riječi i pozitivnije riječi, a sudionici u stanju smanjene pozitivnosti koristili su više negativnih riječi i manje pozitivnih riječi. Barovi predstavljaju procijenjene standardne pogreške. Prilagođeno iz Kramera, Guillory i Hancocka (2014), slika 1.

Slika 4.24: Dokaz emocionalne zaraze (Kramer, Guillory, and Hancock 2014) . Sudionici u uvjetima smanjene negativnosti koristili su manje negativnih riječi i pozitivnije riječi, a sudionici u stanju smanjene pozitivnosti koristili su više negativnih riječi i manje pozitivnih riječi. Barovi predstavljaju procijenjene standardne pogreške. Prilagođeno iz Kramer, Guillory, and Hancock (2014) , slika 1.

Prije nego što se raspravljalo o etičkim pitanjima iz ovog eksperimenta, želio bih opisati tri znanstvena pitanja pomoću nekih ideja iz ranijih poglavlja. Prvo, nije jasno kako se stvarne pojedinosti eksperimenta povezuju s teorijskim tvrdnjama; drugim riječima, postoje pitanja o konstrukcijskoj valjanosti. Nije jasno da su pozitivne i negativne riječi zapravo dobar pokazatelj emocionalnog stanja sudionika, jer (1) nije jasno da su riječi koje ljudi postavljaju dobar pokazatelj njihovih emocija i (2) nije jasno da je određena tehnika analize sentimenta koju su istraživači koristili može pouzdano zaključiti emocije (Beasley and Mason 2015; Panger 2016) . Drugim riječima, može postojati loša mjera pristranog signala. Drugo, dizajn i analiza eksperimenta ne govore ništa o tome tko je najviše pogođen (tj. Ne postoji analiza heterogenosti učinaka liječenja) i kakav bi mehanizam mogao biti. U ovom slučaju, istraživači su imali puno informacija o sudionicima, ali su u analizi u biti tretirani kao widgeti. Treće, veličina učinka u ovom eksperimentu bila je vrlo mala; razlika između tretmana i uvjeta kontrole je oko 1 u 1000 riječi. Kramer i njegovi kolege u svom su radu izjavili da je učinak te veličine važan jer stotine milijuna ljudi svakodnevno pristupa svom News Feedu. Drugim riječima, oni tvrde da čak i ako su učinci maleni za svaku osobu, oni su veliki u skupini. Čak i ako biste prihvatili ovaj argument, još uvijek nije jasno je li učinak ove veličine važan u pogledu općenitijih znanstvenih pitanja o širenju emocija (Prentice and Miller 1992) .

Pored ovih znanstvenih pitanja, samo nekoliko dana nakon što je ovaj članak objavljen u Zborniku Nacionalne akademije znanosti , došlo je do ogromnog proturječja i istraživača i tiska (opširnije opisujem argumente u ovoj raspravi u 6. poglavlju ). Pitanja koja su se pojavila u ovoj raspravi uzrokovala su časopis objaviti rijedak "urednički izraz zabrinutosti" o etici i procesu etičkog preispitivanja za istraživanje (Verma 2014) .

S obzirom na pozadinu emocionalne zaraze, sada bih želio pokazati da tri R-a mogu predložiti konkretna, praktična poboljšanja za stvarne studije (što god možete osobno misliti o etici ovog eksperimenta). Prvi R zamijenit će : istraživači trebaju zamijeniti pokuse s manje invazivnim i rizičnim tehnikama, ako je moguće. Na primjer, umjesto pokretanja randomiziranog kontroliranog eksperimenta, istraživači su mogli iskoristiti prirodni eksperiment . Kao što je opisano u 2. poglavlju, prirodni pokusi su situacije u kojima se nešto događa u svijetu koje približava slučajni dodjelu tretmana (npr. Lutrija za odlučivanje tko će biti sastavljen u vojsci). Etička prednost prirodnog eksperimenta je da istraživač ne mora dostaviti tretmane: okoliš to čini za vas. Na primjer, gotovo istodobno s eksperimentom Emotional Contagion, Lorenzo Coviello et al. (2014) iskorištavaju ono što bi se moglo nazvati prirodnim eksperimentom emocionalnih zaraza. Coviello i njegovi kolege otkrili su da ljudi daju više negativnih riječi i manje pozitivnih riječi u danima gdje pada kiša. Stoga su pomoću slučajnih varijacija u vremenu uspjeli proučiti učinak promjena u News Feedu bez potrebe za intervencijom. Bilo je to kao da im vrijeme pokreće njihov eksperiment. Pojedinosti o njihovom postupku su malo komplicirani, ali najvažnija je točka za naše svrhe ovdje, da su pomoću prirodnog eksperimenta Coviello i njegovi kolege mogli naučiti o širenju emocija bez potrebe za pokretanjem vlastitog eksperimenta.

Drugi od tri Rs pročišćava : istraživači trebaju nastojati poboljšati svoje tretmane kako bi ih učinili što bezopasnijima. Na primjer, umjesto da blokiraju sadržaj koji je bio pozitivan ili negativan, istraživači su mogli potaknuti sadržaj koji je bio pozitivan ili negativan. Ovaj poticajni dizajn promijenio bi emocionalni sadržaj sudionika vijesti, ali bi se obratio jednoj od zabrinutosti koju su kritičari izrazili: da su eksperimenti mogli prouzročiti da sudionici propuste važne informacije u svojim vijestima. Uz dizajn koji koriste Kramer i njegovi kolege, važna je poruka koja će vjerojatno biti blokirana kao ona koja nije. Međutim, uz poticajni dizajn, poruke koje bi bile raseljene bile bi one manje važne.

Konačno, treći R je smanjen : istraživači bi trebali nastojati smanjiti broj sudionika u svom eksperimentu na minimum koji je potreban za postizanje njihovog znanstvenog cilja. U analognim eksperimentima to se dogodilo prirodno zbog visokih varijabilnih troškova sudionika. No, u digitalnim eksperimentima, osobito onima s nula varijabilnih troškova, istraživači se ne suočavaju s ograničenjima troškova veličine njihovog eksperimenta i to ima potencijal da dovede do nepotrebnih velikih eksperimenata.

Na primjer, Kramer i njegovi kolege mogli su upotrijebiti informacije o pretkripciji o svojim sudionicima, kao što je ponašanje objavljivanja prije tretmana, da bi njihova analiza bila učinkovitija. Konkretnije, umjesto uspoređivanja udjela pozitivnih riječi u uvjetima liječenja i kontrole, Kramer i njegovi kolege mogli su uspoređivati promjenu u omjeru pozitivnih riječi između uvjeta; pristup koji se ponekad zove mješoviti dizajn (slika 4.5), a ponekad se zove i razlika u razlikama. To je, za svakog sudionika, istraživači mogli stvoriti rezultat promjena (ponašanje nakon tretmana \(-\) prije tretmana), a zatim usporedili rezultate promjena sudionika u uvjetima liječenja i kontrole. Ovaj pristup razlike u razlici učinkovitiji je statistički, što znači da istraživači mogu postići isto statističko povjerenje pomoću mnogo manjih uzoraka.

Bez neobrađenih podataka, teško je znati točno koliko bi u ovom slučaju bio učinkovitiji procjenjivač razlike u razlici. Ali možemo pogledati druge srodne eksperimente za grubu ideju. Deng et al. (2013) izvijestili su da su pomoću jednog oblika procjene razlike u razlici uspjeli smanjiti varijaciju svojih procjena za oko 50% u tri različita mrežna eksperimenta; slični rezultati su izvijestili Xie and Aurisset (2016) . Ova 50% smanjenja varijance znači da bi istraživači Emotional Contagion mogli smanjiti svoj uzorak na pola ako bi koristili malo drugačiju metodu analize. Drugim riječima, s malom promjenom u analizi, 350.000 ljudi je bilo pošteđeno sudjelovanje u eksperimentu.

U ovom trenutku možda se pitate zašto bi istraživači trebali brinuti ako je 350.000 ljudi bilo nepotrebno u emocionalnoj zarazi. Postoje dva posebna obilježja emocionalne zaraze koja čine zabrinutost s prekomjernom veličinom odgovarajuće, a ove značajke dijele mnogi eksperimenti na digitalnom polju: (1) postoji neizvjesnost o tome hoće li eksperiment uzrokovati štetu barem nekim sudionicima i (2) sudjelovanje nije dobrovoljno. Čini se razumnim pokušati zadržati eksperimente koji imaju ove značajke što je manje moguće.

Da bi bilo jasno, želja za smanjenjem veličine vašeg eksperimenta ne znači da ne biste trebali provoditi velike eksperimente s niskim varijabilnim troškovima. To samo znači da vaši eksperimenti ne bi trebali biti veći nego što trebate postići svoj znanstveni cilj. Jedan od važnih načina da se pokus provjeri na odgovarajuću veličinu jest provesti analizu snage (Cohen 1988) . U analognoj dobi, istraživači su općenito analizirali moć kako bi bili sigurni da njihova studija nije bila premala (tj. Pod-powered). Sada, međutim, istraživači bi trebali napraviti analizu moći kako bi bili sigurni da njihova studija nije prevelika (tj. Pretjerana).

Zaključno, tri R's zamjenjuju, pročisti i smanjuju načela koja mogu pomoći istraživačima izgraditi etiku u svojim eksperimentalnim dizajnom. Naravno, svaka od tih mogućih promjena emocionalne zaraze uvodi kompromise. Na primjer, dokazi iz prirodnih eksperimenata nisu uvijek čisti kao i iz randomiziranih eksperimenata, a poticanje sadržaja moglo je logistički biti teže provesti nego blokirati sadržaj. Dakle, svrha sugestije ovih promjena nije bila da drugo pretpostavljam odluke drugih istraživača. Umjesto toga, trebalo je ilustrirati kako se ova tri R može primijeniti u realnoj situaciji. U stvari, pitanje kompromisa dolazi sve vrijeme u dizajnu istraživanja, au digitalnom dobu ove će kompromise sve više uključivati ​​etička razmatranja. Kasnije, u šestom poglavlju, ponudit ću neke principe i etičke okvire koji mogu pomoći istraživačima da razumiju i raspravljaju o tim spojevima.