4.6.2 Zgradite etiko v vašo zasnovo: zamenjajte, izboljšajte in zmanjšajte

Ta prevod je bil ustvarjen s pomočjo računalnika. ×

4.6.2 Zgradite etiko v vašo zasnovo: zamenjajte, izboljšajte in zmanjšajte

Naj bo vaš poskus bolj human z zamenjavo poskusov z ne-eksperimentalnih študij, izpopolnjevanje zdravljenja in zmanjšanje števila udeležencev.

Drugi nasvet, ki ga želim ponuditi pri oblikovanju digitalnih eksperimentov, se nanaša na etiko. Ker eksperimenti Restivo in van de Rijt na barnstarsu v Wikipediji kažejo, da zmanjšani stroški pomenijo, da bo etika postala vse pomembnejši del raziskovalnega oblikovanja. Poleg etičnih okvirov, ki vodijo raziskovanje človeških subjektov, ki jih bom opisal v 6. poglavju, lahko raziskovalci, ki načrtujejo digitalne eksperimente, tudi na podlagi etičnih idej iz različnih virov: etična načela, ki so bila razvita za vodenje poskusov z živalmi. Zlasti v svoji zgodovinski knjigi Načela humane eksperimentalne tehnike Russell and Burch (1959) predlagata tri načela, ki bi vodili raziskave živali: zamenjati, izboljšati in zmanjšati. Želel bi predlagati, da se lahko ti trije R v rahlo spremenjeni obliki uporabijo za načrtovanje človeških poskusov. Še posebej,

Zamenjaj: če je mogoče, zamenjajte poskusi z manj invazivnimi metodami.
Izboljšajte: izboljšajte zdravljenje, da bo čim bolj neškodljiv.
Zmanjšajte: čim bolj zmanjšajte število udeležencev v vašem preizkusu.

Da bi bili ti trije R-ovi konkretni in pokazali, kako lahko potencialno vodijo do boljšega in humanističnega eksperimentalnega oblikovanja, bom opisal spletno eksperimentiranje na terenu, ki je ustvarilo etično razpravo. Nato bom opisal, kako trije R-ji predlagajo konkretne in praktične spremembe pri oblikovanju eksperimenta.

Eden od najbolj etično razpravljanih digitalnih poljskih eksperimentov sta vodila Adam Kramer, Jamie Guillroy in Jeffrey Hancock (2014) in se je imenovala "Emotional Contagion". Poskus je potekal na Facebooku in je bil motiviran z mešanico znanstvenih in praktična vprašanja. V tem času je dominanten način, s katerim so uporabniki interakcijo z Facebookom, News Feed, algoritemsko kuriran niz posodobitev statusa Facebook od uporabnikovih Facebook prijateljev. Nekateri kritiki na Facebooku so predlagali, ker je v Feed News-u večinoma pozitivna sporočila - prijatelji, ki prikazujejo svojo najnovejšo stranko - bi lahko povzročili, da bi se uporabniki počutili žalostno, ker so se njihova življenja zdela manj vznemirljiva v primerjavi. Po drugi strani pa je morda učinek ravno nasprotno: morda bi videl, da se vaš prijatelj dobro zabavi, če bi se počutili srečno. Da bi rešili te konkurenčne hipoteze in napredovali v našem razumevanju, kako čustva njenih prijateljev vplivajo na čustva njenih prijateljev, sta Kramer in kolegi opravili poskus. V enem tednu so umestili približno 700.000 uporabnikov v štiri skupine: skupino z negativnostjo, za katero so bile objave z negativnimi besedami (npr. »Žalostno«) naključno blokirane, da se ne pojavijo v News Feedu; skupina z "pozitivno zmanjšano", za katero so bile pozicije s pozitivnimi besedami (npr. "srečni") naključno blokirane; in dve kontrolni skupini. V kontrolni skupini za skupino "zmanjšanje negativnosti" so delovna mesta naključno blokirana z enako hitrostjo kot skupina "zmanjšana negativnost", ne glede na čustveno vsebino. Kontrolna skupina za skupino "zmanjšanje pozitivnosti" je bila izdelana vzporedno. Zasnova tega preizkusa ilustrira, da ustrezna kontrolna skupina ni vedno ena brez sprememb. Včasih kontrolna skupina prejme zdravljenje, da bi ustvarila natančno primerjavo, ki jo zahteva raziskovalno vprašanje. V vseh primerih so bile objave, ki so bile blokirane iz News Feed, še vedno na voljo uporabnikom prek drugih delov spletnega mesta Facebook.

Kramer in sodelavci so ugotovili, da se je delež udeležencev v slabšem položaju zmanjšal v odstotkih pozitivnih besed v njihovih statusnih posodobitvah in povečal odstotek negativnih besed. Po drugi strani pa se je za udeležence negativnega stanja zmanjšal delež pozitivnih besed in zmanjšal negativne besede (slika 4.24). Vendar pa so bili ti učinki precej majhni: razlika v pozitivnih in negativnih besedah med zdravljenjem in kontrolami je bila približno 1 od 1.000 besed.

Slika 4.24: Dokaz čustvene okužbe (Kramer, Guillory in Hancock 2014). Udeleženci negativnega stanja so uporabili manj negativnih besed in bolj pozitivnih besed, udeleženci v zmanjšanem položaju pa so uporabili negativne besede in manj pozitivnih besed. Plošče predstavljajo ocenjene standardne napake. Prilagojeno od Kramer, Guillory in Hancock (2014), slika 1.

Slika 4.24: Dokaz čustvene okužbe (Kramer, Guillory, and Hancock 2014) . Udeleženci negativnega stanja so uporabili manj negativnih besed in bolj pozitivnih besed, udeleženci v zmanjšanem položaju pa so uporabili negativne besede in manj pozitivnih besed. Plošče predstavljajo ocenjene standardne napake. Prilagojeno od Kramer, Guillory, and Hancock (2014) , slika 1.

Pred obravnavo etičnih vprašanj, ki jih je izpostavil ta poskus, bi rad opisal tri znanstvene probleme z uporabo nekaterih idej iz prejšnjega poglavja. Prvič, ni jasno, kako se dejanske podrobnosti eksperimenta povezujejo s teoretičnimi trditvami; z drugimi besedami, obstajajo vprašanja o oblikovanju veljavnosti. Ni jasno, da sta pozitivna in negativna števila besed dejansko dober pokazatelj čustvenega stanja udeležencev, ker (1) ni jasno, da so besede, ki jih ljudje objavljajo, dober pokazatelj njihovih čustev in (2) ni da je tehnika analize razpoloženja, ki jo uporabljajo raziskovalci, sposobna zanesljivo sklepati čustva (Beasley and Mason 2015; Panger 2016) . Z drugimi besedami, morda obstaja slaba meritev pristranskega signala. Drugič, oblikovanje in analiza poskusa nam ne pove nič o tem, kdo je bil najbolj prizadet (tj. Ni analize heterogenosti učinkov zdravljenja) in kakšen mehanizem bi lahko bil. V tem primeru so imeli raziskovalci veliko informacij o udeležencih, vendar so bili v analizi v bistvu obravnavani kot pripomočki. Tretjič, velikost učinka v tem poskusu je bila zelo majhna; razlika med zdravljenjem in kontrolnimi pogoji je približno 1 od 1.000 besed. V svojem prispevku Kramer in sodelavci opozarjajo, da je učinek te velikosti pomemben, ker na stotine milijonov ljudi dostopa vsak dan z novicami. Z drugimi besedami, trdijo, da tudi če so učinki majhni za vsako osebo, so veliki v agregatu. Tudi če bi sprejeli ta argument, še vedno ni jasno, ali je učinek te velikosti pomemben glede splošnejšega znanstvenega vprašanja o širjenju čustev (Prentice and Miller 1992) .

Poleg teh znanstvenih vprašanj, samo nekaj dni po tem, ko je bil ta članek objavljen v Zborniku Nacionalne akademije znanosti , so bili tako raziskovalci in tiskani ogromni napadi (podrobneje bom opisal argumente v tej razpravi v poglavju 6 ). Vprašanja, ki so se pojavila v tej razpravi, so povzročilo, da bi revija objavila redek "uredniški izraz skrbi" o etiki in etičnem pregledu raziskovanja (Verma 2014) .

Glede na to ozadje Emotional Contagion bi zdaj pokazal, da trije R-ji lahko predlagajo konkretne praktične izboljšave za resnične študije (karkoli osebno razmišljate o etiki tega posebnega poskusa). Prvi R se nadomesti : raziskovalci bi si morali prizadevati za zamenjavo poskusov z manj invazivnimi in tveganimi tehnikami, če je to mogoče. Na primer, namesto da bi izvajali naključno nadzorovan poskus, bi raziskovalci lahko izkoristili naravni poskus . Kot je opisano v 2. poglavju, so naravni posegi situacije, v katerih se na svetu dogaja nekaj, kar približuje naključno dodelitev zdravljenja (npr. Loterija za odločitev o tem, kdo bo pripravljen v vojsko). Etična prednost naravnega eksperimenta je, da raziskovalcu ni treba zagotoviti zdravljenja: okolje to počne zate. Na primer, skoraj istočasno s poskusom Emotional Contagion, Lorenzo Coviello et al. (2014) so izkoristili tisto, kar bi lahko imenovali naravni poskus emocionalne kontagije. Coviello in sodelavci so ugotovili, da ljudje objavljajo več negativnih besed in manj pozitivnih besed na dneve, ko dežuje. Zato so z naključnimi spremembami v vremenu lahko preučevali učinek sprememb v News Feedu, ne da bi jih sploh potrebovali. Bilo je, kot da bi vreme izvajalo njihov eksperiment. Podrobnosti o njihovem postopku so nekoliko zapletene, najpomembnejša točka za naše namene pa je, da so se z uporabo naravnega eksperimenta Coviello in sodelavci naučili o širjenju čustev, ne da bi morali sami izvajati svoj eksperiment.

Druga od treh R je natančnejša : raziskovalci si morajo prizadevati za izboljšanje zdravljenja, da bodo čim bolj neškodljivi. Na primer, namesto da bi blokirali vsebino, ki je bila pozitivna ali negativna, bi lahko raziskovalci povečali vsebino, ki je bila pozitivna ali negativna. Ta spodbudni dizajn bi spremenil čustveno vsebino poročil novic udeležencev, vendar bi to obravnavalo eno od skrbi, ki so jo kritiki izrazili: da bi poskusi lahko povzročili, da bi udeleženci prezrli pomembne informacije v svojih novicah. S projektom, ki ga uporabljajo Kramer in sodelavci, je pomembno sporočilo, ki je verjetno blokirano kot tisto, ki ni. Vendar pa bi s spodbudno zasnovo sporočila, ki bi bila premaknjena, tista, ki so manj pomembna.

Nazadnje se zmanjša tudi tretja R: raziskovalci bi si morali prizadevati za zmanjšanje števila udeležencev v svojem poskusu na najmanjši možni delež, potreben za doseganje njihovega znanstvenega cilja. V analognih eksperimentih se je to seveda zgodilo zaradi visokih variabilnih stroškov udeležencev. Toda v digitalnih eksperimentih, zlasti tistih z ničelnimi variabilnimi stroški, se raziskovalci ne soočajo s strošnimi omejitvami glede velikosti njihovega eksperimenta, kar lahko vodi v nepotrebno velike eksperimente.

Na primer, Kramer in sodelavci so lahko uporabili pred-obdelovalno informacijo o svojih udeležencih, kot je obnašanje objave pred zdravljenjem, da bi bila njihova analiza učinkovitejša. Natančneje, Kramer in sodelavci bi namesto primerjanja deleža pozitivnih besed v pogojih zdravljenja in nadzora lahko primerjali spremembo deleža pozitivnih besed med pogoji; pristop, ki se včasih imenuje mešani dizajn (slika 4.5) in včasih imenovan ocenjevalec razlik med razlikami. To pomeni, da za vsakega udeleženca, so raziskovalci bi lahko ustvarili rezultat spremembe (post-obdelava vedenje \(-\) vedenje predobdelava) in nato primerjali rezultate sprememb udeležencev v pogojih zdravljenja in nadzora. Ta razlika med različnimi pristopi je bolj učinkovita statistično, kar pomeni, da lahko raziskovalci dosežejo enako statistično zaupanje z uporabo mnogo manjših vzorcev.

Ne da bi imeli neobdelane podatke, je težko natančno vedeti, koliko učinkoviteje bi bilo v tem primeru ocenjevalca razlik v razlikah. Ampak lahko pogledamo druge povezane eksperimente za grobo zamisel. Deng et al. (2013) poročali, da so z uporabo oblike ocenjevalca razlik med razlikami zmanjšali odstopanje svojih ocen za približno 50% v treh različnih spletnih eksperimentih; podobne rezultate so poročali tudi Xie and Aurisset (2016) . To 50-odstotno zmanjšanje variance pomeni, da bi raziskovalci Emotional Contagion morda lahko zmanjšali svoj vzorec na polovico, če bi uporabili nekoliko drugačno metodo analize. Z drugimi besedami, z majhno spremembo v analizi je bilo 350.000 ljudi morda prihranjeno za sodelovanje v poskusu.

Na tej točki se morda sprašujete, zakaj bi raziskovalci morali biti nepotrebni, če bi 350.000 ljudi v Emotional Contagionu. Obstajajo dve posebnosti Emotional Contagion, ki skrbijo za prekomerno velikost, in te funkcije delijo številni eksperimenti na področju digitalnega polja: (1) obstaja negotovost glede tega, ali bo poskus povzročil škodo vsaj nekaterim udeležencem in (2) udeležbi ni bila prostovoljna. Zdi se, da je smiselno poskusiti obdržati poskuse, ki imajo te lastnosti čim manjše.

Če želite biti jasni, želja po zmanjšanju velikosti preizkusa ne pomeni, da ne bi smeli izvajati velikih ničelnih variabilnih stroškov. To samo pomeni, da vaši poskusi ne bi smeli biti večji, kot jih potrebujete za dosego svojega znanstvenega cilja. Eden pomembnih načinov, kako zagotoviti, da je poskus dovolj velik, je izvedba analize moči (Cohen 1988) . V analogni dobi so raziskovalci na splošno opravili analizo moči, da bi se prepričali, da njihova študija ni bila premajhna (tj. Premalo napajana). Zdaj pa morajo raziskovalci narediti analizo moči, da se prepričajo, da njihova študija ni prevelika (tj. Prevelika).

Na koncu trije R's-nadomestiti, izboljšati in zmanjšati-zagotavljati načela, ki lahko pomagajo raziskovalcem graditi etiko v svojih eksperimentalnih modelov. Seveda vsaka od teh možnih sprememb Emotional Contagion ustvari kompromise. Na primer, dokazi iz naravnih eksperimentov niso vedno tako čisti kot tisti iz randomiziranih poskusov, zato bi bilo morda logično težje izvajati povečanje vsebine kot blokiranje vsebine. Torej, namen predlaganja teh sprememb ni bil, da drugi ugibajo odločitve drugih raziskovalcev. Namesto tega je bilo treba ponazoriti, kako se lahko trije R uporabijo v realnem položaju. Dejansko se vprašanje kompromisov vedno pojavlja v raziskovalnem načrtu, v digitalni dobi pa ti ti kompromisi vse bolj vključujejo etične vidike. Kasneje v poglavju 6 ponudim nekaj načel in etičnih okvirov, ki lahko raziskovalcem pomagajo razumeti in razpravljati o teh kompromisih.