4.6.2 Rakenna etiikka muotoiluun: korvaa, tarkenna ja vähennä

Tämä käännös on luotu tietokoneella. ×

4.6.2 Rakenna etiikka muotoiluun: korvaa, tarkenna ja vähennä

Tee kokeilu inhimillisempi korvaamalla kokeiluja ei-kokeellisissa tutkimuksissa, jalostus hoidot ja vähentää osallistujien lukumäärä.

Toinen neuvo, jonka haluan tarjota digitaalisten kokeiden suunnittelusta, koskee etiikkaa. Kuten Restivo ja van de Rijt kokeilu barnstars Wikipediasta osoittaa, pienentynyt kustannus tarkoittaa, että etiikka tulee yhä tärkeämmäksi osaksi tutkimussuunnittelua. Ihmisen tutkimustyötä ohjaavien eettisten kehysten lisäksi luvussa 6 kuvataan, että digitaalisten kokeiden suunnittelijat voivat myös hyödyntää eettisiä ajatuksia eri lähteistä: eettisiä periaatteita, jotka on kehitetty ohjaamaan eläimiä koskevia kokeita. Erityisesti humanistisen kokeellisen tekniikan periaatteissa Russell and Burch (1959) ehdotti erityisesti kolmea periaatetta, joiden pitäisi ohjata eläintutkimusta: korvata, puhdistaa ja vähentää. Haluaisin ehdottaa, että näitä kolmea R: tä voidaan myös käyttää - hieman muunnetussa muodossa - ohjaamaan inhimillisten kokeiden suunnittelua. Erityisesti,

Korvaa: Vaihda kokeita vähemmän invasiivisilla menetelmillä, jos mahdollista.
Tarkenna: Tarkenna hoitoa niin, että se on mahdollisimman vaaratonta.
Vähennä: pienennä kokeen osallistujien määrää niin paljon kuin mahdollista.

Jotta nämä kolme R: n konkreettista ja osoittaisivat, miten he voivat johtaa parempaan ja humaaniin kokeelliseen suunnitteluun, kuvaan verkkokentän kokeilua, joka loi eettisen keskustelun. Sitten esitän, miten kolme R: n ehdottaa konkreettisia ja käytännöllisiä muutoksia kokeiluun.

Yksi eettisesti keskustelevista digitaalisista kenttätutkimuksista teki Adam Kramer, Jamie Guillroy ja Jeffrey Hancock (2014) ja sitä on kutsuttu nimellä "emotionaalinen tartunta". Koe tapahtui Facebookissa, ja se oli motivoitunut tieteellisten ja käytännön kysymyksiä. Tuolloin hallitseva tapa, jolla käyttäjät käyttivät vuorovaikutusta Facebookin kanssa, oli uutislähde, algoritmisesti kurattu joukko Facebook-tilapäivityksiä käyttäjän Facebook-ystävistä. Jotkut Facebookin kriitikot olivat ehdottaneet, että koska News Feed on enimmäkseen positiivisia viestejä - ystäviä, jotka näyttävät viimeisimmästä puolueestaan - se voi aiheuttaa käyttäjille surua, koska heidän elämänsä näytti vähemmän jännittävältä verrattuna. Toisaalta, ehkä vaikutus on juuri päinvastainen: ehkä ystäväsi näkeminen hyvällä ajalla tekee sinusta tuntuu onnelliselta. Näiden kilpailevien hypoteesien käsittelemiseksi ja ymmärtämään, miten hänen tunteidensa vaikutukset herättävät hänen ystävänsä tunteita - Kramer ja kollegat suorittivat kokeilun. He sijoittivat noin 700 000 käyttäjää neljään ryhmään viikon ajan: "negatiivisesti vähentynyt" ryhmä, jolle kielteiset sanat (esim. "Surullinen") satunnaisesti estettiin ilmestymisestä uutislähteessä; "positiivisuus vähentynyt" ryhmä, jolle positiiviset sanat (esim. "onnellinen") satunnaisesti estettiin; ja kaksi kontrolliryhmää. "Negatiivisuuden vähentämisryhmän" kontrolliryhmässä viestit satunnaisesti estettiin samalla nopeudella kuin "negatiivisesti vähentynyt" ryhmä, mutta ilman tunnepitoisuutta. "Positiivisuus vähentynyt" -ryhmän ohjausryhmä rakennettiin rinnakkain. Tämän kokeen suunnittelu osoittaa, että asianmukainen kontrolliryhmä ei ole aina sellainen, jolla ei ole muutoksia. Pikemminkin, joskus kontrolliryhmä saa hoidon saadakseen täsmällisen vertailun, jota tutkimuksen kysymys vaatii. Kaikissa tapauksissa uutislähteestä estetyt viestit olivat edelleen käyttäjien käytettävissä Facebookin muiden osien kautta.

Kramer ja työtoverit havaitsivat, että positiivisuuden vähentämisen ehtojen osallistujille prosenttiosuus positiivisista sanoista statuspäivityksissä väheni ja negatiivisten sanojen prosenttiosuus kasvoi. Toisaalta negatiivisesti vähentyneiden ehtojen osallistujille positiivisten sanojen prosenttiosuus kasvoi ja kielteisten sanojen määrä väheni (kuvio 4.24). Nämä vaikutukset olivat kuitenkin melko pieniä: positiivisten ja negatiivisten sanojen ero hoitojen ja kontrollien välillä oli noin 1 tuhatta sanaa.

Kuva 4.24: Tunneantulehdus (Kramer, Guillory ja Hancock 2014). Negatiivisesti vähentyneeseen tilaan osallistujat käyttivät vähemmän negatiivisia sanoja ja positiivisempia sanoja, ja positiivisuuden vähentämiseen osallistujat käyttivät enemmän kielteisiä sanoja ja vähemmän positiivisia sanoja. Palkit edustavat arvioituja vakiovirheitä. Mukautettu Kramer, Guillory ja Hancock (2014), kuva 1.

Kuva 4.24: Tunneantulehdus (Kramer, Guillory, and Hancock 2014) . Negatiivisesti vähentyneeseen tilaan osallistujat käyttivät vähemmän negatiivisia sanoja ja positiivisempia sanoja, ja positiivisuuden vähentämiseen osallistujat käyttivät enemmän kielteisiä sanoja ja vähemmän positiivisia sanoja. Palkit edustavat arvioituja vakiovirheitä. Mukautettu Kramer, Guillory, and Hancock (2014) , kuva 1.

Ennen kuin keskustelemme tässä kokeessa esiin tuoduista eettisistä kysymyksistä, haluaisin kuvata kolmea tieteellistä asiaa käyttämällä joitakin ideoita aiemmasta luvusta. Ensinnäkin ei ole selvää, miten kokeilun varsinaiset yksityiskohdat liittyvät teoreettisiin vaatimuksiin; toisin sanoen kysymyksiä rakentamisen pätevyydestä. Ei ole selvää, että positiiviset ja negatiiviset sananlaskut ovat todella hyvä indikaattori osallistujien emotionaalisesta tilasta, koska (1) ei ole selvää, että sanat, jotka ihmiset lähettävät, ovat hyvä indikaattori tunteistaan ja (2) että tutkijoiden erityinen tunneanalyysitekniikka pystyy luotettavasti päättämään tunteita (Beasley and Mason 2015; Panger 2016) . Toisin sanoen, puolueellinen signaali saattaa olla huono. Toiseksi kokeilun suunnittelu ja analyysi ei kerro mitään siitä, ketkä kärsivät eniten (eli ei ole analyysi hoidon vaikutusten heterogeenisuudesta) ja mitä mekanismi voisi olla. Tässä tapauksessa tutkijoilla oli paljon tietoa osallistujista, mutta niitä käsiteltiin olennaisesti widgeteinä analyysissä. Kolmanneksi vaikutus koe tässä kokeessa oli hyvin pieni; hoidon ja valvonnan olosuhteiden ero on noin 1 tuhatta sanaa. Paperissaan Kramer ja kollegat tekevät tapauksen, että tämän kokoinen vaikutus on tärkeä, koska satoja miljoonia ihmisiä saa joka päivä uutislähteensä. Toisin sanoen, he väittävät, että vaikka vaikutukset ovat pieniä jokaiselle henkilölle, ne ovat suuria kokonaisuutena. Vaikka olette hyväksyneet tämän väitteen, ei ole vieläkään selvää, onko tämän kokoinen vaikutus tärkeä yleisen tieteellisen kysymyksen tunteen leviämisen suhteen (Prentice and Miller 1992) .

Näiden tieteellisten kysymysten lisäksi muutamia päiviä sen jälkeen, kun tämä artikkeli julkaistiin Kansallis-tiedeakatemian julkaisuissa, kummallakin tutkijalla ja lehdistössä oli valtava kirous (kerron tässä keskustelussa esitetyt väitteet tarkemmin luvussa 6 ). Tässä keskustelussa esitetyt asiat aiheuttivat lehdessä julkaista harvinaisen "toimituksellisen huolenaiheen" tutkimuksen etiikasta ja eettisestä tarkasteluprosessista (Verma 2014) .

Kun otetaan huomioon emotionaalisen tartunnan taustat, haluan nyt osoittaa, että kolme R: tä voi ehdottaa konkreettisia ja käytännön parannuksia todellisiin tutkimuksiin (mitä voitte henkilökohtaisesti miettiä tämän kokeilun etiikasta). Ensimmäinen R korvataan : tutkijoiden tulee pyrkiä korvaamaan kokeita vähemmän invasiivisilla ja riskialttiilla tekniikoilla, jos mahdollista. Esimerkiksi satunnaistetun kontrolloidun kokeilun käyttämisen sijasta tutkijat olisivat voineet hyödyntää luonnollista kokeilua . Kuten luvussa 2 on kuvattu, luonnolliset kokeilut ovat tilanteita, joissa maailmassa tapahtuu jotain, joka lähenee käsittelyjen sattumanvaraista osoittamista (esim. Arpajaiset, jotka päättävät, kuka valmistetaan armeijaksi). Luonnollisen kokeilun eettinen etu on, että tutkija ei tarvitse hoitaa hoitoja: ympäristö tekee sen sinulle. Esimerkiksi lähes samanaikaisesti Emotional Contagion -kokeen kanssa, Lorenzo Coviello et al. (2014) hyödynsivät mitä voitaisiin kutsua emotionaalisen tartunnan luonnolliseksi kokeeksi. Coviello ja kollegat havaitsivat, että ihmiset lähettävät lisää kielteisiä sanoja ja vähemmän positiivisia sanoja päivinä, jolloin satoi. Siksi, käyttämällä satunnainen satunnaisvaihtelu säässä, he pystyivät tutkimaan muutosten vaikutusta uutislähteisiin tarvitsematta puuttua asiaan lainkaan. Se oli ikään kuin sää järjesti kokeilunsa heille. Menettelyn yksityiskohdat ovat hieman monimutkaisia, mutta tärkein asia tässä tarkoituksessa on, että käyttämällä luonnollista kokeilua Coviello ja kollegat pystyivät oppimaan tunteiden leviämisen ilman, että heidän oman kokeilunsa olisi pitänyt suorittaa.

Toinen kolmesta R: stä tarkennetaan : tutkijoiden tulee pyrkiä parantamaan hoitojaan niin, että ne ovat mahdollisimman vaarattomia. Esimerkiksi sen sijaan, että estettäisiin sisältöä, joka oli joko positiivinen tai negatiivinen, tutkijat olisivat voineet lisätä sisältöä, joka oli positiivinen tai negatiivinen. Tämä tehostettu muotoilu olisi muuttanut osanottajien uutissyötteiden tunnepitoisuutta, mutta se olisi pitänyt käsitellä erästä kriittisten huomautusten aiheuttamaa huolenaiheita: kokeilut saattavat johtaa siihen, että osallistujat menettävät tärkeitä tietoja uutislähteissään. Kramerin ja kollegoiden käyttämän mallin avulla tärkeä viesti on todennäköisesti estetty sellaisenaan, joka ei ole. Vahvistussuunnittelun avulla siirrettävät viestit olisivat kuitenkin vähemmän tärkeitä.

Lopuksi kolmas R on vähentynyt : tutkijoiden olisi pyrittävä vähentämään kokeen osallistujien määrää niin pieneen määrään, että niiden tieteellinen tavoite saavutettaisiin. Analogisissa kokeissa tämä tapahtui luonnollisesti osallistujien korkeiden muuttuvien kustannusten vuoksi. Digitaalisissa kokeissa, etenkin niillä, joilla on nolla muuttuva kustannus, tutkijoilla ei ole kustannusrajoitusta kokeen koolle, ja tämä voi johtaa tarpeettoman suuriin kokeiluihin.

Esimerkiksi Kramer ja kollegat olisivat voineet käyttää esikäsitettäviä tietoja osallistujistaan - kuten esikäsittelykäyttäytymistä - analyysin tehostamiseksi. Tarkemmin sanoen Kramer ja työtoverit eivät voineet vertailla positiivisten sanojen osuutta hoidon ja valvonnan olosuhteissa verrattuna positiivisten sanojen osuuden muuttumiseen olosuhteiden välillä; lähestymistapaa, jota kutsutaan joskus sekamuotoiseksi (kuvio 4.5) ja jota kutsutaan toisinaan eroero-estimaattiksi. Eli jokaisen osallistujan kohdalla tutkijat olisivat voineet luoda muutospisteet (jälkikäsittelytapahtumien käyttäytymistä $-$ esikäsittelykäyttäytymistä) ja sitten verrata osallistujien muutospisteitä hoidon ja valvonnan olosuhteissa. Tämä erilainen-ero lähestymistapa on tilastollisesti parempi, mikä tarkoittaa, että tutkijat voivat saavuttaa saman tilastollisen luottamuksen käyttämällä paljon pienempiä näytteitä.

Ilman raakatietoja on vaikea tietää tarkalleen, kuinka paljon parempi ero-ero-estimaattori olisi tässä tapauksessa ollut. Mutta voimme tarkastella muita asiaan liittyviä kokeita karkean idean suhteen. Deng et al. (2013) kertoivat, että käyttämällä erotus-ero-estimaattorin muotoa he pystyivät vähentämään arvioidensa vaihtelua noin 50% kolmella eri verkkokokeilulla; samanlaisia tuloksia on raportoitu Xie and Aurisset (2016) . Tämä 50%: n varianssi vähentäminen tarkoittaa, että emotionaalisen tartunnan tutkijat olisivat voineet leikata otostaan puoliin, jos he käyttivät hieman eri analyysimenetelmää. Toisin sanoen, analyysin pienellä muutoksella 350 000 ihmistä olisi voinut säästää osallistumisesta kokeeseen.

Tässä vaiheessa saatat ihmetellä, miksi tutkijoiden olisi huolehdittava siitä, että 350 000 ihmistä oli tarpeettomasti emotionaalisessa tartunnassa. Emotionaalisen tartunnan kaksi erityispiirrettä, jotka aiheuttavat kohtuuttoman suuren koon, ovat tärkeitä, ja nämä piirteet ovat yhteisiä useilla digitaalisilla kenttätutkimuksilla: 1) on epäselvää, aiheuttaako kokeilu ainakin osan osallistujat ja (2) ei ollut vapaaehtoista. Tuntuu kohtuulliselta yrittää pitää kokeita, joilla on nämä piirteet mahdollisimman pieniksi.

Jotta selväksi haluttiin pienentää kokeilusi koon, ei tarkoita sitä, että sinun ei pidä ajaa suuria, nollaa muuttuvaa kustannustutkimusta. Se tarkoittaa vain sitä, että kokeilut eivät saisi olla suurempia kuin tieteellisen tavoitteen saavuttaminen. Yksi tärkeä tapa varmistaa, että kokeilu on sopivasti mitoitettu on tehdä tehoanalyysi (Cohen 1988) . Analogiaikana tutkijat tekivät tehoanalyysin varmistaakseen, että heidän tutkimuksensa eivät olleet liian pieniä (eli heikosti powered). Nyt kuitenkin tutkijoiden pitäisi tehdä tehoanalyysi varmistaakseen, että heidän tutkimuksensa eivät ole liian suuria (eli ylijännitetyistä).

Lopuksi kolme R's-replace, refine, and reduce-provide periaatteet, jotka voivat auttaa tutkijoita rakentamaan etiikan kokeellisiin malleihinsa. Tietenkin jokainen näistä mahdollisista muutoksista emotionaaliseen tartuntaan tuo kompromisseja. Esimerkiksi luonnonkokeet eivät aina ole yhtä puhtaita kuin satunnaistetuilla kokeilla, ja sisällön lisääminen olisi ollut logistisesti vaikeampaa toteuttaa kuin sisällön estäminen. Niinpä näiden muutosten ehdottaminen ei ollut toisaalta muiden tutkijoiden päätöksiä. Sen sijaan se kuvasi, kuinka kolme R: tä voitaisiin soveltaa realistisessa tilanteessa. Itse asiassa kompromissien kysymys tulee koko ajan tutkimuksen suunnitteluun ja digitaaliaikaan näillä kompromisseilla on entistä enemmän eettisiä näkökohtia. Myöhemmin luvussa 6 esitän joitakin periaatteita ja eettisiä kehyksiä, jotka voivat auttaa tutkijoita ymmärtämään ja keskustelemaan näistä kompromisseista.