4.6.2 Изградите етику у свој дизајн: замијените, побољшајте и смањите

Учините ваш експеримент хуманији заменом експерименте са не-експерименталних студија, прераду третмане, и смањење броја учесника.

Други савет који бих желео да понудим у вези дизајнирања дигиталних експеримената односи се на етику. Као што су Рестив и ван де Ријт експериментисали на барнстарима на Википедијиним емисијама, смањени трошкови значе да ће етика постати све важнији део дизајна истраживања. Поред етичких оквира који воде истраживање људских субјеката које ћу описати у поглављу 6, истраживачи који дизајнирају дигиталне експерименте могу се такође ослањати на етичке идеје из другог извора: етички принципи развијени за вођење експеримената који укључују животиње. Конкретно, у својој књизи " Принципи хумане експерименталне технике" , Russell and Burch (1959) предложили три принципа који би требали водити истраживања животиња: замијенити, побољшати и смањити. Желео бих да предложим да се и ова три Р-а могу користити у малом модификованом облику - како би се водио дизајн људских експеримената. Нарочито,

  • Заменити: ако је могуће замените експерименте са мање инвазивним методама.
  • Прецизирајте: Прецизирајте третман како бисте га учинили што безбједнијим.
  • Смањите: што је могуће више смањите број учесника у вашем експерименту.

Да бисмо направили ове три Р-ове бетоне и показали како могу потенцијално довести до бољег и хуманијег експерименталног дизајна, описаћу онлине експеримент на терену који је створио етичку дебату. Затим ћу описати како три Р-а предлажу конкретне и практичне промјене у дизајну експеримента.

Један од најтежих дебатних експеримената на дигиталном терену спроводили су Адам Крамер, Јамие Гуиллрои и Јеффреи Ханцоцк (2014) и назвали су "Емотионал Цонтагион". Експеримент је одржан на Фацебооку и мотивисан је мјешавином научних и практична питања. У то доба, доминантан начин на који су корисници интеракционирали са Фацебоок-ом је био Невс Феед, алгоритамски курирани скуп ажурирања статуса Фацебоок-а од пријатеља Фацебоок-а. Неки критичари Фацебоок-а сугерирали да због тога што Невс Феед има углавном позитивне постове-пријатеље који показују своју последњу партију - то би могло узроковати корисницима да се осећају тужно, јер су њихови животи изгледали мање узбудљиво у поређењу. Са друге стране, можда је ефекат управо супротан: можда видиш да се твој пријатељ добро проводи и осјећа срећним. Да бисмо се суочили са овим супротстављеним хипотезама - и унапредили наше разумевање како осећања човека утичу на емоције њених пријатеља - Крамер и колеге су покренули експеримент. Они су поставили око 700.000 корисника у четири групе у трајању од једне седмице: групу "смањена негативност", за коју су постови са негативним ријечима (нпр. "Тужни") насумично блокирани да се појављују у Невс Феед-у; група "позитивно смањена" за коју су позиције са позитивним ријечима (нпр. "срећне") насумично блокиране; и две контролне групе. У контролној групи за групу "смањена негативност" постови су насумично блокирани по истој стопи као група "смањена негативност", али без обзира на емотивни садржај. Контролна група за групу "смањеност позитивности" конструисана је паралелно. Дизајн овог експеримента илуструје да одговарајућа контролна група није увијек једна без промјена. Уместо тога, понекад, контролна група добија третман како би се створило прецизно поређење које захтева истраживачко питање. У свим случајевима, постови који су блокирани из Невс Феед-а су и даље били доступни корисницима преко других дијелова Фацебоок странице.

Крамер и колеге су открили да је за учеснике у условима смањеног позитивности смањен проценат позитивних речи у њиховом статусу, а проценат негативних речи повећан. Са друге стране, за учеснике у условима смањене негативности повећан је проценат позитивних речи и смањен негативан назив (слика 4.24). Међутим, ови ефекти су били прилично мали: разлика у позитивним и негативним речима између третмана и контрола била је око 1 од 1.000 речи.

Слика 4.24: Докази о емоционалној зарази (Крамер, Гуиллори и Ханцоцк 2014). Учесници у условима смањене негативности користили су мање негативних речи и позитивних речи, а учесници у условима смањеног позитивности користили су негативне речи и мање позитивних речи. Барови представљају процењене стандардне грешке. Прилагођено од Крамер, Гуиллори и Ханцоцк (2014), слика 1.

Слика 4.24: Докази о емоционалној зарази (Kramer, Guillory, and Hancock 2014) . Учесници у условима смањене негативности користили су мање негативних речи и позитивних речи, а учесници у условима смањеног позитивности користили су негативне речи и мање позитивних речи. Барови представљају процењене стандардне грешке. Прилагођено од Kramer, Guillory, and Hancock (2014) , слика 1.

Пре него што дискутујемо о етичким питањима покренутим овим експериментом, желео бих да опишем три научна питања која користе неке од идеја из раније у поглављу. Прво, није јасно како се стварни детаљи експеримента повезују са теоријским тврдњама; Другим ријечима, постоје питања о изградњи ваљаности. Није јасно да су позитивни и негативни бројеви ријечи заправо добар показатељ емоционалног стања учесника јер (1) није јасно да ријечи које људи постају су добар показатељ њихових емоција и (2) није јасно је да је техника анализе расположења коју су истраживачи користили способна поуздано закључити емоције (Beasley and Mason 2015; Panger 2016) . Другим речима, можда постоји лоша мера пристрасног сигнала. Друго, дизајн и анализа експеримента не говоре ништа о томе ко је највише погођен (тј. Не постоји анализа хетерогености ефеката лијечења) и какав механизам може бити. У овом случају истраживачи су имали доста информација о учесницима, али су у суштини третирани као виџети у анализи. Треће, величина ефекта у овом експерименту била је врло мала; разлика између терапије и услова контроле је око 1 од 1000 речи. У свом чланку, Крамер и колеге тврде да је ефекат ове величине важан јер стотине милиона људи приступа свакодневном новчанику. Другим ријечима, они тврде да чак и ако су ефекти мали за сваку особу, они су велики у агрегату. Чак и ако бисте прихватили овај аргумент, још увијек није јасно да ли је важност ове величине важна у односу на општије научно питање о ширењу емоција (Prentice and Miller 1992) .

Поред ових научних питања, само неколико дана након што је овај чланак објављен у Зборнику Националне академије наука , било је огромног напора и истраживача и штампе (детаљније ћу описати аргументе у овој расправи у поглављу 6 ). Питања која су покренута у овој дебати довела су до тога да часопис објављује ретко "уредничко изражавање забринутости" о етици и процесу етичког прегледа за истраживање (Verma 2014) .

С обзиром на позадину Емотионал Цонтагион-а, сада бих желео да покажем да три Р-а могу предложити конкретна, практична побољшања за праве студије (шта год да лићно мислите о етици овог одређеног експеримента). Први Р се замењује : истраживачи треба да замене експерименте са мање инвазивним и ризичним техникама, ако је могуће. На примјер, умјесто покретања рандомизираног контролисаног експеримента, истраживачи су могли искористити природни експеримент . Као што је описано у другом поглављу, природни експерименти су ситуације у којима се нешто дешава у свету које апроксимира случајно додељивање третмана (нпр. Лутрија за одлучивање о томе ко ће бити убачен у војску). Етичка предност природног експеримента је у томе што истраживач не мора да пружи третмане: то чини животна средина за вас. На пример, скоро истовремено са експериментом Емотионал Цонтагион, Lorenzo Coviello et al. (2014) су искористили оно што се може назвати природним експериментом Емотионал Цонтагион. Цовиелло и колеге су открили да људи објављују негативне речи и мање позитивних ријечи у данима гдје пада киша. Стога, користећи случајне варијације у времену, могли су да проучавају ефекат промена у Невс Феед-у без потребе да интервенишу уопште. Било је као да им време проводи свој експеримент. Детаљи о њиховом поступку су мало компликовани, али најважнија ствар у нашим намјерама јесте да су кориштењем природног експеримента Цовиелло и колеге успели да сазнају о ширењу емоција без потребе за покретањем сопственог експеримента.

Друга од три РР се прецизира : истраживачи треба да покушају да побољшају своје третмане како би их учинили што безбједнијим. На примјер, умјесто блокирања садржаја који је био позитиван или негативан, истраживачи су могли повећати садржај који је био позитиван или негативан. Овај дизајн који је појачао би променио емоционални садржај учесника у Невс Феедс-у, али би се обратио једној од бриге које су критичари изразили: да су експерименти могли проузроковати да учесници пропусте важне информације у свом Невс Феед-у. Са дизајном који користе Крамер и колеге, порука која је важна је вероватно да ће бити блокирана као она која није. Међутим, са дизајном који подстиче, поруке које би биле расељене би биле оне које су мање важне.

Коначно, трећи Р се смањује : истраживачи треба да наставе да смањи број учесника у свом експерименту на минимум који је потребан да би се постигао њихов научни циљ. У аналогним експериментима, ово се десило природно због високих варијабилних трошкова учесника. Али у дигиталним експериментима, нарочито онима са нултим варијабилним трошковима, истраживачи се не суочавају са трошковним ограничењем величине њиховог експеримента, а то има потенцијал да доведе до непотребно великих експеримената.

На пример, Крамер и колеге могли су да користе информације о претходном третману о својим учесницима - као што је понашање за постављање пред третманом - како би се њихова анализа учинила ефикаснијом. Прецизније, уместо поређења удела позитивних речи у условима третмана и контроле, Крамер и колеге могли су упоредити промену у проценту позитивних речи између услова; приступ који се понекад назива мешовитим дизајном (слика 4.5), а понекад се назива и проценитељ разлика између разлика. То јест, за сваког учесника, истраживачи су могли створити резултат промјене (понашање након лијечења) \(-\) ), а затим упоређивати резултате промјена учесника у условима лијечења и контроле. Овај разлике у разликама је ефикаснији статистички, што значи да истраживачи могу постићи исту статистичку сигурност користећи много мање узорке.

Без тога што су сирови подаци, тешко је знати тачно колико је ефикаснија процјена разлика у разликама у овом случају. Али можемо да погледамо друге повезане експерименте за грубу идеју. Deng et al. (2013) извештавали су да користећи облик процене разлика у разликама, успјели су смањити варијансу њихових процјена за око 50% у три различита онлине експеримента; Слични резултати су извијестили Xie and Aurisset (2016) . Ова 50% смањење варијансе значи да су истраживачи Емотионал Цонтагион можда били у могућности да пресецају свој узорак на пола ако су користили нешто другачији метод анализе. Другим ријечима, уз малу промјену у анализи, 350,000 људи би можда било уштеђено учешће у експерименту.

У овом тренутку, можда ћете се питати зашто истраживачи треба бринути да ли је 350.000 људи било непотребно у Емотионал Цонтагион-у. Постоје две посебне особине Емотионал Цонтагион-а који се баве прекомерном величином одговарајуће, а ове функције деле многе експерименте на дигиталном пољу: (1) постоји неизвесност у вези са тим да ли ће експеримент изазвати штету бар неким учесницима и (2) учешћу није био добровољан. Изгледа да је разумно покушати задржати експерименте који имају ове могућности што је могуће мањи.

Да будете јасни, жеља да смањите величину вашег експеримента не значи да не треба да покрећете велике експерименте са ниским променљивим цијенама. То само значи да ваши експерименти не би требали бити већи него што вам је потребно за постизање вашег научног циља. Један од важних начина да се осигура да је експеримент одговарајуће величине је проводити анализу моћи (Cohen 1988) . У аналогном добу, истраживачи су углавном вршили анализу моћи како би се уверили да њихова студија није била премала (тј. Недоступна). Сада, међутим, истраживачи треба да изврше анализу моћи како би били сигурни да њихова студија није превелика (тј. Превише напајана).

На крају, три Р'с-заменити, пречишћавати и редуковати принципе који могу помоћи истраживачима да изграде етику у својим експерименталним дизајном. Наравно, свака од ових могућих промена Емоционалне контагије уводи компромисе. На пример, докази из природних експеримената нису увијек чисти као они из рандомизираних експеримената, а повећање садржаја је можда било логистички теже имплементирати него блокирање садржаја. Дакле, сврха сугерисања ових промена није била да преговарају на одлуке других истраживача. Уместо тога, требало је да се илуструје како се три Р-а могу применити у реалној ситуацији. Заправо, питање компромиса се појављује све време у дизајну истраживања, ау дигиталном добу, ови компромиси ће све више укључивати етичка разматрања. Касније, у поглављу 6, понудићу неколико принципа и етичких оквира који могу помоћи истраживачима да разумеју и дискутују о овим компромисима.