4.6.2 Изградба на етиката во вашиот дизајн: замени, рафинирајте и намалете

Направете вашиот експеримент похуман со замена на експерименти со не-експериментални студии, рафинирање на третмани, и намалување на бројот на учесници.

Вториот дел од советот што би сакал да го понудиме за дизајнирање на дигитални експерименти се однесува на етиката. Како што експериментот Restivo и van de Rijt на експлозијата на багнарните станици на Википедија покажува, намалените трошоци значи дека етиката ќе стане повеќе важен дел од истражувачкиот дизајн. Освен етичките рамки што ги водат истражувањата на човечки субјекти кои ќе ги опишам во поглавјето 6, истражувачите кои дизајнираат дигитални експерименти, исто така, можат да се потпрат на етички идеи од различен извор: етичките принципи развиени за да ги водат експериментите со животни. Особено, во нивната историска книга Принципи на хуманата експериментална техника , Russell and Burch (1959) предложија три принципи кои треба да ги водат истражувањата на животните: да ги замени, да ги усоврши и намали. Би сакал да предложам дека и овие три Р може исто така да се користат - во малку модифицирана форма - за да го водат дизајнот на човечки експерименти. Особено,

  • Замени: Заменете ги експериментите со помалку инвазивни методи, ако е можно.
  • Прочисти: Направете го третманот за да се направи што е можно поштетно.
  • Намали: намалете го бројот на учесници во вашиот експеримент што е можно повеќе.

Со цел да ги направат овие три конкретни R и да покажат како тие потенцијално можат да доведат до подобар и похуман експериментален дизајн, јас ќе го опишам експериментот на интернет, кој генерира етичка дебата. Потоа, јас ќе опишам како трите R's предлагаат конкретни и практични промени во дизајнот на експериментот.

Една од најетички дебатираните дигитални експерименти беше спроведена од Адам Крамер, Џејми Гилрој и Џефри Хенкок (2014) и е наречена "Емоционална контагија". Експериментот се одржа на Фејсбук и беше мотивиран од мешавина од научни и практични прашања. Во тоа време, доминантниот начин на кој корисниците комуницираа со Фејсбук беше News Feed, алгоритамски кутриот сет на ажурирани статуси на Фејсбук од пријатели на Фејсбук. Некои критичари на Фејсбук сугерираа дека поради тоа што News Feed има претежно позитивни мислења - пријатели кои ја покажуваат својата последна забава - тоа би можело да предизвика корисниците да се чувствуваат тажни, бидејќи нивните животи се чинеше помалку возбудливи во споредба. Од друга страна, можеби ефектот е токму спротивното: можеби гледате дека вашиот пријател има добро време, ќе ве натера да се чувствувате среќно. Со цел да ги решиме овие натпреварувачки хипотези - и да го унапредиме нашето разбирање за тоа како емоциите на една личност се погодени од емоциите на нејзините пријатели - Крамер и неговите колеги трчаа по експеримент. Тие ставија околу 700.000 корисници во четири групи во текот на една недела: група "намалена негативност", за кого мислењата со негативни зборови (на пр. "Тажно") беа случајно блокирани да се појавуваат во вестите за вести; група за "позитивно влијание" за кого мислењата со позитивни зборови (на пример, "среќни") беа случајно блокирани; и две контролни групи. Во контролната група за групата "намалена негативност" мислењата беа случајно блокирани со иста стапка како и групата "намалена негативност", но без оглед на емотивната содржина. Контролната група за групата со "позитивно влијание" беше изградена паралелно. Дизајнот на овој експеримент покажува дека соодветната контролна група не е секогаш без промени. Наместо тоа, понекогаш, контролната група добива третман со цел да создаде прецизна споредба што бара истражување. Во сите случаи, постовите кои беа блокирани од News Feed беа сè уште достапни за корисниците преку други делови на Фејсбук веб-страницата.

Крамер и неговите колеги откриле дека за учесниците во состојбата со намалена позитивност, процентот на позитивни зборови во нивниот статус се намалува и процентот на негативни зборови се зголемува. Од друга страна, за учесниците во состојбата со намалена негативност се зголеми процентот на позитивни зборови, а негативните зборови се намалија (слика 4.24). Сепак, овие ефекти беа прилично мали: разликата во позитивните и негативните зборови меѓу третманите и контролите беше околу 1 од 1.000 зборови.

Слика 4.24: Докази за емоционална зараза (Крамер, Гилори и Хенкок 2014). Учесниците во состојбата со намалена негативност користеа помалку негативни зборови и попозитивни зборови, а учесниците во состојбата со намалена позитивност користеа повеќе негативни зборови и помалку позитивни зборови. Балоните претставуваат проценети стандардни грешки. Адаптиран од Kramer, Guillory и Hancock (2014), слика 1.

Слика 4.24: Докази за емоционална зараза (Kramer, Guillory, and Hancock 2014) . Учесниците во состојбата со намалена негативност користеа помалку негативни зборови и попозитивни зборови, а учесниците во состојбата со намалена позитивност користеа повеќе негативни зборови и помалку позитивни зборови. Балоните претставуваат проценети стандардни грешки. Адаптиран од Kramer, Guillory, and Hancock (2014) , слика 1.

Пред да разговарам за етичките прашања покренати од овој експеримент, би сакал да опишам три научни прашања користејќи некои од идеите од порано во ова поглавје. Прво, не е јасно како вистинските детали на експериментот се поврзуваат со теоретските тврдења; со други зборови, постојат прашања за изградба на валидност. Не е јасно дека позитивните и негативните броеви на зборови се всушност добар показател за емотивната состојба на учесниците, бидејќи (1) не е јасно дека зборовите што луѓето ги објавуваат се добар индикатор за нивните емоции и (2) не е јасно дека посебната техника на анализа на расположението што ја користеле истражувачите е во состојба сигурно да заклучи емоции (Beasley and Mason 2015; Panger 2016) . Со други зборови, може да има лоша мерка на пристрасен сигнал. Второ, дизајнот и анализата на експериментот ни кажува за тоа кој бил најмногу погоден (т.е. нема анализа на хетерогеноста на ефектите од третманот) и кој механизам може да биде. Во овој случај, истражувачите имаа многу информации за учесниците, но тие во суштина беа третирани како додатоци во анализата. Трето, големината на ефектот во овој експеримент беше многу мала; разликата помеѓу третманот и контролните услови е околу 1 од 1.000 зборови. Во својот труд, Крамер и неговите колеги го сметаат случајот дека ефектот од оваа големина е важен, бидејќи стотици милиони луѓе секојдневно пристапуваат до нивните вести. Со други зборови, тие тврдат дека дури и ако ефектите се мали за секој човек, тие се големи во агрегат. Дури и ако требаше да го прифатиме овој аргумент, сè уште не е јасно дали ефектот од оваа големина е важен во врска со поопшто научното прашање за ширењето на емоциите (Prentice and Miller 1992) .

Освен овие научни прашања, само неколку дена по објавувањето на овој труд во Зборникот на Националната академија на науките , имаше огромен протест и од истражувачите и од печатот (повеќе ќе ги опишам аргументите во оваа дебата во поглавје 6 ). Прашањата покренати во оваа дебата предизвикаа списанието да објави ретка "уредувачка израз на загриженост" во врска со етиката и процесот на етичко разгледување на истражувањето (Verma 2014) .

Со оглед на позадината во врска со емоционалната контагија, сега би сакал да покажам дека трите Р може да сугерираат конкретни, практични подобрувања за вистински студии (што и да размислувате лично за етиката на овој конкретен експеримент). Првиот R е заменет : истражувачите треба да бараат да ги заменат експериментите со помалку инвазивни и ризични техники, ако е можно. На пример, наместо да се изврши рандомизиран контролиран експеримент, истражувачите би можеле да експлоатираат природен експеримент . Како што е опишано во поглавјето 2, природните експерименти се ситуации во кои нешто се случува во светот, кое приближува до случајната распределба на третманите (на пример, лотарија за да одлучи кој ќе биде подготвен во војската). Етичката предност на природниот експеримент е дека истражувачот не мора да дава третмани: околината тоа го прави за вас. На пример, речиси истовремено со експериментот Емоционална контазија, Lorenzo Coviello et al. (2014) го искористија она што може да се нарече емотивен природен експеримент. Ковиел и неговите колеги откриле дека луѓето објавуваат повеќе негативни зборови и помалку позитивни зборови во деновите кога врне. Затоа, со користење на случајни варијации во времето, тие беа во можност да го проучат ефектот на промените во News Feed без потреба да интервенираат воопшто. Беше како да времето го водеше нивниот експеримент за нив. Деталите за нивната постапка се малку комплицирани, но најважната точка за нашите цели овде е дека со користење на природен експеримент, Coviello и неговите колеги успеале да научат за ширењето на емоциите без потреба да го водат својот експеримент.

Вториот од трите РС се рафинира : истражувачите треба да бараат да ги насочат своите третмани за да ги направат што е можно повеќе безопасни. На пример, наместо блокирање на содржини кои беа или позитивни или негативни, истражувачите можеа да ја зголемат содржината која беше позитивна или негативна. Овој зајакнат дизајн би ја сменил емотивната содржина на вестите за вести на учесниците, но тоа ќе се осврне на една од загриженоста што критичарите изразија: дека експериментите би можеле да предизвикаа учесниците да пропуштаат важни информации во нивните News Feed. Со дизајнот што го користат Крамер и неговите колеги, пораката што е важна е веројатно дека ќе биде блокирана како онаа што не е. Сепак, со зголемување на дизајнот, пораките кои ќе бидат поместени ќе бидат оние кои се помалку важни.

Конечно, третиот R е намален : истражувачите треба да бараат да го намалат бројот на учесници во нивниот експеримент на минимум потребен за постигнување на нивната научна цел. Во аналогните експерименти, ова се случило природно поради високите варијабилни трошоци на учесниците. Но, во дигиталните експерименти, особено оние со нула варијабилна цена, истражувачите не се соочуваат со ограничување на трошоците за големината на нивниот експеримент, а тоа има потенцијал да доведе до непотребно големи експерименти.

На пример, Крамер и неговите колеги можеле да ги искористат пред-третманските информации за своите учесници - како што е однесувањето на пост-третман - за да се направи нивната анализа поефикасна. Поконкретно, наместо да се споредува процентот на позитивни зборови во условите за лекување и контрола, Крамер и неговите колеги можеле да ја споредат промената на процентот на позитивни зборови меѓу условите; пристап кој понекогаш се нарекува мешан дизајн (слика 4.5), а понекогаш се нарекува оцена разлики во разлики. Тоа е, за секој учесник, истражувачите би можеле да создадат резултат на промени (однесување за предтретманското однесување \(-\) ), а потоа ќе ги спореди резултатите од промената на учесниците во третманот и контролните услови. Овој пристап разлики во разликите е поефикасен статистички, што значи дека истражувачите можат да ја постигнат истата статистичка доверба користејќи многу помали примероци.

Без да се имаат сурови податоци, тешко е да се знае точно колку е поефикасно оценувачот на разлики во разликите во овој случај. Но, можеме да погледнеме и други сродни експерименти за груба идеја. Deng et al. (2013) објавија дека со користење на форма на проценката разлики-во-разлики, тие можеле да ја намалат варијансата на нивните проценки за околу 50% во три различни онлајн експерименти; слични резултати се пријавени од страна на Xie and Aurisset (2016) . Ова намалување на варијансата од 50% значи дека истражувачите на Емоционалната контагија можеби биле во можност да го намалат својот примерок на половина, ако користеле малку поинаков метод на анализа. Со други зборови, со мала промена во анализата, 350.000 луѓе можеби биле поштедени од учеството во експериментот.

Во овој момент, можеби ќе се прашувате зошто истражувачите треба да се грижат ако 350.000 луѓе не се неопходни во Емоционалната контагинација. Постојат две посебни карактеристики на Емоционалната контагија што се грижат за прекумерна големина соодветна и овие карактеристики ги делат многу дигитални експерименти: 1) постои неизвесност околу тоа дали експериментот ќе предизвика штета на барем некои учесници и 2) учество не беше доброволно. Се чини разумно да се обиде да ги задржи експериментите што ги имаат овие карактеристики колку што е можно помали.

За да бидете јасни, желбата да се намали големината на вашиот експеримент не значи дека не треба да се извршуваат големи, нулта варијабилни експерименти. Тоа само значи дека вашите експерименти не треба да бидат поголеми отколку што треба да ја постигнете вашата научна цел. Еден важен начин да се осигура дека експериментот е соодветно големина е да се спроведе анализа на моќ (Cohen 1988) . Во аналогната возраст, истражувачите обично правеа анализа на моќта за да се осигураат дека нивната студија не е премногу мала (т.е. недоволна). Сега, сепак, истражувачите треба да направат анализа на моќта за да осигурат дека нивната студија не е премногу голема (т.е.

Како заклучок, трите R's-replace, refine и да ги намалат-обезбедат принципи кои можат да им помогнат на истражувачите да градат етика во нивните експериментални дизајни. Се разбира, секоја од овие можни промени во Емоционалната контагија воведува размени. На пример, доказите од природните експерименти не се секогаш чисти како оние од рандомизираните експерименти, а зголемување на содржината можеби е логистички потешко да се имплементира отколку блокирање на содржини. Значи, целта на сугерирањето на овие промени не била да се претпостават одлуките на другите истражувачи. Наместо тоа, требаше да се илустрира како три R-овите можат да се применат во реална ситуација. Всушност, прашањето на компромиси се појавува цело време во дизајнот на истражувањето, а во дигиталната ера овие овие размени ќе сé повеќе ги вклучуваат етичките размислувања. Подоцна, во поглавјето 6, ќе понудам некои принципи и етички рамки кои можат да им помогнат на истражувачите да разберат и да дискутираат за овие размени.