4.6.2 Побудова етики у вашому дизайні: замінити, уточнити та зменшити

Цей переклад був створений за допомогою комп'ютера. ×

4.6.2 Побудова етики у вашому дизайні: замінити, уточнити та зменшити

Зробіть свій експеримент більш гуманним шляхом заміни експериментів з не-експериментальних досліджень, уточнення методів лікування, а також скорочення числа учасників.

Другий розділ порад, який я хотів би запропонувати щодо розробки цифрових експериментів, стосується етики. Як показує експеримент Restivo та van de Rijt на сайті barnstars у Вікіпедії, зниження вартості означає, що етика стане все більш важливою частиною дизайну досліджень. На додаток до етичних рамок, що керують дослідженнями досліджень людських предметів, описаних у розділі 6, дослідники, які розробляють цифрові експерименти, можуть також використовувати етичні ідеї з іншого джерела: етичні принципи, розроблені для проведення експериментів із залученням тварин. Зокрема, в їхній знаковою книзі " Принципи гуманної експериментальної техніки" Russell and Burch (1959) запропонували три принципи, які повинні керувати дослідженнями тварин: замінити, уточнювати та зменшувати. Я хотів би запропонувати, щоб ці три R також могли бути використані - у трохи модифікованому вигляді, щоб керувати дизайном людських експериментів. Зокрема,

Замінити: замінити експерименти менш інвазивними способами, якщо це можливо.
Уточнити: уточнити процедуру, щоб зробити її максимально безпечною.
Зменшити: зменшити кількість учасників експерименту якомога більше.

Для того, щоб зробити ці три Р конкретні і показати, як вони потенційно можуть призвести до кращого та більш гуманного експериментального дизайну, я опишу онлайн експеримент, який породив етичні дебати. Потім я розповім про те, як три R пропонують конкретні та практичні зміни в дизайні експерименту.

Один з найбільш етично обговорюваних цифрових польових експериментів був проведений Адамом Крамером, Джеймі Гілрой та Джефрі Хенкоком (2014) І став називатися «Емоційна інфекція». Експеримент проходив на Facebook, і був мотивований сумішшю наукових і практичні питання. У той час домінуючим способом взаємодії користувачів із Facebook було Feed Feed, алгоритмічно куративний набір оновлень статусу Facebook від друзів Facebook користувача. Деякі критики Facebook стверджували, що, оскільки Feed Feed містить в основному позитивні друзі, які демонструють свою останню вечірку, це може спричинити сумніви користувачів, оскільки їх життя здавалося менш захоплюючим у порівнянні. З іншого боку, можливо, ефект - саме наоборот: може, бачачи, що ваш друг добре проведе час, змусить вас почувати себе щасливими. Щоб вирішити ці конкуруючі гіпотези, а також просувати наше розуміння того, як емоції людини впливають на емоції своїх друзів, Крамер та його колеги провели експеримент. Вони розмістили близько 700 тисяч користувачів у чотири групи протягом тижня: група "зменшена негативність", для якої повідомлення з негативними словами (наприклад, "сумно") були випадково заблоковані, щоб вони не з'являлися в каналі новин; група "зменшена позитивність", для якої повідомлення з позитивними словами (наприклад, "щасливі") були випадково заблоковані; і дві контрольні групи. У контрольній групі групи "зменшена негативність" повідомлення випадковим чином блокувалися з тією ж швидкістю, що і "група зменшеної негативності", але без урахування емоційного змісту. Контрольна група групи "зменшена позитивність" була побудована паралельно. Дизайн цього експерименту показує, що відповідна контрольна група не завжди є без змін. Іноді, контрольова група отримує лікування, щоб створити точне порівняння, яке вимагає дослідження. У всіх випадках публікації, заблоковані в каналі новин, все ще були доступні користувачам через інші частини веб-сайту Facebook.

Крамер та його колеги встановили, що для учасників зниженої позитивної стану відсоток позитивних слів у їх статусі зменшується, а відсоток негативних слів збільшується. З іншого боку, для учасників зменшеної негативної стану, частка позитивних слів збільшилася, а кількість негативних слів зменшилась (рис 4.24). Проте ці ефекти були досить невеликими: різниця між позитивними та негативними словами між лікуванням та контролем становила приблизно 1 з 1000 слів.

Малюнок 4.24: Докази емоційної зараження (Крамер, Гільйорі та Хенкок, 2014 рік). Учасники в умовах зменшеної негативності використовували менше негативних слів та більше позитивних слів, а учасники в умовах зменшення позитивності використовували більше негативних слів та менше позитивних слів. Бари представляють розрахункові стандартні помилки. Адаптовано з Крамера, Гільйора та Хенкока (2014), малюнок 1.

Малюнок 4.24: Докази емоційної зараження (Kramer, Guillory, and Hancock 2014) . Учасники в умовах зменшеної негативності використовували менше негативних слів та більше позитивних слів, а учасники в умовах зменшення позитивності використовували більше негативних слів та менше позитивних слів. Бари представляють розрахункові стандартні помилки. Адаптовано з Kramer, Guillory, and Hancock (2014) , малюнок 1.

Перш ніж обговорити етичні питання, поставлені в цьому експерименті, я хотів би описати три наукові проблеми, використовуючи деякі ідеї, викладені раніше в розділі. По-перше, незрозуміло, як фактичні деталі експерименту підключаються до теоретичних претензій; Іншими словами, є питання про дійсність конструкції. Незрозуміло, що позитивний та негативний підрахунок слів насправді є хорошим показником емоційного стану учасників, оскільки (1) незрозуміло, що слова, які публікують люди, є хорошим показником їх емоцій та (2) це не є Ясно, що методика аналізу особливостей настроїв, яку використовують дослідники, здатна достовірно визначати емоції (Beasley and Mason 2015; Panger 2016) . Іншими словами, може бути погана міра зміщення сигналу. По-друге, розробка та аналіз експерименту не дають нам нічого про те, хто найбільше вплинув (тобто немає аналізу гетерогенності ефектів лікування) і яким може бути механізм. У цьому випадку дослідники мали велику кількість інформації про учасників, але в основному вони розглядались як віджети в аналізі. По-третє, розмір ефекту в цьому експерименті був дуже невеликим; різниця між режимами лікування та контрольними умовами становить близько 1 з 1000 слів. У своїй роботі Крамер та його колеги роблять випадок, що ефект такого розміру є важливим, оскільки сотні мільйонів людей отримують доступ до свого каналу новин щодня. Іншими словами, вони стверджують, що навіть якщо ефекти для кожної людини невеликі, вони сукупні. Навіть якщо б ви погодились з цим аргументом, поки незрозуміло, чи вплив такого розміру є важливим для більш загального наукового питання про поширення емоцій (Prentice and Miller 1992) .

На додаток до цих наукових питань, через декілька днів після опублікування цього документа у працях Національної академії наук , величезний протест був як від дослідників, так і від преси (я опишу аргументи в цій дискусії більш докладно в розділі 6 ) Питання, порушені в цій дискусії, змусили журнал опублікувати рідкісне "редакційне вираження стурбованості" щодо етики та етичного огляду досліджень (Verma 2014) .

Враховуючи цей фон про емоційну інфекцію, я хотів би показати, що три Р. можуть запропонувати конкретні, практичні поліпшення для реальних досліджень (що б ви особисто не думаєте про етику цього конкретного експерименту). Перший R замінює : дослідники повинні прагнути замінити експерименти менш інвазивними та ризикованими методами, якщо це можливо. Наприклад, замість того, щоб керувати рандомізованим контрольованим експериментом, дослідники могли використати природний експеримент . Як описано у главі 2, природні експерименти - це ситуації, коли щось відбувається у світі, який наближає випадкове призначення лікування (наприклад, лотерея, щоб вирішити, хто буде складатися з військових). Етична перевага природного експерименту полягає в тому, що дослідник не повинен проводити лікування: навколишнє середовище це для вас. Наприклад, майже одночасно з експериментом з емоційної інфекції, Lorenzo Coviello et al. (2014) Експлуатували те, що можна назвати природним експериментом з емоційної інфекції. Ковіелло та його колеги виявили, що люди публікують більше негативних слів і менше позитивних слів у ті дні, коли йде дощ. Тому, використовуючи довільну варіацію погоди, вони змогли вивчити вплив змін у каналі новин без взаємодії. Схоже, що погода проводила для них експеримент. Деталі їх процедури трохи складні, але найважливішим моментом для наших цілей тут є те, що, використовуючи природний експеримент, Ковіелло та його колеги змогли дізнатися про поширення емоцій без необхідності проводити власний експеримент.

Другий з трьох Rs уточнюється : дослідники повинні прагнути вдосконалити свої процедури, щоб зробити їх максимально безпечними. Наприклад, замість блокування контенту, який був позитивним чи негативним, дослідники могли б покращити вміст, який був позитивним чи негативним. Цей підсилювальний дизайн змінив емоційний зміст каналів новин учасників, але він міг би вирішувати одну із занепокоєння критиків, що експерименти могли призвести до втрати важливою інформацією учасників у каналі новин. З дизайном, що використовує Крамер та його колеги, важливе повідомлення, як видається, буде заблоковано як таке, що не є. Проте, при спрощеному дизайні, повідомлення, які будуть витіснені, будуть такими, що є менш важливими.

Нарешті, третій R зменшується : дослідники повинні прагнути зменшити кількість учасників свого експерименту до мінімуму, необхідного для досягнення своєї наукової мети. У аналогових експериментах це відбулося, природно, через високі змінні витрати учасників. Але в цифрових експериментах, особливо тих, які мають нульові перемінні витрати, дослідники не стикаються з обмеженими витратами на розмір свого експерименту, і це може привести до необгрунтованих великих експериментів.

Наприклад, Крамер та його колеги могли б використовувати попередні дані про своїх учасників, наприклад, про поведінку, пов'язану із попередньою обробкою, щоб підвищити ефективність їх аналізу. Більш конкретно, ніж порівнювати частку позитивних слів у умовах лікування та контролю, Крамер та його колеги могли порівняти зміну частки позитивних слів між умовами; підхід, який іноді називають змішаним дизайном (рисунок 4.5), а іноді його називають оцінкою різниці в відмінності. Тобто, для кожного учасника, дослідники могли створити оцінку зміни (поведінка до поводження з поведінкою після лікування $-$ ), а потім порівнювали результати оцінки учасників лікування та умов контролю. Цей підхід у розрізі у відмінності є більш ефективним статистично, що означає, що дослідники можуть досягти такої ж статистичної довіри, скориставшись набагато меншими зразками.

Не маючи необроблених даних, то важко точно дізнатися, наскільки ефективнішою була би оцінювач різниці в відмінності у цьому випадку. Але ми можемо розглядати інші пов'язані експерименти з грубою ідеєю. Deng et al. (2013) Повідомили, що, використовуючи форму оцінювача різниці в відмінності, вони змогли зменшити дисперсію своїх оцінок приблизно на 50% у трьох різних онлайн-експериментах; подібні результати повідомляють Xie and Aurisset (2016) . Це 50-відсоткове зниження дисперсії означає, що дослідники емоційної інфекції могли б скоротити їх вибірку наполовину, якщо б вони використовували дещо інший метод аналізу. Іншими словами, з невеликою зміною аналізу, 350 000 людей, можливо, було врятовано участь у експерименті.

На цьому етапі вам може бути цікаво, чому слід доглядати дослідників, що 350 000 чоловік були необов'язково перебуваючи в емоційній інфекції. Існує дві особливості емоційної інфекції, які становлять занепокоєння надмірним розміром, і ці функції поділяються багатьма цифровими польовими експериментами: (1) існує невизначеність щодо того, чи буде експеримент завдати шкоди хоча б деяким учасникам та (2) участь не був добровільним. Здається, розумно спробувати зберегти експерименти, які мають ці можливості максимально малі.

Щоб бути ясним, бажання зменшити розмір вашого експерименту не означає, що вам не слід запускати великі експерименти із змінною вартістю нуля. Це просто означає, що ваші експерименти не повинні бути більшими, ніж потрібно для досягнення вашої наукової мети. Один важливий спосіб переконатись, що експеримент є належним чином, провести аналіз потужності (Cohen 1988) . У аналоговому віці дослідники, як правило, проводили аналіз потужності, щоб переконатися, що їхнє дослідження було не надто малим (тобто незмінним). Тепер, однак, дослідники повинні проводити аналіз потужності, щоб переконатися, що їхнє дослідження не є надто великим (тобто надмірним).

На закінчення, три R-заміни, удосконалити та зменшити принципи, які можуть допомогти дослідникам побудувати етику у своїх експериментальних проектах. Звичайно, кожен з цих можливих змін до емоційної інфекції вводить компроміси. Наприклад, дані з природних експериментів не завжди настільки ж чисті, як у рандомізованих експериментів, і підвищення вмісту було б складніше для логістичних завдань, ніж блокування вмісту. Отже, мета запропонувати ці зміни полягала не в тому, щоб по-друге вгадати рішення інших дослідників. Швидше за все, це було проілюструвати, як можна застосувати три R в реалістичній ситуації. Фактично, питання компромісів постійно висвітлюється в дизайні наукових досліджень, і в цифровому віці ці компроміси все частіше включатимуть етичні міркування. Пізніше, у розділі 6, я пропоную деякі принципи та етичні рамки, які можуть допомогти дослідникам зрозуміти та обговорити ці компроміси.