4.6.2 Замінити, уточнити і зменшити

Цей переклад був створений за допомогою комп'ютера. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.6.2 Замінити, уточнити і зменшити

Зробіть свій експеримент більш гуманним шляхом заміни експериментів з не-експериментальних досліджень, уточнення методів лікування, а також скорочення числа учасників.

Друга порада, який я хотів би запропонувати про розробку цифрових експериментів відноситься до етики. Як експеримент Restivo і ван де Rijt на barnstars в Вікіпедії показує, зниження витрат означає, що етика буде ставати все більш важливою частиною дослідницького проекту. Крім етичних рамок керівних людей в якості суб'єктів дослідження, які я опишу в главі 6, дослідники проектування цифрових експериментів можуть також спиратися на етичні ідеї з іншого джерела: етичні принципи, розроблені, щоб вести експерименти з тваринами. Зокрема, у своїй знаковій книзі Принципи гуманної експериментальної техніки, Russell and Burch (1959) запропонував три принципи , які повинні спрямовувати дослідження на тварин: Замінити, уточнюють і Reduce. Я хотів би запропонувати, що ці три R також може бути використаний в злегка зміненій формі для керівництва дизайн людських експериментів. Зокрема,

Замінити: замінити експерименти з менш інвазивних методів, якщо це можливо
Уточніть: Уточніть лікування, щоб зробити його максимально нешкідливим, наскільки це можливо
Скорочення: Скорочення числа учасників експерименту якомога більше

Для того, щоб зробити бетон ці три R і показати, як вони можуть потенційно привести до кращого і більш гуманного експерименту, я буду описувати експеримент онлайн поле, яке створило дискусії з етичних питань. Тоді я буду описувати, як три R припускають конкретні і практичні зміни в дизайні експерименту.

Одним з найбільш обговорюваних експериментів з етичної точки зору цифрових польових є "Емоційний Зараження" , який був проведений Адам Крамер, Джеймі Gillroy і Джеффрі Hancock (2014) . Експеримент проходив на Facebook і було мотивовано поєднанням наукових і практичних питань. У той час домінуючим способом, що користувачі взаємодіяли з Facebook був News Feed, алгоритмічно куратором набір оновлень статусу Facebook з друзів користувача Facebook. Деякі критики Facebook припустив, що оскільки Стрічка новин має в основному позитивні повідомлення-друзів, хвалиться свою останню партію, це може привести до користувачів відчувати себе сумно, тому що їхнє життя здається менш захоплюючим в порівнянні. З іншого боку, може бути, ефект якраз навпаки; може бути, бачачи свого друга, що має гарний час зробить вас почувати себе щасливим? Для вирішення цих конкуруючих гіпотез і для просування нашого розуміння того, як емоції людини знаходяться під впливом своїх друзів емоцій-Крамер і його колеги запустили експеримент. Дослідники розміщено близько 700 000 користувачів на чотири групи протягом одного тижня: в "негативність" зменшений групу, для яких повідомлення з негативними словами (наприклад, сумно) були випадковим чином заблоковані від появи Стрічці новин; А "позитивності зменшений" група, для яких повідомлення з позитивними словами (наприклад, щасливі) були випадковим чином заблоковані; і дві контрольні групи. У контрольній групі для групи "негативу" зменшується, пости були випадковим чином заблоковані з тією ж швидкістю, що і група "негативу" знижується, але без урахування емоційного змісту. Контрольна група для групи "позитивності зменшується" була побудована в паралельній моді. Конструкція цього експерименту показує, що відповідна контрольна група, не завжди одне без будь-яких змін. Швидше за все, іноді контрольна група отримує лікування, з тим щоб створити точне порівняння, що питання дослідження вимагає. У всіх випадках, пости, які були заблоковані через стрічки новин і раніше доступні користувачам через інші частини веб-сайту Facebook.

Крамер і його колеги виявили, що для учасників позитивності зменшується стан, відсоток позитивних слів в їх оновленні статусу зменшується, а відсоток негативних слів збільшилася. З іншого боку, для учасників негативність зменшений стані, відсоток позитивних слів збільшився і відсоток негативних слів зменшується (рис 4.23). Проте, ці ефекти були дуже малі: різниця в позитивних і негативних слів між курсами лікування і контролю було близько 1 в 1000 слів.

Малюнок 4.23: Дані емоційного зарази (Kramer, Гиллори і Hancock 2014 року). Відсоток позитивних слів і негативних слів експериментальним умовою. Стовпчики показують приблизну суму стандартних помилок.

Малюнок 4.23: Дані емоційного зарази (Kramer, Guillory, and Hancock 2014) . Відсоток позитивних слів і негативних слів експериментальним умовою. Стовпчики показують приблизну суму стандартних помилок.

Я поклав обговорення наукових аспектів цього експерименту в подальшому секції читання в кінці глави, але, на жаль, цей експеримент є найвідомішим для створення етичної дискусії. Всього через кілька днів після того, як ця стаття була опублікована в Працях Національної академії наук, був величезний резонанс від дослідників і преси. Обурення навколо паперу зосереджені на двох основних моментах: 1) учасники не надали будь-яких згоду крім стандартних умов терміну служби Facebook для лікування, що деякі думки може завдати шкоди учасникам і 2) дослідження не піддалися третьої сторони етичної огляд (Grimmelmann 2015) . Етичні питання , підняті в ході цієї дискусії викликали журнал швидко опублікувати рідкісний "редакційний вираз стурбованості" про етику і етичного процесу огляду для дослідження (Verma 2014) . У наступні роки експеримент продовжує бути джерелом інтенсивних дебатів і розбіжностей, і це незгода , можливо, мали ненавмисний ефект водіння в тіні багато інших експериментів, які виконуються компаніями (Meyer 2014) .

З огляду на, що фон про Емоційного Contagion, зараз я хотів би показати, що 3 R може запропонувати конкретні, практичні удосконалення для реальних досліджень (всі, що ви могли б особисто думати про етику даного конкретного експерименту). Перший R є заміна: дослідники повинні прагнути замінити експерименти з менш інвазивних і ризикованих методів, якщо це можливо. Наприклад, замість проведення експерименту, дослідники могли б експлуатувати природний експеримент. Як описано в розділі 2, природні експерименти бувають ситуації, коли щось відбувається в світі, який апроксимує випадкове призначення лікування (наприклад, лотерея, щоб вирішити, хто буде покликаний на військову службу). Перевага природного експерименту є те, що дослідник не повинен доставляти лікування; середовище робить це для вас. Іншими словами, з природним експериментом, не потребували б дослідники експериментально маніпулювати людей Стрічки новин.

Насправді, майже одночасно з емоційним експериментом Зараження, Coviello et al. (2014) і Coviello et al. (2014) експлуатує то , що можна було б назвати емоційною Зараження природний експеримент. Їх підхід, який використовує технологію, звану інструментальних змінних, трохи складніше, якщо ви ніколи не бачили його раніше. Отже, для того, щоб пояснити, чому це було необхідно, давайте будувати до нього. Перша думка, що деякі дослідники, можливо, доведеться вивчити емоційне зараження було б порівняти свої повідомлення в ті дні, коли ваші News Feed дуже позитивно на ваші пости в ті дні, коли ваш Стрічка новин був дуже негативним. Такий підхід був би добре, якщо метою було просто передбачити емоційний зміст ваших постів, але такий підхід є проблематичним, якщо мета полягає в тому, щоб вивчити причинно-наслідковий зв'язок вашої Стрічці новин на ваші повідомлення. Щоб побачити проблему з цим проектом, вважають День Подяки. У США, позитивні повідомлення шип і негативні повідомлення схил на День подяки. Таким чином, на День подяки, дослідники могли бачити, що ваші News Feed була дуже позитивною, і що ви писали позитивні речі. Але, ваші позитивні повідомлення могли бути викликані подяки не змістом вашій стрічці новин. Замість того, щоб оцінити причинно-наслідкового зв'язку дослідники потрібно щось, що змінює зміст вашій стрічці новин без прямого зміни свої емоції. На щастя, є щось подібне відбувається весь час: від погодних умов.

Coviello і його колеги виявили, що в дощовий день в чиємусь місті, в середньому, зменшити частку посад, які є позитивними приблизно на 1 процентний пункт і збільшити частку посад, які є негативними приблизно на 1 процентний пункт. Потім Coviello і його колеги експлуатують цей факт для вивчення емоційного зараження без необхідності експериментально маніпулювати нічиїм News Feed. По суті справи, що вони зробили це міра, як ваші пости були порушені погодою в містах, де живуть ваші друзі. Щоб зрозуміти, чому це має сенс, уявіть, що ви живете в Нью-Йорку і у вас є друг, який живе в Сіетлі. Тепер уявіть, що в один прекрасний день починається дощ в Сіетлі. Цей дощ в Сіетлі НЕ буде безпосередньо впливати на ваш настрій, але це призведе до того, Стрічка новин, щоб бути менш позитивним і більш негативним через постів вашого друга. Таким чином, дощ в Сіетлі випадковим чином маніпулює ваш News Feed. Включення цієї інтуїції в надійної статистичної процедури ускладнюється (і точний підхід, який використовується Coviello і його колеги трохи нестандартним), так що я помістив більш докладне обговорення в подальшому розділі читання. Найголовніше, щоб пам'ятати про Coviello і підхід колеги, що це дозволило їм вивчити емоційну зарази без необхідності провести експеримент, який потенційно може завдати шкоди учасникам, і це може бути так, що в багатьох інших параметрів, які можна замінити експерименти з іншими методи.

По- друге , в 3 -х Rs є Уточнити: дослідники повинні прагнути удосконалювати свої процедури для того , щоб заподіяти найменшу шкоду можливо. Наприклад, замість блокування контенту, який був позитивним або негативним, дослідники могли б збільшили зміст, яке було позитивним або негативним. Це підвищення дизайн змінило б емоційний зміст учасників новинні видання, але було б звернувся один з побоювань, що критики висловили: що експерименти могли викликати учасників пропустити важливу інформацію в своїй стрічці новин. У конструкції використовується Крамер і його колеги, повідомлення, що важливо те, як може бути заблокований, як той, який не є. Проте, з підвищувальної дизайном, повідомлення, які будуть зміщуватися будуть ті, які є менш важливими.

І, нарешті, третій R є Скорочення: дослідники повинні прагнути до скорочення числа учасників в їхньому експерименті, якщо це можливо. У минулому це скорочення відбулося природним чином, так як змінна вартість аналогових експериментів була високою, що рекомендується дослідження з метою оптимізації їх конструкції і аналізу. Проте, коли є нульові змінні дані про витрати, дослідники не стикаються з точки зору витрат обмеження на розмір свого експерименту, і це потенційно може призвести до невиправдано великих експериментів.

Наприклад, Крамер і його колеги могли б використовувати інформацію для попередньої обробки про їх учасників, такі як попередня обробка проводки поведінки-щоб зробити їх аналіз більш ефективним. Більш конкретно, замість того , щоб порівнювати співвідношення позитивних слів в лікуванні і контрольних умовах, Крамер і його колеги змогли порівняли зміну частки позитивних слів між умовами; підхід часто називають відмінності-в-відмінностях і які тісно пов'язані з змішаної конструкції, яку я описав раніше в цьому розділі (рис 4.5). Тобто, для кожного учасника, дослідники могли б створити рахунок зміни (поведінки після лікування - поведінка попередньої обробки), а потім порівняли зміни оцінки учасників в лікуванні і контрольних умовах. Ця різниця-в-відмінностях підхід є більш ефективним, статистично, що означає, що дослідники можуть досягти тієї ж статистичної достовірності, використовуючи набагато менші проби. Іншими словами, не лікування учасників, як "віджетів", дослідники часто можна отримати більш точні оцінки.

Не маючи вихідних даних, важко точно знати, скільки більш ефективним різниця-в-відмінностях підхід був би в цьому випадку. Але, Deng et al. (2013) і Deng et al. (2013) повідомили , що в трьох онлайнових експериментів по пошуковій системі Bing вони змогли зменшити дисперсію оцінок їх приблизно на 50%, і аналогічні результати були отримані для деяких онлайн експериментів на Netflix (Xie and Aurisset 2016) . Це 50% зменшення дисперсії означає, що Емоційні дослідники зарази, можливо, були в стані скоротити їх зразок навпіл, якщо вони використовували кілька різних методів аналізу. Іншими словами, з крихітним зміни в аналізі, 350000 люди могли б уникнути участі в експерименті.

На цьому етапі ви можете бути здивовані, чому дослідники повинні дбати, якщо 350.000 людей були в емоційному Contagion зайве. Є дві особливості емоційного Contagion, які роблять заклопотаність у зв'язку з надмірним розміру необхідно, і ці особливості є загальними для багатьох цифрових польових експериментів: 1) існує невизначеність щодо чи експеримент заподіяти шкоду, принаймні деяких учасників і 2) участь не було на добровільній основі. В експериментах з цими двома характеристиками, представляється доцільним зберегти експерименти якомога менше.

На закінчення, три R's-Замінити, пошуку і згортка-містять принципи, які можуть допомогти дослідникам побудувати етику в свої експериментальні плани. Звичайно, кожен з цих можливих змін до емоційного Contagion вводить компромісні. Наприклад, дані з природних експериментів не завжди настільки ж чистими, як дані рандомізованих експериментів і підвищення могло б бути більш логістично важко реалізувати, ніж блок. Таким чином, мета пропонуючи ці зміни не передбачати вирішення інших дослідників. Швидше за все, це повинно було показати, як три R могла б бути застосована в реальній ситуації.