4.6.2 Выстраивайте этику в свой дизайн: замените, уточните и уменьшите

Этот перевод был создан с помощью компьютера. ×

4.6.2 Выстраивайте этику в свой дизайн: замените, уточните и уменьшите

Сделайте свой эксперимент более гуманным путем замены экспериментов с не-экспериментальных исследований, уточнения методов лечения, а также сокращение числа участников.

Второй совет, который я хотел бы предложить о разработке цифровых экспериментов, касается этики. Как показывает эксперимент Restivo и van de Rijt на barnstars в Википедии, снижение стоимости означает, что этика станет все более важной частью исследования. В дополнение к этическим рамкам, которые я буду описывать в главе 6, исследователи, разрабатывающие цифровые эксперименты, могут также использовать этические идеи из другого источника: этические принципы, разработанные для руководства экспериментами с животными. В частности, в своей книге « Принципы гуманной экспериментальной техники» Russell and Burch (1959) предложили три принципа, которые должны определять исследования животных: заменять, уточнять и уменьшать. Я хотел бы предложить, чтобы эти три R также могли быть использованы - в слегка модифицированной форме - для руководства проектами человеческих экспериментов. В частности,

Заменить: если возможно, замените эксперименты менее инвазивными методами.
Уточните: Уточните лечение, чтобы сделать его максимально безопасным.
Уменьшите: уменьшите количество участников вашего эксперимента в максимально возможной степени.

Чтобы сделать эти три R конкретных и показать, как они потенциально могут привести к лучшему и более гуманному экспериментальному дизайну, я опишу онлайн-эксперимент, который породил этические дебаты. Затем я опишу, как три R предлагают конкретные и практические изменения в дизайне эксперимента.

Один из самых этических дискуссионных цифровых полевых экспериментов был проведен Адамом Крамером, Джейми Гиллрой и Джеффри Хэнкоком (2014) и стал называться «Эмоциональная инфекция». Эксперимент проходил на Facebook и был мотивирован сочетанием научных и практические вопросы. В то время доминирующим способом взаимодействия пользователей с Facebook была новостная лента, алгоритмически свернутый набор обновлений статуса Facebook от друзей пользователя Facebook. Некоторые критики Facebook предположили, что, поскольку в «Лента новостей» в основном есть позитивные друзья-друзья, демонстрирующие свою последнюю вечеринку, это может вызвать у пользователей чувство грусти, потому что их жизнь казалась менее интересной в сравнении. С другой стороны, возможно, эффект в точности противоположный: может быть, если вы хорошо проведете время с другом, вы почувствуете себя счастливым. Чтобы разобраться с этими конкурирующими гипотезами - и чтобы наше понимание того, как эмоции человека влияют на эмоции ее друзей, - Крамер и его коллеги провели эксперимент. Они помещали около 700 000 пользователей в четыре группы в течение одной недели: группу с отрицательным эффектом, для которой сообщения с отрицательными словами (например, «грустные») были случайно заблокированы от появления в ленте новостей; группа с положительным эффектом, для которой сообщения с положительными словами (например, «счастливые») были случайным образом заблокированы; и две контрольные группы. В контрольной группе для группы с отрицательным эффектом столбы были случайным образом заблокированы с той же скоростью, что и группа с отрицательным эффектом, но без учета эмоционального содержания. Контрольная группа для группы с положительным эффектом была построена параллельно. Конструкция этого эксперимента иллюстрирует, что соответствующая контрольная группа не всегда одна без изменений. Иногда, иногда, контрольная группа получает лечение, чтобы создать точное сравнение, которое требует исследовательский вопрос. Во всех случаях сообщения, которые были заблокированы из Лента новостей, по-прежнему доступны пользователям через другие части веб-сайта Facebook.

Крамер и его коллеги обнаружили, что для участников в условиях положительного результата процент положительных слов в их статусных обновлениях уменьшался, а процент отрицательных слов увеличивался. С другой стороны, для участников в условиях снижения отрицательности процент положительных слов увеличился, а отрицательные слова уменьшились (рис. 4.24). Однако эти эффекты были весьма незначительными: разница в положительных и отрицательных словах между обработками и контролем составляла около 1 на 1000 слов.

Рисунок 4.24: Доказательства эмоциональной заразы (Kramer, Guillory, и Hancock 2014). Участники отрицательного состояния использовали меньше отрицательных слов и более позитивных слов, а участники состояния с положительным отношением использовали больше отрицательных слов и меньше положительных слов. Бары представляют собой оценочные стандартные ошибки. Адаптировано из Kramer, Guillory и Hancock (2014), рис. 1.

Рисунок 4.24: Доказательства эмоциональной заразы (Kramer, Guillory, and Hancock 2014) . Участники отрицательного состояния использовали меньше отрицательных слов и более позитивных слов, а участники состояния с положительным отношением использовали больше отрицательных слов и меньше положительных слов. Бары представляют собой оценочные стандартные ошибки. Адаптировано из Kramer, Guillory, and Hancock (2014) , рис. 1.

Прежде чем обсуждать этические вопросы, поднятые в этом эксперименте, я хотел бы описать три научных вопроса, используя некоторые идеи из предыдущих в этой главе. Во-первых, неясно, как конкретные детали эксперимента связаны с теоретическими утверждениями; другими словами, есть вопросы о достоверности конструкции. Непонятно, что положительное и отрицательное количество слов на самом деле являются хорошим показателем эмоционального состояния участников, потому что (1) не ясно, что слова, которые люди публикуют, являются хорошим показателем их эмоций и (2) это не ясно, что конкретный метод анализа чувств, который используют исследователи, способен надежно вывести эмоции (Beasley and Mason 2015; Panger 2016) . Другими словами, может быть плохая мера смещенного сигнала. Во-вторых, дизайн и анализ эксперимента ничего не говорит о том, кто больше всего пострадал (т. Е. Не анализируется гетерогенность эффектов лечения) и каков механизм. В этом случае у исследователей было много информации об участниках, но они по существу рассматривались как виджеты в анализе. В-третьих, размер эффекта в этом эксперименте был очень мал; разница между условиями лечения и контроля составляет около 1 на 1000 слов. В своей работе Крамер и его коллеги считают, что эффект такого размера важен, потому что сотни миллионов людей ежедневно получают доступ к своей Новостной ленте. Другими словами, они утверждают, что даже если эффекты для каждого человека малы, они являются большими в совокупности. Даже если вы согласились с этим аргументом, пока неясно, влияет ли эффект такого размера на более общий научный вопрос о распространении эмоций (Prentice and Miller 1992) .

В дополнение к этим научным вопросам, спустя несколько дней после публикации этой статьи в Трудах Национальной академии наук , произошел огромный протест как от исследователей, так и от прессы (я опишу аргументы в этой дискуссии более подробно в главе 6 ). Вопросы, поднятые в ходе этих обсуждений, заставили журнал опубликовать редкое «редакционное выражение озабоченности» в отношении этики и процесса этической экспертизы для исследования (Verma 2014) .

Учитывая эту предысторию об эмоциональной инфекции, я хотел бы показать, что три R могут предложить конкретные практические улучшения для реальных исследований (независимо от того, что вы можете лично подумать об этике этого конкретного эксперимента). Первый R заменяет : исследователи должны стараться заменить эксперименты менее инвазивными и рискованными методами, если это возможно. Например, вместо того, чтобы запускать рандомизированный контролируемый эксперимент, исследователи могли бы использовать естественный эксперимент . Как описано в главе 2, естественные эксперименты - это ситуации, когда в мире происходит что-то, что приближается к случайному назначению лечения (например, лотерея, чтобы решить, кто будет призван в армию). Этическим преимуществом естественного эксперимента является то, что исследователю не нужно проводить лечение: окружающая среда делает это для вас. Например, почти одновременно с экспериментом «Эмоциональная инфекция» Lorenzo Coviello et al. (2014) использовали то, что можно было бы назвать естественным экспериментом «Эмоциональная инфекция». Ковиелло и его коллеги обнаружили, что люди публикуют более негативные слова и меньше положительных слов в дни, когда идет дождь. Поэтому, используя случайные вариации погоды, они смогли изучить влияние изменений в Лента новостей без необходимости вмешиваться. Как будто погода проводила для них эксперимент. Детали их процедуры немного сложны, но наиболее важным для наших целей является то, что, используя естественный эксперимент, Ковиелло и его коллеги смогли узнать о распространении эмоций без необходимости запуска собственного эксперимента.

Второй из трех Rs уточняется : исследователи должны стремиться совершенствовать свои методы лечения, чтобы сделать их максимально безопасными. Например, вместо того, чтобы блокировать контент, который был положительным или отрицательным, исследователи могли бы повысить содержание, которое было положительным или отрицательным. Этот ускорительный дизайн изменил бы эмоциональное содержание лент новостей участников, но он затронул бы одну из проблем, которые высказывали критики: эксперименты могли заставить участников пропустить важную информацию в своей ленте новостей. С дизайном, используемым Kramer и его коллегами, важно, чтобы сообщение было заблокировано как таковое, которое не является. Тем не менее, с повышающим дизайном, сообщения, которые будут перемещены, будут теми, которые менее важны.

Наконец, третий R уменьшается : исследователи должны стремиться сократить количество участников эксперимента до минимума, необходимого для достижения их научной цели. В аналоговых экспериментах это происходило, естественно, из-за высоких переменных издержек участников. Но в цифровых экспериментах, особенно с нулевыми переменными затратами, исследователи не сталкиваются с ограниченным издержками по размеру своего эксперимента, и это может привести к неоправданно большим экспериментам.

Например, Крамер и его коллеги могли использовать информацию для предварительной обработки об их участниках, такую как поведение, предшествующее обработке, чтобы сделать их анализ более эффективным. В частности, вместо сопоставления доли положительных слов в условиях лечения и контроля Крамер и его коллеги могли сравнить изменение доли положительных слов между условиями; подход, который иногда называют смешанным дизайном (рис. 4.5) и иногда называется оценкой различий в различиях. То есть, для каждого участника, исследователи могли бы создать оценку изменения (поведение после лечения \(-\) поведения перед обработкой), а затем сравнили оценки баллов участников в условиях лечения и контроля. Этот подход с разницей в различиях более эффективен статистически, а это означает, что исследователи могут достичь такой же статистической достоверности, используя гораздо меньшие образцы.

Без наличия необработанных данных трудно точно знать, насколько эффективнее будет разница в различиях в этом случае. Но мы можем взглянуть на другие связанные эксперименты для приблизительной идеи. Deng et al. (2013) сообщили, что, используя форму оценки разницы в различиях, они смогли уменьшить дисперсию своих оценок примерно на 50% в трех разных онлайн-экспериментах; аналогичные результаты были получены Xie and Aurisset (2016) . Это 50% -ное сокращение дисперсии означает, что исследователи Эмоциональной инфекции могли бы сократить свою выборку пополам, если бы они использовали несколько иной метод анализа. Другими словами, с небольшим изменением в анализе, 350 000 человек, возможно, были избавлены от участия в эксперименте.

На данный момент вам может быть интересно, почему исследователи должны заботиться о том, чтобы 350 000 человек были в эмоциональной инфекции без необходимости. Есть две особенности Emotional Contagion, которые вызывают озабоченность чрезмерным размером, и эти функции разделяются многими цифровыми полевыми экспериментами: (1) существует неопределенность в отношении того, причинит ли эксперимент по меньшей мере некоторым участникам и (2) участие не был добровольным. Кажется разумным попытаться сохранить эксперименты, которые имеют эти возможности как можно меньше.

Чтобы быть ясным, желание уменьшить размер вашего эксперимента не означает, что вы не должны запускать большие эксперименты с нулевой переменной стоимостью. Это просто означает, что ваши эксперименты не должны быть больше, чем вам нужно для достижения вашей научной цели. Одним из важных способов убедиться в том, что эксперимент соответствует размеру, является проведение анализа мощности (Cohen 1988) . В аналоговом возрасте исследователи обычно проводили анализ мощности, чтобы убедиться, что их исследование было не слишком маленьким (т. Е. С недостаточным питанием). Теперь, однако, исследователи должны провести анализ мощности, чтобы убедиться, что их исследование не слишком велико (т.е. с избыточным питанием).

В заключение, три R's-заменить, уточнить и уменьшить-обеспечить принципы, которые могут помочь исследователям построить этику в своих экспериментальных проектах. Конечно, каждое из этих возможных изменений в Emotional Contagion вводит компромиссы. Например, доказательства из естественных экспериментов не всегда такие же чистые, как и результаты рандомизированных экспериментов, и ускорение контента могло быть логически более сложным для реализации, чем блокирование контента. Таким образом, цель предлагать эти изменения заключалась в том, чтобы не догадываться о решениях других исследователей. Скорее, это должно было проиллюстрировать, как три R могут быть применены в реалистичной ситуации. На самом деле проблема компромиссов постоянно возникает при разработке исследований, и в цифровом возрасте эти компромиссы будут во все большей степени включать этические соображения. Позже, в главе 6, я предложу некоторые принципы и этические рамки, которые помогут исследователям понять и обсудить эти компромиссы.