4.6.2 Заменить, уточнить и уменьшить

Сделайте свой ​​эксперимент более гуманным путем замены экспериментов с не-экспериментальных исследований, уточнения методов лечения, а также сокращение числа участников.

Второй совет, который я хотел бы предложить о разработке цифровых экспериментов относится к этике. Как эксперимент Restivo и ван де Rijt на barnstars в Википедии показывает, снижение затрат означает, что этика будет становиться все более важной частью исследовательского проекта. Помимо этических рамок руководящих людей в качестве субъектов исследования, которые я опишу в главе 6, исследователи проектирования цифровых экспериментов могут также опираться на этические идеи из другого источника: этические принципы, разработанные, чтобы вести эксперименты с животными. В частности, в своей знаковой книге Принципы гуманной экспериментальной техники, Russell and Burch (1959) предложил три принципа , которые должны направлять исследования на животных: Заменить, уточняют и Reduce. Я хотел бы предложить, что эти три R также может быть использован в слегка измененной форме для руководства дизайн человеческих экспериментов. В частности,

  • Заменить: Заменить эксперименты с менее инвазивных методов, если это возможно
  • Уточните: Уточните лечение, чтобы сделать его максимально безвредным, насколько это возможно
  • Сокращение: Сокращение числа участников эксперимента как можно больше

Для того, чтобы сделать бетон эти три R и показать, как они могут потенциально привести к лучшему и более гуманного эксперимента, я буду описывать эксперимент онлайн поле, создавшее дискуссии по этическим вопросам. Тогда я буду описывать, как три R предполагают конкретные и практические изменения в дизайне эксперимента.

Одним из наиболее обсуждаемых экспериментов с этической точки зрения цифровых полевых является "Эмоциональный Заражение" , который был проведен Адам Крамер, Джейми Gillroy и Джеффри Hancock (2014) . Эксперимент проходил на Facebook и было мотивировано сочетанием научных и практических вопросов. В то время доминирующим способом, что пользователи взаимодействовали с Facebook был News Feed, алгоритмически куратором набор обновлений статуса Facebook из друзей пользователя Facebook. Некоторые критики Facebook предположил, что поскольку Лента новостей имеет в основном положительные сообщения-друзей, хвастающиеся свою последнюю партию, это может привести к пользователям чувствовать себя грустно, потому что их жизнь кажется менее захватывающим в сравнении. С другой стороны, может быть, эффект как раз наоборот; может быть, видя своего друга, имеющего хорошее время сделает вас чувствовать себя счастливым? Для решения этих конкурирующих гипотез и для продвижения нашего понимания того, как эмоции человека находятся под воздействием своих друзей эмоций-Крамер и его коллеги запустили эксперимент. Исследователи размещено около 700 000 пользователей на четыре группы в течение одной недели: в "негативность" уменьшенный группу, для которых сообщения с отрицательными словами (например, печально) были случайным образом заблокированы от появления Ленте новостей; А "позитивности уменьшенный" группа, для которых сообщения с положительными словами (например, счастливые) были случайным образом заблокированы; и две контрольные группы. В контрольной группе для группы "негатива" уменьшается, посты были случайным образом заблокированы с той же скоростью, что и группа "негатива" снижается, но без учета эмоционального содержания. Контрольная группа для группы "положительности уменьшается" была построена в параллельной моде. Конструкция этого эксперимента показывает, что соответствующая контрольная группа, не всегда одно без каких-либо изменений. Скорее всего, иногда контрольная группа получает лечение, с тем чтобы создать точное сравнение, что вопрос исследования требует. Во всех случаях, посты, которые были заблокированы из ленты новостей по-прежнему доступны пользователям через другие части веб-сайта Facebook.

Крамер и его коллеги обнаружили, что для участников положительности уменьшается состояние, процент положительных слов в их обновлении статуса уменьшается, а процент отрицательных слов увеличилось. С другой стороны, для участников негативность уменьшенный состоянии, процент положительных слов увеличился и процент негативных слов уменьшается (рис 4.23). Тем не менее, эти эффекты были весьма малы: разница в положительных и отрицательных слов между курсами лечения и контроля было около 1 в 1000 слов.

Рисунок 4.23: Данные эмоционального заразы (Kramer, Гиллори и Hancock 2014). Процент положительных слов и негативных слов экспериментальным условием. Столбики показывают примерную сумму стандартных ошибок.

Рисунок 4.23: Данные эмоционального заразы (Kramer, Guillory, and Hancock 2014) . Процент положительных слов и негативных слов экспериментальным условием. Столбики показывают примерную сумму стандартных ошибок.

Я положил обсуждение научных аспектов этого эксперимента в дальнейшем секции чтения в конце главы, но, к сожалению, этот эксперимент является самым известным для создания этической дискуссии. Всего через несколько дней после того, как эта статья была опубликована в Трудах Национальной академии наук, был огромный резонанс от исследователей и прессы. Возмущение вокруг бумаги сосредоточены на двух основных моментах: 1) участники не предоставили каких-либо согласие помимо стандартных условий срока службы Facebook для лечения, что некоторые мысли может причинить вред участникам и 2) исследование не подверглись третьей стороны этической обзор (Grimmelmann 2015) . Этические вопросы , поднятые в ходе этой дискуссии вызвали журнал быстро опубликовать редкий "редакционный выражение озабоченности" об этике и этического процесса обзора для исследования (Verma 2014) . В последующие годы эксперимент продолжает быть источником интенсивных дебатов и разногласий, и это несогласие , возможно, имели непреднамеренный эффект вождения в тени многие другие эксперименты, которые выполняются компаниями (Meyer 2014) .

Учитывая, что фон о Эмоционального Contagion, сейчас я хотел бы показать, что 3 R может предложить конкретные, практические усовершенствования для реальных исследований (все, что вы могли бы лично думать об этике данного конкретного эксперимента). Первый R является замена: исследователи должны стремиться заменить эксперименты с менее инвазивных и рискованных методов, если это возможно. Например, вместо проведения эксперимента, исследователи могли бы эксплуатировать естественный эксперимент. Как описано в главе 2, естественные эксперименты бывают ситуации, когда что-то происходит в мире, который аппроксимирует случайное назначение лечения (например, лотерея, чтобы решить, кто будет призван на военную службу). Преимущество естественного эксперимента является то, что исследователь не должен доставлять лечения; среда делает это для вас. Другими словами, с естественным экспериментом, не нуждались бы исследователи экспериментально манипулировать людей Ленты новостей.

На самом деле, почти одновременно с эмоциональным экспериментом Заражение, Coviello et al. (2014) и Coviello et al. (2014) эксплуатирует то , что можно было бы назвать эмоциональной Заражение естественный эксперимент. Их подход, который использует технологию, называемую инструментальных переменных, немного сложнее, если вы никогда не видели его раньше. Итак, для того, чтобы объяснить, почему это было необходимо, давайте строить до него. Первая мысль, что некоторые исследователи, возможно, придется изучить эмоциональное заражение было бы сравнить свои сообщения в те дни, когда ваши News Feed очень позитивно на ваши посты в те дни, когда ваш Лента новостей был очень негативным. Такой подход был бы хорошо, если целью было просто предсказать эмоциональное содержание ваших постов, но такой подход является проблематичным, если цель состоит в том, чтобы изучить причинно-следственную связь вашей Ленте новостей на ваши сообщения. Чтобы увидеть проблему с этим проектом, считают День Благодарения. В США, положительные сообщения шип и отрицательные сообщения отвес на День благодарения. Таким образом, на День благодарения, исследователи могли видеть, что ваши News Feed была очень позитивной, и что вы писали позитивные вещи. Но, ваши положительные сообщения могли быть вызваны благодарения не содержанием вашей ленте новостей. Вместо того, чтобы оценить причинно-следственной связи исследователи нужно что-то, что изменяет содержание вашей ленте новостей без прямого изменения свои эмоции. К счастью, есть что-то подобное происходит все время: от погодных условий.

Coviello и его коллеги обнаружили, что в дождливый день в чьем-то городе, в среднем, уменьшить долю должностей, которые являются положительными примерно на 1 процентный пункт и увеличить долю должностей, которые являются отрицательными примерно на 1 процентный пункт. Затем Coviello и его коллеги эксплуатируют этот факт для изучения эмоционального заражения без необходимости экспериментально манипулировать ничьим News Feed. По сути дела, что они сделали это мера, как ваши посты были затронуты погодой в городах, где живут ваши друзья. Чтобы понять, почему это имеет смысл, представьте, что вы живете в Нью-Йорке и у вас есть друг, который живет в Сиэтле. Теперь представьте, что в один прекрасный день начинается дождь в Сиэтле. Этот дождь в Сиэтле не будет непосредственно влиять на ваше настроение, но это приведет к тому, Лента новостей, чтобы быть менее положительным и более отрицательным из-за постов вашего друга. Таким образом, дождь в Сиэтле случайным образом манипулирует ваш News Feed. Включение этой интуиции в надежной статистической процедуры усложняется (и точный подход, используемый Coviello и его коллеги немного нестандартным), так что я поместил более подробное обсуждение в дальнейшем разделе чтения. Самое главное, чтобы помнить о Coviello и подход коллеги, что это позволило им изучить эмоциональную заразы без необходимости провести эксперимент, который потенциально может нанести вред участникам, и это может быть так, что во многих других параметров, которые можно заменить эксперименты с другими методы.

Во- вторых , в 3 -х Rs является Уточнить: исследователи должны стремиться совершенствовать свои процедуры для того , чтобы причинить наименьший вред возможно. Например, вместо блокирования контента, который был положительным или отрицательным, исследователи могли бы увеличили содержание, которое было положительным или отрицательным. Это повышение дизайн изменило бы эмоциональное содержание участников новостные издания, но было бы обратился один из опасений, что критики выразили: что эксперименты могли вызвать участников пропустить важную информацию в своей ленте новостей. В конструкции используется Крамер и его коллеги, сообщение, что важно то, как может быть заблокирован, как тот, который не является. Тем не менее, с повышающей дизайном, сообщения, которые будут смещаться будут те, которые являются менее важными.

И, наконец, третий R является Сокращение: исследователи должны стремиться к сокращению числа участников в их эксперименте, если это возможно. В прошлом это сокращение произошло естественным образом, так как переменная стоимость аналоговых экспериментов была высокой, что рекомендуется исследование с целью оптимизации их конструкции и анализа. Тем не менее, когда есть нулевые переменные данные о затратах, исследователи не сталкиваются с точки зрения затрат ограничение на размер своего эксперимента, и это потенциально может привести к неоправданно больших экспериментов.

Например, Крамер и его коллеги могли бы использовать информацию для предварительной обработки об их участников, такие как предварительная обработка проводки поведения-чтобы сделать их анализ более эффективным. Более конкретно, вместо того , чтобы сравнивать соотношение позитивных слов в лечении и контрольных условиях, Крамер и его коллеги смогли сравнили изменение доли положительных слов между условиями; подход часто называют различия-в-различиях и которые тесно связаны с смешанной конструкции, которую я описал ранее в этой главе (рис 4.5). То есть, для каждого участника, исследователи могли бы создать счет изменения (поведения после лечения - поведение предварительной обработки), а затем сравнили изменения оценки участников в лечении и контрольных условиях. Эта разница-в-различиях подход является более эффективным, статистически, что означает, что исследователи могут достичь той же статистической достоверности, используя намного меньшие пробы. Другими словами, не лечения участников, как "виджетов", исследователи часто можно получить более точные оценки.

Не имея исходных данных, трудно точно знать, сколько более эффективным разница-в-различиях подход был бы в этом случае. Но, Deng et al. (2013) и Deng et al. (2013) сообщили , что в трех онлайновых экспериментов по поисковой системе Bing они смогли уменьшить дисперсию оценок их примерно на 50%, и аналогичные результаты были получены для некоторых онлайн экспериментов на Netflix (Xie and Aurisset 2016) . Это 50% уменьшение дисперсии означает, что Эмоциональные исследователи заразы, возможно, были в состоянии сократить их образец пополам, если они использовали несколько различных методов анализа. Другими словами, с крошечным изменения в анализе, 350000 люди могли бы избежать участия в эксперименте.

На этом этапе вы можете быть удивлены, почему исследователи должны заботиться, если 350.000 людей были в эмоциональном Contagion излишне. Есть две особенности эмоционального Contagion, которые делают озабоченность в связи с чрезмерным размера необходимо, и эти особенности являются общими для многих цифровых полевых экспериментов: 1) существует неопределенность в отношении будет ли эксперимент причинить вред, по крайней мере некоторых участников и 2) участие не было на добровольной основе. В экспериментах с этими двумя характеристиками, представляется целесообразным сохранить эксперименты как можно меньше.

В заключение, три R's-Заменить, поиска и свертка-содержат принципы, которые могут помочь исследователям построить этику в свои экспериментальные планы. Конечно, каждый из этих возможных изменений к эмоциональному Contagion вводит компромиссные. Например, данные из естественных экспериментов не всегда столь же чистыми, как данные рандомизированных экспериментов и повышение могло бы быть более логистически трудно реализовать, чем блок. Таким образом, цель предлагая эти изменения не предугадывать решения других исследователей. Скорее всего, это должно было показать, как три R могла бы быть применена в реальной ситуации.