4.3 Два измерения экспериментов: лабораторного поля и аналого-цифровые

Этот перевод был создан с помощью компьютера. ×

4.3 Два измерения экспериментов: лабораторного поля и аналого-цифровые

Лабораторные эксперименты предлагают контроль, полевые эксперименты предлагают реализм, и эксперименты цифровые поля сочетают контроль и реализм в масштабе.

Эксперименты бывают разных форм и размеров. В прошлом исследователи сочли полезным организовать эксперименты по континууму между лабораторными экспериментами и полевыми экспериментами . Однако теперь исследователи также должны организовать эксперименты по второму континууму между аналоговыми экспериментами и цифровыми экспериментами . Это двумерное пространство для дизайна поможет вам понять сильные и слабые стороны различных подходов и выделить области наибольшей возможности (рисунок 4.1).

Рисунок 4.1: Схема проектного пространства для экспериментов. Раньше эксперименты варьировались по размеру лабораторного поля. Теперь они также различаются по аналого-цифровому измерению. Это двумерное пространство проектирования иллюстрируется четырьмя экспериментами, которые я описываю в этой главе. По моему мнению, область наибольшей возможности - это цифровые полевые эксперименты.

Одним из измерений, по которому можно организовать эксперименты, является измерение лабораторного поля. Многие эксперименты в социальных науках - это лабораторные эксперименты, в которых студенты-магистранты выполняют странные задачи в лаборатории для получения кредита. Этот тип экспериментов доминирует в исследованиях в области психологии, поскольку он позволяет исследователям создавать высоко контролируемые настройки, чтобы точно изолировать и протестировать конкретные теории о социальном поведении. Однако для некоторых проблем что-то немного странно в том, чтобы делать убедительные выводы о поведении человека от таких необычных людей, которые выполняют такие необычные задачи в такой необычной обстановке. Эти опасения привели к движению к полевым экспериментам . Полевые эксперименты сочетают сильную конструкцию рандомизированных контрольных экспериментов с более представительными группами участников, выполняющими более общие задачи в более естественных условиях.

Хотя некоторые люди думают о лабораторных и полевых экспериментах как о конкурирующих методах, лучше подумать о них как о взаимодополняющих, с различными сильными и слабыми сторонами. Например, Correll, Benard, and Paik (2007) использовали как лабораторный эксперимент, так и полевой эксперимент в попытке найти источники «наказания за материнство». В Соединенных Штатах матери зарабатывают меньше денег, чем бездетные женщины, даже когда сравнивая женщин с аналогичными навыками, работающими на аналогичных работах. Существует много возможных объяснений этой модели, одна из которых заключается в том, что работодатели пристрастны к матерям. (Интересно, что обратное, похоже, верно для отцов: они, как правило, зарабатывают больше, чем сопоставимые бездетные мужчины.) Чтобы оценить возможную предвзятость в отношении матерей, Коррелл и его коллеги провели два эксперимента: один в лаборатории и один в этой области.

Во-первых, в лабораторном эксперименте они рассказали участникам, которые были студентами колледжей, о том, что компания проводила поиск работы для человека, чтобы возглавить свой новый отдел маркетинга Восточного побережья. Студентам сообщили, что компания хотела помочь в процессе найма, и их попросили рассмотреть резюме нескольких потенциальных кандидатов и оценить кандидатов по ряду аспектов, таких как их интеллект, теплота и приверженность работе. Кроме того, учеников спрашивали, рекомендуют ли они нанять заявителя и что они будут рекомендовать в качестве стартовой зарплаты. Однако, без ведома студентов, резюме были специально сконструированы так, чтобы быть похожими, за исключением одного: некоторые из них сигнализировали о материнстве (включив участие в ассоциации родителей и учителей), а некоторые - нет. Коррелл и его коллеги обнаружили, что студенты с меньшей вероятностью рекомендуют нанимать матерей и что они предлагают им более низкую стартовую зарплату. Кроме того, посредством статистического анализа как рейтингов, так и решений, связанных с наймом, Коррелл и его коллеги обнаружили, что недостатки матерей в значительной степени объясняются тем, что они были оценены ниже с точки зрения компетентности и приверженности. Таким образом, этот лабораторный эксперимент позволил Коррелу и его коллегам измерить причинный эффект и дать возможное объяснение этого эффекта.

Конечно, можно скептически относиться к выводам о рынке труда в США на основе решений нескольких сотен студентов, которые, вероятно, никогда не работали полный рабочий день, не говоря уже о найме кого-то. Поэтому Коррелл и его коллеги также провели дополнительный полевой эксперимент. Они ответили на сотни рекламируемых вакансий с поддельными сопроводительными письмами и резюме. Подобно материалам, показанным студентам, некоторые резюме свидетельствовали о материнстве, а некоторые - нет. Коррелл и его коллеги обнаружили, что матерей с меньшей вероятностью получат призыв к интервью, чем равноценные бездетные женщины. Другими словами, настоящие работодатели, принимающие последовательные решения в естественных условиях, вели себя так же, как и студенты. Приняли ли они подобные решения по той же причине? К сожалению, мы не знаем. Исследователи не смогли попросить работодателей оценить кандидатов или объяснить их решения.

Эта пара экспериментов показывает много о лабораторных и полевых экспериментах в целом. Лабораторные эксперименты предлагают исследователям почти полный контроль над окружающей средой, в которой участники принимают решения. Так, например, в лабораторном эксперименте Коррелл и его коллеги смогли убедиться, что все резюме были прочитаны в тихом месте; в полевом эксперименте некоторые из резюме, возможно, даже не были прочитаны. Кроме того, поскольку участники лабораторных исследований знают, что их изучают, исследователи часто могут собирать дополнительные данные, которые могут помочь объяснить, почему участники принимают свои решения. Например, Коррелл и его коллеги попросили участников лабораторного эксперимента оценить кандидатов в разных измерениях. Такие данные процесса могут помочь исследователям понять механизмы различий в том, как участники рассматривают резюме.

С другой стороны, эти те же самые характеристики, которые я только что назвал преимуществами, также иногда считаются недостатками. Исследователи, предпочитающие полевые эксперименты, утверждают, что участники лабораторных экспериментов могут действовать совсем по-другому, потому что они знают, что их изучают. Например, в лабораторном эксперименте участники, возможно, догадались о цели исследования и изменили свое поведение, чтобы не казаться предвзятым. Кроме того, исследователи, предпочитающие полевые эксперименты, могут утверждать, что небольшие различия в резюме могут выделяться только в очень чистой, стерильной лабораторной среде, и, таким образом, лабораторный эксперимент будет переоценивать влияние материнства на реальные решения о найме. Наконец, многие сторонники полевых экспериментов критикуют зависимость лабораторных экспериментов с участниками WEIRD: в основном студенты из западных, образованных, индустриальных, богатых и демократических стран (Henrich, Heine, and Norenzayan 2010a) . Эксперименты Коррелла и его коллег (2007) иллюстрируют две крайности в континууме лабораторного поля. В промежутке между этими двумя крайностями также существует множество гибридных конструкций, включая такие подходы, как привлечение студентов в лабораторию или выход на поле, но при этом участники выполняют необычную задачу.

В дополнение к измерению лабораторного поля, которое существовало в прошлом, цифровой век означает, что у исследователей теперь есть второе основное измерение, по которому эксперименты могут варьироваться: аналого-цифровые. Так же, как есть чистые лабораторные эксперименты, эксперименты с чистым полем и различные гибриды между ними, существуют чистые аналоговые эксперименты, чистые цифровые эксперименты и различные гибриды. Трудно предложить формальное определение этого измерения, но полезным рабочим определением является то, что полностью цифровые эксперименты - это эксперименты, которые используют цифровую инфраструктуру для набора участников, рандомизации, доведения лечения и оценки результатов. Например, исследование Барнистарда и Википедии в Restivo and van de Rijt (2012) было полностью цифровым экспериментом, поскольку для всех четырех этапов использовались цифровые системы. Аналогично, полностью аналоговые эксперименты не используют цифровую инфраструктуру для любого из этих четырех этапов. Многие из классических экспериментов в психологии являются полностью аналоговыми экспериментами. Между этими двумя крайностями существуют частично цифровые эксперименты, которые используют комбинацию аналоговых и цифровых систем.

Когда некоторые люди думают о цифровых экспериментах, они сразу же думают о онлайн-экспериментах. Это печально, потому что возможности запуска цифровых экспериментов - это не просто онлайн. Исследователи могут запускать частично цифровые эксперименты, используя цифровые устройства в физическом мире, чтобы обеспечить лечение или измерить результаты. Например, исследователи могут использовать смартфоны для доставки лечения или датчиков в построенной среде для измерения результатов. Фактически, как мы увидим далее в этой главе, исследователи уже использовали измерители мощности дома для измерения результатов в экспериментах по потреблению энергии с участием 8,5 миллионов домашних хозяйств (Allcott 2015) . Поскольку цифровые устройства становятся все более интегрированными в жизнь людей, а датчики интегрируются в встроенную среду, эти возможности для проведения частично цифровых экспериментов в физическом мире значительно возрастут. Другими словами, цифровые эксперименты - это не просто эксперименты в Интернете.

Цифровые системы создают новые возможности для экспериментов повсюду вдоль континуума лабораторного поля. В чистых лабораторных экспериментах, например, исследователи могут использовать цифровые системы для более точного измерения поведения участников; одним из примеров такого типа улучшенного измерения является оборудование для отслеживания глаз, которое обеспечивает точное и непрерывное измерение местоположения взгляда. Цифровой век также создает возможность запуска лабораторных экспериментов в Интернете. Например, исследователи быстро приняли Amazon Mechanical Turk (MTurk) для привлечения участников для онлайн-экспериментов (рисунок 4.2). MTurk соответствует «работодателям», у которых есть задачи, которые необходимо выполнить с «рабочими», которые хотят выполнить эти задачи за деньги. Однако, в отличие от традиционных рынков труда, для выполнения этих задач обычно требуется всего несколько минут, и все взаимодействие между работодателем и работником находится в режиме онлайн. Поскольку MTurk подражает аспектам традиционных лабораторных экспериментов, платя людям за выполнение задач, которые они не будут делать бесплатно, естественно подходит для определенных типов экспериментов. По сути, MTurk создала инфраструктуру для управления пулом участников - найма и оплаты людей, и исследователи воспользовались этой инфраструктурой, чтобы использовать всегда доступный пул участников.

Рисунок 4.2: Документы, опубликованные с использованием данных Amazon Mechanical Turk (MTurk). MTurk и другие онлайн-рынки труда предлагают исследователям удобный способ набирать участников для экспериментов. Адаптировано из Bohannon (2016) .

Цифровые системы создают еще больше возможностей для полевых экспериментов. В частности, они позволяют исследователям комбинировать тесные данные контроля и процесса, которые связаны с лабораторными экспериментами с более разнообразными участниками и более естественными настройками, которые связаны с лабораторными экспериментами. Кроме того, цифровые полевые эксперименты также предлагают три возможности, которые в аналоговых экспериментах были сложными.

Во-первых, в то время как большинство аналоговых лабораторных и полевых экспериментов имеют сотни участников, в цифровых полевых экспериментах могут быть миллионы участников. Это изменение масштаба связано с тем, что некоторые цифровые эксперименты могут производить данные при нулевой переменной стоимости. То есть, когда исследователи создали экспериментальную инфраструктуру, увеличение количества участников обычно не увеличивает стоимость. Увеличение количества участников в 100 или более раз не просто количественное изменение; это качественное изменение, поскольку оно позволяет исследователям изучать разные вещи из экспериментов (например, гетерогенность эффектов лечения) и запускать совершенно разные экспериментальные проекты (например, эксперименты с большой группой). Этот момент настолько важен, что я вернусь к нему в конце главы, когда я дам совет о создании цифровых экспериментов.

Во-вторых, в то время как большинство аналоговых лабораторных и полевых экспериментов рассматривают участников как неразличимые виджеты, в цифровых полевых экспериментах часто используется справочная информация об участниках этапа проектирования и анализа исследования. Эта справочная информация, которая называется информацией предварительной обработки , часто доступна в цифровых экспериментах, потому что они работают поверх постоянно действующих измерительных систем (см. Главу 2). Например, у исследователя в Facebook есть намного больше информации о предварительной обработке людей в ее эксперименте с цифровым полем, чем у исследователя университета, посвященного людям в ее эксперименте с аналоговым полем. Эта предварительная обработка обеспечивает более эффективные экспериментальные проекты, такие как блокирование (Higgins, Sävje, and Sekhon 2016) и целенаправленный набор участников (Eckles, Kizilcec, and Bakshy 2016) - и более глубокий анализ - например, оценка гетерогенности лечебных эффектов (Athey and Imbens 2016a) и ковариационной корректировки для повышения точности (Bloniarz et al. 2016) .

В-третьих, в то время как многие аналоговые лабораторные и полевые эксперименты доставляют лечение и измеряют результаты в относительно сжатом количестве времени, некоторые эксперименты с цифровым полем происходят в гораздо более длительные сроки. Например, эксперимент Restivo и van de Rijt имел результат, измеренный ежедневно в течение 90 дней, и один из экспериментов, которые я расскажу вам позже в этой главе (Ferraro, Miranda, and Price 2011) отслеживал результаты в течение трех лет в основном без Стоимость. Эти три информации о возможностях, информация о предварительной обработке и данные о продольном лечении и результатах - чаще всего возникают, когда эксперименты выполняются поверх постоянно действующих измерительных систем (подробнее см. Главу 2 о постоянно действующих измерительных системах).

В то время как цифровые полевые эксперименты предлагают множество возможностей, они также имеют некоторые недостатки как в аналоговых лабораторных, так и в аналоговых полевых экспериментах. Например, эксперименты не могут быть использованы для изучения прошлого, и они могут оценивать только эффекты лечения, которые можно манипулировать. Кроме того, хотя эксперименты, несомненно, полезны для руководства политикой, точное руководство, которое они могут предложить, несколько ограничено из-за таких осложнений, как экологическая зависимость, проблемы с соблюдением и эффекты равновесия (Banerjee and Duflo 2009; Deaton 2010) . Цифровые полевые эксперименты также усиливают этические проблемы, создаваемые полевыми экспериментами, - тему, которую я расскажу позже в этой главе и в главе 6.