2.4.3 Аппроксимационные эксперименты

Этот перевод был создан с помощью компьютера. ×

2.4.3 Аппроксимационные эксперименты

Мы можем приблизить эксперименты, которые мы не можем или не можем сделать. Два подхода, которые особенно выигрывают от больших источников данных, - это естественные эксперименты и сопоставление.

Некоторые важные научные и политические вопросы являются причинными. Например, каков эффект программы профессиональной подготовки по заработной плате? Исследователь, пытающийся ответить на этот вопрос, мог бы сравнить доходы людей, которые подписались на обучение тем, кто этого не сделал. Но какова разница между заработной платой между этими группами из-за обучения и сколько из-за существовавших ранее различий между людьми, которые подписывают, и теми, кто этого не делает? Это сложный вопрос, и он не автоматически уходит с большим количеством данных. Другими словами, беспокойство о возможных предшествующих различиях возникает независимо от количества работников в ваших данных.

Во многих ситуациях самый сильный способ оценить причинный эффект какого-либо лечения, например, обучение работе, заключается в проведении рандомизированного контролируемого эксперимента, где исследователь случайным образом доставляет лечение некоторым людям, а не другим. Я посвящу все главы 4 экспериментам, поэтому здесь я сосредоточусь на двух стратегиях, которые можно использовать с неэкспериментальными данными. Первая стратегия зависит от поиска чего-то происходящего в мире, который случайно (или почти случайно) назначает лечение некоторым людям, а не другим. Вторая стратегия зависит от статистической корректировки неэкспериментальных данных в попытке объяснить существовавшие ранее различия между теми, кто это сделал и не получал лечения.

Скептик может утверждать, что обе эти стратегии следует избегать, поскольку они требуют сильных предположений, допущений, которые трудно оценить и которые на практике часто нарушаются. Хотя я сочувствую этому утверждению, я думаю, что это слишком далеко. Разумеется, трудно надежно сделать каузальные оценки из неэкспериментальных данных, но я не думаю, что это означает, что мы никогда не должны пытаться. В частности, неэкспериментальные подходы могут быть полезны, если логистические ограничения не позволяют провести эксперимент или если этические ограничения означают, что вы не хотите запускать эксперимент. Кроме того, неэкспериментальные подходы могут быть полезны, если вы хотите воспользоваться имеющимися ранее данными для разработки рандомизированного управляемого эксперимента.

Прежде чем продолжить, стоит также отметить, что причинные оценки являются одной из самых сложных тем в социальных исследованиях, и это может привести к интенсивным и эмоциональным дебатам. В дальнейшем я предоставлю оптимистичное описание каждого подхода, чтобы построить интуицию об этом, а затем опишу некоторые из проблем, возникающих при использовании этого подхода. Более подробная информация о каждом подходе содержится в материалах в конце этой главы. Если вы планируете использовать любой из этих подходов в своих собственных исследованиях, я настоятельно рекомендую прочитать одну из многих замечательных книг о причинных выводах (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .

Один из подходов к получению каузальных оценок из неэкспериментальных данных - это поиск события, которое случайным образом назначало лечение некоторым людям, а не другим. Эти ситуации называются естественными экспериментами . Одним из самых ярких примеров естественного эксперимента является исследование Джошуа Ангрифа (1990) оценивается влияние военных услуг на доходы. Во время войны во Вьетнаме Соединенные Штаты увеличили размеры своих вооруженных сил по проекту. Чтобы решить, какие граждане будут привлечены к ответственности, правительство США провело лотерею. Каждая дата рождения была написана на листе бумаги, и, как показано на рисунке 2.7, эти листы были отобраны по одному за раз, чтобы определить порядок, в котором молодые люди будут призваны служить (молодые женщины не подлежат к проекту). Исходя из результатов, мужчины, родившиеся 14 сентября, были названы первыми, мужчины, родившиеся 24 апреля, были названы вторыми и так далее. В конечном счете, в этой лотерее были составлены мужчины, родившиеся в 195 разных дней, а мужчин, родившихся в 171 день, не было.

Рисунок 2.7: Конгрессмен Александр Пирни (R-NY), нарисовавший первую капсулу для проекта выборочной службы 1 декабря 1969 года. Джошуа Ангрист (1990) объединил проект лотереи с данными о доходах из Управления социального обеспечения для оценки влияния военной службы по доходам. Это пример исследования с использованием естественного эксперимента. Источник: US Selective Service System (1969) / Wikimedia Commons .

Хотя это может быть и не сразу очевидным, проект лотереи имеет критическое сходство с рандомизированным контролируемым экспериментом: в обеих ситуациях участники случайным образом назначаются для получения лечения. Чтобы изучить влияние этого рандомизированного лечения, Ангриш воспользовался постоянно действующей большой системой данных: Администрация социального обеспечения США, которая собирает информацию о практически всех доходах Америки от занятости. Объединив информацию о том, кто был выбран случайным образом в лотерее с данными о доходах, собранными в правительственных административных документах, Ангрист пришел к выводу, что доходы ветеранов были на 15% меньше, чем доходы сопоставимых не ветеранов.

Как иллюстрирует этот пример, иногда социальные, политические или природные силы назначают лечение таким образом, который может быть использован исследователями, а иногда последствия этих методов лечения фиксируются в постоянно растущих источниках данных. Эта стратегия исследования может быть суммирована следующим образом: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]

Чтобы проиллюстрировать эту стратегию в эпоху цифровых технологий, давайте рассмотрим исследование Александра Маса и Энрико Моретти (2009) которое попыталось оценить влияние работы с производительными коллегами на производительность рабочего. Прежде чем увидеть результаты, стоит отметить, что существуют противоречивые ожидания, которые могут возникнуть у вас. С одной стороны, вы можете ожидать, что работа с производительными коллегами приведет к тому, что работник увеличит свою производительность из-за давления со стороны сверстников. Или, с другой стороны, вы можете рассчитывать на то, что наличие трудолюбивых сверстников может привести к тому, что работник отступит, потому что работа будет проводиться ее ровесниками. Самый ясный способ изучения влияния сверстников на производительность - это рандомизированный контролируемый эксперимент, когда работники произвольно назначаются на смены с работниками с разной производительностью, а затем получаемая производительность измеряется для всех. Однако исследователи не контролируют график работы в любом реальном бизнесе, и поэтому Мас и Моретти должны были полагаться на естественный эксперимент с кассирами в супермаркете.

В этом конкретном супермаркете из-за того, как планировалось планирование, и того, как происходит смена, каждый кассир имел разные сотрудники в разное время суток. Кроме того, в этом конкретном супермаркете назначение кассиров не было связано с производительностью их сверстников или тем, насколько занят в магазине. Другими словами, несмотря на то, что планирование кассиров не определялось лотереей, как будто работники иногда были случайным образом назначены для работы с высокопоставленными (или низкими) сверстниками производительности. К счастью, в этом супермаркете также была система проверки цифрового времени, которая отслеживала элементы, которые каждый кассир просматривал в любое время. Из этих данных журнала проверки Мас и Моретти смогли создать точную, индивидуальную и постоянную меру производительности: количество элементов, сканируемых в секунду. Объединив эти две вещи - естественную вариативность производительности сверстников и постоянную меру производительности - Мас и Моретти подсчитали, что если кассиру назначили коллеги, которые были на 10% более производительными, чем средние, ее производительность увеличилась бы на 1,5% , Кроме того, они использовали размер и богатство своих данных для изучения двух важных вопросов: гетерогенности этого эффекта (для каких видов работников эффект больше?) И механизмов, влияющих на эффект (почему наличие высокопроизводительных сверстников приводит к более высокая производительность?). Мы вернемся к этим двум важным вопросам - гетерогенности эффектов и механизмов лечения - в главе 4, когда мы более подробно обсудим эксперименты.

Обобщая эти два исследования, в таблице 2.3 обобщены другие исследования, которые имеют такую же структуру: использование постоянного источника данных для измерения влияния некоторых случайных вариаций. На практике исследователи используют две различные стратегии для поиска естественных экспериментов, которые могут быть плодотворными. Некоторые исследователи начинают с постоянного источника данных и ищут случайные события в мире; другие начинают случайное событие в мире и ищут источники данных, которые отражают его влияние.

Таблица 2.3. Примеры естественных экспериментов с использованием больших источников данных
Основная направленность	Источник естественного эксперимента	Постоянный источник данных	Справка
Эффект сверстников	Процесс составления расписания	Оформить заказ	Mas and Moretti (2009)
Формирование дружбы	Ураганы	facebook	Phan and Airoldi (2015)
Распространение эмоций	дождь	facebook	Lorenzo Coviello et al. (2014)
Экономические трансферты между сверстниками	землетрясение	Данные мобильных денег	Blumenstock, Fafchamps, and Eagle (2011)
Поведение личного потребления	Закрытие правительства США в 2013 году	Данные личного финансирования	Baker and Yannelis (2015)
Экономическое влияние систем рекомендаций	Различный	Просмотр данных в Amazon	Sharma, Hofman, and Watts (2015)
Влияние стресса на нерожденных детей	2006 Война Израиль-Хезболла	Запись о рождении	Torche and Shwed (2015)
Чтение в Википедии	Снеговые откровения	Википедия	Penney (2016)
Эффекты сверстников	Погода	Фитнес-трекеры	Aral and Nicolaides (2017)

В обсуждении до сих пор о естественных экспериментах я оставил важный момент: переход от того, что природа предоставила к тому, что вы хотите, иногда может быть довольно сложной. Вернемся к примеру вьетнамского проекта. В этом случае Ангрист интересовался оценкой влияния военной службы на доходы. К сожалению, военная служба не была рандомизирована; скорее он был составлен, который был случайным образом назначен. Однако не все, кто был призван, служили (было множество исключений), и не все, кто служил, были составлены (люди могли добровольно служить). Поскольку составление было назначено случайным образом, исследователь может оценить эффект составления проекта для всех мужчин в проекте. Но англичанин не хотел знать, как быть призванным; он хотел узнать о влиянии службы в армии. Однако для этой оценки требуются дополнительные предположения и осложнения. Во-первых, исследователи должны предполагать, что единственный способ, с помощью которого был составлен проект, повлиять на доходы, - это военная служба, предположение называется ограничением исключения . Это предположение может быть ошибочным, если, например, мужчины, которые были составлены, оставались в школе дольше, чтобы избежать служения, или если работодатели с меньшей вероятностью наняли мужчин, которые были призваны. В общем, ограничение исключения является критическим предположением, и его обычно трудно проверить. Даже если ограничение на исключение является правильным, оценить влияние услуги на всех мужчин пока невозможно. Вместо этого выясняется, что исследователи могут оценивать влияние только на конкретное подмножество людей, называемых «претендентами» (мужчины, которые будут служить при составлении, но не будут служить, если они не составлены) (Angrist, Imbens, and Rubin 1996) . Однако собеседники не были первоначальным населением, представляющим интерес. Обратите внимание, что эти проблемы возникают даже в относительно чистом случае лотереи. Дальнейший набор осложнений возникает, когда лечение не назначается физической лотереей. Например, в исследовании кассиров Маса и Моретти возникают дополнительные вопросы о предположении, что назначение сверстников по существу является случайным. Если бы это предположение было сильно нарушено, это могло бы смещать их оценки. В заключение, естественные эксперименты могут быть мощной стратегией для создания причинно-следственных оценок из неэкспериментальных данных, а большие источники данных увеличивают нашу способность извлекать выгоду из естественных экспериментов, когда они происходят. Однако для этого, вероятно, потребуются очень осторожные, а иногда и сильные предположения - перейти от того, что природа предоставила для оценки, которую вы хотите.

Вторая стратегия, которую я хотел бы рассказать вам о создании каузальных оценок из не экспериментальных данных, зависит от статистической корректировки неэкспериментальных данных в попытке объяснить существовавшие ранее различия между теми, кто делал и не получал лечение. Есть много таких подходов к настройке, но я сосредоточусь на одном названии соответствия . В сопоставлении исследователь просматривает неэкспериментальные данные, чтобы создать пары людей, которые похожи, за исключением того, что человек получил лечение, а другой нет. В процессе сопоставления исследователи на самом деле также обрезают ; то есть, отбрасывая случаи, когда нет очевидного соответствия. Таким образом, этот метод будет более точно называться совпадением и обрезкой, но я буду придерживаться традиционного термина: сопоставление.

Одним из примеров эффективности стратегий сопоставления с массивными не экспериментальными источниками данных является исследование поведения потребителей Liran Einav и его коллег (2015) . Их интересовали аукционы, проводимые на eBay, и описывая их работу, я сосредоточу внимание на влиянии стартовой цены аукциона на результаты аукциона, такие как цена продажи или вероятность продажи.

Самый наивный способ оценить влияние стартовой цены на цену продажи будет просто рассчитать конечную цену для аукционов с разными стартовыми ценами. Этот подход был бы прекрасен, если бы вы хотели предсказать цену продажи с учетом начальной цены. Но если ваш вопрос касается эффекта стартовой цены, то такой подход не будет работать, потому что он не основан на справедливых сравнениях; аукционы с более низкими стартовыми ценами могут сильно отличаться от аукционов с более высокими стартовыми ценами (например, они могут быть для разных видов товаров или включают в себя разные типы продавцов).

Если вы уже знаете о проблемах, которые могут возникнуть при создании каузальных оценок из неэкспериментальных данных, вы можете пропустить наивный подход и рассмотреть возможность проведения полевого эксперимента, где вы будете продавать определенный предмет - например, гольф-клуб - с фиксированным набор параметров аукциона - скажем, бесплатная доставка и аукцион, открытый в течение двух недель, - но со случайно назначенными стартовыми ценами. Сравнивая полученные результаты рынка, этот полевой эксперимент дал бы очень четкое измерение влияния начальной цены на цену продажи. Но это измерение применимо только к одному конкретному продукту и множеству параметров аукциона. Результаты могут быть разными, например, для разных типов продуктов. Без сильной теории трудно экстраполировать этот эксперимент на весь спектр возможных экспериментов, которые можно было бы запустить. Кроме того, полевые эксперименты достаточно дороги, что было бы невозможно выполнить все варианты, которые вы, возможно, захотите попробовать.

В отличие от наивных и экспериментальных подходов, Эйнав и его коллеги взяли третий подход: сопоставление. Основной трюк в их стратегии - обнаружить вещи, похожие на полевые эксперименты, которые уже произошли на eBay. Например, на рисунке 2.8 показаны некоторые из 31 списка для точно такого же гольф-клуба - Taylormade Burner 09 Driver - продается точно таким же продавцом - «budgetgolfer». Однако эти 31 листинга имеют несколько разные характеристики, такие как разные стартовые цены, даты окончания и стоимости доставки. Другими словами, это похоже на то, что «budgetgolfer» проводит эксперименты для исследователей.

Эти списки драйвера Taylormade Burner 09, продаваемые «budgetgolfer», являются одним из примеров сопоставленного набора списков, где тот же самый предмет продается одним и тем же продавцом, но каждый раз имеет несколько разные характеристики. В массивных журналах eBay есть буквально сотни тысяч согласованных наборов, содержащих миллионы листингов. Таким образом, вместо сравнения конечной цены для всех аукционов с заданной начальной ценой, Einav и его коллеги сравнивались в рамках согласованных наборов. Чтобы объединить результаты сравнений в этих сотнях тысяч согласованных наборов, Einav и его коллеги повторно выражали стартовую цену и конечную цену с точки зрения ссылочной стоимости каждого товара (например, его средней продажной цены). Например, если драйвер Taylormade Burner 09 имел ссылочное значение в 100 долл. США (исходя из его продаж), стартовая цена в размере 10 долл. США была бы выражена в 0,1 и конечная цена в размере 120 долл. США в качестве 1,2.

Рисунок 2.8: Пример согласованного набора. Это тот же самый гольф-клуб (Taylormade Burner 09 Driver), который продается одним и тем же человеком («budgetgolfer»), но некоторые из этих продаж были выполнены в разных условиях (например, разные стартовые цены). Воспроизводится с разрешения Einav et al. (2015) , рис. 1б.

Напомним, что Эйнава и его коллеги интересовали влияние начальной цены на результаты аукциона. Во-первых, они использовали линейную регрессию для оценки того, что более высокие стартовые цены снижают вероятность продажи и что более высокие стартовые цены увеличивают конечную продажную цену (обусловленную продажей). Сами по себе эти оценки, которые описывают линейную зависимость и усредняются по всем продуктам, не так уж интересны. Затем Эйнав и его коллеги использовали массивный размер своих данных для создания множества более тонких оценок. Например, оценивая эффект отдельно для разных начальных цен, они обнаружили, что соотношение между стартовой ценой и ценой продажи является нелинейным (рисунок 2.9). В частности, при стартовых ценах от 0,05 до 0,85 стартовая цена очень мало влияет на цену продажи, что было полностью упущено их первым анализом. Кроме того, вместо того, чтобы усреднять по всем статьям, Эйнав и его коллеги оценили влияние стартовой цены на 23 разных категории предметов (например, товары для домашних животных, электронику и спортивные памятные вещи) (рисунок 2.10). Эти оценки показывают, что для более отличительных предметов, таких как стоимость памятных вещей, имеет меньшее влияние на вероятность продажи и большее влияние на конечную цену продажи. Кроме того, для более удобных предметов, таких как DVD-диски, стартовая цена практически не влияет на конечную цену. Другими словами, среднее значение, объединяющее результаты 23 различных категорий предметов, скрывает важные различия между этими элементами.

Рисунок 2.9: Взаимосвязь между стартовой ценой аукциона и вероятностью продажи (а) и продажной ценой (б). Существует примерно линейная зависимость между стартовой ценой и вероятностью продажи, но нелинейная зависимость между стартовой ценой и ценой продажи; для стартовых цен от 0,05 до 0,85, стартовая цена очень мало влияет на цену продажи. В обоих случаях отношения в основном не зависят от значения элемента. Адаптировано из Einav et al. (2015) , рисунки 4a и 4b.

Рисунок 2.10: Оценки из каждой категории предметов; твердая точка - это оценка для всех категорий, объединенных вместе (Einav et al. 2015) . Эти оценки показывают, что для более отличительных элементов, таких как памятные вещи - стартовая цена оказывает меньшее влияние на вероятность продажи ( \(x\) -аксис) и оказывает большее влияние на конечную цену продажи ( \(y\) -ось). Адаптировано из Einav et al. (2015) , рисунок 8.

Даже если вас не интересуют аукционы на eBay, вы должны восхищаться тем, как цифра 2.9 и рисунок 2.10 предлагают более глубокое понимание eBay, чем простые оценки, описывающие линейные отношения и объединяющие множество разных категорий элементов. Кроме того, хотя с научной точки зрения было бы возможно сгенерировать эти более тонкие оценки с помощью полевых экспериментов, стоимость таких экспериментов практически невозможна.

Как и в случае с естественными экспериментами, существует несколько способов совпадения, которые могут привести к плохим оценкам. Я думаю, что наибольшая озабоченность по поводу сопоставимых оценок заключается в том, что они могут быть предвзятыми к вещам, которые не использовались при сопоставлении. Например, в своих основных результатах Einav и его коллеги выполнили точное сопоставление по четырем признакам: идентификатор продавца, категория позиции, название позиции и субтитры. Если элементы были разными способами, которые не использовались для сопоставления, это могло бы создать несправедливое сравнение. Например, если «budgetgolfer» снизил цены на Taylormade Burner 09 Driver зимой (когда гольф-клубы пользуются меньшей популярностью), то может показаться, что более низкие стартовые цены приводят к снижению конечных цен, когда на самом деле это будет артефактом сезонные колебания спроса. Один из подходов к решению этой проблемы - это много разных способов сопоставления. Например, Einav и его коллеги повторили свой анализ, изменяя время, используемое для сопоставления (согласованные наборы включали товары в продажу в течение одного года, в течение одного месяца и одновременно). К счастью, они нашли похожие результаты для всех временных окон. Еще одна проблема с сопоставлением возникает из-за интерпретации. Оценки от сопоставления применяются только к согласованным данным; они не применяются к случаям, которые невозможно сопоставить. Например, ограничивая свое исследование элементами, имеющими несколько списков, Einav и его коллеги сосредотачиваются на профессиональных и полупрофессиональных продавцах. Таким образом, при интерпретации этих сравнений мы должны помнить, что они применимы только к этому подмножеству eBay.

Согласование является мощной стратегией для поиска справедливых сравнений в неэкспериментальных данных. Для многих социологов сопоставление чувствует себя во-вторых лучше для экспериментов, но это убеждение, которое можно пересмотреть, слегка. Соответствие массивным данным может быть лучше, чем небольшое количество полевых экспериментов, когда (1) неоднородность в эффектах важна и (2) измеряются важные переменные, необходимые для сопоставления. В таблице 2.4 приведены некоторые другие примеры того, как сопоставление может использоваться с большими источниками данных.

Таблица 2.4: Примеры исследований, в которых используется сопоставление с большими источниками данных
Основная направленность	Большой источник данных	Справка
Влияние стрельбы на полицейское насилие	Стоп-и-фиск записи	Legewie (2016)
Влияние 11 сентября 2001 года на семьи и соседей	Записи о голосовании и записи пожертвований	Hersh (2013)
Социальная зараза	Данные для передачи данных и передачи данных	Aral, Muchnik, and Sundararajan (2009)

В заключение, оценить причинные эффекты из неэкспериментальных данных сложно, но могут быть использованы такие подходы, как естественные эксперименты и статистические корректировки (например, сопоставление). В некоторых ситуациях эти подходы могут ошибочно ошибочно, но при тщательном их развертывании эти подходы могут быть полезным дополнением к экспериментальному подходу, который я описываю в главе 4. Кроме того, эти два подхода, похоже, особенно выигрывают от роста всегда- on, большие системы данных.