2.4.3 Апроксимаційні експерименти

Цей переклад був створений за допомогою комп'ютера. ×

2.4.3 Апроксимаційні експерименти

Ми можемо наблизити експерименти, які ми не можемо або не можемо зробити. Два підходи, які особливо користуються великими джерелами даних, - природні експерименти та узгодження.

Деякі важливі наукові та політичні питання є причинними. Наприклад, як впливає програма навчання на зарплату? Дослідник, який намагається відповісти на це запитання, може зіставити прибуток людей, які підписалися на навчання, тим, хто цього не зробив. Але скільки різниці у заробітній платі між цими групами обумовлено внаслідок тренувань і скільки завдяки існуючим розбіжностям між зареєстрованими людьми та тими, хто цього не робить? Це складне запитання, і воно не зникає автоматично з більшою кількістю даних. Інакше кажучи, турбота про можливі раніше існуючі відмінності виникає незалежно від того, скільки працівників у ваших даних.

У багатьох ситуаціях найсильнішим способом оцінити причинний ефект деяких методів лікування, таких як підготовка робочих місць, є проведення рандомізованого контрольованого експерименту, в якому дослідник випадковим чином доставляє лікування деяким людям, а не іншим. Я присвячу все розділ 4 експериментам, тому тут я збираюся зосередити увагу на двох стратегіях, які можна використовувати з неекспериментальними даними. Перша стратегія залежить від пошуку того, що відбувається у світі, який випадковим (або майже випадковим чином) призначає лікування деяким людям, а не іншим. Друга стратегія залежить від статистичного коригування неекспериментальних даних у спробі обліку наявних раніше відмінностей між тими, хто зробив і не отримав лікування.

Скептик може стверджувати, що слід уникати обох цих стратегій, оскільки вони потребують сильних припущень, припущень, які важко оцінити, і що на практиці часто порушуються. Поки я співчуткову цьому твердженню, я думаю, що це трохи далеко. Це, безумовно, правда, що важко достовірно скласти причинні оцінки з неекспериментальних даних, але я не думаю, що це означає, що ми ніколи не повинні намагатися. Зокрема, неекспериментальні підходи можуть бути корисними, якщо логістичне обмеження перешкоджає вам провести експеримент або якщо етичні обмеження означають, що ви не хочете проводити експеримент. Крім того, неекспериментальні підходи можуть бути корисними, якщо ви хочете використовувати дані, які вже існують, для розробки рандомізованого контрольованого експерименту.

Перш ніж продовжити, варто також зазначити, що причинно-сметні оцінки є однією з найскладніших тем у соціальних дослідженнях, і це може призвести до напружених та емоційних дебатів. Далі я дам оптимістичний опис кожного підходу, щоб побудувати інтуїцію щодо цього, тоді я опишу деякі проблеми, що виникають при використанні цього підходу. Додаткові подробиці щодо кожного підходу доступні в матеріалах в кінці цієї глави. Якщо ви плануєте використовувати будь-який з цих підходів у своєму власному дослідженні, я настійно рекомендую ознайомитись з однією з багатьох чудових книг про причинні висновки (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .

Одним з підходів до визначення причинних оцінок з не експериментальних даних є пошук події, яка випадково призначила лікування деяким людям, а не іншим. Ці ситуації називаються природними експериментами . Одним з найяскравіших прикладів природного експерименту є дослідження Джошуа Ангруда (1990) Joshua Angrist, (1990) оцінює вплив військової служби на заробітки. Під час війни у В'єтнамі Сполучені Штати збільшили розмір своїх збройних сил через проект. Щоб вирішити, які громадяни будуть задіяні, уряд США проведе лотерею. Кожна дата народження була написана на листі паперу, і, як показано на малюнку 2.7, ці папірці були відібрані по одному, щоб визначити порядок, в якому молодих чоловіків буде покликано служити (молоді жінки не були предметом до проекту). На підставі результатів, чоловіки, народжені 14 вересня були названі першими, чоловіки, які народилися 24 квітня, називалися другою, і так далі. Зрештою, у цій лотереї було зараховано чоловіків, народжених у 195 різних днів, а чоловіків, народжених в 171 день, не було.

Рисунок 2.7: Конгресмен Олександр Пірні (R-NY) малював першу капсулу для проекту вибіркової служби 1 грудня 1969 року. Джошуа Ангріст (1990) поєднав проект лотереї з даними про прибутки від Адміністрації соціального забезпечення для оцінки впливу військової служби на заробіток Це приклад дослідження з використанням природного експерименту. Джерело: система вибіркової служби США (1969) / Wikimedia Commons .

Хоча це може не бути відразу очевидним, проект лотереї має критичну подібність до рандомізованого керованого експерименту: в обох випадках учасники випадково призначаються для отримання лікування. Щоб вивчити вплив цього рандомізованого лікування, Angrist скористався системою постійного обміну даними: Адміністрація соціального забезпечення США, яка збирає інформацію про практично будь-які прибутки американців від зайнятості. Поєднуючи інформацію про те, хто був випадковим чином вибраний у проекті лотереї з даними про заробіток, який був зібраний у державних адміністративних звітах, Ангорст дійшов висновку, що заробітки ветеранів були приблизно на 15% менше, ніж заробітки аналогічних не ветеранів.

Як показує цей приклад, іноді соціальні, політичні чи природні сили призначають лікування таким чином, щоб їх могли залучити дослідники, а іноді наслідки цих процедур завжди фіксуються на великих джерелах даних. Ця дослідницька стратегія може бути узагальнено наступним чином: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]

Щоб проілюструвати цю стратегію у цифрову епоху, розглянемо дослідження Олександра Маса та Енріко Моретті (2009) який намагався оцінити ефект роботи з продуктивними колегами за продуктивністю працівника. Перш ніж побачити результати, варто зазначити, що існують суперечливі очікування, які ви могли б мати. З одного боку, ви можете сподіватися, що робота з продуктивними колегами призведе до того, що працівник збільшить свою продуктивність через тиск на колеги. Або, з іншого боку, ви можете сподіватися, що працелюбні однолітки можуть призвести до того, що працівник зникне, оскільки робота буде виконуватися її однолітками. Найбільш яскравим способом вивчення однорідних ефектів на продуктивність стане рандомізований контрольований експеримент, в якому працівники випадково розподіляються на зміну з працівниками різного рівня продуктивності, а потім отримана продуктивність вимірюється для кожного. Однак дослідники не контролюють графік роботи працівників у жодному реальному бізнесі, і тому Мас і Моретті повинні були покладатися на природний експеримент, в якому беруть участь касири в супермаркеті.

У цьому супермаркеті, внаслідок того, як було проведено планування та переміщення поспіль, кожен касир мав різних співробітників у різний час доби. Крім того, в цьому конкретному супермаркеті призначення касирів не було пов'язане з продуктивністю своїх однолітків або наскільки зайнято магазином. Іншими словами, навіть якщо платіж касирів не визначався лотереєю, це було так, якби працівники іноді були випадковим чином призначені для роботи з високими (або низькими) продуктивністю однолітків. На щастя, в цьому супермаркеті також була система цифрової перевірки, яка відслідковувала всі предмети, які кожен касир постійно сканував. З цього журналу перевірки журналу, Мас і Моретті були в змозі створити точний, індивідуальний і завжди на міру продуктивності: кількість елементів, відсканованих за секунду. Об'єднуючи ці дві речі - природні коливання продуктивності однолітків та постійно вимірюваної продуктивності, Мас і Моретті підрахували, що, якщо б касиру було призначено співробітників, які на 10% були продуктивнішими, ніж у середньому, її продуктивність зросте на 1,5% . Крім того, вони використовували розмір та багатство своїх даних для вивчення двох важливих питань: неоднорідність цього ефекту (для яких видів працівників більший ефект?) Та механізми, що впливають на ефект (чому високопродуктивні однолітки призводять до вища продуктивність?). Ми повернемося до цих двох важливих питань - неоднорідності ефектів та механізмів лікування - у розділі 4, коли ми обговорюємо експерименти більш докладно.

Узагальнюючи ці два дослідження, таблиця 2.3 описує інші дослідження, які мають таку ж структуру: використання джерела постійного джерела даних для вимірювання впливу деяких випадкових варіантів. На практиці дослідники використовують дві різні стратегії пошуку природних експериментів, обидва з яких можуть бути плідними. Деякі дослідники починають з постійного джерела даних і шукають випадкові події у світі; інші починають випадкову подію у світі та шукають джерел даних, які фіксують його вплив.

Таблиця 2.3. Приклади природних експериментів з використанням великих джерел даних
Основна увага	Джерело природного експерименту	Джерело даних завжди	Посилання
Експертні ефекти на продуктивність	Процес планування	Дані про замовлення	Mas and Moretti (2009)
Формування дружби	Урагани	Facebook	Phan and Airoldi (2015)
Поширення емоцій	Дощ	Facebook	Lorenzo Coviello et al. (2014)
Економічні трансферти між собою	Землетрус	Дані мобільних грошей	Blumenstock, Fafchamps, and Eagle (2011)
Поведінка особистого споживання	2013 рік припинення уряду США	Дані про персональні фінанси	Baker and Yannelis (2015)
Економічний вплив систем, що рекомендують	Різноманітні	Перегляд даних на Amazon	Sharma, Hofman, and Watts (2015)
Вплив стресу на ненароджених дітей	2006 Ізраїль-Хезболлах війна	Рекорди народження	Torche and Shwed (2015)
Читання поведінки в Вікіпедії	Снігові одкровення	Журнали Wikipedia	Penney (2016)
Експериментальні ефекти на вправи	Погода	Фітнес-трекер	Aral and Nicolaides (2017)

У дискусії, що стоїть про природні експерименти, я залишив важливий момент: від того, що природа забезпечила тим, що ви хочете, іноді може бути досить складно. Давайте повернемося до прикладу проекту В'єтнаму. У цьому випадку Ангріст зацікавився оцінкою впливу військової служби на заробітки. На жаль, військова служба не була випадково призначена; Навпаки, він був розроблений, який був випадковим чином призначений. Проте не всі служили (існували різноманітні винятки), а не кожен, хто служив, був підготовлений (люди можуть добровільно служити). Оскільки підготовка до проекту була випадково розподілена, дослідник може оцінити ефект розробки проекту для всіх чоловіків. Але Анґрц не хотів знати ефект написання; він хотів дізнатися про дію служби в армії. Проте, щоб зробити цю оцінку, потрібні додаткові припущення та ускладнення. По-перше, дослідники повинні припустити, що єдиним способом формування впливу на заробіток є військова служба, припущення, що називається обмеженням виключення . Це припущення може бути неправильним, якщо, наприклад, чоловіки, які були розроблені, залишалися в школі довше, щоб уникнути служби, або якщо роботодавці менш схильні наймати чоловіків, котрі були підготовлені. Загалом, обмеження виключення є критичним припущенням, і це зазвичай важко перевірити. Навіть якщо обмеження виключення є правильним, все ще неможливо оцінити ефект служби для всіх людей. Натомість з'ясовується, що дослідники можуть оцінювати вплив лише на конкретну підгрупу чоловіків, які називаються компіляторами (чоловіки, які будуть служити, коли вони будуть розроблені, але не будуть служити, коли вони не будуть розроблені) (Angrist, Imbens, and Rubin 1996) . Комплекти, однак, не були оригінальними представниками інтересу. Зверніть увагу, що ці проблеми виникають навіть у відносно чистому випадку лотереї. Подальший набір ускладнень виникає, коли лікування не призначається фізичною лотереєю. Наприклад, у дослідженні касирів Маса та Моретті виникають додаткові запитання щодо припущення, що присвоєння однолітків є принципово випадковим. Якщо це припущення було сильно порушено, він міг би зміщувати свої оцінки. На закінчення, природні експерименти можуть бути потужною стратегією для створення причинних оцінок з неекспериментальних даних, а великі джерела даних збільшують нашу здатність заробляти на природних експериментах, коли вони виникають. Однак це, ймовірно, потребує великої обережності, а іноді і сильних припущень, щоб вийти з тієї природи, яку ви хочете оцінити.

Друга стратегія, яку я хочу розповісти вам про те, що робити причинні оцінки з не експериментальних даних, залежить від статистичної коригування неекспериментальних даних у спробі обліку існуючих відмінностей між тими, хто зробив і не отримав лікування. Існує багато таких підходів, але я зосереджуся на тому, що називається відповідним . При узгодженні дослідник переглядає не експериментальні дані, щоб створити пари людей, які подібні, крім того, що він отримав лікування, а цього не зробив. У процесі узгодження дослідники фактично також обрізають ; тобто відкидаючи випадки, коли немає очевидного збігу. Таким чином, цей метод буде більш точно називатися відповідністю та обрізанням, але я дотримуюся традиційного терміну: відповідність.

Одним з прикладів здатності відповідних стратегій з масовими не експериментальними джерелами даних є дослідження з поведінки споживачів Лірана Ейнава та його колег (2015) . (2015) . Вони були зацікавлені в аукціоні, що відбуваються на eBay, і, описуючи їхню роботу, я зосередити увагу на впливі початкової ціни аукціону на аукціонні результати, такі як ціна продажу або ймовірність продажу.

Найнаївішим способом оцінити ефект початкової ціни від ціни продажу буде просто обчислити остаточну ціну аукціонів з різними початковими цінами. Цей підхід буде добре, якщо б ви хотіли спрогнозувати ціну продажу, враховуючи початкову ціну. Але якщо ваше запитання стосується впливу початкової ціни, то цей підхід не буде працювати, оскільки він не базується на справедливих порівняннях; аукціони з нижчими початковими цінами можуть сильно відрізнятись від тих, що мають більш високі початкові ціни (наприклад, вони можуть бути для різних видів товарів або включати різних типів продавців).

Якщо ви вже усвідомлюєте проблеми, які можуть виникнути при оцінюванні причинно-наслідкових причин за експериментальними даними, ви можете пропустити наївний підхід і розглянути можливість проведення експерименту на місцях, де ви продаєте певний товар, скажімо, гольф-клуб із фіксованою набір аукціонних параметрів, скажімо, безкоштовна доставка та аукціон, відкриті протягом двох тижнів, але з випадковим розподілом стартових цін. Порівнюючи результуючі ринкові результати, цей польовий експеримент дозволить дуже чітко оцінити вплив стартової ціни на ціну продажу. Але це вимірювання буде застосовуватися тільки до одного конкретного продукту та набору аукціонних параметрів. Результати можуть бути різними, наприклад, для різних типів продуктів. Без сильної теорії важко екстраполювати з цього єдиного експерименту на повний спектр можливих експериментів, які могли б працювати. Крім того, польові експерименти досить дорогі, тому що неможливо виконати будь-які варіанти, які ви можете спробувати.

На відміну від наївних і експериментальних підходів, Єіна та його колеги взяли третій підхід: узгодження. Головний трюк своєї стратегії полягає в тому, щоб виявити речі, подібні до польових експериментів, які вже траплялися на eBay. Наприклад, на рисунку 2.8 наведено деякі з 31 списків для того самого гольф-клубу - "Taylormade Burner 09" - продавець, який продає точно такий же продавець - "budgetgolfer". Однак ці 31 листи мають дещо інші характеристики, такі як різні стартові ціна, дати закінчення та комісійні доставки. Інакше кажучи, це так, ніби "budgetgolfer" проводить експерименти для дослідників.

Ці списки драйвера Taylormade Burner 09, що продаються "budgetgolfer", є одним з прикладів відповідного набору списків, де точно такий же товар продає точно такий же продавець, але кожен раз з дещо іншими характеристиками. У масивних журналах eBay буквально сотні тисяч суміжних наборів, що містять мільйони записів. Таким чином, замість порівняння остаточної ціни для всіх аукціонів з даною стартовою ціною, Einav та його колеги порівнювали в рамках відповідних множин. Для того, щоб об'єднати результати зі порівняннями в цих сотнях тисяч відповідних множин, Einav та його колеги повторно виразили початкову ціну та кінцеву ціну з точки зору контрольної вартості кожного товару (наприклад, його середню ціну продажу). Наприклад, якщо драйвер Taylormade Burner 09 мав контрольний показник 100 доларів США (за його обсягами продажів), то початкова ціна у розмірі 10 доларів США була виражена як 0.1 та остаточна ціна 120 доларів за 1.2.

Малюнок 2.8: приклад узгодженого набору. Це точно такий же гольф-клуб (водій Taylormade Burner 09), який продають точно та ж сама людина (budgetgolfer), але деякі з цих продажів виконувалися в різних умовах (наприклад, різні стартові ціни). Відтворюється за дозволом Еінава та співавт. (2015 р.), Рис. 1б.

Малюнок 2.8: приклад узгодженого набору. Це точно такий же гольф-клуб ("Taylormade Burner 09 Driver"), що продаються тією ж самою людиною ("budgetgolfer"), але деякі з цих продажів були виконані в різних умовах (наприклад, різні стартові ціни). Відтворюється за дозволом Einav et al. (2015) , Рис. 1б.

Нагадаємо, що Einav та його колеги були зацікавлені у впливі стартової ціни на результати аукціону. По-перше, вони використовували лінійну регресію, щоб оцінити, що більш високі стартові ціни знижують ймовірність продажу, і що більш високі початкові ціни збільшують кінцеву ціну продажу (залежно від продажу). Самі по собі ці оцінки, які описують лінійні відносини і усереднені по всім продуктам, - це не все, що цікаво. Тоді, Einav та його колеги використовували величезний розмір своїх даних, щоб створити різні тонкі оцінки. Наприклад, оцінюючи ефект окремо для різних початкових цін, вони встановили, що співвідношення між початковою ціною та ціною продажу є нелінійним (рис 2.9). Зокрема, для початкових цін від 0,05 до 0,85, початкова ціна дуже мало впливає на ціну продажу, це висновок, який був повністю пропущений в ході їх першого аналізу. Далі, замість усереднення всіх предметів, Einav та його колеги оцінили вплив початкової ціни на 23 різних категорій предметів (наприклад, постачання домашніх тварин, електроніку та спортивні спогади) (рис 2.10). Ці оцінки показують, що для більш відмінних предметів, таких як стартова ціна пам'яті, менший вплив на імовірність продажу та більший вплив на остаточну ціну продажу. Крім того, для більш товаровиробників, таких як DVD-диски, стартова ціна практично не впливає на кінцеву ціну. Іншими словами, середній показник, який поєднує результати з 23 різних категорій елементів, приховує важливі відмінності між цими елементами.

Рисунок 2.9: Співвідношення початкової ціни аукціону та вірогідності продажу (а) та ціни продажу (б). Існує приблизно лінійна залежність між початковою ціною та ймовірністю продажу, але нелінійна взаємозв'язок між початковою ціною та ціною продажу; для початкових цін від 0,05 до 0,85, стартова ціна дуже мало впливає на ціну продажу. В обох випадках взаємозв'язки в основному не залежать від вартості елемента. Адаптований від Einav et al. (2015) , Рисунки 4а та 4б.

Малюнок 2.10: Оцінки з кожної категорії предметів; тверда точка - оцінка для всіх категорій, об'єднаних разом (Einav et al. 2015) . Ці оцінки показують, що для більш відмінних предметів, таких як запам'ятовування, початкова ціна має менший вплив на ймовірність продажу ( \(x\) -пряга) та більшого впливу на остаточну ціну продажу ( \(y\) осі). Адаптований від Einav et al. (2015) , малюнок 8.

Навіть якщо ви не особливо зацікавлені в аукціоні на eBay, вам слід захоплюватися тим, що на малюнку 2.9 і малюнку 2.10 пропонується більш глибоке розуміння eBay, ніж прості оцінки, які описують лінійні відносини та поєднують різні категорії предметів. Крім того, хоча науково можна було б сформувати ці більш витончені оцінки за допомогою польових експериментів, ці витрати зроблять такі експерименти практично неможливими.

Як і у випадку з природними експериментами, існує кілька способів, за допомогою яких відповідність може призвести до поганих оцінок. Я думаю, що найбільшою турботою з відповідними оцінками є те, що їх можна упереджувати за речі, які не використовувались у відповідності. Наприклад, за основними результатами, Einav і його колеги зробили точну відповідність за чотирма характеристиками: ідентифікатор продавця, категорія товару, назва статті та субтитри. Якщо предмети були різними способами, які не використовувались для відповідності, це може створити несправедливе порівняння. Наприклад, якщо "budgetgolfer" знизив ціни на водію Taylormade Burner 09 взимку (коли гольф-клуби менш популярні), то може здатися, що нижчі стартові ціни призводять до зниження кінцевих цін, коли насправді це буде артефактом сезонні коливання попиту. Одним з підходів до вирішення цієї проблеми є спроба різних видів відповідності. Наприклад, Einav та його колеги повторили свій аналіз, змінюючи часовий інтервал, який використовувався для узгодження (відповідні набори включали товари, що продаються протягом одного року, протягом місяця та одночасно). На щастя, вони знайшли подібні результати для всіх вікон часу. Подальше занепокоєння щодо відповідності випливає з інтерпретації. Оцінки зі збігу застосовуються лише до відповідних даних; вони не застосовуються до випадків, які не можуть бути співставлені. Наприклад, обмеживши свої дослідження окремими предметами, які мали кілька списків, Einav та його колеги зосереджуються на професіоналах та професіях продавців. Таким чином, при інтерпретації цих порівнянь ми повинні пам'ятати, що вони стосуються лише цього підмножини eBay.

Відповідність є потужною стратегією для пошуку чесних порівнянь у неекспериментальних даних. Для багатьох соціологів відповідність відчуває себе на другому місці до експериментів, але це віра, яку можна трохи переглянути. Підбір масивних даних може бути кращим, ніж невелика кількість польових експериментів, коли (1) важливість неоднорідності ефектів і (2) вимірюються важливі змінні, необхідні для узгодження. Таблиця 2.4 наводить деякі інші приклади того, як відповідність може бути використана з великими джерелами даних.

Таблиця 2.4. Приклади досліджень, які використовують відповідність великим джерелам даних
Основна увага	Великий джерело даних	Посилання
Вплив стрільби на насильство поліції	Стоп-і-Фріск записи	Legewie (2016)
Вплив 11 вересня 2001 року на сім'ї та сусідів	Голосові записи та записи про пожертвування	Hersh (2013)
Соціальна зараза	Дані про з'єднання та прийняття продукту	Aral, Muchnik, and Sundararajan (2009)

На закінчення, оцінка причинних наслідків не експериментальних даних складна, але можна використовувати такі підходи як природні експерименти та статистичні коригування (наприклад, узгодження). У деяких ситуаціях ці підходи можуть стати погано помилковими, але, коли їх уважно розгорнуто, ці підходи можуть бути корисним доповненням до експериментального підходу, який я описую в главі 4. Крім того, ці два підходи, напевно, виграють від зростання завжди- на великі системи даних.