2.4.3 Сближаване на експерименти

Този превод е създаден от компютър. ×

2.4.3 Сближаване на експерименти

Можем да приближим опитите, които не сме или не можем да направим. Два подхода, които особено се възползват от големите източници на данни, са природни експерименти и съвпадение.

Някои важни научни и политически въпроси са причинно-следствени. Например, какъв е ефектът от програмата за обучение по заетостта върху заплатите? Един изследовател, който се опитва да отговори на този въпрос, може да сравни приходите на хората, които са се записали за обучение, на тези, които не са го направили. Но колко от разликата в заплатите между тези групи е заради обучението и колко е поради съществуващите преди това различия между хората, които се регистрират, и тези, които не го правят? Това е труден въпрос и той не се отказва автоматично с повече данни. С други думи, загрижеността за възможните съществуващи различия възниква независимо колко работници са във вашите данни.

В много ситуации най-силният начин да се оцени причинно-следствената последица от някакво лечение, като например обучение на работното място, е да се проведе рандомизиран контролиран експеримент, при който изследователят случайно предава лечението на някои хора, а не на други. Ще отделя цяла глава 4 за експерименти, така че тук ще се съсредоточа върху две стратегии, които могат да се използват с не-експериментални данни. Първата стратегия зависи от търсенето на нещо, което се случва в света, което случайно (или почти случайно) възлага лечението на някои хора, а не на други. Втората стратегия зависи от статистическото коригиране на не-експерименталните данни в опит да се отчетат съществуващите преди това различия между тези, които са направили и не са получили лечението.

Скептикът може да твърди, че и двете стратегии трябва да бъдат избегнати, защото те изискват силни допускания, предположения, които трудно могат да бъдат оценени и на практика често са нарушавани. Макар че съм съгласен с това твърдение, мисля, че е твърде далеч. Със сигурност е вярно, че е трудно надеждно да се правят каузални оценки от не-експериментални данни, но не мисля, че това означава, че никога не бива да се опитваме. По-специално, не-експерименталните подходи могат да бъдат полезни, ако логистичните ограничения ви пречат да извършите експеримент или ако етичните ограничения означават, че не искате да провеждате експеримент. Освен това не-експерименталните подходи могат да ви помогнат, ако искате да се възползвате от вече съществуващите данни, за да създадете рандомизиран контролиран експеримент.

Преди да продължите, трябва също така да се отбележи, че вземането на каузални оценки е една от най-сложните теми в социалните изследвания и това, което може да доведе до интензивен и емоционален дебат. В следващата стъпка ще дам оптимистично описание на всеки подход, за да изградя интуиция за него, след което ще опиша някои от предизвикателствата, които възникват при използването на този подход. Повече подробности за всеки подход можете да намерите в материалите в края на тази глава. Ако възнамерявате да използвате някой от тези подходи в собственото си изследване, силно препоръчвам да прочетете една от многото отлични книги за причинно-следствени изводи (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .

Един подход при вземането на каузални оценки от неспецифични данни е да се търси събитие, което случайно е определило лечение на някои хора, а не на други. Тези ситуации се наричат природни експерименти . Един от най-ясните примери за естествен експеримент идва от изследването на Джошуа Ангрист (1990) измерващо ефекта на военните услуги върху печалбите. По време на войната във Виетнам Съединените щати увеличиха размера на въоръжените си сили чрез проект. За да реши кои граждани ще бъдат въведени в експлоатация, правителството на САЩ проведе лотария. Всяка дата на раждане е написана на лист хартия и, както е показано на фигура 2.7, тези парчета хартия са избрани един по един, за да се определи реда, по който младите мъже ще бъдат призовани да служат (младите жени не са били подложени на към проекта). Въз основа на резултатите, мъжете, родени на 14 септември, бяха наречени на първо място, мъжете, родени на 24 април, бяха наречени на второ място и т.н. В крайна сметка в тази лотария са разработени мъже, родени на 195 различни дни, докато мъжете, родени на 171 дни, не са били.

Фигура 2.7: Конгресменът Александър Пирн (R-NY), който е изготвил първата капсула за проекта за селективна услуга на 1 декември 1969 г. Джошуа Ангрист (1990) съчетава проекто лотарията с данни за приходите от администрацията за социално осигуряване, за да оцени ефекта от военната служба върху приходите. Това е пример за изследване, използващо естествен експеримент. Източник: Селективна система за услуги в САЩ (1969) / Wikimedia Commons.

Фигура 2.7: Конгресменът Александър Пирн (R-NY), който извади първата капсула за проекта за селективна услуга на 1 декември 1969 г. Джошуа Ангрист (1990) съчетава проекто лотарията с данни за приходите от администрацията за социално осигуряване, за да оцени ефекта от военната служба върху приходите. Това е пример за изследване, използващо естествен експеримент. Източник: Селективна система за услуги в САЩ (1969) / Wikimedia Commons .

Въпреки че може да не бъде веднага очевидно, проекто лотарията има критична прилика с рандомизирания контролиран експеримент: и в двете ситуации участниците се разпределят на случаен принцип, за да получат лечение. За да проучи ефекта от това рандомизирано лечение, Ангистр се възползва от постоянната голяма система за данни: Администрацията за социално осигуряване на САЩ, която събира информация за практически всички приходи от заетост на американците. Чрез комбиниране на информацията за това кой е избран случайно в проекто-лотарията с данните за приходите, събрани в правителствените административни документи, Angrist заключава, че доходите на ветераните са били с около 15% по-ниски от печалбите на сравними не-ветерани.

Както илюстрира този пример, понякога социалните, политическите или природните сили възлагат лечение по начин, който може да бъде използван от изследователите, а понякога последиците от тези лечения се улавят в непрекъснати източници на данни. Тази изследователска стратегия може да бъде обобщена по следния начин: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]

За да илюстрираме тази стратегия в дигиталната ера, нека разгледаме едно проучване на Александър Мас и Енрико Морети (2009) което се опита да оцени ефекта от работата с продуктивни колеги върху производителността на работника. Преди да видите резултатите, струва си да се отбележи, че има противоречиви очаквания, които може да имате. От една страна, може да очаквате, че работата с продуктивни колеги ще доведе работник да увеличи производителността си поради натиск от страна на връстниците. Или, от друга страна, бихте могли да очаквате, че трудно работещите връстници може да накарат работника да отслабне, защото работата ще бъде извършена от нейните връстници. Най-ясният начин за проучване на ефектите от равновесието върху производителността би бил рандомизираният контролиран експеримент, при който работниците са разпределени на случаен принцип, за да се пренасочват към работници с различни нива на производителност и след това произтичащата производителност се измерва за всеки. Изследователите обаче не контролират графика на работниците във всеки истински бизнес и затова Mas и Moretti трябваше да разчитат на естествен експеримент, включващ касиери в супермаркет.

В този конкретен супермаркет, поради начина, по който е направен графикът и начина, по който смените се припокриват, всеки касиер имаше различни колеги по всяко време на деня. Освен това в този конкретен супермаркет прехвърлянето на касиери не е свързано с производителността на техните колеги или с колко зает е магазинът. С други думи, въпреки че графикът на касиерите не се определяше от лотарията, сякаш работниците понякога бяха случайно назначени да работят с колеги с висока (или ниска) производителност. За щастие в този супермаркет имаше и система за разплащане в цифров вид, която проследяваше елементите, които всеки касиер сканирал по всяко време. От тези данни от регистрационните файлове, Mas и Moretti успяха да създадат точна, индивидуална и постоянна мярка за производителността: броят на сканираните части в секунда. Комбинирайки тези две неща - естественото разнообразие в производителността на връстници и постоянната мярка за производителност - Mas и Moretti изчислиха, че ако даден касиер е назначен за колеги, които са с 10% по-продуктивни от средното, производителността му ще се увеличи с 1,5% , Освен това те са използвали размера и богатството на своите данни, за да проучат два важни въпроса: Хетерогенността на този ефект (За кои видове работници ефектът е по-голям?) И механизмите зад ефекта (Защо високопоставените колеги водят до висока производителност?). Ще се върнем към тези два важни въпроса - хетерогенността на ефектите и механизмите на лечението - в глава 4, когато обсъждаме експериментите по-подробно.

Обобщавайки се от тези две проучвания, таблица 2.3 обобщава други проучвания, които имат същата структура: използвайки винаги източник на данни за измерване на ефекта на някои случайни вариации. На практика изследователите използват две различни стратегии за намиране на естествени експерименти, които могат да бъдат плодотворни. Някои изследователи започват с непрекъснат източник на данни и търсят случайни събития в света; други започват случайно събитие в света и търсят източници на данни, които улавят нейното въздействие.

Таблица 2.3: Примери за природни експерименти, използващи големи източници на данни
Съществено фокусиране	Източник на естествен експеримент	Източник на данни винаги	препратка
Партньорски ефекти върху производителността	Процес на планиране	Данни за Checkout	Mas and Moretti (2009)
Формиране на приятелство	Урагани	Facebook	Phan and Airoldi (2015)
Разпространение на емоциите	Дъжд	Facebook	Lorenzo Coviello et al. (2014)
Икономически трансфери от тип "peer to peer"	земетресение	Данни за мобилните пари	Blumenstock, Fafchamps, and Eagle (2011)
Поведение на лично потребление	2013 блокиране на правителството на САЩ	Лични финансови данни	Baker and Yannelis (2015)
Икономическо въздействие на препоръчителните системи	различни	Разглеждането на данни в Amazon	Sharma, Hofman, and Watts (2015)
Ефект на стреса върху неродените бебета	2006 Израел-Хизбула война	Документи за раждане	Torche and Shwed (2015)
Четене поведение на Уикипедия	Снежните откровения	Уикипедия дневници	Penney (2016)
Партньорски ефекти върху упражненията	Метеорологично време	Фитнес тракери	Aral and Nicolaides (2017)

В дискусията досега за естествените експерименти изпуснах една важна точка: да преминете от това, което природата е предоставила на това, което искате, понякога може да бъде доста трудно. Хайде да се върнем към примерния пример на Виетнам. В този случай Ангистр се интересуваше от оценката на ефекта от военната служба върху доходите. За съжаление, военната служба не беше разпределена случайно; по-скоро се изготвяше, което беше разпределено на случаен принцип. Все пак не всички, които са били изготвени, служели (имаше разнообразие от изключения), а не всички, които служеха, бяха подготвени (хората можеха доброволно да служат). Тъй като изготвянето е било разпределено на случаен принцип, изследователят може да оцени ефекта от това, че е изготвен за всички мъже в проекта. Но Ангрист не искаше да знае ефекта от съставянето му; той искаше да знае ефекта от службата в армията. За да се направи тази оценка, обаче, са необходими допълнителни предположения и усложнения. На първо място, изследователите трябва да приемат, че единственият начин, по който се изготвя въздействието върху печалбата, е чрез военна служба - допускане, наречено ограничение за изключване . Това предположение може да се окаже погрешно, ако например съставените мъже останаха в училище по-дълго, за да избегнат служенето си, или ако работодателите нямат по-малка вероятност да наемат съставени мъже. Обикновено ограничаването на изключването е критично предположение и обикновено е трудно да се провери. Дори ако ограничението за изключване е правилно, все още е невъзможно да се оцени ефектът от услугата върху всички мъже. Вместо това се оказва, че изследователите могат само да оценят ефекта върху конкретна подгрупа от мъже, наречени compliers (мъже, които биха служили, когато са изготвени, но няма да служат, когато не са изготвени) (Angrist, Imbens, and Rubin 1996) . Композиторите обаче не са били първоначалната популация, представляваща интерес. Забележете, че тези проблеми възникват дори и в относително чистия случай на проекто лотарията. Друг набор от усложнения възниква, когато лечението не се възлага от физическа лотария. Например, в проучването на Mas и Moretti за касиерите, възникват допълнителни въпроси относно предположението, че назначаването на връстници е по същество случайно. Ако това предположение беше силно нарушено, то би могло да оспори своите оценки. За да се заключи, природните експерименти могат да бъдат мощна стратегия за правене на каузални оценки от не-експериментални данни и големите източници на данни увеличават способността ни да се възползваме от природни експерименти, когато те се появят. Въпреки това, вероятно ще ви е необходима голяма грижа - а понякога и силни допускания - да преминете от това, което природата е предоставила на оценката, която искате.

Втората стратегия, за която искам да ви кажа, че правите приблизителни оценки от неспериментални данни, зависи от статистическата корекция на несперименталните данни в опит да се отчетат съществуващите преди това разлики между тези, които са направили и не са получили лечението. Има много такива подходи за приспособяване, но ще се съсредоточа върху едно наречено съвпадение . При сравняването изследователят разглежда не-експериментални данни, за да създаде двойки хора, които са сходни, с изключение на това, че човек е получил лечението и не е имал такъв. В процеса на съвпадение, изследователите всъщност са и резитба ; т.е. изхвърлянето на случаи, при които няма очевидно съответствие. По този начин този метод би бил по-точно наречен съвпадение и подрязване, но ще се придържам към традиционния термин: съвпадение.

Един пример за силата на съвпадение на стратегии с масивни източници на неопитни данни идва от проучване на поведението на потребителите от Лиран Айнвав и колеги (2015) . Те се интересуваха от търгове, провеждащи се на иБей, и в описанието на тяхната работа, ще се съсредоточа върху ефекта от началната цена на търга върху резултатите от търговете, като продажната цена или вероятността за продажба.

Най-наивен начин да се оцени ефектът от началната цена върху продажната цена би бил просто да се изчисли крайната цена за търговете с различни начални цени. Този подход би бил добре, ако искате да предскажете продажната цена, като се има предвид началната цена. Но ако вашият въпрос засяга ефекта от началната цена, този подход няма да работи, защото не се основава на справедливи сравнения; търговете с по-ниски начални цени може да са доста различни от тези с по-високи начални цени (напр. те могат да бъдат за различни видове стоки или да включват различни видове продавачи).

Ако вече сте наясно с проблемите, които могат да възникнат при направата на каузални оценки от неспериментални данни, можете да прескочите наивния подход и да помислите за провеждане на полеви експеримент, в който бихте продали конкретен елемент - да речем голф клуб - с фиксиран набор от аукционни параметри - да речем, безплатна доставка и търг отворена за две седмици, но с произволно разпределени начални цени. Сравнявайки получените пазарни резултати, този полеви експеримент ще даде много ясна оценка на ефекта от началната цена върху продажната цена. Но това измерване ще се прилага само за един конкретен продукт и набор от аукционни параметри. Резултатите могат да бъдат различни, например за различните видове продукти. Без силна теория е трудно да се екстраполира от този единствен експеримент до пълния набор от възможни експерименти, които биха могли да се проведат. По-нататък полевите експерименти са достатъчно скъпи, че би било невъзможно да се изпълнява всеки вариант, който може да искате да опитате.

За разлика от наивните и експерименталните подходи, Einav и колегите си възприеха трети подход: съвпадение. Основният трик в тяхната стратегия е да открият неща, подобни на полеви експерименти, които вече са се случили на иБей. Например, фигура 2.8 показва някои от 31-те обяви за точно същия голф клуб - един Taylormade Burner 09 Driver - продаден от същия продавач - "budgetgolfer". Въпреки това тези 31 обяви имат малко по-различни характеристики, цена, крайни дати и такси за доставка. С други думи, това е като "бюджетголфер" провежда експерименти за изследователите.

Тези списъци на Taylormade Burner 09 Driver, които се продават от "budgetgolfer", са един пример за съвпадащ набор от обяви, при които точно същия продукт се продава от същия продавач, но всеки път с малко по-различни характеристики. В рамките на масивните трупи на иБей има буквално стотици хиляди съвпадащи групи, включващи милиони списъци. По този начин, вместо да се сравнява крайната цена за всички търгове с определена начална цена, Einav и колегите се сравняват в съвпадащи групи. За да комбинираме резултатите от сравненията в тези стотици хиляди съвпадащи групи, Einav и колегите отново изразиха началната цена и крайната цена по отношение на референтната стойност на всяка позиция (например средната й продажна цена). Например, ако Taylormade Burner 09 Driver има референтна стойност от $ 100 (въз основа на продажбите му), началната цена от $ 10 ще бъде изразена като 0.1, а крайната цена от $ 120 е 1.2.

Фигура 2.8: Пример за съвпадащ набор. Това е съвсем същият голф клуб, който се продава от точно същото лице, но някои от тези продажби са извършени при различни условия (напр. Различни начални цени). Възпроизведено с разрешение от Einav et al. (2015), фигура 1Ь.

Фигура 2.8: Пример за съвпадащ набор. Това е съвсем същият голф клуб ("Taylormade Burner 09 Driver"), продаван от точно същото лице ("budgetgolfer"), но някои от тези продажби са извършени при различни условия (напр. Различни начални цени). Възпроизведено с разрешение от Einav et al. (2015) , фигура 1Ь.

Спомнете си, че Einav и колегите му се интересуват от ефекта на началната цена върху резултатите от търговете. Първо, те използваха линейна регресия, за да преценят, че по-високите стартови цени намаляват вероятността от продажба и че по-високите стартови цени увеличават крайната продажна цена (зависи от настъпването на продажбата). Сами по себе си тези оценки - които описват линейна връзка и се осредняват за всички продукти - не са толкова интересни. След това Einav и колегите използваха огромния размер на данните си, за да създадат различни по-фини оценки. Например чрез оценката на ефекта поотделно за различни различни начални цени те установиха, че връзката между началната цена и продажната цена е нелинейна (фигура 2.9). По-специално, при стартиране на цени между 0,05 и 0,85 началната цена оказва много малко влияние върху продажната цена, което беше напълно пропусната от първия им анализ. Освен това Einav и колегите оценяват влиянието на стартовата цена за 23 различни категории артикули (напр. Консумативи за домашни любимци, електроника и спортни спомени) (вж. Фигура 2.10). Тези приблизителни оценки показват, че за по-характерните елементи - като сувенири - стартовата цена има по-малък ефект върху вероятността от продажба и по-голям ефект върху крайната продажна цена. По-нататък, за по-комерсиализираните артикули, като DVD-та, началната цена почти няма влияние върху крайната цена. С други думи, средната, която комбинира резултатите от 23 различни категории елементи, крие важни разлики между тези елементи.

Фигура 2.9: Връзка между начална цена на търга и вероятност от продажба (а) и продажна цена (б). Съществува грубо линейна връзка между началната цена и вероятността от продажба, но нелинейна връзка между началната цена и продажната цена; за началните цени между 0,05 и 0,85, началната цена оказва много малко влияние върху продажната цена. И в двата случая връзките са основно независими от стойността на елемента. Адаптирано от Einav et al. (2015) , фигури 4а и 4Ь.

Фигура 2.10: Прогнози от всяка категория позиции; твърдата точка е оценката за всички категории, обединени заедно (Einav et al. 2015) . Тези оценки показват, че за по-характерните елементи - като запомнящи се стоки - началната цена има по-малък ефект върху вероятността от продажба ( $x$ -аксис) и по-голям ефект върху крайната продажна цена ( $y$ -ос). Адаптирано от Einav et al. (2015) , фигура 8.

Дори ако не сте особено заинтересовани от аукциони на eBay, трябва да се възхищавате от начина, по който фигурите 2.9 и фигура 2.10 предлагат по-богато разбиране за иБей, отколкото простите оценки, които описват линейна връзка и комбинират много различни категории елементи. Освен това, въпреки че би било научно възможно да се генерират тези по-фини оценки с полеви експерименти, разходите биха направили такива експерименти по същество невъзможни.

Както при естествените експерименти, има няколко начина, по които свързването може да доведе до лоши оценки. Мисля, че най-голямата загриженост при съвпадение на оценките е, че те могат да бъдат предубедени от неща, които не са били използвани в съвпадението. Например, в основните им резултати, Einav и колегите направиха точно съвпадение на четири характеристики: идентификационен номер на продавача, категория на артикула, заглавие на елемента и субтитри. Ако елементите бяха различни по начини, които не бяха използвани за съвпадение, това би могло да създаде несправедливо сравнение. Ако например "budgetgolfer" понижи цените на шофьора Taylormade Burner 09 през зимата (когато голф клубовете са по-малко популярни), тогава може да се окаже, че по-ниските стартови цени водят до по-ниски крайни цени, когато всъщност това би било артефакт на сезонно изменение на търсенето. Един подход за справяне с тази загриженост се опитва много различни видове съвпадение. Например, Einav и колегите повториха анализа си, като променят времевия прозорец, използван за съвпадение (съвпадащите комплекти включваха продадените продукти в рамките на една година, в рамките на един месец и едновременно). За щастие те намериха подобни резултати за всички прозорци на времето. Друга загриженост за съвпадението възниква от тълкуването. Оценките от съвпадение важат само за съвпадащи данни; те не се отнасят до случаите, които не могат да бъдат съвпадащи. Например, като ограничиха изследванията си до позиции, които са имали множество обяви, Einav и колегите се фокусират върху професионални и полупрофесионални продавачи. По този начин при тълкуването на тези сравнения трябва да помним, че те се отнасят само за тази подгрупа от иБей.

Съответствието е мощна стратегия за намиране на справедливи сравнения в не-експериментални данни. Много социалисти смятат, че съвпадението се смята за второ най-добро за експерименти, но това е вяра, която може леко да бъде преразгледана. Съответствието в масивните данни може да е по-добро от малък брой полеви експерименти, когато (1) хетерогенността на ефектите е важна и (2) са измерени важните променливи, необходими за съгласуване. В Таблица 2.4 са дадени някои други примери за това как свързването може да се използва с големи източници на данни.

Таблица 2.4: Примери за изследвания, които използват съвпадение с големи източници на данни
Съществено фокусиране	Голям източник на данни	препратка
Ефект от престрелките върху полицейското насилие	Спиране на записите	Legewie (2016)
Ефект от 11 септември 2001 г. върху семействата и съседите	Гласови записи и записи за дарения	Hersh (2013)
Социална зараза	Данни за комуникацията и приемането на продукти	Aral, Muchnik, and Sundararajan (2009)

В заключение, оценяването на причинните ефекти от несперименталните данни е трудно, но могат да се използват подходи като естествени експерименти и статистически корекции (напр. Съвпадение). В някои ситуации тези подходи могат да се окажат лоши, но когато бъдат разгърнати внимателно, тези подходи могат да бъдат полезно допълнение към експерименталния подход, който описвам в глава 4. Освен това, тези два подхода изглежда особено благоприятни от нарастването на винаги- на големи информационни системи.