2.4.3.2 Matching

Съвпадение създаде справедливи сравнения с резитба далеч случаи.

Справедливи сравнения може да дойде или от рандомизирани контролирани експерименти или физически експерименти. Но, има много ситуации, в които не може да работи идеално експеримента и природата, не е осигурил естествен експеримент. В тези настройки, най-добрият начин за създаване на справедливо сравнение е съвпадение. В съвпадение, изследователят търси чрез не-експериментални данни за създаване на двойки от хора, които са сходни с изключение, че един е получил лечение и един не разполага. В процеса на съвпадение, изследователите са всъщност също кастрене; т.е. изхвърляне случаи когато няма очевидна сравнение. По този начин, този метод ще бъде по-точно нарича съвпадение-и-резитба, но аз ще остана с традиционното наименование: съвпадение.

Красив пример за силата на съвпадение стратегии с масивни не-експериментални източници на данни идват от изследванията върху поведението на потребителите чрез Liran Einav и колеги (2015) . Einav и колеги се интересуват от търговете, които се провеждат на иБей, и в който описва работата си, аз ще се фокусира върху един конкретен аспект: ефекта на начална цена на търга на тръжните резултати, като продажната цена или вероятността за продажба на.

Най-наивен начин да се отговори на въпроса за ефекта на начална цена за продажба на цените би било просто да се изчисли крайната цена за наддаването с различни начални цени. Този подход би било добре, ако просто искате да се предскаже на продажната цена на даден артикул, които са били пуснати на иБей с дадена начална цена. Но, ако вашият въпрос е какъв е ефектът на начална цена на пазарните резултати този подход няма да работи, защото тя не се основава на справедливи сравнения; търговете с по-ниски начални цени може да са доста по-различни от търговете с по-високи начални цени (например, те могат да бъдат за различни видове стоки или да включва различни видове продавачи).

Ако вече сте загрижени за вземане на справедливи сравнения, може да пропуснете наивен подход и разглежда провеждане на експеримент, където можете да продаде определена точка-кажа, голф клуб-с фиксиран набор от тръжни параметри-кажа, безплатна доставка, търг отворено за две седмици, и т.н., но с произволно избран началните цени. Чрез сравняване на получените резултати на пазара, това поле експеримент ще предложи много ясна измерване на ефекта на начална цена от продажната цена. Но, това измерване ще се прилага само за един конкретен продукт и набор от тръжни параметри. Резултатите могат да бъдат различни, например, различни видове продукти. Без силна теория, че е трудно да се екстраполира от този единичен експеримент на пълната гама от възможни експерименти, които биха могли да се пуска. Освен това, полеви експерименти са достатъчно скъпи, че би било невъзможно да тече достатъчно от тях до покрива целия параметър пространство на продукти и видове търг.

За разлика от наивни подход и експериментален подход, Einav и колеги да трети подход: съвпадение. Основният трик на тяхната стратегия е да откриете неща, подобни на полеви експерименти, които вече са се случили на иБей. Например, Фигура 2.6 показва някои от 31-те обяви за абсолютно същия голф клуб-а TaylorMade Burner 09 Шофьор-, е продадена от абсолютно същия seller- "budgetgolfer". Въпреки това, тези обяви са малко по-различни характеристики. Единадесет от тях предлагат на водача за фиксирана цена от $ 124,99, докато останалите 20 са търгове с различни крайни дати. Също така, обявите имат различни такси за доставка, или $ 7.99 или $ 9,99. С други думи, това е като че ли "budgetgolfer" работи експерименти за изследователите.

Обявите на TaylorMade Burner 09 драйвера е продадена от "budgetgolfer" са един пример за съвпадение набор от обяви, където точно същата позиция се продават от точно същия продавача, но всеки път, с малко по-различни характеристики. В рамките на масивни дървени трупи на иБей има буквално стотици хиляди съвпадащи комплекти, включващи милиони обяви. По този начин, а не сравняване на крайната цена за всички търгове в рамките на даден начална цена, Einav и колеги правят сравнения в рамките съвпадащи набори. С цел да се комбинират резултатите от сравненията в рамките на тези стотици хиляди съвпадащи набори, Einav и колеги повторно изразяват началната цена и крайната цена по отношение на референтната стойност на всеки елемент (например, неговата средна продажна цена). Например, ако TaylorMade Burner 09 пилот референтна стойност от $ 100 (на базата на неговите продажби), след това с начална цена от $ 10 ще бъде изразено като 0.1 и крайна цена от $ 120 ще бъде изразено като 1.2.

Фигура 2.6: Пример за съгласуван комплект. Това е точно същото голф клуб (а TaylorMade Burner 09 Driver), е продадена от точно същото лице (budgetgolfer), но някои от тези продажби са извършени различни условия (например, друга начална цена). Фигура взети от Einav и др. (2015 г.).

Фигура 2.6: Пример за съгласуван комплект. Това е точно същото голф клуб (а TaylorMade Burner 09 Driver), е продадена от точно същото лице ( "budgetgolfer"), но някои от тези продажби са извършени различни условия (например, друга начална цена). Фигура взети от Einav et al. (2015) .

Припомнете си, че Einav и колеги се интересуват от ефекта на стартиране на цените на тръжните резултати. Първо, като се използва линейна регресия те изчислиха, че по-високи начални цени намаляват вероятността за продажба, и че по-високи начални цени увеличават крайната продажна цена, при условие за продажбата на настъпване. Сами по себе си, тези оценки-, които са осреднени за всички продукти и поемат линейна връзка между началната цена и заключителни не резултати, са всичко, което интересно. Но, Einav и колеги също да използват масовото размера на техните данни за оценяване на различни по-фини констатации. Първо, Einav и колеги правят тези оценки отделно за предмети на различни цени и без да се използва линейна регресия. Те открили, че докато отношенията между старт цена и вероятност за продажба е линейна, връзката между началната цена и продажната цена е ясно нелинейна (Фигура 2.7). По-специално, за започване на цени между 0.05 и 0.85, началната цена е много малко влияние върху продажната цена, се установи, че е завършена пропусната в анализа, който е поел линейна зависимост.

Фигура 2.7: Връзка между Начална цена за търг и вероятност за продажба (ляв панел) и продажна цена (десен панел). Налице е грубо линейна връзка между старт цена и вероятност за продажба, но там е нелинейна връзка между старт цена и продажната цена; за започване на цени между 0.05 и 0.85, началната цена е много малко влияние върху продажната цена. И в двата случая, отношенията са основно независими от стойността т. Тези графики възпроизвеждат фигура 4а и 4б Einav и др. (2015 г.).

Фигура 2.7: Връзка между Начална цена за търг и вероятност за продажба (ляв панел) и продажна цена (десен панел). Налице е грубо линейна връзка между старт цена и вероятност за продажба, но там е нелинейна връзка между старт цена и продажната цена; за започване на цени между 0.05 и 0.85, началната цена е много малко влияние върху продажната цена. И в двата случая, отношенията са основно независими от стойността т. Тези графики възпроизвеждат фигура 4а и 4б Einav et al. (2015) .

Второ, по-скоро, отколкото средно над всички елементи, Einav и колеги също да използват масовото мащаба на своите данни, за да се оцени въздействието на начална цена за 23 различни категории предмети (например, домашни любимци, електроника, спортни сувенири) (Фигура 2.8). Тези оценки показват, че за по-характерните елементи, като сувенири старт цена има по-малък ефект върху вероятността за продажба и по-голям ефект върху крайния продажната цена. Освен това, за по-комодифицира елементи, като например DVD-та и видео-цената старт почти не оказва влияние върху крайната цена. С други думи, средна, която комбинира резултатите от 23 различни категории предмети крие важна информация относно разликите между тези елементи.

Фигура 2.8: Резултатите показват данните от всяка категория поотделно; твърдата точка в оценката за всички категории обединяват заедно, Таблица 11 (Einav и др. 2015 г. Таблица 11). Тези оценки показват, че за по-характерните елементи, като сувенири-цената начало има по-малък ефект върху вероятността за продажба (х-ос) и по-голям ефект върху крайния продажната цена (ордината).

Фигура 2.8: Резултатите показват данните от всяка категория поотделно; твърдата точка в оценката за всички категории обединени (Einav et al. 2015, Table 11) . Тези оценки показват, че за по-характерните елементи, като сувенири-цената начало има по-малък ефект върху вероятността за продажба (х-ос) и по-голям ефект върху крайния продажната цена (ордината).

Дори и да не са особено заинтересовани в търгове на иБей, което трябва да се възхищаваме на начина, по който фигура 2.7 и фигура 2.8 предлагат богато разбиране на иБей от прости изчисления на линейна регресия, които поемат линейни връзки и съчетават много различни категории предмети. Тези по-фини оценки илюстрират силата на съвпадение в масивна данни; тези оценки биха били невъзможни без огромен брой полеви експерименти, което би било прекалено скъпо.

Разбира се, ние трябва да имаме по-малко доверие в резултатите от всяка конкретна съвпадение проучване, отколкото бихме в резултатите от сходно експеримент. При оценката на резултатите от всяко съвпадение на проучване, има два важни въпроса. Първо, ние трябва да помним, че ние може да осигури само честни сравнения на неща, които са били използвани за съвпадение. В основните си резултати, Einav и колеги е точно съвпадение на четири характеристики: продавач идентификационен номер, категория позиция, заглавие елемент, и субтитрите. Ако елементите са различни по начини, които не са били използвани за съвпадение, че биха могли да създадат нелоялна сравнение. Например, ако "budgetgolfer" понижи цените за TaylorMade Burner 09 Driver през зимата (когато голф клубове са по-малко популярни), след това тя може да се окаже, че по-ниските начални цени водят до намаляване на крайните цени, когато в действителност това ще бъде един артефакт на сезонна вариация на търсенето. Като цяло, най-добрият подход към този проблем изглежда се опитва много различни видове съвпадение. Например, Einav и колеги повтарят техния анализ, където съвпадащи набори включват продукти за продажба рамките на една година, в рамките на един месец, а едновременно. Осъществяване на прозореца време строг намалява броя на съвпадащи набори, но намалява опасенията за сезонна вариация. За щастие, смятат, че резултатите са непроменени от тези промени в отговарящи на критериите. В съвпадение литературата, този тип се отнасят обикновено се изразява по отношение на видимост и unobservables, но ключовата идея е наистина, че изследователите са само създаване на справедлива сравнения на функциите, използвани в съвпадение.

Вторият основен проблем при тълкуването на съвпадение на резултатите е, че те се прилагат само за съвпадащи данни; те не се прилагат за случаите, които не могат да бъдат съчетани. Например, чрез ограничаване на техните изследвания за позиции, които са имали множество обяви Einav и колеги са фокусирани върху професионални и полу-професионални продавачи. По този начин, когато се интерпретират тези сравнения не трябва да забравяме, че те се прилагат само за тази подгрупа на иБей.

Matching е мощна стратегия за намиране на справедливи сравнения в големи масиви от данни. За много социолози, съвпадение чувства като втора най-добре да експерименти, но това е убеждението, че трябва да бъдат преразгледани, леко. Matching в масивни данни може да е по-добре от малък брой полеви експерименти, когато: 1) хетерогенност в ефекти е важно и 2) има добри наблюдаеми за съвпадение. Таблица 2.4 предоставя някои други примери за съвпадение може да се използва с големи източници на данни.

Таблица 2.4: Примери за проучвания, които използват съвпадение да се намери справедлив сравнения в рамките на цифрови следи.
Материален фокус Big източник на данни цитат
Ефект на стрелби на полицейско насилие Спиране и Фриск записи Legewie (2016)
Effect 11 септември 2001 г. за семейства и съседи записи на глас и дарителски записи Hersh (2013)
социално зараза Комуникация и приемане на продукта данни Aral, Muchnik, and Sundararajan (2009)

В заключение, наивни подходи за оценка на причинните ефекти от не-експериментални данни са опасни. Въпреки това, стратегии за вземане на причинни оценки, разположени по континуум от силната към най-слабата и изследователи могат да открият честни сравнения в рамките на не-експериментални данни. Растежът на винаги-на, големи системи за данни увеличава способността ни да се използват ефективно две съществуващи методи: природни експерименти и съвпадение.