2.4.3 жақындап эксперименттер

Біз жоқ немесе жасай алмайтын эксперименттерді жақындата аламыз. Үлкен дерек көздерінен әсіресе екі әдіс - бұл табиғи эксперименттер және сәйкестілік.

Кейбір маңызды ғылыми және саяси мәселелер себеп болып табылады. Мысалы, жұмысқа орналасу бағдарламасының жалақысына әсері қандай? Бұл сұраққа жауап беруге тырысатын зерттеуші жаттығу жасаған адамдарға табыс етпеген кірістерді салыстыра алмайды. Бірақ осы топтардың арасындағы жалақыдағы қандай айырмашылық оқытуға байланысты және қаншалықты тіркелетін адамдар арасында бұрыннан бар айырмашылықтардан және олардан айырмашылығы бар? Бұл қиын мәселе және ол автоматты түрде көп деректермен бірге кетпейді. Басқаша айтқанда, сіздің деректеріңізде қанша адам жұмыс істейтініне қарамастан, бұрыннан келе жатқан айырмашылықтар туралы алаңдаушылық туындайды.

Көптеген жағдайларда, белгілі бір емдеудің, мысалы, жұмысқа орналасу сияқты, себеп-салдарлық әсерін бағалаудың ең мықты тәсілі - зерттеуші емделушіні басқа адамдарға емес, кейбір адамдарға кездейсоқ түрде жеткізетін рандомизацияланған бақыланатын эксперимент жүргізу. Мен барлық 4-тарауды эксперименттерге арнаймын, осылайша, мен эксперименталды емес деректермен қолдануға болатын екі стратегияға көңіл аударамын. Алғашқы стратегия әлемде болып жатқан нәрсені іздестіруге байланысты, ол кездейсоқ (немесе кездейсоқ түрде) кейбір адамдарға емес, басқа адамдарға емдеуді тағайындайды. Екінші стратегия стратегиялық тұрғыдан эксперименталды деректерді түзетуге байланысты және емделмеген және емделмеген адамдар арасындағы бұрыннан бар айырмашылықтарды есепке алу әрекеттеріне байланысты.

Скептический бұл стратегиялардың екеуі де аулақ болуға тиіс, себебі олар қатаң болжамдар, жорамалдарды бағалау қиын және практикада жиі бұзылады. Мен осы шағымды қанағат тұтамын, бірақ менің ойымша, бұл өте аз. Эксперименттік емес деректерден себеп-сандық бағалауды сенімді түрде жасау қиынға соғады, бірақ менің ойымша, бұл ешқашан тырысу керек дегенді білдірмейді. Атап айтқанда, эксперименттік емес тәсілдер пайдалы болуы мүмкін, егер логистикалық шектеу сізді эксперимент жүргізуге кедергі келтірсе немесе этикалық шектеу эксперимент жүргізгіңіз келмейді дегенді білдірсе. Бұдан басқа, эксперименттік емес тәсілдер пайдалы болуы мүмкін, егер сіз рандомизацияланған бақыланатын эксперименттерді жобалау үшін бұрыннан бар деректерді пайдаланғыңыз келсе.

Айта кету керек, себеп-сандық бағалау - бұл әлеуметтік зерттеулердегі ең күрделі тақырыптардың бірі, және ол қарқынды және эмоциялық пікірталасқа әкелуі мүмкін. Осыған байланысты, мен онымен түйсігі құруға әр көзқарастың оптимистік сипаттамасын ұсынамын, содан кейін осы тәсілді қолданғанда пайда болатын кейбір қиындықтарды сипаттаймын. Әрбір көзқарас туралы қосымша мәліметтер осы тараудың соңындағы материалдарда бар. Егер сіз өзіңіздің зерттеуіңізде осы тәсілдердің бірін қолдануды жоспарласаңыз, мен себеп-салдар бойынша көптеген тамаша кітаптардың бірін оқып (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .

Эксперименттік емес деректерге негізделген бағалауды жасаудың бір жолы - кейбір адамдарға емес, басқаларға емделуді кездейсоқ тағайындаған оқиғаны іздеу. Бұл жағдайлар табиғи эксперименттер деп аталады. Табиғи эксперименттің ең айқын мысалдарының бірі әскери қызметтің табысқа әсерін өлшейтін Joshua Angrist (1990) зерттеуінен алынған. Вьетнамдағы соғыста Құрама Штаттар өз қарулы күштерінің көлемін жоба арқылы ұлғайтты. Қай азаматтарды шақыруға болатынын анықтау үшін АҚШ үкіметі лотерея өткізді. Әрбір туған күні қағазға жазылған және 2.7-суретте көрсетілгендей, бұл қағаздар бір жасқа таңдалынып, жас жігіттерге қызмет етуге шақырылады (жас әйелдер темекі болмаған). жобаға). Нәтижелерге сүйенсек, 14 қыркүйекте туған ер адамдар біріншіден, 24 сәуірде туылған ер адамдар екінші рет аталды. Нәтижесінде, осы лотереяда 195 әртүрлі күндерде туылған ер адамдар жасалды, ал 171 күнде туылған ер адамдар болмады.

Сурет 2.7: Конгрессмен Александр Пирни (R-NY) 1969 жылғы 1 желтоқсандағы Селективті қызмет жобасына арналған бірінші капсуланы түсірді. Джошуа Анджрист (1990) әскери қызметтің тиімділігін бағалау үшін Әлеуметтік қорғау басқармасынан түсетін деректермен лотереяның жобасын біріктірді табыста. Бұл табиғи эксперимент арқылы зерттеудің мысалы. Дерек көзі: US Selective Service System (1969) / Wikimedia Commons.

Сурет 2.7: Конгрессмен Александр Пирни (R-NY) 1969 жылғы 1 желтоқсандағы Селективті қызмет жобасына арналған бірінші капсуланы түсірді. Джошуа Анджрист (1990) әскери қызметтің тиімділігін бағалау үшін Әлеуметтік қорғау басқармасынан түсетін деректермен лотереяның жобасын біріктірді табыста. Бұл табиғи эксперимент арқылы зерттеудің мысалы. Дерек көзі: US Selective Service System (1969) / Wikimedia Commons .

Бұл көрінбейтін болса да, лотереяның жобасы рандомизацияланған бақыланатын экспериментке сыни ұқсастықпен ие: екі жағдайда да қатысушылар емделу үшін кездейсоқ тағайындалады. Бұл рандомизацияланған емнің әсерін зерттеу үшін, Ангристал әрқашан үлкен деректер жүйесінен артықшылығын алды: Американдық Әлеуметтік Қауіпсіздік Басқармасы, әр американдықтың жұмысқа орналасуынан түскен пайда туралы ақпарат жинайды. Латерея жобасында кімнің кездейсоқ таңдалғаны туралы ақпаратты біріктіре отырып, мемлекеттік әкімшілік құжаттарда жиналған ақшалай деректермен, Ангришердің айтуынша, ардагерлердің табысы салыстырмалы емес ардагерлердің табысынан 15 пайызға аз.

Бұл мысалда суреттелгендей, кейде әлеуметтік, саяси немесе табиғат күштері емделушілерді зерттеушілер тарапынан қолдана алатын етіп тағайындайды, ал кейде мұндай емдеудің әсері үлкен деректер көздерінде сақталады. Бұл зерттеу стратегиясын келесідей қорытынды жасауға болады: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]

Сандық ғасырда осы стратегияны көрсету үшін, өнімді әріптестермен жұмыс жасаушының өнімділігіне әсерін бағалауға тырысқан Александр Мас пен Энрико Мореттидің (2009) зерттеуін қарастырайық. Нәтижелерді көрмей тұрып, сізде болуы мүмкін қайшылықтар бар екендігіне назар аудару керек. Бір жағынан, өнімді әріптестермен жұмыс істей отырып, жұмысшыларға құрбы-құрдастарының қысымына байланысты өнімділігін арттыруға мүмкіндік береді деп күтуіңіз мүмкін. Немесе, екінші жағынан, сенің жұмысқа тұрған әріптестерің жұмыс істейтін адамның жұмыстан шығуына алып келуі мүмкін деп күтуге болады, себебі жұмысын өз әріптестерінің бәрі де жасайды. Өнімділікке әсер етудің тиімді әдістерін зерделеудің ең айқын жолы рандомизацияланған бақыланатын эксперимент болады, мұнда қызметкерлер әртүрлі өнімділік деңгейлерінің қызметкерлерімен кездейсоқ түрде ауысады, содан кейін алынған өнімділік әрбір адам үшін өлшенеді. Зерттеушілер ешқандай нақты жұмыс істемейтін қызметкерлердің жұмыс кестесін бақыламайды, сондықтан Mas және Moretti супермаркетте кассирлерді тартатын табиғи тәжірибеге сүйенуі керек еді.

Осы нақты супермаркетінде, жоспарлаудың орындалғандығымен және бір-біріне жақындаған сайын, әр кассирдің күнделікті әр түрлі уақытта әртүрлі қызметкерлері болған. Бұдан басқа, осы белгілі супермаркетінде кассирлердің тағайындалуы олардың құрдастарының өнімділігіне немесе дүкеннің қаншалықты жұмыс істемейтініне байланысты емес еді. Басқаша айтқанда, кассирлерді жоспарлау лотереямен анықталмағанымен, кейде жұмысшылар кездейсоқ жоғары (немесе төмен) еңбек өнімділігімен жұмыс жасайтын қызметкерлерге тағайындалады. Бақытымызға орай, бұл супермаркет ақ кассир сканерлеген элементтерді қадағалайтын цифрлық жасы бар тексеру жүйесі болды. Бұл тексеру журналының деректерінен Mas және Moretti өнімділіктің дәл, жеке және әрдайым өлшемін жасауға қабілетті болды: секундына сканерленген элементтердің саны. Мас және Моретти, бұл екі нәрсені біріктіре отырып, теңдесі өнімділігінде және әрдайым өнімділіктің әртүрлі өлшемдерінде бір-бірімен араласып, егер кассирге орташадан 10% -ға артық өнімділігі бар әріптестер тағайындалған болса, оның өнімділігі 1,5% . Бұдан басқа, олар екі маңызды мәселені зерттеу үшін олардың деректерінің көлемін және байлығын пайдаланды: бұл әсердің біркелкілігі (жұмысшылардың қандай түрлері үлкен әсер етеді?) Және әсер ету тетіктері (Неге өнімділігі жоғары әріптестерге өнімділігі жоғары?). Біз осы екі маңызды мәселеге - емдеу эффектілері мен тетіктерінің әртүрлілігіне қарай - 4-тарауда эксперименттерді егжей-тегжейлі талқылаған кезде оралайық.

Осы екі зерттеуден жалпыланған кестеде 2.3 сол құрылымы бар басқа зерттеулерді қорытындылайды: кейбір кездейсоқ вариациялардың әсерін өлшеу үшін әрдайым деректер көзін пайдалану. Іс жүзінде, зерттеушілер табиғи эксперименттер табуға болатын екі түрлі стратегияны қолданады, екеуі де жемісті болуы мүмкін. Кейбір зерттеушілер әрдайым деректер көзінен басталады және әлемдегі кездейсоқ оқиғаларды іздейді; басқалары әлемде кездейсоқ оқиғаны бастайды және оның әсерін жазатын деректер көздерін іздейді.

Кесте 2.3: Үлкен деректер көздерін пайдалану арқылы табиғи эксперименттердің мысалдары
Негізгі назар Табиғи эксперимент көзі Әрдайым деректер көзі Анықтама
Өнімділіктің теңгерімдік әсері Жоспарлау процесі Тексеру деректері Mas and Moretti (2009)
Достық құру Hurricanes Facebook Phan and Airoldi (2015)
Эмоциялардың таралуы Жаңбыр Facebook Lorenzo Coviello et al. (2014)
Теңгерімдегі экономикалық трансферттер Жер сілкінісі Ұялы ақша ақпараттары Blumenstock, Fafchamps, and Eagle (2011)
Жеке тұтыну тәртібі АҚШ үкіметі 2013 жылы тоқтатылды Жеке қаржы деректері Baker and Yannelis (2015)
Ұсынушы жүйелердің экономикалық әсері Әртүрлі Амазондағы деректерді шолу Sharma, Hofman, and Watts (2015)
Стресстің туа біткен сәбилерге әсері 2006 Израиль-Хизбалла соғысы Туу туралы жазбалар Torche and Shwed (2015)
Уикипедиядағы оқу тәртібі Сноуденнің айғақтары Уикипедия журналы Penney (2016)
Жаттығуларға тең-теңдік әсерлері Ауа райы Фитнес трекерлері Aral and Nicolaides (2017)

Осы уақытқа дейін табиғи эксперименттер туралы пікірталаста мен маңызды нәрсені қалдырдым: табиғат қандай табиғат сізге кейде өте күрделі болуы мүмкін екеніне көз жеткізді. Вьетнам жобасының үлгісіне оралайық. Бұл жағдайда, Ангристал әскери қызметтің табысқа әсерін бағалауға мүдделі. Өкінішке орай, әскери қызмет кездейсоқ тағайындалмады; Керісінше, ол кездейсоқ түрде тағайындалған болатын. Дегенмен, дайындалғандардың бәрі де (әртүрлі босатулар болған) емес, қызмет ететіндердің бәрі де дайындалмаған (адамдар ерікті қызмет көрсете алады). Жоба жоспарланған кезде, кездейсоқ түрде тағайындалса, зерттеуші жобадағы барлық адамдар үшін жобаланудың әсерін бағалай алады. Бірақ ангристент дайындалудың әсерін білгісі келмеді; ол әскери қызметтің нәтижесін білгісі келді. Алайда бұл бағалау үшін қосымша болжамдар мен асқынулар қажет. Алдымен, зерттеушілерге жұмыс істеуге әсер етудің жалғыз жолы - әскери қызметтен шығу, яғни, шектеуді шектеу деп аталатын болжам. Мысалы, мысалы, ерлер жұмыс істемейтін болса немесе жұмыс берушілер жұмыс жасайтын адамдарды жалдай алмаса, мектепте ұзақ уақыт бойы қалды. Тұтастай алғанда, шектеуді шектеу - бұл өте маңызды болжамдар және әдетте тексеру қиын. Тыйым салу шектеуі дұрыс болса да, барлық ер адамдарға қызмет нәтижесін бағалау мүмкін емес. Мұның орнына, зерттеушілер тек компиляторлар деп аталатын ерлердің белгілі бір жиынына әсері туралы бағалауға болады (адам шығарған кезде қызмет ете алатын, бірақ дайын болмаған кезде қызмет ете алмайтын адамдар) (Angrist, Imbens, and Rubin 1996) . Құрастырушылар, алайда, қызығушылықтың түпнұсқалы тұрғындары емес. Байқаңыз, бұл проблемалар лотерея жобасының салыстырмалы түрде таза жағдайда да пайда болады. Қосымша асқынулардың жиынтығы емдеу физикалық лотереямен тағайындалмаған кезде пайда болады. Мысалы, Мас пен Мореттидің кассирлерді зерттегенде, құрдастарының тағайындалуы айтарлықтай кездейсоқ екенін болжау туралы қосымша сұрақтар туындайды. Егер бұл болжам қатал бұзылған болса, онда бұл олардың бағалауларына сәйкес келуі мүмкін. Қорытындылай келе, табиғи эксперименттер эксперименттік емес деректерден себеп-сандық бағалау жүргізудің күшті стратегиясы бола алады және үлкен дерек көздері олар болған кезде табиғи эксперименттерге капиталдандыру мүмкіндігін арттырады. Дегенмен, мүмкін, сізге қажет нәрсені бағалаған табиғаттан қандай да бір мұқияттылық пен кейде қатаң болжамдар қажет.

Эксперименттік емес деректерден себеп-санын бағалау үшін сіз туралы айтып бергім келетін екінші стратегия, емделмеген және емделмеген адамдар арасында бұрыннан бар айырмашылықтарды есепке алу әрекеті кезінде тәжірибелік емес деректерді статистикалық түрде түзетуге байланысты. Осындай түзету тәсілдері бар, бірақ біреудің сәйкесінше сипатын қарастырамын . Сәйкесінше, зерттеуші эксперименттік емес мәліметтерді қарап, ұқсастығы бар жұптарды құруға болады, алайда емделуді алған және басқа ешкім жоқ. Сәйкестік үрдісінде зерттеушілер шынымен де кесіліп жатыр ; яғни айқын сәйкестік болмаған жағдайларды болдырмау. Осылайша, бұл әдіс дәл сәйкестік және жеміс-жидек деп аталады, бірақ дәстүрлі терминмен ұстанатын боламын: сәйкестендіру.

Үлкен эксперименттік емес деректер көздерімен салыстырылатын стратегиялардың бір мысалы Liran Einav және әріптестері (2015) тұтынушыларының мінез-құлқы туралы зерттеулерден келеді. Олар eBay-да өткізілетін аукциондарға қызығушылық танытты, және олардың жұмысын сипаттайтын болсам, аукционның бастапқы бағасының аукциондық нәтижелерге әсерін, мысалы, сату бағасы немесе сату ықтималдығы туралы ойлауға болады.

Бастапқы бағаны сату бағасына әсер етудің ең ақылға қонымды тәсілі әр түрлі бастапқы бағалары бар аукциондар үшін түпкілікті бағаны оңай есептеу болып табылады. Егер сіз бастапқы бағаны ескере отырып, сату бағасын болжауды қаласаңыз, бұл тәсіл жақсы болады. Бірақ сіздің сұрағыңыз бастапқы бағаның әсеріне қатысты болса, онда бұл әдіс жұмыс істемейді, себебі ол әділ салыстыруды негізге алмайды; бастапқы бағалармен төмен аукциондар бастапқы бағасынан жоғары болғандардан мүлдем өзгеше болуы мүмкін (мысалы, олар әртүрлі тауар түрлеріне немесе сатушылардың әртүрлі түрлерін қамтуы мүмкін).

Егер эксперименттік емес деректерден себеп-салдар бағаларын жасаған кезде туындауы мүмкін мәселелер туралы бұрыннан білсеңіз, бірегей әдісті өткізіп жіберіп, белгілі бір элементті, мысалы, гольф-клубын - тіркелген аукциондық параметрлер жиынтығы - айталық, еркін жүк тасымалдау және аукцион екі апта бойы ашық, бірақ кездейсоқ берілген бастапқы бағалармен. Алынған нарықтық нәтижелерді салыстыру арқылы, бұл өріс эксперимент бастапқы бағасының сату бағасына әсерін өте нақты өлшеуді ұсынатын еді. Бірақ бұл өлшеулер нақты бір өнімге және аукциондық параметрлердің жиынтығына ғана қатысты болады. Нәтижелер әртүрлі болуы мүмкін, мысалы, әртүрлі өнім түрлері үшін. Күшті теориясыз, осы жалғыз эксперименттен тәжірибе жүргізуге болатын мүмкін эксперименттердің толық ауқымына экстраполировать қиын. Бұдан басқа, өріс эксперименттері жеткілікті қымбатқа түседі, бұл сіз көргіңіз келетін әрбір нұсқаны іске қосу мүмкін емес.

Аңғайлы және эксперименттік көзқарастардан айырмашылығы, Энав пен әріптестер үшінші көзқарасты қабылдады: сәйкестендіру. Стратегиядағы басты амал - eBay-да болған тәжірибелерге ұқсас нәрселерді табу. Мысалы, 2.8 суретте дәл сол гольф-клубқа арналған Tailormade Burner 09 драйвері үшін 31 тізімнің кейбірі көрсетілген. Дәл сол сатушы - «budgetgolfer» сатқан. Алайда, бұл 31 тізімде әртүрлі сипаттамалар баға, аяқталу мерзімі және тасымалдау ақысы. Басқаша айтқанда, бұл «budgetgolfer» зерттеушілер үшін эксперименттер жүргізіп жатыр.

«Taylormade Burner 09» драйвері осы листинг «budgetgolfer» компаниясымен сатылатын листингтердің бірдей үлгісі болып табылады, мұнда бірдей зат сатушыға дәл сол сатушы сатады, бірақ әр сәл әртүрлі сипаттамалары бар. EBay-дің жаппай журналдарында миллиондаған тізімдерді қамтитын жүз мыңдаған сәйкес жиынтықтар бар. Осылайша, барлық аукциондар үшін түпкілікті бағаны бастапқы бағамен салыстырудың орнына, Эйнав пен әріптестер сәйкес жинақтарда салыстырады. Нәтижелерді осы жүз мыңдаған сәйкес жиынтықтармен салыстыру үшін, Эйнав пен әріптестер әрбір бөлшекті (мысалы, оның орташа сату бағасы) бастауыш бағасы мен түпкілікті бағасын қайта білдірді. Мысалы, егер Taylormade Burner 09 драйвері $ 100 (оның сатылымына негізделген) бастапқы құны болса, онда 10 $ бастапқы бағасы 0,1 және соңғы бағасы $ 120 ретінде 1,2 болады.

Сурет 2.8: сәйкестендірілген жиынның мысалы. Бұл бірдей гольф клубы (Taylormade Burner 09 Driver), дәл сол адам (budgetgolfer) арқылы сатылады, бірақ кейбір сатылымдар әр түрлі жағдайларда орындалды (мысалы, әртүрлі бастапқы бағалар). Einav және басқаларының рұқсатымен шығарылды. (2015 ж.), 1-сурет.

Сурет 2.8: сәйкестендірілген жиынның мысалы. Бұл бірдей гольф клубы (Taylormade Burner 09 Driver), дәл сол адамға сатылатын («budgetgolfer»), бірақ бұл сатылымдардың кейбіреулері әртүрлі жағдайларда (мысалы, әр түрлі бастапқы бағалар) орындалды. Einav et al. (2015) рұқсатымен шығарылды Einav et al. (2015) , 1-сурет.

Енуав пен әріптестер басталу бағасының аукциондық нәтижеге әсер етуіне қызығушылық білдіргенін еске салайық. Біріншіден, бастапқы бағалардың сатылу ықтималдығын азайтатынын және сатудың бастапқы бағалары сатылымның соңғы бағасын (сатылымға байланысты) арттыратындығын бағалау үшін сызықтық регрессияны пайдаланды. Сызықтық қарым-қатынастарды сипаттайтын және барлық өнімдерге ортақ болып табылатын бұл бағалаулар өздігінен қызықты емес. Содан кейін, Einav және әріптестері әртүрлі нәзік бағалау жасау үшін олардың деректерінің үлкен көлемін пайдаланды. Мысалы, əртүрлі əртүрлі əр түрлі бағалары үшін əсерді бөлек бағалау арқылы бастапқы бағамен сатылым бағасы арасындағы сызықтық болып табылатынын көрсетті (2.9-сурет). Атап айтқанда, 0,05-0,85 аралығында бағаны бастау үшін, бастапқы баға бастапқы сату бағасына өте аз əсерін тигізеді, бұл бірінші талдаудан толықтай сəйкессіздікке тап болды. Бұдан басқа, Einav және әріптестері барлық бөлшектерді орташалаудан гөрі 23 түрлі санаттағы заттарға (мысалы, үй жануарларына арналған жабдық, электроника және спорттық естеліктер) бастапқы бағаның әсерін бағалады (2.10-сурет). Бұл бағалауларға қарағанда, есте сақтау қабілетінің бастапқы бағалары сатудың ықтималдығы мен сатып алудың түпкілікті бағасына неғұрлым көп әсер ететінін анықтайды. Бұдан басқа, тауарлық заттардың, мысалы, DVD дискілерінің бастапқы бағасы түпкілікті бағаға әсер етпейді. Басқаша айтқанда, элементтердің 23 түрлі категорияларының нәтижелерін біріктіретін орта осы элементтер арасындағы маңызды айырмашылықты жасырады.

2.9-сурет: аукционның бастапқы бағасы мен сатылу ықтималдығы (а) мен сату бағасы (b) арасындағы байланыс. Бастапқы баға мен сатылу ықтималдығы арасындағы сызықтық қарым-қатынас бар, бірақ бастапқы баға мен сату бағасы арасындағы сызықтық емес қатынас; 0,05-0,85 аралығында бастапқы бағаны сату бағасына өте аз әсер етеді. Екі жағдайда да қатынастар негізінен құндылықтан тәуелсіз. Einav және басқалардан бейімделген. (2015 ж.), 4а және 4b сур.

2.9-сурет: аукционның бастапқы бағасы мен сатылу ықтималдығы (а) мен сату бағасы (b) арасындағы байланыс. Бастапқы баға мен сатылу ықтималдығы арасындағы сызықтық қарым-қатынас бар, бірақ бастапқы баға мен сату бағасы арасындағы сызықтық емес қатынас; 0,05-0,85 аралығында бастапқы бағаны сату бағасына өте аз әсер етеді. Екі жағдайда да қатынастар негізінен құндылықтан тәуелсіз. Einav et al. (2015) бейімделген Einav et al. (2015) , 4а және 4b сур.

2.10-сурет: Нысандардың əрбір санатын бағалау; қатты нүкте - бұл барлық санаттар үшін біріктірілген бағалау (Einav және т.б., 2015). Бұл бағалауларға қарағанда, есте сақтау қабілеті сияқты бастапқы ерекшелігі сатудың ықтималдығы (x-осі) және соңғы сату бағасына (y-осі) үлкен әсер етеді. Einav және басқалардан бейімделген. (2015 ж.), 8-сурет.

2.10-сурет: Нысандардың əрбір санатын бағалау; қатты нүкте - бұл барлық санаттар үшін біріктірілген бағалау (Einav et al. 2015) . Бұл бағалаулар бойынша, айырмашылығы бар заттарға, мысалы, есте сақтау қабілетіне арналған бастапқы бағасы ( \(x\) -axis) сатылым ықтималдығы неғұрлым аз әсер етеді және соңғы сату бағасы ( \(y\) -аксис). Einav et al. (2015) бейімделген Einav et al. (2015) , 8-сурет.

Сіз eBay-де аукциондарға қызығушылық танытпаған болсаңыз да, 2.9 суреттегі және 2.10 суретте сызықты қарым-қатынастарды сипаттайтын қарапайым бағалаулардан және элементтердің әртүрлі санаттарын біріктіретіннен қарағанда, eBay-ті көбірек түсінуді ұсынғанына таңдануға тура келеді. Бұдан басқа, осы неғұрлым нәзік бағалауды өріс эксперименттерімен генерациялау ғылыми тұрғыдан мүмкін болса да, мұндай тәжірибе айтарлықтай мүмкін емес еді.

Табиғи эксперименттермен қатар, сәйкестендіру нашар есептеулерге әкелуі мүмкін бірқатар жолдар бар. Менің ойымша, сәйкесінше бағалау бойынша ең үлкен алаңдаушылық - оларды сәйкестікте пайдаланылмаған нәрселермен шектелуі мүмкін. Мысалы, олардың басты нәтижелерінде Энав пен әріптестер төрт сипаттамаға дәл сәйкестендірді: сатушы идентификаторы, тауардың санаты, тауардың атаулары және субтитрлер. Егер элементтер сәйкестендіру үшін пайдаланылмайтын жолдарда әртүрлі болса, онда бұл әділетсіз салыстыруды жасай алады. Мысалы, егер «budgetgolfer» қысқы уақытта Taylormade Burner 09 драйвері үшін бағаны төмендетсе (гольф клубтары аз танымал болғанда), онда төменгі баға бағаның төмендеуіне әкеп соқтыруы мүмкін, бұл іс жүзінде бұл артефакт сұранысқа маусымдық өзгерістер. Бұл алаңдаушылықты шешудің бір тәсілі - әртүрлі сәйкестік түрлерін қолдануға тырысады. Мысалы, Einav және әріптестері сәйкестендіру үшін қолданылатын уақыт терезесін өзгерткенде (талдау нәтижелерін бір жыл ішінде, бір ай ішінде және бір мезгілде сатуға арналған элементтер жиынтығы бар) талдауын қайталайды. Бақытымызға орай, олар кез-келген уақыт терезелеріне ұқсас нәтижелерді тапты. Түсінудің басқа да алаңдаушылығы түсіндіруден туындайды. Сәйкестендірілген бағалау тек сәйкес деректерге қолданылады; олар сәйкес келмейтін істерге қолданылмайды. Мысалы, көптеген зерттеулермен айналысатын заттарға шектеу қою арқылы, Einav және әріптестер кәсіби және жартылай кәсіби сатушыларға шоғырланған. Осылайша, осы салыстыруды интерпретациялау кезінде, олар тек осы eBay жиынтығына ғана қолданылатынын есте ұстау керек.

Сәйкестік эксперименталды деректерде әділ салыстыруды табуға арналған қуатты стратегия болып табылады. Көптеген әлеуметтанушыларға сәйкестілік эксперименттерге екінші жақтан жақсы әсер етеді, бірақ бұл аздап қайта қаралуы мүмкін сенім. Үлкен деректерге сәйкестендіру (1) эффекттердегі гетерогенділық маңызды болған кезде және (2) сәйкестендіру үшін қажетті маңызды айнымалы мәндер өлшенген кезде, далалық эксперименттердің аз санынан жақсы болуы мүмкін. 2.4-кестеде ірі деректер көздерімен сәйкестікті қалайша пайдалануға болатыны туралы кейбір басқа мысалдар келтірілген.

Кесте 2.4: Үлкен деректер көздерімен сәйкес келуді қолданатын зерттеулер мысалдары
Негізгі назар Үлкен деректер көзі Анықтама
Полицияның зорлық-зомбылыққа түсіруінің әсері Стоп-фишкалар Legewie (2016)
2001 жылғы 11 қыркүйектегі отбасылар мен көршілер туралы Дауыс жазбалары және қайырымдылық жазбалары Hersh (2013)
Әлеуметтік таралу Байланыс және өнімді қабылдау туралы деректер Aral, Muchnik, and Sundararajan (2009)

Қорытындылай келе, эксперименттік емес деректерден себеп-салдардың әсерін бағалау өте қиын, бірақ табиғи эксперименттер мен статистикалық түзетулер (мысалы, сәйкестендіру) сияқты тәсілдер қолданылуы мүмкін. Кейбір жағдайларда бұл тәсілдер дұрыс емес, бірақ мұқият түрде қолданған кезде бұл тәсілдер 4-тарауда сипатталған эксперименталды тәсілге пайдалы қосымша болып табылуы мүмкін. Сонымен қатар, бұл екі тәсіл әрқашан әрқашан, үлкен деректер жүйелерінде.