2.4.3 approximating փորձարկումները

Այս թարգմանությունը ստեղծվել է համակարգչի համար. ×

2.4.3 approximating փորձարկումները

Մենք կարող ենք մոտավոր փորձարկումներ անել, որոնք մենք չենք կարող կամ չենք կարող անել: Երկու մոտեցումները, որոնք հատկապես օգտվում են մեծ տվյալների աղբյուրներից, բնական փորձարկումներ եւ համապատասխանություն են:

Որոշ կարեւոր գիտական եւ քաղաքական հարցեր են պատճառը: Օրինակ, ինչ է նշանակում աշխատուժի ուսուցման ծրագրի աշխատավարձերի վրա: Այս հարցին պատասխանելու փորձող մի հետազոտող կարող է համեմատել այն մարդկանց եկամուտների մասին, ովքեր գրանցվել են վերապատրաստման համար: Բայց այդ խմբերի միջեւ աշխատավարձի ցանկացած տարբերություն որքանով է վերապատրաստման պատճառը եւ որքանով է պայմանավորված այն մարդկանց միջեւ առկա նախնական տարբերությունները, որոնք գրանցում են, եւ նրանք, որոնք չեն: Սա բարդ հարց է, եւ դա այն է, որ ինքնաբերաբար չի անցնում ավելի շատ տվյալներ: Այլ կերպ ասած, գոյություն ունեցող նախնական տարբերությունների մասին մտահոգությունը ծագում է, անկախ նրանից, թե որքան աշխատողներ են ձեր տվյալները:

Շատ դեպքերում որոշակի բուժման պատճառահետեւանքային ազդեցությունը գնահատելու ամենաուժեղ միջոցը, ինչպիսիք են աշխատանքային ուսումը, վազում է randomized վերահսկվող փորձ, որտեղ հետազոտողը պատահականորեն բուժում է որոշ մարդկանց, այլ ոչ թե ուրիշներին: Ես կաշխատեմ բոլոր գլխի 4 փորձերին, ուստի այստեղ ես կենտրոնանալու եմ երկու ռազմավարության վրա, որը կարող է օգտագործվել ոչ փորձարարական տվյալների հետ: Առաջին ռազմավարությունը կախված է աշխարհում տեղի ունեցող ինչ-որ բան փնտրելուց, որը պատահականորեն (կամ գրեթե պատահականորեն) բուժում է որոշ մարդկանց, այլ ոչ թե ուրիշներին: Երկրորդ ռազմավարությունը կախված է ոչ-փորձարարական տվյալների վիճակագրության հետ շփումից, որը հաշվի է առնում նախնական տարբերությունները հաշվի առնողների հետ եւ չեն ստացել բուժումը:

Հավանաբար, թերահավատությունը կարող է պնդել, որ այս երկու ռազմավարությունները պետք է խուսափել, քանի որ նրանք պահանջում են հստակ ենթադրություններ, ենթադրություններ, որոնք դժվար է գնահատել եւ գործնականում հաճախ խախտվում են: Մինչ ես համակիր եմ այս հայցին, կարծում եմ, դա մի փոքր հեռու է: Անշուշտ, հավաստի է, որ դժվար է հուսալի գնահատականներ տալ ոչ փորձարարական տվյալների հետ, բայց ես չեմ կարծում, որ դա նշանակում է, որ մենք երբեք չպետք է փորձենք: Մասնավորապես, ոչ փորձարարական մոտեցումները կարող են օգտակար լինել, եթե լոգիստիկ խոչընդոտը ձեզ խանգարում է փորձարկելուց, կամ եթե բարոյական խոչընդոտները նշանակում են, որ դուք չեք ուզում գործարկել փորձեր: Հետագայում ոչ փորձարարական մոտեցումները կարող են օգտակար լինել, եթե ցանկանում եք օգտվել այն տվյալներից, որոնք արդեն գոյություն ունեն, randomized- ի վերահսկվող փորձարկումների համար:

Մինչեւ ընթանալը, հարկ է նշել նաեւ, որ պատճառաբանական գնահատումներ կատարելը սոցիալական հետազոտության ամենաարդիական թեմաներից մեկն է, եւ այն կարող է հանգեցնել ինտենսիվ եւ հուզական բանավեճի: Այնուհետեւ ես կներկայացնեմ յուրաքանչյուր մոտեցման լավատեսական նկարագրություն, դրա մասին ինտուիցիա կառուցելու համար, ապա ես նկարագրում եմ այն մոտեցումները, որոնք առաջացնում են այդ մոտեցումը: Յուրաքանչյուր մոտեցման հետագա մանրամասները հասանելի են սույն գլխի վերջում: Եթե դուք մտադիր եք օգտագործել այս մոտեցումներից որեւէ մեկը ձեր սեփական հետազոտության մեջ, ես բարձր խորհուրդ եմ տալիս կարդալ շատ գերազանց գրքերից մեկը պատճառահետեւանքային ելույթում (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) :

Ոչ մի փորձագիտական տվյալներից պատճառահետեւանքային կանխատեսումներ կատարելու մեկ մոտեցում է փնտրում այնպիսի իրադարձություն, որը պատահականորեն տրամադրել է որոշ մարդկանց, այլ ոչ թե ուրիշներին: Այս իրավիճակները կոչվում են բնական փորձեր : Բնական փորձարկումների ամենալայն օրինակներից մեկը գալիս է Ջոշուա Անդրրիստի (1990) ուսումնասիրությունը ռազմական ծառայությունների ազդեցությունը վաստակի վրա: Վիետնամում պատերազմի ընթացքում Միացյալ Նահանգները մեծացրել է իր զինված ուժերի չափը նախագծով: Որոշ քաղաքացիների համար ծառայելու է որոշելու համար ԱՄՆ կառավարությունը վիճակախաղով անցկացրեց: Յուրաքանչյուր ծննդյան ամսաթիվը գրված է մի թղթի վրա, եւ ինչպես ցույց է տրվել 2.7-ում, այդ թղթերի ընտրությունը ընտրվել է մեկի համար, որոշելու համար, թե երիտասարդ տղամարդիկ կոչվելու են ծառայելու (երիտասարդ կանայք չեն ենթարկվում նախագծին): Արդյունքների հիման վրա սեպտեմբերի 14-ին ծնված տղամարդիկ կոչվեցին առաջինը, ապրիլի 24-ին ծնված տղամարդիկ երկրորդը կոչվեցին եւ այլն: Ի վերջո, այս վիճակախաղում ստեղծվել է 195 տարբեր օրերով ծնված տղամարդիկ, իսկ 171 օրը ծնված տղամարդիկ չէին:

Գծապատկեր 2.7: Կոնգրեսական Ալեքսանդր Պիրնին (R-NY) 1969 թ. Դեկտեմբերի 1-ին ընտրովի ծառայություն նախագիծը նկարագրեց առաջին պարկուճը: Ջոշուա Անդրիսը (1990) Համատեղ վիճակախաղի նախագիծը համադրել է սոցիալական ապահովության վարչությունից ստացված եկամուտների տվյալները `գնահատելու զինվորական ծառայության ազդեցությունը վաստակում: Սա բնական փորձառություն օգտագործող հետազոտության օրինակ է: Աղբյուրը, US Selective Service System (1969) / Wikimedia Commons :

Թեեւ դա կարող է անմիջապես ակնհայտ լինել, սակայն վիճակախաղի նախագիծը քննադատական նմանություն ունի ռեցեպտացված վերահսկվող փորձի նկատմամբ. Երկու դեպքում էլ մասնակիցները պատահականորեն նշանակվում են բուժում ստանալու համար: Այս ռադանդիզացված բուժման ազդեցությունը ուսումնասիրելու նպատակով Անդրիսը օգտվել է մշտապես մեծ տվյալների համակարգից. ԱՄՆ Սոցիալական Ապահովության վարչությունը, որը հավաքում է տեղեկատվության գրեթե յուրաքանչյուր ամերիկացիների եկամուտների մասին: Համաձայնելով այն մասին, թե ով է պատահականորեն ընտրվել վիճակախաղի նախագիծը, կառավարական հաշվետվություններում հավաքագրված եկամուտների տվյալները, Անդրիսը եզրակացրեց, որ վետերանների շահույթը մոտ 15% -ից պակաս է, քան համեմատելի ոչ վետերանների շահույթը:

Քանի որ այս օրինակը ցույց է տալիս, երբեմն սոցիալական, քաղաքական կամ բնական ուժերը բուժում են այնպիսի ձեւով, որը կարող է օգտագործվել հետազոտողների կողմից, եւ երբեմն այդ բուժման ազդեցությունները գրավում են միշտ `մեծ տվյալների աղբյուրների վրա: Այս հետազոտության ռազմավարությունը կարող է ամփոփվել հետեւյալ կերպ ` \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]

Թվային տարիքում այս ռազմավարությունը նկարագրելու համար եկեք ուսումնասիրենք Ալեքսանդր Մասի եւ Էնրիկո Մորետիի (2009) որոնք փորձել են գնահատել արտադրողական գործընկերների հետ աշխատանքի արդյունավետությունը աշխատողի արտադրողականության վրա: Նախքան արդյունքները տեսնելը, հարկ է նշել, որ առկա են հակասական ակնկալիքներ, որոնք կարող են ունենալ: Մի կողմից, դուք կարող եք ակնկալել, որ արդյունավետ աշխատակիցների հետ աշխատելը կհանգեցնի աշխատակցին `բարձրացնելու իր արտադրողականությունը` հասակակիցների ճնշման պատճառով: Կամ, մյուս կողմից, դուք կարող եք ակնկալել, որ դժվար աշխատող հասակակիցներ ունենալը կարող է աշխատողին հանգեցնել, որպեսզի աշխատանքը կատարվի իր հասակակիցների կողմից: Արդյունավետության վերաբերյալ գործընկերների ազդեցության ուսումնասիրման պարզագույն եղանակը կլինի randomized վերահսկվող փորձ, որտեղ աշխատողները պատահականորեն հանձնարարվում են տարբեր արտադրողականության մակարդակների աշխատողների հետ, այնուհետեւ արդյունքում արտադրողականությունը չափվում է բոլորի համար: Հետազոտողները, սակայն, չեն վերահսկում աշխատողների ժամանակացույցը որեւէ իրական բիզնեսում, եւ Mas եւ Moretti- ն ստիպված էին ապավինել սուպերմարկետում ներգրավված cashiers- ի բնական փորձարկմանը:

Այս սուպերմարկետում, քանի որ պլանավորումը կատարվել է եւ փոխակերպումները փոխել են, յուրաքանչյուր գանձապահը տարբեր աշխատակիցներ ունի տարբեր ժամանակներում: Բացի այդ, այս սուպերմարկետում, cashiers- ի հանձնարարությունը կապ չունի իրենց հասակակիցների արտադրողականության կամ խանութի զբաղվածության հետ: Այլ կերպ ասած, չնայած cashier- ի պլանավորման գործընթացը որոշված չէր վիճակահանության միջոցով, կարծես թե աշխատողները երբեմն պատահականորեն հանձնարարված էին բարձր (կամ ցածր) արտադրողականության հասակակիցների հետ աշխատելու համար: Բարեբախտաբար, այս սուպերմարկետը նույնպես ունեցել է թվային տարիքային սկավառակի համակարգ, որը հետեւում էր այն ամենին, ինչ ամեն մի գանձապահը սկան էր պահում: Այս ստուգաթերթի տվյալները, Mas եւ Moretti- ը կարողացան ստեղծել ճշգրիտ, անհատական եւ միշտ էլ `արտադրողականության չափը` մեկ վայրկյանում սկանավորված տարրերի քանակը: Այս երկու բաները համադրելով, հասակակիցների արտադրողականության բնականոն փոփոխությունները եւ արտադրողականության մշտադիտարկման չափը, Mas եւ Moretti- ն գնահատեցին, որ եթե գանձապահին հանձնարարվել է միջին աշխատողներից ավելի քան 10% ավելի արտադրողական, ապա նրա արտադրողականությունը կավելանա 1.5% . Հետագայում նրանք օգտագործում էին իրենց ունեցվածքի չափը եւ հարստությունը երկու կարեւոր հարցերի ուսումնասիրության համար. Այդ ազդեցության տարբերությունը (որի համար աշխատողների տեսակն ավելի մեծ ազդեցություն է) եւ ազդեցության հետեւում մեխանիզմները (Ինչու է բարձր արտադրողականություն ունեցող հասակակիցները բարձր արտադրողականություն): Մենք կվերադառնանք այս երկու կարեւոր հարցերի `բուժման ազդեցությունների եւ մեխանիզմների բազմազանություն, գլուխ 4-ում, երբ մենք ավելի մանրամասն քննարկում ենք փորձերը:

Այս երկու ուսումնասիրություններից ընդհանրացված աղյուսակ 2.3-ը ամփոփում է այս նույն կառուցվածքը ունեցող այլ ուսումնասիրություններ `օգտագործելով մշտապես գործող տվյալների աղբյուր` որոշ պատահական փոփոխությունների ազդեցությունը չափելու համար: Գործնականում հետազոտողները օգտագործում են երկու տարբեր ռազմավարություններ բնական փորձեր գտնելու համար, որոնցից երկուսն էլ կարող են արդյունավետ լինել: Որոշ հետազոտողներ սկսում են մշտապես գործող տվյալների աղբյուրից եւ փնտրում են պատահական իրադարձություններ աշխարհում: մյուսները սկսել են պատահական իրադարձություն աշխարհում եւ փնտրել տվյալների աղբյուրները, որոնք գրավում են դրա ազդեցությունը:

Աղյուսակ 2.3. Բնական փորձերի օրինակներ, օգտագործելով մեծ տվյալների աղբյուրներ
Հիմնական ուշադրություն	Բնական փորձարկման աղբյուրը	Միշտ `տվյալների աղբյուրը	Հղում
Համատեղ ազդեցություն արտադրողականության վրա	Պլանավորման գործընթացը	Ստուգման տվյալները	Mas and Moretti (2009)
Ընկերության ձեւավորում	Hurricanes	Facebook- ը	Phan and Airoldi (2015)
Զգացմունքների տարածում	Անձրեւ	Facebook- ը	Lorenzo Coviello et al. (2014)
Peer-to-peer տնտեսական փոխանցումներ	Երկրաշարժ	Բջջային դրամի տվյալները	Blumenstock, Fafchamps, and Eagle (2011)
Անձնական սպառման վարքագիծը	2013 թ. ԱՄՆ կառավարության փակումը	Անձնական ֆինանսավորման տվյալները	Baker and Yannelis (2015)
Խորհրդատուական համակարգի տնտեսական ազդեցությունը	Տարբեր	Զննման տվյալները Amazon- ում	Sharma, Hofman, and Watts (2015)
Սթրեսի ազդեցությունը չծնված երեխաների վրա	2006 Իսրայել-Հզբոլլահ պատերազմը	Ծնունդների գրառումները	Torche and Shwed (2015)
Վիքիպեդիայում ընթերցանության վարք	Սնոուդենի բացահայտումները	Վիքիպեդիա տեղեկամատյանները	Penney (2016)
Գործընկերների վրա ազդեցություն ունենալը	Եղանակը	Ֆիտնես trackers	Aral and Nicolaides (2017)

Քննարկումների ժամանակ, բնական փորձերի մասին, ես թողեցի մի կարեւոր կետ. Գնալով այն, ինչ բնությունն է տրամադրել այն, ինչ ուզում ես, երբեմն կարող ես շատ բարդ լինել: Եկեք վերադառնանք Վիետնամական օրինագծին: Այս դեպքում Անդրիսը շահագրգռված էր ռազմական ծառայության ազդեցությունը շահույթների վրա գնահատելու հարցում: Ցավոք, զինվորական ծառայությունը պատահականորեն չի նշանակվել. այլապես պատրաստվում էր պատահականորեն հանձնվել: Այնուամենայնիվ, ոչ բոլոր նրանք, ովքեր պատրաստվել էին ծառայել (կան մի շարք ազատություններ), եւ ոչ բոլոր նրանք, ովքեր ծառայում էին, մշակվել էին (մարդիկ կարող էին կամավոր ծառայել): Քանի որ նախապատրաստվելը պատահականորեն նշանակվել է, հետազոտողը կարող է գնահատել նախագծի բոլոր տղամարդկանց համար ստեղծագործության ազդեցությունը: Բայց անգլիացիները չէին ուզում իմանալ, թե ինչ է կատարվում: նա ցանկացավ իմանալ զինծառայությունում ծառայելու ազդեցությունը: Այս գնահատումը կատարելու համար անհրաժեշտ է լրացուցիչ ենթադրություններ եւ բարդություններ: Նախ, հետազոտողները պետք է ենթադրեն, որ միակ ձեւը, որ ստեղծվել է ազդեցության ենթարկված շահույթում, զինվորական ծառայություն է, ենթադրություն, որը կոչվում է բացառություն սահմանափակում : Այս ենթադրությունը կարող էր սխալ լինել, օրինակ, տղամարդկանց համար, ովքեր պատրաստված մնացին դպրոցում երկար մնացին, ավելի շատ ծառայելուց խուսափելու համար, կամ եթե գործատուները ավելի քիչ էին վարձում տղամարդկանց վարձելու համար: Ընդհանուր առմամբ, բացառության սահմանափակումն այնպիսի կարեւոր ենթադրություն է, եւ սովորաբար դժվար է ստուգել: Նույնիսկ եթե բացառության սահմանափակումը ճիշտ է, դեռեւս անհնար է գնահատել ծառայությունը բոլոր տղամարդկանց վրա: Փոխարենը պարզվում է, որ հետազոտողները կարող են միայն գնահատել այն ազդեցությունը, որը կոչվում է կոմպլանտներ (տղամարդկանց, ովքեր ծառայելու են ծառայելու ժամանակ, բայց չեն ծառայի, երբ չեն պատրաստվում) (Angrist, Imbens, and Rubin 1996) : Այնուամենայնիվ, կոմպոզիտորները հետաքրքրություն չունեցող բնօրինակ բնակչություն չեն: Ուշադրություն դարձրեք, որ այս խնդիրները ծագում են նույնիսկ վիճակագրական ծրագրի նախագծի համեմատաբար մաքուր դեպքերում: Բարդությունների հաջորդ փաթեթը առաջանում է, երբ բուժումը չի նշանակվում ֆիզիկական վիճակախաղով: Օրինակ, Maser- ի եւ Moretti- ի արշավախմբի ուսումնասիրության մեջ լրացուցիչ հարցեր են ծագում ենթադրությունների մասին, որ հասակակիցների հանձնելը էապես պատահական է: Եթե այս ենթադրությունը խստորեն խախտել է, ապա դա կարող է կանխել իրենց գնահատականները: Վերջապես, բնական փորձերը կարող են լինել հզոր ռազմավարություն, ոչ-փորձարարական տվյալների համար պատճառական գնահատականներ կատարելու համար, եւ մեծ տվյալների աղբյուրները մեծացնում են մեր փորձը, երբ դրանք տեղի են ունենում: Այնուամենայնիվ, դա, հավանաբար, պահանջում է մեծ խնամք, եւ երբեմն էլ հուսալի ենթադրություններ `գնալ այն բանի, թե ինչ բնույթ է ապահովել այն գնահատումը, որը դուք ցանկանում եք:

Երկրորդ ռազմավարությունը, որը ես կցանկանայի ձեզ ասել, ոչ-փորձարարական տվյալների համար պատճառական գնահատականներ կատարելու համար կախված է ոչ փորձարարական տվյալների վիճակագրորեն կարգավորող փորձից, հաշվի առնելով նախնական տարբերությունները, ովքեր արել են եւ չեն ստացել բուժումը: Կան բազմաթիվ նման մոտեցումներ, բայց ես կանդրադառնամ մի կոչված համապատասխանության վրա : Համապատասխանելով, հետազոտողը նայում է ոչ փորձնական տվյալների միջոցով, որպեսզի ստեղծի զույգ զույգեր, որոնք նման են, բացառությամբ, որ բուժումը ստացել է, եւ մեկը չունի: Ի գործընթացում համապատասխան, հետազոտողները են, ըստ էության, նաեւ pruning. այսինքն `հրաժարվելով այն դեպքերից, երբ ակնհայտ խաղ չկա: Այսպիսով, այս մեթոդը ավելի ճշգրիտ կկիրառվի համընկնող եւ կաշկանդվածություն, բայց ես կպահեմ ավանդական տերմինով `համապատասխան:

Հատուկ ռազմավարությունների ուժի օրինակներից մեկը, զանգվածային ոչ-փորձնական տվյալների աղբյուրների հետ, գալիս է Liran Einav- ի եւ գործընկերների կողմից (2015) սպառողների վարքագծի վերաբերյալ հետազոտությունից: Նրանք շահագրգռված էին eBay- ում կատարվող աճուրդներում, եւ նկարագրելով իրենց աշխատանքը, ես կանդրադառնամ աճուրդի սկսած գնի վրա աճուրդի արդյունքների վրա, օրինակ, վաճառքի գինը կամ վաճառքի հավանականությունը:

Վաճառքի գների սկզբնական գների ազդեցությունը գնահատելու ամենաօգտակար եղանակը կլինի պարզապես հաշվարկելու տարբեր գներ սկսած աճուրդների վերջնական գինը: Այս մոտեցումը լավ կլինի, եթե ցանկանում եք կանխատեսել վաճառքի գինը `հաշվի առնելով գնի մեկնարկը: Բայց եթե ձեր հարցը վերաբերում է մեկնարկային գնի ազդեցությանը, ապա այդ մոտեցումը չի աշխատի, քանի որ այն հիմնված չէ արդար համեմատությունների վրա: ցածր գներ ունեցող աճուրդները կարող են տարբեր լինել ավելի բարձր գնային գներով (օրինակ, դրանք կարող են լինել տարբեր ապրանքատեսակների համար կամ ներառել տարբեր տեսակի վաճառողներ):

Եթե դուք արդեն տեղյակ եք այնպիսի խնդիրների մասին, որոնք կարող են առաջանալ ոչ փորձարարական տվյալների համար պատճառահետեւանքային կանխատեսումներ կատարելու ժամանակ, կարող եք բաց թողնել միամիտ մոտեցումը եւ դիտարկել դաշտային փորձարկումներ, որտեղ դուք վաճառեք կոնկրետ կետ, ասենք, գոլֆի ակումբ - ֆիքսված աճուրդային պարամետրերի հավաքածու, ասենք, անվճար առաքում եւ աճուրդ, որը բացվում է երկու շաբաթով, բայց պատահականորեն տրված գնի գները: Համեմատելով արդյունքների շուկայի արդյունքները, այս դաշտի փորձը կառաջարկի վաճառքի գնի մեկնարկային գների ազդեցությունը շատ հստակ չափելու համար: Սակայն այդ չափումը կիրառվում է միայն մեկ ապրանքի եւ աճուրդի պարամետրերի սահմանման նկատմամբ: Արդյունքները կարող են տարբեր լինել, օրինակ, տարբեր ապրանքատեսակների համար: Առանց ուժեղ տեսության, դժվար է այս բացառիկ փորձից արտահանել դժվար փորձերի ամբողջ շարք, որոնք կարող էին առաջադրվել: Հետագայում դաշտային փորձերը բավականին թանկ են, որ անհնար կլինի գործարկել ցանկացած փոփոխություն, որը դուք կարող եք փորձել:

Ի տարբերություն միամիտ եւ փորձարարական մոտեցումների, Էնավն ու գործընկերները երրորդ մոտեցում են ստացել. Հիմնական հնարքները իրենց ռազմավարության մեջ են, հայտնաբերել այնպիսի բաներ, որոնք նման են դաշտային փորձերին, որոնք արդեն տեղի են ունեցել eBay- ում: Օրինակ, 2.8-րդ համարը ցույց է տալիս, որ 31 ցուցակներից մի քանիսը հենց նույն գոլֆի ակումբում են, Taylormade Burner 09 Driver- ը վաճառվում է հենց նույն վաճառողը `« բյուջետային գոլֆ »: Սակայն այդ 31 ցանկերը մի փոքր այլ տարբերակ ունեն, գինը, ավարտի ամսաթվերը եւ առաքման վճարները: Այսինքն, կարծես թե «բյուջետային գոլֆը» աշխատում է հետազոտողների համար:

«Taylormade Burner 09» - ի կողմից վաճառված այս ցանկերը «բյուջետային գոլֆի» կողմից վաճառված են, որոնք համապատասխանում են համապատասխան ցուցակների մի օրինակին, որտեղ ճշգրիտ նույն ապրանքը վաճառվում է հենց նույն վաճառողի կողմից, բայց ամեն անգամ մի փոքր տարբեր բնութագրերով: EBay- ի զանգվածային տեղեկագրերի մեջ կան բառացիորեն հարյուր հազարավոր համընկնումներ, որոնք ներառում են միլիոնավոր ցանկեր: Այսպիսով, ոչ թե համեմատելով վերջնական գինը բոլոր աճուրդների համար, տվյալ գնի հետ, Einav- ը եւ գործընկերները համեմատել են համապատասխան հավաքածուներում: Այս հարյուր հազարավոր համընկնող սարքերում համեմատությունները համեմատելու նպատակով, Էինավը եւ գործընկերները վերանշանակեցին սկսած գնից եւ վերջնական գինը յուրաքանչյուր ապրանքի հաշվարկային արժեքի տեսքով (օրինակ, վաճառքի միջին գինը): Օրինակ, եթե Taylormade Burner 09 Driver- ը 100 դոլարի (իր վաճառքի հիման վրա) հաշվարկային արժեք ունի, ապա $ 10-ի մեկնարկային արժեքը կստացվի 0.1, իսկ վերջնական արժեքը, 120 դոլար:

Նկար 2.8. Համապատասխան հավաքածուի օրինակ: Սա հենց նույն գոլֆի ակումբն է (Taylormade Burner 09 Driver- ը), որը վաճառվում է հենց նույն անձի կողմից («բյուջետային գոլֆեր»), սակայն այդ վաճառքի որոշ մասը կատարվել է տարբեր պայմաններում (օրինակ, տարբեր մեկնարկային գները): Վերարտադրվելով Einav et al. (2015) , թիվ 1 գ.

Հիշեցնենք, որ Էինավը եւ գործընկերները շահագրգռված էին աճուրդի արդյունքում սկսած գնի ազդեցությամբ: Նախ, օգտագործեցին գծային ռեգրեսիան, որպեսզի գնահատեն, որ ավելի բարձր գները սկսում են նվազեցնել վաճառքի հավանականությունը, եւ ավելի բարձր գներ սկսում են վաճառքի վերջնական վաճառքի գինը (պայմանավորված վաճառքի պայմաններում): Իրենց կողմից, այս գնահատականները, որոնք նկարագրում են գծային փոխհարաբերությունները եւ միջինում են բոլոր արտադրանքները, բոլորը չէ, որ հետաքրքիր է: Այնուհետեւ, Էինավը եւ գործընկերները օգտագործում էին իրենց տվյալների զանգվածային չափը, ավելի շատ նուրբ գնահատականներ ստեղծելու համար: Օրինակ, տարբերությունը տարբեր գների տարբեր գներով գնահատելիս նրանք պարզեցին, որ մեկնարկային գնի եւ վաճառքի գների միջեւ հարաբերությունները ոչ գծային են (նկար 2.9): Մասնավորապես, սկսած գների 0.05-ի եւ 0.85-ի միջեւ սկսելու համար գնի գինը շատ քիչ ազդեցություն է ունենում վաճառքի գնի վրա, որն ամբողջությամբ բացակայում է առաջին վերլուծությունից: Այնուհետեւ, ոչ բոլոր միջին կետերի փոխարեն, Einav- ը եւ գործընկերները գնահատել են սկսած գնի ազդեցությունը 23 տարբեր կատեգորիաների համար (օրինակ, կենդանիների մատակարարման, էլեկտրոնիկայի եւ սպորտային հուշարձանների) (նկար 2.10): Այս հաշվարկները ցույց են տալիս, որ ավելի առանձնահատուկ իրերի համար, օրինակ, հուշանվերային գնի գինը, ավելի փոքր ազդեցություն է ունենում վաճառքի հավանականության վրա եւ ավելի մեծ ազդեցություն է ունենում վերջնական վաճառքի գնի վրա: Հետագայում ավելի շատ ապրանքներ, ինչպիսիք են DVD- ները, սկսած գինը գրեթե չի ազդում վերջնական գնի վրա: Այլ կերպ ասած, միջին արժեքը, որը զուգորդվում է արդյունքների 23 տարբեր կատեգորիաներից, կարեւորում է այդ տարրերի միջեւ տարբերությունները:

Նկար 2.9. Աճուրդի մեկնարկային գնի եւ վաճառքի հավանականության (a) հարաբերակցությունը եւ վաճառքի գինը (բ): Կա մեկնարկային գնի եւ վաճառքի հավանականության միջեւ մոտավոր գծային հարաբերություն, բայց ոչ գծային հարաբերություն մեկնարկային գնի եւ վաճառքի գների միջեւ, սկսած գները 0.05-ից մինչեւ 0.85-ի միջեւ, սկսած գինը շատ քիչ ազդեցություն ունի վաճառքի գնի վրա: Երկու դեպքում էլ հարաբերությունները հիմնականում առանձին ապրանքի արժեքից անկախ են: Հարմարեցված է Einav et al. (2015) , թվեր 4a եւ 4b:

Գծապատկեր 2.10. Ենթատեսակների յուրաքանչյուր կատեգորիայի հաշվարկը. պինդ կետը գնահատվում է բոլոր կատեգորիաների համար միասին (Einav et al. 2015) : Այս գնահատականները ցույց են տալիս, որ ավելի տարբերակիչ նյութերի համար, օրինակ, հուշանվագը, սկսած գինը փոքր ազդեցություն է ունենում վաճառքի հավանականության վրա ( $x$ -axis) եւ ավելի մեծ ազդեցություն վերջին վաճառքի գնի վրա ( $y$ -axis): Հարմարեցված է Einav et al. (2015) , թիվ 8:

Նույնիսկ եթե դուք առանձնապես հետաքրքրված չեք eBay- ում աճուրդներով, ապա պետք է հիանալ այնպիսի ձեւով, ինչպիսին է 2.9-րդ եւ 2.10-րդ նկարները, eBay- ի ավելի լավ հասկացություն են առաջարկում, քան պարզ գնահատականները, որոնք նկարագրում են գծային հարաբերություններ եւ միավորում տարբեր տարրերի տարրեր: Հետագայում, սակայն, գիտականորեն հնարավոր կլինի առաջարկել այս ավելի նուրբ գնահատականները դաշտային փորձերի հետ, ծախսերը նման փորձեր են իրականում անհնար դարձնելու համար:

Ինչպես բնական փորձերը, կան մի շարք ուղիները, որոնք համապատասխանելը կարող է հանգեցնել վատ գնահատականների: Կարծում եմ, որ համընկնող գնահատականների ամենամեծ մտահոգությունը այն է, որ դրանք կարող են կողմնակալ լինել այն բաների հետ, որոնք չեն օգտագործվում համապատասխանության մեջ: Օրինակ, իրենց հիմնական արդյունքում Einav- ը եւ գործընկերները ճշգրտորեն կատարել են չորս բնութագրերի մասին `վաճառողի ID- ն, ապրանքի կատեգորիա, հոդվածի վերնագիր եւ ենթավերնագիր: Եթե տարրերը տարբեր էին այն ձեւերով, որոնք չեն օգտագործվել համապատասխանելու համար, ապա դա կարող է ստեղծել անբարեխիղճ համեմատություն: Օրինակ, եթե «բյուջետային գոլֆը» իջեցրեց Taylormade Burner 09 վարորդի գինը ձմռանը (երբ գոլֆի ակումբները ավելի քիչ հայտնի են), ապա կարող է թվալ, որ ցածր գները սկսում են նվազեցնել վերջնական գները, երբ փաստորեն դա պահանջարկի սեզոնային տատանումները: Այս մտահոգությունը լուծելու մեկ մոտեցումը փորձում է տարբեր տեսակների համապատասխանել: Օրինակ, Էինավը եւ գործընկերները կրկնեցին իրենց վերլուծությունը, մինչդեռ տարբեր ժամանակահատվածներում օգտագործվող ժամանակացույցի պատուհանը (համապատասխանում է մեկ տարում, մեկ ամսվա ընթացքում եւ ժամանակի ընթացքում վաճառքի կետերը): Բարեբախտաբար, նրանք հայտնաբերեցին նման արդյունքներ ժամանակի բոլոր պատուհանների համար: Համապատասխանության հետագա մտահոգությունը բխում է մեկնաբանությունից: Համապատասխանությունից ստացված գնահատումները կիրառվում են միայն համապատասխան տվյալների համար: նրանք չեն վերաբերում այն դեպքերին, որոնք չեն համապատասխանում: Օրինակ, սահմանափակելով իրենց հետազոտությունները, որոնք մի քանի ցանկեր ունեն, Einav- ը եւ գործընկերները կենտրոնանում են պրոֆեսիոնալ եւ կիսամյակային մասնագիտական վաճառողներին: Այսպիսով, այս համեմատությունները մեկնաբանելիս մենք պետք է հիշենք, որ դրանք կիրառվում են միայն eBay- ի այս ենթաբազմության մեջ:

Համապատասխանելը հմուտ ռազմավարություն է ոչ փորձարարական տվյալների արդար համեմատություններ գտնելու համար: Շատ սոցիալական գիտնականների համար համընկնումը զգում է երկրորդ լավագույնը փորձերի համար, բայց դա այն հավատն է, որը կարող է վերանայվել, թեթեւակի: Զանգվածային տվյալների համադրումը կարող է ավելի լավ լինել, քան դաշտային փորձերի փոքր քանակությունը, երբ (1) ազդեցության տարբերությունը կարեւոր է եւ (2) չափման համար անհրաժեշտ կարեւոր փոփոխականները չափվել են: Աղյուսակ 2.4- ը տրամադրում է մի քանի այլ օրինակներ, թե ինչպես կարելի է համապատասխանել օգտագործման հնարավորությունները մեծ տվյալների աղբյուրների հետ:

Աղյուսակ 2.4. Ուսումնասիրությունների օրինակներ, որոնք օգտագործում են մեծ տվյալների աղբյուրների հետ համադրություն
Հիմնական ուշադրություն	Մեծ տվյալների աղբյուրը	Հղում
Ոստիկանության բռնության հետեւանքով կրակոցների ազդեցությունը	Stop-and-frisk գրառումները	Legewie (2016)
2001 թ. Սեպտեմբերի 11-ի ազդեցությունը ընտանիքների եւ հարեւանների վրա	Ընտրական գրառումները եւ նվիրատվությունների գրառումները	Hersh (2013)
Սոցիալական աղտոտում	Հաղորդակցության եւ արտադրանքի ընդունման տվյալները	Aral, Muchnik, and Sundararajan (2009)

Ի վերջո, ոչ փորձարարական տվյալների հետեւանքով պատճառահետեւանքային ազդեցությունները գնահատելը դժվար է, սակայն կարող են օգտագործվել այնպիսի մոտեցումներ, ինչպիսիք են բնական փորձերը եւ վիճակագրական ճշգրտումները (օրինակ, համապատասխանությունը): Որոշ դեպքերում այս մոտեցումները կարող են սխալ լինել, բայց երբ ուշադիր տեղադրվեն, այդ մոտեցումները կարող են օգտակար հավելված լինել փորձաշրջանային մոտեցման համար, որը ես նկարագրում եմ 4-րդ գլխում: Բացի այդ, այս երկու մոտեցումները հատկապես հավանական են թվում, մեծ, տվյալների համակարգերում: