2.4.3.2 Համապատասխանեցման

Համապատասխանեցման Ստեղծել արդար համեմատություններ է pruning հեռու դեպքերը:

Արդար համեմատությունները կարող է գալ կամ randomized վերահսկվող փորձերի կամ բնական փորձերի: Սակայն, կան շատ իրավիճակներ, որտեղ դուք չեք կարող գործարկել իդեալական փորձ եւ բնությունը չի նախատեսված է բնական գիտափորձը. Այդ պարամետրերը, որ լավագույն միջոց է ստեղծել արդար համեմատություն է համապատասխանող: Ի համապատասխան, հետազոտող նայում միջոցով ոչ-փորձարարական տվյալների ստեղծելու զույգ մարդկանց, որոնք նման, բացառությամբ, որ ստացել է բուժում եւ մեկը չունի: Այդ գործընթացում համընկնմամբ, հետազոտողները, ըստ էության, նաեւ pruning. այսինքն, հեռացնելով դեպքերը, երբ չկան ակնհայտ համեմատությունը: Այսպիսով, այս մեթոդը կարող է լինել ավելի ճշգրիտ է անվանել դասավորվել եւ-pruning, բայց ես մնում ավանդական ժամկետով: դասավորվել.

Մի գեղեցիկ օրինակ է, որ իշխանության համապատասխան ռազմավարություններ հետ զանգվածային ոչ-փորձարարական տվյալների աղբյուրների գալիս հետազոտության սպառողական վարքի Liran Einav եւ գործընկերների (2015) : Einav եւ գործընկերները հետաքրքրված էին աճուրդների տեղի ունեցող eBay, եւ նկարագրելով իրենց աշխատանքը, ես կենտրոնանալ մեկ կոնկրետ առումով: The ազդեցությունը աճուրդի մեկնարկային գնի աճուրդի արդյունքների, ինչպիսիք են վաճառքի գնի կամ հավանականության վաճառքի.

Առավել միամիտ ճանապարհն է պատասխանել այն հարցին, մասին ուժի մեկնարկային գնի վրա վաճառքի գնի կլիներ պարզապես հաշվարկել վերջնական գինը աճուրդների տարբեր մեկնարկային գները. Այս մոտեցումը լավ կլիներ, եթե դուք պարզապես ուզում եք կանխատեսել գինը տվյալ տարրի, որ դրվել է eBay տվյալ մեկնարկային գնով: Սակայն, եթե ձեր հարցը այն է, թե ինչ է ազդեցությունը մեկնարկային գինը շուկայական արդյունքների այս մոտեցումը չի աշխատի, քանի որ այն հիմնված չէ արդար համադրումների; աճուրդների հետ ցածր մեկնարկային գներով կարող է լինել բավականին տարբերվում են աճուրդների հետ բարձր մեկնարկային գներով (օրինակ, նրանք կարող են լինել տարբեր տեսակի ապրանքների կամ ներառում է տարբեր տեսակի վաճառողների):

Եթե ​​դուք մտահոգված են դարձնելու արդար համեմատություններ, դուք կարող եք բաց թողնել միամիտ մոտեցում եւ հաշվի առնել վազում մի դաշտ էքսպերիմենտ, որտեղ դուք պետք է վաճառել մի կոնկրետ նյութը, օրինակ, գոլֆի ակումբ-ֆիքսված շարք աճուրդի պարամետրերի-ասում, անվճար առաքում, աճուրդ բաց երկու շաբաթ, եւ այլն, բայց պատահական սահմանել սկսած գները: Համեմատելով արդյունքում շուկայի արդյունքները, այս դաշտը փորձ է, որ առաջարկում է մի շատ հստակ չափման ուժի մեկնարկային գինը վաճառքի գնով. Սակայն, այդ չափման դա միայն կիրառվում է մեկ կոնկրետ ապրանքի եւ սահմանել աճուրդի պարամետրերի. Հետազոտության արդյունքները կարող են տարբեր լինել, օրինակ, տարբեր տեսակի ապրանքներ: Առանց ուժեղ Տեսականորեն, դա դժվար է էքստրապոլյացիայի այս մեկ փորձարկմամբ ամբողջական շարք հնարավոր փորձերի, որոնք կարող են առաջադրվել. Բացի այդ, դաշտային փորձեր են բավականաչափ թանկ է, որ դա կլինի անթույլատրելի է առաջադրվել բավարար են մինչեւ ծածկել ամբողջ պարամետր տարածք ապրանքների եւ աճուրդի տեսակների.

Ի տարբերություն միամիտ մոտեցման եւ փորձարարական մոտեցման, Einav եւ գործընկերները վերցնել երրորդ մոտեցումը: դասավորվել. Ծրագրի հիմնական հնարք իրենց ռազմավարության է բացահայտել բաներ նմանատիպ դաշտային փորձերի, որ արդեն տեղի է ունեցել eBay: Օրինակ, Նկար 2.6 ցույց է տալիս, որ որոշ 31 ցանկերի համար ճիշտ նույն գոլֆի ակումբում-ը TaylorMade Burner 09 Վարորդ-վաճառվում է ճիշտ նույն seller- «budgetgolfer». Սակայն, այդ ցանկեր մի փոքր այլ հատկանիշներ: Տասնմեկ էլ առաջարկում է վարորդին ֆիքսված գնով $ 124,99, իսկ մյուսը 20 աճուրդներ տարբեր ավարտի ամսաթվերը: Բացի այդ, ցանկեր ունեն տարբեր առաքման վճարները, կամ $ 7,99 կամ $ 9,99. Այլ կերպ ասած, այն է, որ եթե «budgetgolfer» վազում փորձերի համար հետազոտողների.

Եւ ցանկեր են TaylorMade Burner 09 վարորդի կողմից վաճառվող «budgetgolfer» մեկն օրինակ է համապատասխանում շարք ցանկերի, ուր ճշգրիտ նույն նյութը, որը վաճառվում է ճիշտ նույն վաճառողը բայց ամեն անգամ մի փոքր տարբեր հատկանիշներով: Ընթացքում զանգվածային տեղեկամատյանները ՏերՊետրոսյան Կան բառացիորեն հարյուրավոր հազարավոր համապատասխանում խմբերից, որոնք ներառում են միլիոնավոր ցանկեր: Այսպիսով, ավելի շուտ, քան համեմատելով վերջնական գինը բոլոր աճուրդների ընթացքում տվյալ մեկնարկային գնով, Einav եւ գործընկերները կատարել համեմատություններ ներսում համապատասխանում սահմանում: Որպեսզի համատեղել արդյունքների համեմատության ընթացքում այդ հարյուր հազարավոր համապատասխանում խմբերից, Einav եւ գործընկերները վերակազմակերպման արտահայտել մեկնարկային գինը եւ վերջնական գինը առումով հաշվետու արժեքի յուրաքանչյուր ապրանքի (օրինակ, դրա վաճառքի միջին գինը): Օրինակ, եթե TaylorMade Burner 09 վարորդ ունի տեղեկանք արժեքը $ 100 (հիմնված իր վաճառքի), ապա մեկնարկային գինը $ 10 կարտահայտվի, քանի որ 0.1 եւ վերջնական գինը $ 120 կարտահայտվի 1.2.

Նկար 2.6: An օրինակ է համապատասխանում սահմանված. Սա է ճիշտ նույն Golf Club (ա TaylorMade Burner 09 վարորդ) վաճառվում է ճիշտ նույն անձի (budgetgolfer), բայց որոշ վաճառքի են կատարվել տարբեր պայմաններ (օրինակ, տարբերվում մեկնարկային գինը): Նկար վերցված Einav et al. (2015 թ.):

Նկար 2.6: An օրինակ է համապատասխանում սահմանված. Սա է ճիշտ նույն Golf Club (ա TaylorMade Burner 09 վարորդ) վաճառվում է ճշգրիտ նույն անձի ( «budgetgolfer»), սակայն որոշ վաճառքի են կատարվել տարբեր պայմաններ (օրինակ, տարբերվում մեկնարկային գինը): Նկար վերցված Einav et al. (2015) :

Հիշեցնենք, որ Einav եւ գործընկերները հետաքրքրված էին ազդեցության մեկնարկային գինը աճուրդի արդյունքների: Նախ, օգտագործելով գծային ռեգրեսիան Նրանք հաշվարկեցին, որ բարձր մեկնարկային գները նվազում հավանականությունը վաճառքի, եւ որ բարձր մեկնարկային գները բարձրացնել վերջնական վաճառքի գինը, պայմանական է վաճառքի տեղի. Ըստ իրենց, այդ գնահատականները, որը կարող են միջինացված բոլոր ապրանքները եւ ենթադրել, գծային միջեւ հարաբերությունները մեկնարկային գնի եւ վերջնական արդյունքների-են, չէ, որ հետաքրքիր է: Բայց, Einav եւ գործընկերները նաեւ օգտագործել զանգվածային չափը իրենց տվյալների գնահատել մի շարք ավելի նուրբ արդյունքների: Նախ, Einav եւ գործընկերներ արել այդ նախահաշիվները առանձին-առանձին կետեր տարբեր գներով եւ առանց օգտագործելու գծային ռեգրեսիան: Նրանք պարզել են, որ մինչ այդ փոխհարաբերությունները մեկնարկային գինը եւ հավանականության վաճառքի է գծային, որ հարաբերությունները մեկնարկային գնի եւ վաճառքի գինը ակնհայտորեն ոչ գծային (Նկար 2.7). Մասնավորապես, սկսելու գների միջեւ 0.05 եւ 0.85, իսկ մեկնարկային գինը ունի շատ քիչ ազդեցություն է վաճառքի գնի մի հայտնաբերման, որը ավարտվել բաց թողնված վերլուծության որ ենթադրվում է գծային հարաբերություններ.

Նկար 2.7 հարաբերությունները աճուրդի մեկնարկային գնի եւ հավանականության վաճառք (ձախ վահանակի) եւ վաճառքի գնի (աջ վահանակ է). Կա մոտավորապես գծային միջեւ հարաբերությունները մեկնարկային գինը եւ հավանականության վաճառքի, բայց կա մի ոչ-գծային փոխհարաբերությունները մեկնարկային գինը եւ վաճառքի գնի. սկսելու գների միջեւ 0.05 եւ 0.85, իսկ մեկնարկային գինը ունի շատ քիչ ազդեցություն են վաճառքի գնով. Երկու դեպքում էլ, հարաբերությունները հիմնականում անկախ նյութի արժեքի. Այս գրաֆիկները վերարտադրել Նկ 4a եւ 4b Einav et al. (2015 թ.):

Նկար 2.7 հարաբերությունները աճուրդի մեկնարկային գնի եւ հավանականության վաճառք (ձախ վահանակի) եւ վաճառքի գնի (աջ վահանակ է). Կա մոտավորապես գծային միջեւ հարաբերությունները մեկնարկային գինը եւ հավանականության վաճառքի, բայց կա մի ոչ-գծային փոխհարաբերությունները մեկնարկային գինը եւ վաճառքի գնի. սկսելու գների միջեւ 0.05 եւ 0.85, իսկ մեկնարկային գինը ունի շատ քիչ ազդեցություն են վաճառքի գնով. Երկու դեպքում էլ, հարաբերությունները հիմնականում անկախ նյութի արժեքի. Այս գրաֆիկները վերարտադրել Նկ 4a եւ 4b Einav et al. (2015) :

Երկրորդ, այլ ոչ թե միջինը շուրջ բոլոր կետերը, Einav եւ գործընկերները նաեւ օգտագործել զանգվածային իրենց տվյալների գնահատել ազդեցությունը մեկնարկային գինը 23 տարբեր կատեգորիաների իրեր (օրինակ, Ընտանի կենդանիների պարագաներ, էլեկտրոնիկայի եւ սպորտի memorabilia) (Նկար 2.8). Այս հաշվարկները ցույց են տալիս, որ ավելի տարբերակիչ իրերի, օրինակ, հուշաիրերը-մեկնարկային գինը ունի փոքր ազդեցություն հավանականության վաճառքի եւ ավելի մեծ ազդեցություն վերջնական վաճառքի գնի. Բացի այդ, ավելի commodified իրեր, ինչպիսիք են DVD- ներ եւ վիդեո մեկնարկային գինը գրեթե չի ազդել վերջնական գնի. Այլ կերպ ասած, միջին, որը համատեղում արդյունքները 23 տարբեր կատեգորիաների ապրանքների թաքցնում կարեւոր տեղեկություններ տարբերությունների միջեւ այս կետերը.

Նկար 2.8 արդյունքները ցույց են տվել, նախահաշիվները յուրաքանչյուր կատեգորիայի անհատապես կուռ Dot է նախահաշվի բոլոր կատեգորիաների pooled միասին, Աղյուսակ 11 (Einav et al. 2015 թ., Աղյուսակ 11): Այս հաշվարկները ցույց են տալիս, որ ավելի տարբերակիչ իրերի, օրինակ, հուշաիրերը-որ մեկնարկային գինը ունի փոքր ազդեցություն հավանականության վաճառքի (x առանցքի) եւ ավելի մեծ ազդեցություն վերջնական վաճառքի գնի (y առանցքի).

Նկար 2.8 արդյունքները ցույց են տվել, նախահաշիվները յուրաքանչյուր կատեգորիայի անհատապես կուռ Dot է նախահաշվի բոլոր կատեգորիաների համախումբ միասին (Einav et al. 2015, Table 11) : Այս հաշվարկները ցույց են տալիս, որ ավելի տարբերակիչ իրերի, օրինակ, հուշաիրերը-որ մեկնարկային գինը ունի փոքր ազդեցություն հավանականության վաճառքի (x առանցքի) եւ ավելի մեծ ազդեցություն վերջնական վաճառքի գնի (y առանցքի).

Նույնիսկ եթե դուք չեք հատկապես հետաքրքրում աճուրդների eBay, դուք պետք է հիանում ճանապարհը, որ Նկար 2.7 եւ պարզել, 2.8 առաջարկ է ավելի հարուստ ընկալումները eBay քան պարզ գծային ռեգրեսիոն հաշվարկների, որոնք ենթադրում գծային հարաբերությունները եւ միավորել տարբեր կատեգորիաների ապրանքների. Այս ավելի նուրբ հաշվարկները ցույց են տալիս, որ իշխանությունը համապատասխանող զանգվածային տվյալները. այդ գնահատականները անհնար կլիներ առանց հսկայական թվով դաշտը փորձերի, ինչը կլիներ չափազանց թանկ է:

Իհարկե, մենք պետք է ավելի քիչ վստահություն արդյունքների վերաբերյալ որեւէ կոնկրետ համընկնող ուսումնասիրության, քան մենք ի արդյունքներով մի համեմատելի փորձարկմամբ: Երբ գնահատելով արդյունքները ցանկացած համապատասխան ուսումնասիրության, կան երկու կարեւոր մտահոգություններ. Առաջին հերթին, մենք պետք է հիշենք, որ մենք կարող ենք միայն ապահովել արդար համեմատություններ այնպիսի բաների վրա, որոնք օգտագործվում է համապատասխանող. Իրենց հիմնական արդյունքների, Einav եւ գործընկերները չէին ճշգրիտ համապատասխանող չորս բնութագրերը վաճառողը ՆՑ համարը, նյութը աստիճան, նյութը կոչում, եւ ենթավերնագիր. Եթե ​​իրեր տարբերվում էին այնպես, որ չեն օգտագործվում է համապատասխան, որոնք կարող են ստեղծել անարդար համեմատություն: Օրինակ, եթե «budgetgolfer» իջեցրել գները TaylorMade Burner 09 վարորդ է ձմռանը (երբ գոլֆի ակումբներ են քիչ հայտնի), ապա դա կարող է թվալ, թե ցածր մեկնարկային գները հանգեցնում են իջեցնել վերջնական գները, երբ, ըստ էության, դա կլինի An artifact սեզոնային տատանումների պահանջարկ: Ընդհանուր առմամբ, լավագույն մոտեցումը այս խնդրին, կարծես թե փորձում է բազմաթիվ տարբեր տեսակի համապատասխանող. Օրինակ, Einav եւ գործընկերները կրկնել են իրենց վերլուծությունը, որտեղ համադրված հավաքածուներ ներառում իրեր on sale, մեկ տարվա ընթացքում մեկ ամսվա ընթացքում, եւ միաժամանակ. Կատարելու ժամանակն է պատուհանը Օղակը նվազեցնում թիվը համապատասխանում խմբերից, սակայն նվազեցնում է մտահոգությունները սեզոնային տատանումների. Բարեբախտաբար, նրանք գտնում են, որ արդյունքները կարող են անփոփոխ այդ փոփոխությունների համապատասխանող չափանիշների. Ի համապատասխան գրականության, այս տիպի մտահոգիչ սովորաբար արտահայտվում առումով չափելի ու unobservables, բայց բանալին գաղափարն այն է, որ, իրոք, հետազոտողները են միայն ստեղծում արդար համեմատություններ վրա հատկանիշները օգտագործվող համապատասխանող.

Երկրորդ հիմնական մտահոգությունը, երբ մեկնաբանելիս համապատասխանող արդյունքներ է, որ նրանք ոչ միայն կիրառվում են համապատասխանում տվյալները, նրանք չեն տարածվում այն ​​դեպքերի վրա, որոնք չեն կարող համապատասխանում. Օրինակ, սահմանափակելով նրանց հետազոտություն իրեր, որոնք ունեցել բազմաթիվ ցուցակներ Einav եւ գործընկերները կենտրոնանալով մասնագիտական ​​եւ կիսամյակային մասնագիտական ​​վաճառողների. Այսպիսով, երբ մեկնաբանելիս այդ համեմատություններ մենք պետք է հիշենք, որ նրանք ոչ միայն կիրառվում են սույն ենթախմբի ՏերՊետրոսյան.

Համապատասխանեցման է հզոր ռազմավարություն գտնելու արդար համեմատություններ է խոշոր հավաքածուների. Բազմաթիվ սոցիալական գիտնականների, դասավորվել իրեն զգում է երկրորդ լավագույն փորձերի, բայց դա մի համոզմունքն է, որ պետք է վերանայվի, թեթեւակի. Դասավորվել է զանգվածային տվյալները կարող են լինել ավելի լավ, քան մի փոքր շարք դաշտային փորձերի, երբ `1) տարասեռութ հետեւանքների կարեւոր է, եւ 2) առկա են լավ չափելի համապատասխանող: Աղյուսակ 2.4 ապահովում մի շարք այլ օրինակներ, թե ինչպես համապատասխանող կարող է օգտագործվել մեծ տվյալների աղբյուրների:

Աղյուսակ 2.4. Օրինակներ ուսումնասիրությունների, որոնք օգտագործում համապատասխանող գտնել արդար համեմատություններ շրջանակներում թվային հետքերով.
բովանդակային ուշադրության կենտրոնում Մեծ տվյալների աղբյուրը հիշատակություն
Հետեւանքները կրակոցների վերաբերյալ ոստիկանության բռնությունների Stop-and-Frisk- գրառումները Legewie (2016)
Հետեւանքները. Սեպտեմբերի 11, 2001-ին ընտանիքների եւ հարեւանների հետ քվեարկության ձայնագրություններ եւ նվիրատվության գրառումները Hersh (2013)
Սոցիալական վարակ Կապի եւ արտադրանքը ընդունումը տվյալները Aral, Muchnik, and Sundararajan (2009)

Եզրափակելով, միամիտ մոտեցումները գնահատելու պատճառահետեւանքային բարդություններ ոչ-փորձարարական տվյալների վտանգավոր են: Սակայն, ռազմավարություններ կատարելու պատճառահետեւանքային նախահաշիվները ընկած երկայնքով continuum ից ամենաուժեղ մինչեւ ամենաթույլ, եւ հետազոտողները կարող եք բացահայտել արդար համեմատություններ շրջանակներում ոչ-փորձարարական տվյալները. Աճը մշտապես մեծ տվյալների համակարգերի մեծացնում մեր կարողությունը արդյունավետ օգտագործել երկու գոյություն ունեցող մեթոդները բնական փորձեր եւ համապատասխանող: