3.4.2 Ոչ հավանականություն նմուշները: կշռման

Այս թարգմանությունը ստեղծվել է համակարգչի համար. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.2 Ոչ հավանականություն նմուշները: կշռման

Ոչ հավանականություն նմուշների, կշիռները կարող շրջել աղավաղումներ առաջացել է ենթադրվող նմուշառման գործընթացի.

Է նույն կերպ, որ հետազոտողները քաշի պատասխաններ հավանականություն նմուշների, նրանք կարող են նաեւ քաշի պատասխաններ ոչ հավանականություն նմուշների. Օրինակ, որպես այլընտրանք CPS, պատկերացրեք, որ դուք տեղադրված Բաններային գովազդ հազարավոր կայքեր հավաքագրել մասնակիցներին հարցման գնահատման գործազրկության մակարդակը: Բնականաբար, դուք պետք է թերահավատ են, որ պարզ միջին ձեր նմուշի կլինի լավ նախահաշիվը գործազրկության մակարդակը: Ձեր թերահավատություն, հավանաբար, այն պատճառով, որ կարծում եք, որ որոշ մարդիկ ավելի հավանական է լրացնել ձեր հետազոտություն, քան մյուսները: Օրինակ, մարդիկ, ովքեր չեն ծախսում շատ ժամանակ է համացանցում ավելի քիչ հավանական է լրացնել ձեր հետազոտություն.

Քանի որ մենք տեսանք, որ վերջին բաժնում, սակայն, եթե մենք գիտենք, թե ինչպես է նմուշ ընտրվել, ինչպես մենք դա անել հավանականությամբ նմուշների-ապա մենք կարող ենք շրջել աղավաղումներ առաջացել է նմուշառման գործընթացի: Ցավոք, երբ աշխատում է ոչ հավանական նմուշների, մենք չգիտենք, թե ինչպես է նմուշ ընտրվել: Սակայն, մենք կարող ենք ենթադրել, որ նմուշառման գործընթացի ապա կիրառվում են սուզման է նույն կերպ: Եթե այդ ենթադրությունները ճիշտ են, ապա կշռման կվերացնի աղավաղումների հետեւանքով առաջացած նմուշառման գործընթացի:

Օրինակ, պատկերացրեք, որ ի պատասխան Ձեր banner ads, դուք հավաքագրել 100.000 մարդ: Սակայն, դուք չեք հավատում, որ այդ 100.000 հարցվողները պարզ պատահական նմուշ ամերիկյան մեծահասակների հետ. Ի դեպ, երբ դուք համեմատում Ձեր պատասխանողներին ԱՄՆ բնակչության, դուք կգտնեք, որ մարդիկ որոշ երկրների (օրինակ, Նյու Յորք), որոնք ավելի քան ներկայացված, եւ որ մարդիկ որոշ երկրների (օրինակ, Ալյասկայի) թերներկայացված. Այսպիսով, գործազրկության մակարդակը ձեր նմուշի, ամենայն հավանականությամբ, պետք է վատ նախահաշիվը գործազրկության մակարդակը թիրախային բնակչության:

Մեկ ճանապարհ դեպի ետ աղավաղումը, որը տեղի է ընտրանքային գործընթացում է հանձնարարել կշիռները է յուրաքանչյուր անձի. ստորին կշիռները մարդկանց պետությունների, որոնք ավելի քան ներկայացված է նմուշի (օրինակ, Նյու Յորք) եւ բարձրագույն կշիռների մարդկանց պետություններից, որոնք համաձայն ներկայացված նմուշի (օրինակ, Alaska). Ավելի կոնկրետ, քաշը յուրաքանչյուր հարցվողի կապված է իրենց տարածվածության Ձեր ընտրանքային ազգականի իրենց տարածվածության ԱՄՆ բնակչության շրջանում: Այս կշռման կարգը կոչվում հետընտրական շերտավորումը եւ գաղափարը քաշով պետք է հիշեցնել ձեզ, որ, օրինակ Բաժին 3.4.1, որտեղ հարցվածները Այլենդից տրվեցին ավելի քիչ քաշ է տալիս քան հարցվածների Կալիֆորնիայում: Post-շերտավորում պահանջում է, որ դուք գիտեք, թե բավական է տեղադրել Ձեր հարցման մեջ խմբերի եւ իմանալ համամասնությունը թիրախային բնակչության յուրաքանչյուր խմբի համար:

Չնայած նրան, որ կշռման հավանականության նմուշի եւ ոչ հավանականության նմուշի են նույն մաթեմատիկորեն (տես տեխնիկական հավելված), նրանք աշխատում են նաեւ տարբեր իրավիճակներում: Եթե հետազոտողը ունի կատարյալ հավանականությունը նմուշը (այսինքն, ոչ լուսաբանումը սխալ եւ ոչ մի ոչ-պատասխան), ապա կշռման կարտադրի անաչառ նախահաշիվները բոլոր հատկություններ բոլոր դեպքերում: Այս ուժեղ տեսական երաշխիքը, թե ինչու փաստաբանները Հավանականությունների նմուշների գտնել դրանք այնքան գրավիչ. Բայց, մյուս կողմից, կշռման ոչ հավանականություն նմուշները կարող է միայն արտադրել անաչառ նախահաշիվները բոլոր հատկություններ, եթե այդ պատասխանը հակամետությունները են բոլորի համար նույնն է յուրաքանչյուր խմբի համար: Այլ կերպ ասած, մտածելով վերադառնալ մեր, օրինակ, օգտագործելով շերտավորում կարտադրի անաչառ նախահաշիվները, եթե բոլորն Նյու Յորքում ունի նույն հավանականությունը մասնակցում, եւ բոլորը Ալյասկայի ունի նույն հավանականությունը մասնակցում եւ այլն: Այս ենթադրությունը կոչվում է միատարր-պատասխան հակումներով ներսում խմբերի ենթադրությունը, եւ դա խաղում առանցքային դեր է իմանալով, եթե հետընտրական շերտավորում կաշխատի լավ է ոչ-հավանականություն նմուշների.

Ցավոք սրտի, մեր օրինակում, որ միատարր-պատասխան հակամետությունները ներսում խմբերում ենթադրությունը քիչ հավանական է թվում, որ ճշմարիտ է: Այսինքն, այն, կարծես, քիչ հավանական է, որ բոլորը Ալյասկայի ունի նույն հավանականությունը լինելու Ձեր հարցման. Սակայն, կան երեք կարեւոր միավոր են պահում մտքում մասին շերտավորում, որոնք բոլորն այն կարծես ավելի խոստումնալից:

Նախ, միատարր-պատասխան հակամետությունները ներսում խմբերում ենթադրությունը դառնում է ավելի ճշմարտանման է, քանի որ մի շարք խմբերի մեծանում. Եվ, հետազոտողները չեն սահմանափակվում խմբերի, պարզապես հիման վրա մեկ աշխարհագրական հարթություն: Օրինակ, մենք կարող ենք ստեղծել խմբեր հիման վրա պետական, տարիքից, սեռից, եւ կրթական մակարդակի. Թվում է, թե ավելի հավանական է, որ կա միատարր պատասխան հակամետությունները խմբի շրջանակներում 18-29, Իգական, քոլեջների շրջանավարտները ապրող Ալյասկայի քան խմբի բոլոր ապրող մարդկանց Ալյասկայում. Այսպիսով, քանի որ մի շարք խմբերի համար օգտագործվող հետընտրական շերտավորման ավելանում է, ենթադրությունները անհրաժեշտ է աջակցել, որ այն դարձել է ավելի խելամիտ: Հաշվի առնելով այս հանգամանքը, որ կարծես մի հետազոտողները ցանկանում են ստեղծել մի հսկայական շարք խմբերի համար հետընտրական շերտավորման: Սակայն, քանի որ մի շարք խմբերի ավելանում է, հետազոտողները առաջադրվելու մեջ այլ խնդիր է: data sparsity. Եթե կան միայն մի փոքր թվով մարդկանց, յուրաքանչյուր խմբում, ապա հաշվարկները կլինի ավելի անորոշ, իսկ ծայրահեղ դեպքում, երբ կա մի խումբ, որը չունի հարցվածներին, ապա հետընտրական շերտավորում ամբողջությամբ փչանում է: Գոյություն ունեն երկու ճանապարհ դուրս գալ այս բնորոշ լարվածության միջեւ ճշմարտանման մասին homogeneous- պատասխան հակում ներսում խմբերի ենթադրության եւ պահանջարկի ողջամիտ ընտրանքի չափերի յուրաքանչյուր խմբի համար: One մոտեցումը այն է, որ տեղափոխվելու է ավելի բարդ վիճակագրական մոդելի հաշվարկման համար կշիռները, իսկ մյուսը պետք է հավաքել ավելի մեծ, ավելի բազմազան նմուշ, որն օգնում է ապահովել, ողջամիտ ընտրանքի չափերի յուրաքանչյուր խմբի համար: Եւ, երբեմն հետազոտողները անել այնպես, ինչպես ես քեզ նկարագրել է ավելի մանրամասն ստորեւ.

Երկրորդ նկատառում, երբ աշխատում է շերտավորում ոչ հավանական նմուշների այն է, որ միատարր-արձագանքը-հակում ներսում խմբերում ենթադրությունը արդեն հաճախակի կատարվում, երբ վերլուծում հավանականությունը նմուշներ: Պատճառն այն է, որ այս ենթադրությունը համար անհրաժեշտ է հավանականությունը նմուշների գործնականում այն է, որ հավանականություն նմուշները պետք չարձագանքելու, եւ առավել տարածված մեթոդը կանոնավորող համար ոչ-պատասխան հետընտրական շերտավորում, ինչպես նկարագրված է վերը: Իհարկե, միայն այն պատճառով, որ շատ հետազոտողներ, որպեսզի որոշակի ենթադրությունը չի նշանակում, որ դուք պետք է անեք այն էլ. Սակայն, դա չի նշանակում, որ այն ժամանակ, երբ համեմատելով ոչ հավանականության նմուշներ հավանականության նմուշների գործնականում, մենք պետք է հաշվի առնել, որ երկուսն էլ կախված ենթադրությունների եւ օժանդակ տեղեկատվություն որպեսզի արտադրել նախահաշիվները: Առավել իրատեսական պարամետրերը, պարզապես չկա ենթադրությունը ազատ մոտեցում եզրակացության հանգել:

Վերջապես, եթե դուք մտածում այդ մասին, մի գնահատել, մասնավորապես, մեր օրինակը գործազուրկների թիվը, ապա դուք պետք է պայման թույլ է, քան միատարր-պատասխան հակում ներսում խմբերի ենթադրության: Մասնավորապես, դուք չեք պետք է ենթադրել, որ յուրաքանչյուր ոք ունի նույն պատասխանը հակում, դուք միայն պետք է ենթադրել, որ չկա հարաբերակցությունը միջեւ պատասխան հակում եւ գործազրկության յուրաքանչյուր խմբի համար: Իհարկե, նույնիսկ այս ավելի թույլ վիճակը չի կարող զբաղեցնել որոշ իրավիճակներում. Օրինակ, պատկերացրեք, գնահատելով համամասնությունը ամերիկացիների, որոնք չեն կամավորական աշխատանքը. Եթե մարդիկ, ովքեր կամավորական աշխատանքը շատ ավելի հավանական է, համաձայնել է լինել մի հարցման, ապա հետազոտողները հետեւողականորեն ավելի գնահատի գումարը կամավորության, նույնիսկ եթե նրանք հետընտրական շերտավորումը ճշգրտումներ, մի արդյունք, որը ցուցադրվում է էմպիրիկ է Abraham, Helms, and Presser (2009) :

Քանի որ ես ասել եմ ավելի վաղ, ոչ-հավանականություն նմուշները դիտվում են մեծ թերահավատությամբ է հասարակագետների, մասամբ այն պատճառով, որ իրենց դերը որոշ առավել embarrassing անհաջողությունների վաղ օրերին հետազոտության հետազոտության. Պարզ օրինակ է, թե ինչպես հեռու ենք մենք եկել ոչ հավանական նմուշների է հետազոտությունը Wei Wang, Դավիթ Rothschild, Sharad Գոելին եւ Էնդրյու Գելմանը, որը ճիշտ է վերականգնվել արդյունքների վրա 2012 ԱՄՆ ընտրություններում օգտագործելով ոչ հավանականությունը նմուշ American Xbox օգտվողների -a անտարակույս ոչ պատահական նմուշ ամերիկացիների (Wang et al. 2015) : Հետազոտողները հավաքագրել պատասխանողներին ից Xbox խաղերի համակարգում, եւ ինչպես դուք կարող եք ակնկալել, որ Xbox նմուշը skewed արու եւ skewed երիտասարդ: 18 - 29 տարի olds կազմում է 19% ընտրազանգվածի 65% -ը Xbox նմուշի եւ տղամարդիկ կազմում են 47% ընտրազանգվածի 93 տոկոսը, որ Xbox նմուշի (Նկար 3.4). Քանի որ այդ ուժեղ ժողովրդագրական կողմնակալության, հում Xbox տվյալները մի աղքատ ցուցանիշ ընտրությունների արդյունքներին: Այն կանխատեսեց ուժեղ հաղթանակ Միթ Ռոմնիի համար ավելի Բարաք Օբամային: Կրկին, սա եւս մեկ օրինակ է վտանգների հումքի, չուղղված ոչ հավանական նմուշների եւ հիշեցնում է Գրական Digest fiasco.

Նկար 3.4: ժողովրդագրությունը հարցվածների Wang et al. (2015 թ.): Քանի որ հարցվողները, որոնք հավաքագրվել են Xbox, նրանք ավելի հավանական է, որ երիտասարդ եւ ավելի հավանական է, որ արական, հարաբերական է ընտրողների 2012 թ ընտրությունների ժամանակ:

Նկար 3.4: ժողովրդագրությունը հարցվածների Wang et al. (2015) : Քանի որ հարցվողները, որոնք հավաքագրվել են Xbox, նրանք ավելի հավանական է, որ երիտասարդ եւ ավելի հավանական է, որ արական, հարաբերական է ընտրողների 2012 թ ընտրությունների ժամանակ:

Սակայն, Wang եւ գործընկերները տեղյակ են եղել այդ խնդիրների եւ փորձել է քաշի պատասխանողներին ուղղել է նմուշառման գործընթացի: Մասնավորապես, նրանք ավելի բարդ ձեւ Գրառման-շերտավորման մասին ես ձեզ պատմեցի. Այն արժե սովորում, մի քիչ ավելի մոտ են իրենց մոտեցման, քանի որ այն ստեղծում է ինտուիցիան մասին post-շերտավորման, եւ մասնավորապես, տարբերակը Wang եւ գործընկերները օգտագործվում մեկն է առավել հետաքրքիր մոտեցումների կշռման ոչ հավանականություն նմուշների.

Մեր պարզ օրինակ գնահատելու գործազրկության Բաժին 3.4.1, մենք բաժանվում բնակչությանը են խմբերի հիման վրա պետության բնակության: Ի տարբերություն, Վան եւ գործընկերները բաժանվում բնակչությանը մեջ մեջ 176,256 խմբերի կողմից սահմանված: սեռի (2 բաժիններում), ռասայից (4 բաժիններում), տարիքի (4 բաժիններում), կրթության (4 բաժիններում), պետության (51 բաժիններում), կուսակցության ID (3 կատեգորիաներ), գաղափարախոսությունը (3 կատեգորիաներ) եւ 2008 թ. քվեարկություն (3 կատեգորիաներ): Ավելի շատ խմբերի, հետազոտողները հույս ուներ, որ դա կլինի ավելի ու ավելի հավանական է, որ յուրաքանչյուր խմբի պատասխանը հակվածությունը էր uncorrelated աջակցությամբ Օբամային: Հաջորդ, ավելի շուտ, քան կառուցման անհատական մակարդակի կշիռներ, քանի որ մենք արեցինք մեր օրինակում, Վան եւ գործընկերները օգտագործվում համալիր գնահատման մոդելը համամասնությամբ մարդկանց յուրաքանչյուր խմբում, որը պետք է քվեարկել Օբամայի: Ի վերջո, նրանք համակցված այդ խմբի նախահաշիվը աջակցությամբ հայտնի չափի յուրաքանչյուր խմբի արտադրել մոտ ընդհանուր մակարդակը աջակցությամբ. Այլ կերպ ասած, նրանք թակած մինչեւ բնակչությանը մեջ տարբեր խմբերի, գնահատվում է աջակցությունը Օբամայի յուրաքանչյուր խմբում, եւ ապա վերցրեց միջին կշռված խմբի գնահատականների արտադրել ընդհանուր գնահատել:

Այսպիսով, մեծ մարտահրավեր է իրենց մոտեցման է գնահատել աջակցությունը Օբամայի յուրաքանչյուր այդ 176,256 խմբերի. Չնայած նրան, որ նրանց վահանակ ընդգրկված 345,858 եզակի մասնակիցներին, մի մեծ շարք կողմից չափանիշներին նախընտրական հարցման, կային շատ, շատ խմբեր, որոնց համար Wang եւ գործընկերները ունեցել գրեթե չկա մարդ: Հետեւաբար, պետք է գնահատել աջակցությունը յուրաքանչյուր խմբի նրանք օգտագործում են տեխնիկան կոչվում է բազմաստիճան հետընթացը հետ- շերտավորման, որի հետազոտողները քնքշորեն անվանում պարոն Պ էության, պետք է գնահատել աջակցությունը Օբամայի շրջանակներում կոնկրետ խմբի, պարոն Պ լողավազաններ տեղեկատվությունը շատերին սերտորեն կապված խմբեր: Օրինակ, մտածեք այն մարտահրավերի գնահատելու աջակցությունը Օբամային շրջանում կին, Hispanics միջեւ 18-29 տարեկան, ովքեր են քոլեջի շրջանավարտներ, ովքեր գրանցված են դեմոկրատները, ովքեր ինքնուրույն բացահայտել, քանի որ չափավորների, եւ ով կողմ է քվեարկել Օբամայի 2008 թ.: Այս Սա շատ, շատ կոնկրետ խումբ, եւ հնարավոր է, որ ոչ ոք չկա, նմուշի այդ հատկանիշներով: Հետեւաբար, որպեսզի նախահաշիվները Այս խմբի մասին, պրն P. լողավազաններ միասին հաշվարկներով մարդկանցից շատ նման խմբերի.

Օգտագործելով այս վերլուծության ռազմավարությունը, Վան եւ գործընկերները կարողացան օգտագործել Xbox ոչ հավանականության նմուշ է շատ ուշադիր գնահատել ընդհանուր աջակցությունը, որ ԱՄՆ նախագահ Բարաք Օբաման ստացել է 2012 թ. Ընտրություններին (Գծապատկեր 3.5). Ի դեպ, նրանց գնահատականները էին ավելի ճշգրիտ, քան որպես համախառն հասարակական կարծիքի հարցումների: Այսպիսով, այս դեպքում, կշռման, հատկապես պրն P.-Թվում է, թե դա անել լավ աշխատանք ուղղելու շեղումներ ոչ հավանականությամբ տվյալները; շեղումներ, որոնք տեսանելի են, երբ նայում եք գնահատմամաբ ից չուղղված Xbox տվյալները:

Նկար 3.5: հաշվարկների Wang et al. (2015 թ.): Չուղղված XBOX նմուշ արտադրվել սխալ նախահաշիվները: Սակայն, կշռված Xbox նմուշ արտադրված նախահաշիվները, որոնք ավելի ճշգրիտ, քան միջինը Հավանականությունների վրա հիմնված հեռախոսային հարցումների:

Նկար 3.5: հաշվարկների Wang et al. (2015) : Չուղղված XBOX նմուշ արտադրվել սխալ նախահաշիվները: Սակայն, կշռված Xbox նմուշ արտադրված նախահաշիվները, որոնք ավելի ճշգրիտ, քան միջինը Հավանականությունների վրա հիմնված հեռախոսային հարցումների:

Կան երկու հիմնական դասեր ուսումնասիրության Wang եւ գործընկերների հետ: Նախ, չճշգրտված ոչ հավանականություն նմուշները կարող է հանգեցնել վատ հաշվարկների, սա մի դաս, որ շատ հետազոտողներ լսեցիք առաջ. Սակայն երկրորդ դասն այն է, որ ոչ-հավանականություն նմուշները, երբ կշռված պատշաճ, կարող է իրականում արտադրել բավական լավ նախահաշիվները: Ի դեպ, նրանց գնահատականները էին ավելի ճշգրիտ, քան հաշվարկների pollster.com, որը ագրեգացման ավելի ավանդական ընտրատեղամասերից:

Վերջապես, կան կարեւոր սահմանափակումներ, թե ինչ կարող ենք սովորել այս մեկ կոնկրետ ուսումնասիրության: Պարզապես այն պատճառով, որ հետընտրական շերտավորման աշխատել նաեւ այս կոնկրետ դեպքում, ոչ մի երաշխիք չկա, որ այն կարող է աշխատել նաեւ այլ դեպքերում: Ի դեպ, ընտրություններն են, թերեւս, մեկն է ամենահեշտ պարամետրերը, քանի որ սոցիոլոգիական արդեն ուսումնասիրում ընտրություններ գրեթե 100 տարի, կա կանոնավոր հետադարձ (մենք կարող ենք տեսնել, թե ով կհաղթի ընտրությունները), եւ կուսակցությունը նույնականացման եւ ժողովրդագրական բնութագրերը համեմատաբար կանխատեսող քվեարկության: Այս պահին, մենք պակասում ամուր տեսության եւ էմպիրիկ փորձ է իմանալ, թե երբ կշռման ճշգրտումներ ոչ հավանական նմուշների կարտադրի բավականաչափ ճշգրիտ գնահատումներ: Մի բան, որ պարզ է, սակայն, այն է, եթե դուք ստիպված է աշխատել ոչ հավանական նմուշների, ապա կա ուժեղ պատճառ է հավատալ, որ ճշգրտված հաշվարկները ավելի լավը կլինեն, քան ոչ ճշգրտվում գնահատականներով: