3.4.2 Не-вероватноће узорци: пондерисања

Овај превод је креиран од стране рачунара. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.2 Не-вероватноће узорци: пондерисања

Са узорцима не вероватноће, тежине може поништити изазвана претпостављеног процеса узорковања.

На исти начин на који истраживачи тежина одговоре из узорака вероватноће, они такође могу тежине одговоре узорцима не вероватноће. На пример, као алтернативу ЦПС, замислите да сте поставили банер рекламе на хиљаде сајтова за регрутовање учесника за истраживање да процене стопе незапослености. Наравно, ти би био скептичан да ће једноставно средство узорку бити добра процена стопе незапослености. Ваш скептицизам је вероватно зато што мислите да су неки људи имају веће шансе да заврши своју анкету од других. На пример, људи који не проводе много времена на Интернету су мање шансе да заврши своју анкету.

Као што смо видели у последњем поглављу, међутим, ако знамо како је узорак је изабран-као што то чинимо са вероватноће узорцима-онда можемо поништити изазвана процеса узорковања. На жалост, када се ради са узорцима не вероватноће, не знамо како је изабран узорак. Али, можемо правити претпоставке о процесу узорковања, а затим нанесите пондер на исти начин. Ако су ове претпоставке тачне, онда тежински ће поништити поремећаје изазване процеса узорковања.

На пример, замислите да у одговору на ваше рекламних банера, ви регрутовао 100.000 испитаника. Међутим, не верујем да су ови 100.000 испитаници су једноставни случајни узорак од одраслих Американаца. У ствари, када се упореде своје испитанике да америчке популације, видите да људи из неких земаља (нпр, Нев Иорк) преко-заступљени и да људи из неких земаља (нпр, Аласка) су недовољно заступљени. Тако, стопа незапослености у узорку ће вероватно бити лош процена стопе незапослености у циљној популацији.

Један од начина да се поништи дисторзију која се догодила у процесу узорковања је доделити тегове за сваку особу; ниже тежине људима из држава које су превише заступљене у узорку (нпр, Нев Иорк) и већи значај за људе из држава које су недовољно заступљене у узорку (нпр, Аласка). Прецизније, тежина за сваког испитаника се односи на њихове распрострањености у пробном у односу на њихове распрострањености у америчке популације. Овај поступак пондерисање се зове после раслојавање, а идеја мерења би требало да вас подсетим на пример у члану 3.4.1, где су испитаници из Рходе Исланд дати мању тежину него испитаници из Калифорније. Пост-стратификација захтева да знате довољно да ставите испитанике у групе и да знају пропорције циљне популације у свакој групи.

Иако је пондерисање вероватноће узорка и не-вероватноће узорку су исти математички (види техничке додатак), они добро раде у различитим ситуацијама. Ако је истраживач има савршен вероватноће узорак (тј, не грешци покривеност и не неодазива), а затим пондерисање ће произвести поуздане процене за све особине у свим случајевима. Ова снажна теоријска гаранција је разлог зашто заговорници узорака вероватноћа их наћи тако привлачно. С друге стране, тежински узорци нису вероватноће ће само произвести поуздане процене за све особине ако су склоности одговора исти за све у свакој групи. Другим речима, мислећи назад у нашем примеру, користећи пост-раслојавања ће произвести поуздане процене да ли су сви у Њујорку има исту вероватноћу да учествују и сви у Аљасци има исту вероватноћу да учествују и тако даље. Ова претпоставка се зове претпоставку хомогене-респонсе-склоности-унутар-групе, и игра кључну улогу у знајући да после раслојавање ће добро радити са узорцима не вероватноће.

На жалост, у нашем примеру, изгледа мало вероватно да би било истинито претпоставка хомогена-одговор-склоности-у-група. То јест, мало је вероватно да су сви у Аљасци има исту вероватноћу да буде у вашем истраживању. Али, постоје три важне тачке које треба имати на уму о пост-раслојавања, што све заједно чини да изгледа више обећава.

Прво, хомогена-одговор-склоности-у-група претпоставка постаје прихватљива као број група расте. И, истраживачи нису ограничени на групе само на основу једног географском димензијом. На пример, могли бисмо да направимо групе на основу стања, старости, полу, и ниво образовања. Чини се више вероватно да постоји хомогени склоности одговора у оквиру групе 18-29, жена, високо образовани који живе на Аљасци него у групи свим људима који живе на Аљасци. Тако, као што је број група који се користе за пост-стратификације расте, претпоставке треба да подржи оно постане разумно. Имајући ово у виду, чини се да би а истраживачи желе да створе велики број група за пост-стратификације. Али, као што је број група расте, истраживачи налетео на један други проблем: подаци спарсити. Ако постоји само мали број људи у свакој групи, онда процене ће бити неизвесна, а у крајњем случају када постоји група која нема испитаника, а затим после раслојавање потпуно поквари. Постоје два начина од овог урођеног напетости између прихватљивости од хомогенеоус- одговор-склоност-у-група претпоставке и потражње за разумне величине узорка у свакој групи. Један од приступа је да се на софистициранији статистичког модела за израчунавање пондера, а други је да прикупи већи, разноврснији узорак, који помаже да се осигура разуман узорке у свакој групи. И, понекад истраживачи обоје, као што ћу описати детаљније у наставку.

Други фактор приликом рада са пост-стратификације из узорака не вероватноћа је да је претпоставка хомогена-одговор-склоност-у-група је већ често се приликом анализе узорака вероватноће. Разлог због којег је ова претпоставка потребна за узорке вероватноће у пракси је да су узорци вероватноћа имају нон-одговор, а најчешћи метод за подешавање за не-одговора је пост-стратификација као што је горе описано. Наравно, само зато што многи истраживачи се одређена претпоставка не значи да би требало да то раде. Али, то не значи да када се упореде узорке не вероватноће да узорцима вероватноће у пракси, морамо имати на уму да и зависи од претпоставки и помоћним информацијама како би произвели процене. У већини реалних параметара, једноставно нема приступ претпоставка без да закључак.

На крају, ако ти је стало једној процени посебно-у нашем примеру Стопа незапослености-онда вам је потребан услов слабији од хомогене-респонсе-склоности-унутар-групе претпоставке. Конкретно, не треба претпоставити да свако има исти склоност одговора, потребно је само да претпостави да постоји корелација између склоности одговора и стопе незапослености у оквиру сваке групе. Наравно, ни овај слабији услов неће држати у неким ситуацијама. На пример, замислите процену проценат Американаца који раде волонтерски рад. Ако су људи који раде волонтерски рад већа вјероватноћа да се слажу да је у истраживању, а затим истраживачи ће систематски преценио количину волонтирања, чак и ако они подешавања након стратификације, резултат који је емпиријски доказано од стране Abraham, Helms, and Presser (2009) .

Као што сам раније рекао, узорци нису вероватноће се гледа са великом скепсом социолози, делом због своје улоге у неким од најважнијих неугодна пропуста у раним данима истраживању. Јасан пример колико далеко смо дошли са узорцима не вероватноћа је истраживање Веи Ванг, Давид Ротхсцхилд, Схарад Гоел, и Андрев Гелманом да правилно опоравио на исход 2012 УС изборима користећи не-вероватноће узорак амерички Ксбок корисника -а дефинитивно не-случајни узорак Американаца (Wang et al. 2015) . Истраживачи су регрутовани испитаника из играчки систем Ксбок, и као што би се могло очекивати, Ксбок узорак нагиње мушко и искривио млади: 18 - 29 година старости чине 19% бирачког тијела, али 65% од Ксбок узорка и мушкарци чине 47% бирача и 93% од Ксбок узорка (Слика 3.4). Због тих јаких демографских предрасудама, сирови Ксбок подаци био слаб показатељ изборних повратка. То је предвидео јаку победу Мит Ромни над Бараком Обамом. Опет, ово је још један пример опасности од сирових, неусклађених узорцима не вероватноћа и подсећа на Књижевни Дигест фијаска.

Слика 3.4: Демографија испитаника у Ванг ет ал. (2015). Јер су испитаници регрутовани из Ксбок, они су веће шансе да буду млади и веће шансе да буду мушкарци, у односу на гласаче у 2012. изборима.

Слика 3.4: Демографија испитаника у Wang et al. (2015) . Јер су испитаници регрутовани из Ксбок, они су веће шансе да буду млади и веће шансе да буду мушкарци, у односу на гласаче у 2012. изборима.

Међутим, Ванг и његове колеге били свесни ових проблема и покушао да извагати испитанике да исправи за процес узорковања. Посебно, користили су софистициранији облик пост-раслојавања сам ти причао. Вреди научити нешто више о свом приступу, јер гради интуиције о пост-стратификације, а посебно верзија Ванг и његове колеге користи је један од најузбудљивијих приступа на висину узорцима не вероватноће.

У нашем једноставан пример о процени незапослености у одељку 3.4.1, подељени смо становништво у групе на основу стања боравка. Насупрот томе, Ванг и његове колеге подељен становништво у у 176,256 група дефинисаних: полу (2 категорије), расе (4 категорије), старости (4 категорије), образовање (4 категорије), држава (51 категорија), странке ИД (3 категорије), идеологија (3 категорије) и 2008 гласова (3 категорије). Са више група, истраживачи су се надали да ће то бити све вероватније да унутар сваке групе, одговор склоност је у корелацији са подршком за Обаму. Затим, уместо изградње тежине индивидуалном нивоу, као што смо учинили у нашем примеру, Ванг и његове колеге користили комплексан модел за процену проценат људи у свакој групи да би гласали за Обаму. На крају, они комбинују ове групе процене подршку са познатом величине сваке групе да произведе се процењује укупни ниво подршке. Другим речима, они исецкано становништво у различитим групама, оценио је подршку за Обаму у свакој групи, а затим је пондерисани просек проценама групе да произведе укупну процену.

Тако је велики изазов у свом приступу је да се процени подршку за Обаму у свакој од ових 176,256 група. Иако је њихов табла укључен 345,858 јединствене учесника, велики број од стандарда изборног гласања, било је много, много групе за које Ванг и његове колеге нису имале готово никакав испитаника. Стога, да процени подршку у свакој групи су користили технику која се зове нивоа регресија са пост-стратификације, који истраживачи милоште називају Мр. П. У суштини, проценити подршку за Обаму у оквиру одређене групе, господин П. базени информације из многих уско повезани групе. На пример, размотримо изазов процене подршку за Обаму међу женама, хиспано порекла, између 18-29 година, који су високо образовани, који су регистровани демократе, који се изјашњавају као умерени, и који су гласали за Обаму у 2008. је врло, врло специфична група, а могуће је да не постоји нико у узорку са овим карактеристикама. Стога, да би процене о овој групи, господин П. базени заједно процењује од људи у веома сличним групама.

Користећи ову стратегију анализе, Ванг и његове колеге су могли да користе Ксбок не вероватноће узорак веома пажљиво проценити укупну подршку коју је Обама добио у 2012. изборима (слика 3.5). У ствари, њихове процене су прецизнији него агрегат јавног мњења. Тако, у овом случају, пондерисање-конкретно господине П.-изгледа да уради добар посао исправља предрасуде у не-вероватноће података; предрасуде које су видљиве када погледате проценама из неусклађених података Ксбок.

Слика 3.5: Процене Ванг ет ал. (2015). Неуклопљеног Ксбок узорак произведено нетачне процене. Али, пондерисана Ксбок узорак произведено процењује да је прецизнија од просека телефонских анкета вероватноће засноване.

Слика 3.5: Процене Wang et al. (2015) . Неуклопљеног Ксбок узорак произведено нетачне процене. Али, пондерисана Ксбок узорак произведено процењује да је прецизнија од просека телефонских анкета вероватноће засноване.

Постоје два главна лекције из студије о Ванг и колега. Прво, неуклопљеног узорци не вероватноће може да доведе до лоших процена; ово је лекција коју су многи истраживачи већ чули. Међутим, Друга лекција је да узорци не вероватноћа, када веигхтед правилно, може заправо произвести доста добре процене. У ствари, њихове процене су тачнији од проценама из поллстер.цом, скупа елемената традиционалних биралишта.

Коначно, постоје важни ограничења за оно што можемо научити из ове једне специфичне студије. Само зато што после стратификација добро радила у овом конкретном случају, не постоји гаранција да ће добро радити у другим случајевима. У ствари, избори су можда један од најлакших подешавања јер анкетари су проучавали изборе за скоро 100 година, постоји редовна повратна информација (видимо ко победи на изборима), а партијска идентификација и демографске карактеристике су релативно предиктивне гласања. У овом тренутку, недостаје нам солидну теорију и емпиријски искуства да знају када ће ПОНДЕРИСАЊЕ прилагођавања узорцима не вероватноћа произвести довољно прецизних процена. Једна ствар која је јасна, међутим, ако су приморани да раде са узорцима не вероватноће, онда постоји јак разлог да верујемо да ће прилагодила процене бити боље него не прилагођена проценама.