3.4 Кога да питам

Овај превод је креиран од стране рачунара. ×

3.4 Кога да питам

Дигитално доба у пракси тежи стварању узорка вјероватноће и ствара нове могућности за узорковање без вероватноће.

У историји узорковања, дошло се до два супротстављена приступа: методе узорковања вероватноће и методе узорковања без вероватноће. Иако су оба приступа коришћена у првим данима узорковања, узорак вероватноће је доминантан, а многим друштвеним истраживачима се подучавају да посматрају узорковање без вероватноће са великим скептицизмом. Међутим, како ћу описати у наставку, промјене створене дигиталним добима значе да је вријеме истраживачима да преиспитају узорковање без вероватноће. Конкретно, узимање узорака вероватноће је постати тешко у пракси, а узимање узорака без вероватноће постаје све брже, јефтиније и боље. Бржа и јефтинија истраживања нису само циљеви по себи: они омогућавају нове могућности као што су чешће анкете и веће величине узорка. На примјер, кориштењем не-вјероватних метода, Кооперативна Конгресна изборна студија (ЦЦЕС) може имати отприлике 10 пута више учесника него раније студије уз коришћење узорковања вјероватноће. Овај много већи узорак омогућава политичким истраживачима да проучавају варијације у ставовима и понашању у подгрупама и друштвеним контекстима. Надаље, све ове додатне скале дошле су без смањења квалитета процјена (Ansolabehere and Rivers 2013) .

Тренутно, доминантан приступ узорковању за друштвена истраживања је узорковање вероватноће . Код узорковања вероватноће, сви чланови циљне популације имају познату, ненормалну вероватноћу да буду узорковани, а сви људи који су узорковани одговара на анкету. Када су ови услови испуњени, елегантни математички резултати нуде доказљиве гаранције о способности истраживача да користи узорак да би закључио циљану популацију.

Међутим, у стварном свету, услови који су у основи ових математичких резултата ретко испуњавају. На примјер, често постоје грешке покривања и непостојања. Због ових проблема, истраживачи често морају да користе различите статистичке прилагодбе како би закључили из свог узорка на циљану популацију. Стога је важно разликовати узорак вероватноће у теорији , који има јаке теоријске гаранције и узимање вероватноће у пракси , који не нуди такве гаранције и зависи од различитих статистичких прилагођавања.

Током времена, разлике између узимања вероватноће у теорији и узорковања вероватноће у пракси су се повећавале. На примјер, стопе нерјешења су се стално повећавале, чак иу висококвалитетним, скупим истраживањима (слика 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Стопа незапослености је много већа у комерцијалним телефонским истраживањима - понекад чак и до 90% (Kohut et al. 2012) . Ова повећања у нонреспонсе угрожавају квалитет процена, јер процјене све више зависе од статистичких модела које истраживачи користе за прилагођавање за непреспонање. Даље, ова смањења квалитета су се десила упркос све скупљим напорима истраживањем истраживача ради одржавања високих стопа одговора. Неки људи се плаше да ови двоструки трендови смањења квалитета и повећања трошкова угрожавају темељ истраживања (National Research Council 2013) .

Слика 3.5: Нерешено је све стално, чак иу квалитетним скупим истраживањима (Национални истраживачки савјет 2013, Б. Д. Меиер, Мок и Сулливан 2015). Стопа незапослености је много већа за истраживања комерцијалних телефона, понекад чак и до 90% (Кохут и сар., 2012). Ови дугорочни трендови у нерјешењу значе да је прикупљање података скупље и процјене су мање поуздане. Прилагођено од Б. Д. Меиер, Мок и Сулливан (2015), слика 1.

Слика 3.5: Нерешено је све више иједно, чак иу висококвалитетним скупим истраживањима (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Стопа незапослености је много већа за истраживања комерцијалних телефона, понекад чак и до 90% (Kohut et al. 2012) . Ови дугорочни трендови у нерјешењу значе да је прикупљање података скупље и процјене су мање поуздане. Прилагођено од BD Meyer, Mok, and Sullivan (2015) , слика 1.

Истовремено, постојале су све веће потешкоће у методама узорковања вероватноће, такође је било узбудљивих промјена у методама узорковања без вероватноће . Постоје различити стилови непроцењивих метода узорковања, али једна ствар која им је заједничка јесте то што се не могу лако уклопити у математички оквир узорковања вероватноће (Baker et al. 2013) . Другим ријечима, у методама узорковања без вероватноће свако има познату и ненормалну вјероватноћу укључивања. Методе узорковања без вероватноће имају страшну репутацију међу социјалним истраживачима и повезани су са неким од најтраженијих пропуста истраживача истраживања, као што су фиасцо Литерари Дигест (о чему се већ расправљало раније) и "Девеи Дефеатс Труман", погрешно предвиђање о САД-у председнички избори 1948. године (слика 3.6).

Слика 3.6: Предсједник Харри Труман држи наслов новина који је погрешно објавио свој пораз. Овај наслов делимично се базирао на проценама из узорака који нису вероватноћи (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) . Иако се "Девеи Дефеатс Труман" догодио 1948. године, и даље је међу разлогом што су неки истраживачи скептични према проценама из узорака који нису вероватноћи. Извор: Харри С. Труман Либрари & Мусеум .

Један од облика узорковања који нису вероватни, који је посебно погодан за дигитално доба, је употреба онлине панела . Истраживачи који користе онлине панеле зависе од неког провајдера панела - обично компаније, владе или универзитета - да би се направила велика, разнолика група људи који се слажу да служе као испитаници за анкетама. Ови учесници панела често се регрутују користећи различите ад хоц методе као што су онлине банер огласи. Затим, истраживач може платити добављач панела за приступ узорку испитаника са жељеним карактеристикама (нпр. На националном нивоу за одрасле). Ови онлине панели су методе које нису вероватноће, јер не сви имају познату, ненормалну вероватноћу укључивања. Иако социјални истраживачи већ користе друштвене истраживаче који нису вероватноће (нпр. ЦЦЕС), још увијек постоји одређена дебата о квалитету процена који долазе од њих (Callegaro et al. 2014) .

Упркос овим дебатама, мислим да постоје два разлога зашто је вријеме право за социјалне истраживаче да преиспитају узимање узорака без вероватноће. Прво, у дигиталном добу било је доста развоја у сакупљању и анализи узорака који нису вероватноћи. Ови новији методи су довољно различити од метода који су проузроковали проблеме у прошлости и мислим да је смисла размишљати о њима као "узорковање без вероватноће 2.0". Други разлог због којег истраживачи треба да преиспитају узимање узорака који нису вероватноћи јесте узимање узорака вероватноће пракса постаје све теже. Када постоје високе стопе неодговора - као што постоје у стварним истраживањима - стварне вјероватноће укључивања испитаника нису познате, тако да узорци вероватноће и узорци без вероватноће нису толико различити колико вјерују многи истраживачи.

Као што сам раније рекао, узорке без вероватноће гледају са великим скептицизмом од стране многих друштвених истраживача, делом због своје улоге у неким од најнеуграмнијих неуспеха у раним данима истраживања. Јасан примјер тога колико далеко смо дошли са узорцима који нису вероватни јесте истраживање Веи Ванга, Давида Ротхсцхилда, Схарада Гела и Андрева Гелмана (2015) које су исправно надокнадиле исход америчких избора 2012. користећи узорак који није вјеројатан Амерички корисници Ксбок-а - одлучно неразумљиви узорак Американаца. Истраживачи су регрутовали испитанике из Ксбок система игара и, како бисте могли очекивати, узорак Ксбок-а је искривио мале и искривљене младе: 18 до 29 година старијег чине 19% бирачког тела, али 65% узорка Ксбок-а и мушкараца чине 47% бирачког тела, али 93% Ксбок примера (слика 3.7). Због ових снажних демографских предрасуда, сирови подаци Ксбок-а били су лош показатељ повратка избора. Предвиђала је снажну победу Митт Ромнеи-а за Барака Обаму. Поново, ово је још један пример опасности сирових, неприлагођених узорака без вероватноће и подсећа на филозоф Литерарног Дигест .

Слика 3.7: Демографија испитаника у В. Ванг ет ал. (2015). Због тога што су анкетирани били ангажовани из Ксбок-а, вероватно су били млади и вероватније су мушки, у односу на бираче на изборима 2012. године. Адаптирано од В. Ванг ет ал. (2015), слика 1.

Слика 3.7: Демографија испитаника у W. Wang et al. (2015) . Због тога што су анкетирани били ангажовани из Ксбок-а, вероватно су били млади и вероватније су мушки, у односу на бираче на изборима 2012. године. Адаптирано од W. Wang et al. (2015) , слика 1.

Међутим, Ванг и колеге су били упознати са овим проблемима и покушали да се прилагоде за свој не-случајни процес узорковања приликом процењивања. Конкретно, они су користили пост-стратификацију , технику која се такође широко користи за прилагођавање узорака вероватноће који имају грешке у покривању и неодговор.

Главна идеја пост-стратификације је кориштење помоћних информација о циљној популацији како би се побољшала процјена која потиче из узорка. Када користе пост-стратификацију како би направили процене из свог узорка који нису вероватноћи, Ванг и колега су преселили становништво у различите групе, оцијенили подршку за Обама у свакој групи, а затим су узели пондерисани просјек групних процјена како би произвели укупну процјену. На пример, могли су поделити становништво у две групе (мушкарци и жене), оцијенили подршку за Обама међу мушкарцима и женама, а потом процијенили потпуну подршку за Обама узимајући пондерисани просјек како би се објаснила чињеница да жене 53% бирачког тела и мушкараца 47%. Грубо, пост-стратификација помаже у исправљању неуравнотеженог узорка довођењем помоћних информација о величинама група.

Кључ пост-стратификације је формирање правих група. Ако можете исецкати становништво у хомогене групе тако да су опсег одговора исти за све у свакој групи, онда пост-стратификација ће произвести непристрасне процјене. Другим ријечима, пост-стратификовање према полу ће произвести непристрасне процјене ако сви мушкарци имају склоност одговора и све жене имају исту сличност одговора. Ова претпоставка се назива претпоставком хомогеног одговора-пропенситиес-витхин-гроупс , а ја сам то описала мало више у математичким нотама на крају овог поглавља.

Наравно, чини се мало вероватним да ће опсег одговора бити исти за све мушкарце и све жене. Међутим, претпоставка хомогеног одговора-пропозиције унутар група-група постаје много веродостојнија јер се број група повећава. Грубо, постаје лакше исецкати становништво у хомогене групе ако стварате више група. На пример, можда би се чинило невероватно да све жене имају исту нагибу одговора, али би могло изгледати вероватније да постоји иста склоност одговора за све жене старости од 18-29 година, које су завршиле колеџ и које живе у Калифорнији . Стога, пошто се број група које се користе у пост-стратификацији повећавају, претпоставке потребне за подршку метода постају разумније. С обзиром на ову чињеницу, истраживачи често желе да направе велики број група за пост-стратификацију. Међутим, с обзиром да се број група повећава, истраживачи имају другачији проблем: спектар података. Ако у свакој групи има само мали број људи, онда ће процјене бити несигурније, ау екстремном случају када постоји група која нема испитанике, пост-стратификација се потпуно разбија.

Постоје два начина из ове инхерентне тензије између вјеродостојности претпоставке хомогене-одговора-склоности-унутар-група и тражње за разумним величинама узорака у свакој групи. Прво, истраживачи могу сакупити већи, разноврснији узорак, што помаже у осигуравању разумних величина узорака у свакој групи. Друго, они могу да користе софистициранији статистички модел за израду процена унутар група. И заправо, понекад истраживачи обављају и оба, како су Ванг и колеге радили с њиховим истраживањем избора користећи испитанике из Ксбок-а.

Због тога што су користили методу узорковања без вероватноће са интервјуима који су администрирани путем рачунара (више ћу разговарати о интервјуима који се управљају рачунарима у одељку 3.5), Ванг и колеге имали су веома јефтино прикупљање података, што им је омогућило прикупљање информација од 345.858 јединствених учесника , огроман број по стандардима изборног избора. Ова масивна величина узорка омогућила им је да формирају велики број пост-стратификационих група. Док пост-стратификација обично укључује сецкање становништва у стотине група, Ванг и колеге су поделили становништво на 176.256 група дефинисаних половима (2 категорије), раса (4 категорије), старост (4 категорије), образовање (4 категорије), држава (51 категорије), партијски ИД (3 категорије), идеологија (3 категорије) и 2008 глас (3 категорије). Другим речима, њихова велика величина узорка, која је омогућена прикупљањем ниских трошкова, омогућила им је да у својој процени процесурају вероватније претпоставке.

Чак и са 345.858 јединствених учесника, међутим, и даље је било много, много група за које Ванг и колеге нису имали скоро никаквих испитаника. Стога су користили технику под називом вишестепена регресија како би се процијенила подршка у свакој групи. У суштини, да би се проценила подршка Обаме у одређеној групи, вишестепена регресија збацила је информације из многих тесно повезаних група. На пример, замислите да покушате проценити подршку Обамау међу женама из Латинске Америке између 18 и 29 година, који су дипломирани дипломци, који су регистровани демократе, који се сами идентификују као умерени и који су гласали за Обама у 2008. То је врло , веома специфична група, и могуће је да у узорку са овим карактеристикама нема никога. Због тога, да би се направиле процјене о овој групи, вишестепена регресија користи статистички модел да би се збирале процјене људи у врло сличним групама.

Тако су Ванг и колеге користили приступ који је комбиновао вишестепену регресију и пост-стратификацију, тако да су своју стратегију назвали мултилевел регресијом са пост-стратификацијом или, више љубазношћу, "г. П. "Када су Ванг и колеге искористили господина П. да би направили процене из узорка без вероватноће КСБок-а, они су произвели процјене веома блиске укупној подршци коју је Обама добио на изборима 2012 (слика 3.8). У ствари, њихове процјене су биле тачније од скупа традиционалних истраживања јавног мњења. Стога, у овом случају, статистичка прилагођавања - конкретно господин П. - чини се да добро обављају исправљање предрасуда у подацима који нису вјеројатни; пристрасности које су биле јасно видљиве када погледате процене из неприлагођених Ксбок података.

Слика 3.8: Процене В. Ванг ет ал. (2015). Неприкосновани КСБок узорак је произвео нетачне процене. Међутим, пондерисани КСБок узорак произвео је процене који су били тачнији од просјека на телефонским истраживањима заснованим на вјероватноћи. Адаптирано од В. Ванг ет ал. (2015), слике 2 и 3.

Слика 3.8: Процене W. Wang et al. (2015) . Неприкосновани КСБок узорак је произвео нетачне процене. Међутим, пондерисани КСБок узорак произвео је процене који су били тачнији од просјека на телефонским истраживањима заснованим на вјероватноћи. Адаптирано од W. Wang et al. (2015) , слике 2 и 3.

Постоје две основне лекције из студије Ванга и колега. Прво, неприлагођени узорци који нису вјеројатни могу довести до лоших процјена; ово је лекција коју су већ раније чули многи истраживачи. Друга лекција је, међутим, да узорци без вероватноће, када се правилно анализирају, стварно могу произвести добре процјене; узорци који немају вероватноћу не морају аутоматски довести до нечега као што је филозоф Литерарног Дигест .

Ако наставите, ако покушавате да одлучите између кориштења приступа узорковања вјероватности и приступа узорковања без вероватноће, ви ћете се суочити са тешким избором. Понекад истраживачи желе брзо и ригидно правило (нпр. Увек користите методе за узорковање вероватноће), али је све теже понудити такво правило. Истраживачи се суочавају са тешким избором између метода вероватноће узимања у пракси - који су све скупљи и далеко од теоријских резултата који оправдавају методе њиховог коришћења и не-вероватноће узорковања - који су јефтинији и бржи, али мање познати и разноврснији. Једина ствар која је јасна, међутим, је да ако сте присиљени да радите са узорцима који нису вероватноћи или не представљају велики извори података (размислите о поглављу 2), онда постоји снажан разлог да се верује да процене које су постигнуте коришћењем пост-стратификације и повезане технике ће бити боље од неприлагођених, сирових процена.