3.4 Kdo vprašati

Ta prevod je bil ustvarjen s pomočjo računalnika. ×

3.4 Kdo vprašati

Digitalna doba v praksi povzroča večjo verjetnost vzorčenja in ustvarja nove priložnosti za vzorčenje brez verjetnosti.

V zgodovini vzorčenja so obstajali dva konkurenčna pristopa: metode vzorčenja verjetnosti in metode vzorčenja brez verjetnosti. Čeprav sta bila oba pristopa uporabljena v prvih dneh vzorčenja, je prišlo do prevladujočega vzorčenja verjetnosti, mnogim družbenim raziskovalcem pa se učijo, da z velikim skepticizmom obravnavajo vzorčenje z verjetnostjo. Vendar, kot bom opisal v nadaljevanju, spremembe, ustvarjene z digitalno dobo, pomenijo, da je čas, da raziskovalci ponovno pretehtajo vzorčenje brez verjetnosti. Zlasti je bilo v praksi težko narediti vzorčenje verjetnosti, vzorčenje brez verjetnosti pa je postajalo hitrejše, cenejše in boljše. Hitrejše in cenejše raziskave niso samo same po sebi: omogočajo nove priložnosti, kot so pogostejša raziskovanja in večje velikosti vzorcev. Na primer, z uporabo metod, ki niso verjetne, lahko kongresna volilna študija (CCES) ima približno 10-krat več udeležencev kot prejšnje študije z uporabo vzorčenja verjetnosti. Ta veliko večji vzorec omogoča političnim raziskovalcem, da preučujejo spreminjanje odnosa in vedenja v podskupinah in družbenih kontekstih. Poleg tega je bila ta dodana lestvica brez zmanjšanja kakovosti ocen (Ansolabehere and Rivers 2013) .

Trenutno je prevladujoč pristop k vzorčenju za socialne raziskave verjetnost vzorčenja . Pri vzorčenju verjetnosti imajo vsi člani ciljne populacije znano, nenadno verjetnost, da se vzorčijo, vsi ljudje, ki so vzorčeni, se odzovejo na raziskavo. Ko so ti pogoji izpolnjeni, elegantni matematični rezultati ponujajo dokazljive garancije o sposobnosti raziskovalca, da uporabi vzorec, da bi ugotovil ciljno populacijo.

V resničnem svetu pa so pogoji, na katerih temeljijo matematični rezultati, redko izpolnjeni. Na primer, pogosto so napake pokritja in neodgovor. Zaradi teh težav morajo raziskovalci pogosto uporabiti različne statistične prilagoditve, da bi iz svojega vzorca sklepali na ciljno populacijo. Zato je pomembno razlikovati med vzorčenjem verjetnosti v teoriji , ki ima močna teoretična zagotovila in verjetnostno vzorčenje v praksi , ki ne nudi takih jamstev in je odvisno od različnih statističnih prilagoditev.

Sčasoma se razlike med vzorčenjem verjetnosti v teoriji in vzorčenjem verjetnosti v praksi povečujejo. Na primer, stopnja neodgovora se nenehno povečuje, tudi pri visokokakovostnih, dragih raziskavah (slika 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Stopnje neodgovora so precej višje pri komercialnih telefonskih raziskavah, včasih celo do visokih 90% (Kohut et al. 2012) . Ta povečanja brez odzivov ogrožajo kakovost ocen, saj so ocene vse bolj odvisne od statističnih modelov, ki jih raziskovalci uporabljajo za prilagajanje za neodgovor. Poleg tega se je zmanjšanje kakovosti zgodilo kljub vse dražjim prizadevanjem, ki so jih raziskovalci raziskovali, da bi ohranili visoke stopnje odziva. Nekateri se bojijo, da ti dvojni trendi zmanjševanja kakovosti in naraščajočih stroškov ogrožajo temelj raziskovalnega raziskovanja (National Research Council 2013) .

Slika 3.5: Nenaselnost je vse bolj vztrajno, tudi pri visokokakovostnih dragih raziskavah (Nacionalni raziskovalni svet 2013, B. D. Meyer, Mok in Sullivan 2015). Stopnje neodgovora so precej višje pri raziskavah komercialnih telefonov, včasih celo do visokih 90% (Kohut in sod., 2012). Ti dolgoročni trendi pri neodgovoru pomenijo, da je zbiranje podatkov dražje in ocene manj zanesljive. Prilagojeno od B. D. Meyer, Mok in Sullivan (2015), slika 1.

Slika 3.5: Nerezadnje je vse bolj vztrajno, tudi pri visokokakovostnih dragih raziskavah (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Stopnje neodgovora so precej višje pri raziskavah komercialnih telefonov, včasih celo do visokih 90% (Kohut et al. 2012) . Ti dolgoročni trendi pri neodgovoru pomenijo, da je zbiranje podatkov dražje in ocene manj zanesljive. Prilagojeno iz BD Meyer, Mok, and Sullivan (2015) , slika 1.

Ob istem času, ko so bile vse večje težave pri metodah vzorčenja verjetnosti, je prišlo do vznemirljivih gibanj pri metodah vzorčenja brez verjetnosti . Obstajajo številni načini vzorčenja brez verjetnosti, vendar je ena stvar, ki jo imajo skupne, ta, da se ne morejo zlahka prilegati matematičnemu okviru vzorčenja verjetnosti (Baker et al. 2013) . Z drugimi besedami, pri metodah vzorčenja brez verjetnosti vsi nimajo znane in nenamerne verjetnosti vključitve. Metode vzorčenja brez verjetnosti imajo med socialnimi raziskovalci grozno ugled in so povezani z nekaterimi najbolj dramatičnimi neuspehi raziskovalnih raziskovalcev, kot so fiasco Literary Digest (o kateri smo že govorili) in "Dewey Defeats Truman", napačna napoved o ZDA predsedniške volitve leta 1948 (slika 3.6).

Slika 3.6: Predsednik Harry Truman drži naslov časnika, ki je napačno objavil svoj poraz. Ta naslov je delno temeljil na ocenah iz vzorcev, ki niso verjetni (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) . Čeprav se je "Dewey Defeats Truman" zgodil leta 1948, je še vedno eden izmed razlogov, da so nekateri raziskovalci skeptični glede ocen iz vzorcev, ki niso verjetni. Vir: knjižnica in muzej Harry S. Truman .

Ena oblika vzorčenja brez verjetnosti, ki je zlasti primerna za digitalno dobo, je uporaba spletnih panelov . Raziskovalci, ki uporabljajo spletne panele, so odvisni od nekega strokovnjaka, običajno podjetja, vlade ali univerze, da bi zgradili veliko, raznoliko skupino ljudi, ki se strinjajo, da bodo anketiranci opravili ankete. Te udeležence panelov pogosto zaposlijo z različnimi ad hoc metodami, kot so spletne oglasne pasice. Nato lahko raziskovalec plača izvajalcu komisije za dostop do vzorca anketirancev z želenimi značilnostmi (npr. Na nacionalni ravni, ki je reprezentativen za odrasle). Te spletne plošče so metode brez verjetnosti, ker nihče nima znane, nenamerne verjetnosti vključitve. Čeprav socialne raziskovalce že uporabljajo socialne raziskovalce, ki niso verjetne (npr. CCES), še vedno obstaja nekaj razprave o kakovosti ocen, ki prihajajo od njih (Callegaro et al. 2014) .

Kljub tem razpravam menim, da sta dva razloga, zakaj je pravi čas, da socialni raziskovalci ponovno pretehtajo vzorčenje brez verjetnosti. Prvič, v digitalni dobi je prišlo do velikega razvoja pri zbiranju in analizi vzorcev brez verjetnosti. Te novejše metode so dovolj različne od metod, ki so v preteklosti povzročile težave, zato menim, da je smiselno razmišljati o njih kot »vzorčenje brez verjetnosti 2.0«. Drugi razlog, zakaj bi raziskovalci morali ponovno preučiti vzorčenje brez verjetnosti, je verjetnost vzorčenja v praksa postaja vse težja. Kadar obstajajo visoke stopnje neodgovora, kot je zdaj v realnih raziskavah, dejanske verjetnosti vključitve za anketirance niso znane, zato verjetnostni vzorci in vzorci brez verjetnosti niso tako različni, kot verjamejo mnogi raziskovalci.

Kot sem že povedal, so vzorci brez verjetnosti številni socialni raziskovalci z velikim skepticizmom, deloma zaradi svoje vloge pri nekaterih najbolj neprijetnih napakah v prvih dneh raziskovalnega raziskovanja. Jasen primer, kako daleč smo prišli z vzorci, ki niso verjetni, je raziskava Wei Wanga, Davida Rothschilda, Sharada Goela in Andrewja Gelmana (2015) ki je pravilno izterjala rezultate ameriških volitev leta 2012 z uporabo vzorca brez verjetnosti American Xbox uporabniki - odločno naključni vzorec Američanov. Raziskovalci so anketirance zaposlili iz igralnega sistema XBox, in kot ste morda pričakovali, je Xbox vzorec izklesal moške in preobremenjene mlade: 18 do 29 let starih je 19% volivcev, toda 65% vzorca Xbox in moški predstavljajo 47% volivcev, vendar 93% vzorca Xbox (slika 3.7). Zaradi teh močnih demografskih predsodkov so bili surovi podatki Xboxa slab pokazatelj izvolitve volitev. Predvidevalo je močno zmago za Mitt Romney nad Barackom Obamo. Še enkrat, to je še en primer nevarnosti surovih, neprilagojenih vzorcev brez verjetnosti in spominja na filozof literarnega dnevnika .

Slika 3.7: Demografija anketirancev v W. Wang et al. (2015) . Ker so bili anketiranci zaposleni iz Xbox, so bili bolj verjetno mladi in verjetneje, da bodo moški, glede na volivce na volitvah leta 2012. Adaptirano iz W. Wang et al. (2015) , slika 1.

Vendar pa sta se Wang in sodelavci zavedali teh težav in se pri ocenjevanju poskušali prilagoditi njihovemu postopku naključnega vzorčenja. Zlasti so uporabili post-stratifikacijo , tehniko, ki se tudi pogosto uporablja za prilagajanje verjetnostnih vzorcev, ki imajo napake pri kritju in neodzivnost.

Glavna ideja post-stratifikacije je uporaba pomožnih informacij o ciljni populaciji za izboljšanje ocene, ki izhaja iz vzorca. Ko so uporabili post-stratifikacijo za izdelavo ocen iz svojega vzorca brez verjetnosti, sta Wang in kolega sesekljala prebivalstvo v različne skupine, ocenila podporo za Obama v vsaki skupini in nato vzela ponderirano povprečje skupinskih ocen, da bi izdelala splošno oceno. Na primer, lahko bi razdelili prebivalstvo v dve skupini (moški in ženske), ocenili podporo za Obama med moškimi in ženskami, nato pa ocenili splošno podporo za Obama s tem, da je vzel tehtano povprečje, da bi upošteval dejstvo, da ženske 53% volivcev in moških 47%. Grobo, post-stratifikacija pomaga popraviti neuravnoteženi vzorec, tako da prinaša pomožne informacije o velikostih skupin.

Ključ do post-stratifikacije je oblikovanje pravilnih skupin. Če lahko populacijo razdelite v homogene skupine, tako da so odzivne odzive enaki za vsakogar v vsaki skupini, potem bo post-stratifikacija prinesla nepristranske ocene. Z drugimi besedami, post-stratifikacija po spolu bo prinesla nepristranske ocene, če bodo vsi moški imeli odzivnost nagnjenosti in vse ženske imajo enako nagnjenost odzivnosti. Ta predpostavka se imenuje predpostavka o homogenih odzivih-propensities-within-groups , in jo opisujem nekoliko bolj v matematičnih opombah na koncu tega poglavja.

Seveda se zdi malo verjetno, da bodo odzivne propozicije enake za vse moške in za vse ženske. Vendar pa predpostavka o homogenih odzivnostih-znotraj znotraj skupine postane bolj verjetna, saj se število skupin poveča. Približno, postane lažje sekanje prebivalstva v homogene skupine, če ustvarite več skupin. Na primer, morda se zdi neverjetno, da imajo vse ženske enako nagnjenost odzivanja, vendar se zdi bolj verjetno, da obstaja enaka odzivnost za vse ženske, stare 18 do 29 let, ki so končali šolanje in ki živijo v Kaliforniji . Tako, ker se število skupin, uporabljenih v post-stratifikaciji, povečuje, so predpostavke, potrebne za podporo metodi, bolj smiselne. Glede na to dejstvo, raziskovalci pogosto želijo ustvariti ogromno število skupin za post-stratifikacijo. Ker pa se število skupin povečuje, se raziskovalci srečujejo z drugačnim problemom: slabost podatkov. Če je v vsaki skupini le majhno število ljudi, bodo ocene bolj negotove in v skrajnem primeru, ko obstaja skupina, ki nima anketirancev, post-stratifikacija popolnoma razbije.

Iz te inherentne napetosti med verjetnostjo domneve homogenih odzivov-nagnjenost-znotraj skupine obstajajo dva načina in potreba po razumnih velikostih vzorcev v vsaki skupini. Prvič, raziskovalci lahko zbirajo večji, bolj raznolik vzorec, ki pomaga pri zagotavljanju primernih velikosti vzorcev v vsaki skupini. Drugič, lahko uporabijo bolj izpopolnjen statistični model za izdelavo ocen v skupinah. In v resnici, včasih raziskovalci delajo tako, kot sta Wang in kolegi naredili s študijem o volitvah z anketiranci iz Xboxa.

Ker so uporabljali metodo vzorčenja brez verjetnosti z računalniško vodenimi intervjuji (več o računalniško vodenih intervjujih v razdelku 3.5), sta Wang in kolegi imela zelo poceni zbiranje podatkov, kar jim je omogočilo zbiranje podatkov od 345.858 unikatnih udeležencev , ogromno število po standardih volilnih izidov. Ta ogromna velikost vzorca jim je omogočila, da oblikujejo ogromno število skupin po razširitvi. Medtem ko post-stratifikacija običajno vključuje presejanje prebivalstva v stotine skupin, sta Wang in kolegi razdelili prebivalstvo na 176.256 skupin, opredeljenih glede na spol (dve kategoriji), dirka (4 kategorije), starost (4 kategorije), izobraževanje (4 kategorije) (51 kategorije), ID stranke (3 kategorije), ideologija (3 kategorije) in leto 2008 (3 kategorije). Z drugimi besedami, njihova velika velikost vzorca, ki je bila omogočena z nizkocenovnim zbiranjem podatkov, jim je omogočila, da v svojem ocenjevalnem procesu naredijo verjetnejšo predpostavko.

Tudi s 345.858 unikatnimi udeleženci pa je bilo še veliko, veliko skupin, za katere Wang in kolegi niso imeli skoraj nobenih anketirancev. Zato so uporabili tehniko, imenovano večstopenjsko regresijo, za oceno podpore v vsaki skupini. V bistvu, da bi ocenili podporo za Obama v določeni skupini, je na več ravneh regresija združila podatke iz številnih tesno povezanih skupin. Predstavljajte si, na primer, poskušali oceniti podporo Obama za ženskam, starim med 18 in 29 let, ki so diplomirali iz kolidžev, ki so registrirani demokrati, ki se sami opredelijo kot zmerni in ki so leta 2008 glasovali za Obama. To je zelo , zelo specifična skupina, in verjetno je, da v vzorcu s temi značilnostmi nihče ni. Zato, da bi ocenili to skupino, večstopenjska regresija uporablja statistični model za združevanje ocen ljudi iz zelo podobnih skupin.

Tako sta Wang in sodelavci uporabljala pristop, ki je združeval večstopenjsko regresijo in post-stratifikacijo, zato so svojo strategijo večstopenjsko regresijo poimenovali s post-stratifikacijo ali, bolj prijazno, "g. P. "Ko sta Wang in kolegi uporabila g. P. za izdelavo ocen iz vzorca brez verjetnosti XBox, so izdelali ocene, ki so bile zelo blizu splošni podpori, ki jih je Obama dobil na volitvah leta 2012 (slika 3.8). Pravzaprav so bile njihove ocene bolj natančne kot agregat tradicionalnih raziskav javnega mnenja. Tako se v tem primeru zdi, da statistične prilagoditve - posebej g. P. - delujejo dobro delo, ki popravlja pristranskost pri podatkih, ki niso verjetni; pristranskosti, ki so bile jasno vidne, ko pogledate ocene iz neprilagojenih podatkov Xbox.

Slika 3.8: Ocene iz W. Wang et al. (2015) . Neprimeren vzorec XBox je povzročil nenatančne ocene. Toda uteženi vzorec XBox je pripravil ocene, ki so bile bolj natančne od povprečja telefonskih anket na podlagi verjetnosti. Adaptirano iz W. Wang et al. (2015) , slike 2 in 3.

Iz študije Wanga in sodelavcev sta dve glavni veščini. Prvič, neprilagojeni vzorci brez verjetnosti lahko privedejo do slabih ocen; to je lekcija, ki so jo mnogi raziskovalci že slišali. Druga lekcijo pa je, da lahko vzorci brez verjetnosti, če so pravilno analizirani, dejansko proizvedejo dobre ocene; vzorci brez verjetnosti ne morejo samodejno pripeljati do nekega podobnega filozofa literarnega dnevnika .

Če greste naprej, če se odločate med uporabo pristopa vzorčenja verjetnosti in pristopom vzorčenja brez verjetnosti, se vam težko odločite. Včasih raziskovalci želijo hitro in togo pravilo (npr. Vedno uporabite metode vzorčenja verjetnosti), vendar je vedno težje ponuditi takšno pravilo. Raziskovalci se soočajo s težavno izbiro med metodami vzorčenja verjetnosti v praksi - ki so vse dražje in daleč od teoretičnih rezultatov, ki upravičujejo metode vzorčenja pri uporabi in neobstojnosti - ki so cenejši in hitrejši, vendar manj poznani in bolj raznoliki. Ena stvar, ki pa je jasno, je, da če ste prisiljeni delati z vzorci brez verjetnosti ali nestandardiziranimi velikimi viri podatkov (razmislite o poglavju 2), potem obstaja utemeljen razlog za domnevo, da so ocene, opravljene z uporabo post-stratifikacije in povezane s tehnologijo, bodo boljše od neprilagojenih, surovih ocen.