3.4.3 Non-bagay na maaaring mangyari samples: sample matching

Hindi lahat ng di-posibilidad samples ay ang parehong. Maaari naming magdagdag ng higit pang kontrol sa front end.

Ang diskarte Wang at kasamahan na ginagamit upang matantya ang kinalabasan ng ang 2012 US pampanguluhan halalan depended ganap sa mga pagpapabuti sa data analysis. Iyon ay, ang mga ito nakolekta ng maraming mga kasagutan tulad ng dati nila at pagkatapos ay tinangka upang muling-weight kanila. A komplimentaryong diskarte para sa nagtatrabaho sa non-bagay na maaaring mangyari sampling ay upang magkaroon ng karagdagang kontrol sa proseso ng data collection.

Ang pinakasimpleng halimbawa ng isang bahagyang kontrolado non-bagay na maaaring mangyari sampling proseso ay quota sampling, isang pamamaraan na napupunta bumalik sa mga unang araw ng survey pananaliksik. Sa quota sampling, mga mananaliksik hatiin ang populasyon sa iba't-ibang mga grupo (eg, mga binata, dalaga, etc) at pagkatapos ay set quotas para sa bilang ng mga tao na pinili sa bawat grupo. Respondents ay pinili sa isang walang tuos paraan hanggang sa researcher ay matugunan ang kanilang mga quota sa bawat grupo. Dahil sa mga quota, ang mga nagresultang sample mukhang mas tulad ng mga target na populasyon kaysa ay totoo kung hindi man, ngunit dahil ang mga probabilities ng pagsasama ay hindi kilala sa maraming mga mananaliksik ay may pag-aalinlangan ng quota sampling. Sa katunayan, quota sampling ay isang sanhi ng "Dewey Defeats Truman" error sa 1948 US Presidential polls. Dahil ito ay nagbibigay ng ilang mga kontrol sa ang sampling proseso, gayunpaman, maaari isa makita kung paano quota sampling maaaring magkaroon ng ilang mga pakinabang sa isang ganap na walang pigil pagkolekta ng data.

Paglilipat lampas quota sampling, mas modernong mga diskarte upang pagkontrol ng di-posibilidad sampling proseso ay posible na ngayon. Isa tulad diskarte ay tinatawag na sample matching, at ito ay ginagamit sa pamamagitan ng ilang mga komersyal na online panel provider. Sa pinakasimpleng anyo nito, sample matching ay nangangailangan ng dalawang mga pinagkukunan ng data: 1) isang kumpletong rehistro ng populasyon at 2) ang isang malaking panel ng mga boluntaryo. Ito ay mahalaga na ang mga boluntaryo ay hindi kailangan na maging isang bagay na maaaring mangyari sample mula sa anumang populasyon; upang bigyang-diin na walang mga kinakailangan para sa pagpili sa panel, Tatawag ako ito isang marumi panel. Gayundin, ang parehong mga populasyon rehistro at ang marumi panel ay dapat magsama ng ilang mga pandiwang pantulong na impormasyon tungkol sa bawat tao, sa halimbawang ito, kukunin ko na isaalang-alang ang edad at kasarian, ngunit sa makatotohanang sitwasyon na ito auxiliary impormasyon ay maaaring maging mas detalyadong. Ang bilis ng kamay ng sample matching ay upang piliin samples mula sa isang marumi panel sa isang paraan na gumagawa ng mga sample na hitsura ng bagay na maaaring mangyari samples.

Sample matching nagsisimula kapag ang isang kunwa probabilidad sample ay kinuha mula sa mga populasyon rehistro; ito kunwa sample ay nagiging isang target sample. Pagkatapos, batay sa pandiwang pantulong na impormasyon, mga kaso sa target sample ay itinutugma sa mga tao sa marumi panel upang bumuo ng isang tumugma sample. Halimbawa, kung mayroong isang 25 taong gulang na babaeng sa target sample, pagkatapos ay ang researcher na nahahanap ang isang 25 taong gulang babae na kinuha sa marumi panel upang maging sa ang naitugmang sample. Sa wakas, mga kasapi ng naitugmang sample ay kapanayamin upang makabuo ng pangwakas na hanay ng mga respondents.

Kahit na ang naitugmang sample kamukha ng target sample, ito ay mahalaga na tandaan na ang naitugmang sample ay hindi isang bagay na maaaring mangyari sample. Katugmang samples ay maaari lamang tumugma sa mga target sample sa mga kilala auxiliary impormasyon (halimbawa, edad at kasarian), ngunit hindi sa hindi masusukatan katangian. Halimbawa, kung ang mga tao sa marumi panel ay madalas na maging poorer-tutal, isa sa dahilan na sumali sa isang survey panel ay upang kumita ng pera-at pagkatapos ay kahit na ang tumugma sample kamukha ng target sample sa mga tuntunin ng edad at kasarian ito ay magkakaroon pa rin isang bias patungo maralitang bayan. Ang magic ng tunay na bagay na maaaring mangyari sampling ay upang mamuno ang mga problema sa parehong sinusukat at hindi masusukatan katangian (isang point na ay pare-pareho sa aming mga talakayan ng pagtutugma para sa pananahilan hinuha mula obserbasyonal pag-aaral sa Chapter 2).

Sa pagsasanay, sample matching ay depende sa pagkakaroon ng isang malaki at magkakaibang panel sabik upang makumpleto ang survey, at sa gayon ito ay higit sa lahat na ginawa ng mga kumpanya na kayang bumuo at mapanatili tulad ng isang panel. Gayundin, sa pagsasagawa, maaaring magkaroon ng problema sa matching (minsan isang mahusay na tugma para sa isang tao sa target sample ay hindi umiiral sa panel) at di-tugon (kung minsan mga tao sa naitugmang sample tumanggi na sumali sa mga survey). Samakatuwid, sa pagsasanay, ang paggawa sample matching mananaliksik din gawin ang ilang mga uri ng post-pagsasapin-sapin adjustment upang gumawa estima.

Ito ay mahirap na magbigay ng kapaki-pakinabang na panteorya garantiya tungkol sample matching, ngunit sa mga kasanayan maaari itong gumanap ng maayos. Halimbawa, Stephen Ansolabehere at Brian Schaffner (2014) kumpara tatlong parallel survey ng tungkol sa 1,000 mga tao na isinasagawa sa 2010 gamit ang tatlong iba't ibang mga sampling at interviewing pamamaraan: mail, telepono, at ng Internet panel gamit sample matching at post-pagsasapin-sapin adjustment. Ang mga pagtatantya mula sa tatlong na paglalapit ay lubos na katulad sa mga pagtatantya mula sa mataas na kalidad na benchmarks tulad ng Kasalukuyang Populasyon Survey (CPS) at ang National Health Interview Survey (NHIS). Higit pang mga partikular, parehong sa Internet at mail survey ay off sa pamamagitan ng isang average ng 3 percentage points at ang survey phone ay off sa pamamagitan ng 4 puntos na porsyento. Mali ang malaking mga humigit-kumulang sa kung ano ang isa ay inaasahan mula sa mga sample ng tungkol sa 1,000 mga tao. Kahit na, wala sa mga ito mode na ginawa sa kalahatan mas mahusay na data, parehong sa Internet at telepono survey (kung saan kinuha araw o linggo) ay sa kalahatan mas mabilis sa field kaysa sa mail survey (kung saan kinuha walong buwan), at ang Internet survey, na ginamit sample matching, ay mas mura kaysa sa iba pang dalawang mga mode.

Sa wakas, social siyentipiko at statisticians ay incredibly pag-aalinlangan ng inferences mula sa mga non-bagay na maaaring mangyari samples, sa bahagi dahil ito ay nauugnay sa ilang mga nakakahiya pagkabigo ng survey pananaliksik tulad ng poll Literary Digest. Sa bahagi, Sumasang-ayon ako na may pag-aalinlangan na ito: unadjusted non-bagay na maaaring mangyari samples ay malamang na makabuo ng masamang estima. Gayunman, kung ang mga mananaliksik ay maaaring ayusin para sa mga biases sa sampling proseso (eg, post-pagsasapin-sapin) o kontrolin ang sampling proseso medyo (eg, sample matching), sila ay maaaring gumawa ng mas mahusay na mga pagtatantya, at kahit na mga pagtatantya ng sapat na kalidad para sa karamihan sa mga layunin. Of course, ito ay mas mahusay na gawin perpektong pinaandar probabilidad sampling, ngunit na ay hindi na lilitaw upang maging isang makakatotohanan opsyon.

Parehong non-bagay na maaaring mangyari samples at probabilidad samples mag-iba sa kanilang kalidad, at sa kasalukuyan ito ay malamang na ang kaso na ang karamihan ng mga pagtatantya mula sa probabilidad halimbawa ay mas mapagkakatiwalaan kaysa pagtatantya mula sa mga di-posibilidad samples. Ngunit, kahit na ngayon, mga pagtatantya mula sa mahusay na ginawa non-bagay na maaaring mangyari halimbawa ay marahil mas mahusay kaysa estima na hindi maayos na isinasagawa probabilidad samples. Dagdag dito, non-bagay na maaaring mangyari halimbawa ay sa kalahatan mas mura. Kaya, ito ay lilitaw na probabilidad vs non-bagay na maaaring mangyari sampling ay nagbibigay ng isang cost-kalidad trade-off (Figure 3.6). Looking forward, inaasahan ko na ang mga pagtatantya mula sa mahusay na tapos non-bagay na maaaring mangyari samples ay magiging mas mura at mas mahusay. Dagdag dito, dahil sa ang breakdown sa landline survey ng telepono at pagtaas ng rate ng mga di-tugon, inaasahan ko na probabilidad samples ay magiging mas mahal at ng mas mababang kalidad. Dahil sa mga pang-matagalang mga uso, sa tingin ko na ang mga di-posibilidad sampling ay maging unting mahalaga sa ikatlong panahon ng survey pananaliksik.

Figure 3.6: Probability sampling sa pagsasanay at di-posibilidad sampling ay parehong malaki, magkakaiba mga kategorya. Sa pangkalahatan, mayroong isang cost-error trade-off sa mga di-posibilidad sampling pagiging mas mababang gastos ngunit mas mataas na error. Gayunpaman, well-tapos non-bagay na maaaring mangyari sampling maaaring makabuo ng mas mahusay kaysa sa mga pagtatantya hindi maganda-tapos probabilidad sampling. Sa hinaharap, inaasahan ko na ang mga di-posibilidad sampling ay makakuha ng mas mahusay at mas mura habang probabilidad sampling ay makakakuha ng mas masahol at mas mahal.

Figure 3.6: Probability sampling sa pagsasanay at di-posibilidad sampling ay parehong malaki, magkakaiba mga kategorya. Sa pangkalahatan, mayroong isang cost-error trade-off sa mga di-posibilidad sampling pagiging mas mababang gastos ngunit mas mataas na error. Gayunpaman, well-tapos non-bagay na maaaring mangyari sampling maaaring makabuo ng mas mahusay kaysa sa mga pagtatantya hindi maganda-tapos probabilidad sampling. Sa hinaharap, inaasahan ko na ang mga di-posibilidad sampling ay makakuha ng mas mahusay at mas mura habang probabilidad sampling ay makakakuha ng mas masahol at mas mahal.