3.4.1 Probability sampling: data collection at pagsusuri ng data

translation na ito ay nilikha sa pamamagitan ng isang computer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.1 Probability sampling: data collection at pagsusuri ng data

Weights maaaring i-undo distortions sadyang sanhi ng sampling proseso.

Probability halimbawa ay ang mga kung saan ang lahat ng tao ay may isang kilalang, non-zero posibilidad ng pagsasama, at ang pinakasimpleng bagay na maaaring mangyari sampling disenyo ay simple random sampling kung saan ang bawat tao ay may pantay-pantay na posibilidad ng pagsasama. Kapag respondents ay pinili sa pamamagitan ng simpleng random sampling na may perpektong pagpapatupad (eg, walang coverage error at walang di-tugon), pagkatapos ay kuru-kuro ay tapat dahil ang sample ay-on average-maging isang pinaliit na bersyon ng populasyon.

Simple random sampling ay bihirang ginagamit sa pagsasagawa, gayunpaman. Sa halip, ang mga mananaliksik sinasadya piliin ang mga tao na may hindi pantay na probabilities ng pagsasama upang mabawasan ang gastos at dagdagan ang katumpakan. Kapag ang mga mananaliksik sinasadya piliin ang mga tao na may iba't ibang probabilities ng pagsasama, at pagkatapos ay pagsasaayos ay kinakailangan upang i-undo ang distortions sanhi ng sampling proseso. Sa ibang salita, kung paano namin magbigay ng tuntuning panlahat mula sa isang sample ay depende sa kung paano ang mga sample ay napili.

Halimbawa, ang Kasalukuyang Populasyon Survey (CPS) ay ginagamit ng pamahalaan ng US upang matantya ang pagkawala ng trabaho rate. Ang bawat buwan tungkol sa 100,000 mga tao ay kapanayamin, mag-face-to-mukha o sa telepono, at ang mga resulta ay ginagamit upang makabuo ng mga tinatayang unemployment rate. Dahil ang pamahalaan ay nais upang matantya ang pagkawala ng trabaho rate sa bawat estado, hindi ito maaaring gawin ang isang simpleng random sample ng mga matatanda dahil na nagbubunga masyadong ilang respondents sa mga estado na may maliit na populasyon (eg, Rhode Island) at masyadong maraming mula sa mga estado na may malaking populasyon (eg , California). Sa halip, ang CPS samples tao sa iba't ibang mga estado sa iba't ibang mga rate, isang proseso na tinatawag na nagsasapin-sapin sampling na may hindi pantay na posibilidad ng pagpili. Halimbawa, kung ang CPS pinaghahanap 2,000 respondents per estado, at pagkatapos matatanda sa Rhode Island ay may tungkol sa 30 beses na mas mataas na posibilidad ng pagsasama kaysa sa mga matatanda sa California (Rhode Island: 2,000 respondents per 800,000 matatanda vs California: 2,000 respondents per 30,000,000 mga matatanda). Gaya ng makikita natin sa ibang pagkakataon, sa ganitong uri ng sampling na may hindi pantay na bagay na maaaring mangyari ang mangyayari sa mga online na mapagkukunan ng data masyadong, ngunit hindi katulad ng CPS, ang sampling mekanismo ay karaniwang hindi kilala o kontrolado ng researcher.

Given nito sampling disenyo, ang CPS ay hindi direktang kinatawan ng US; kasama dito ang masyadong maraming mga tao mula sa Rhode Island at masyadong ilang mula sa California. Samakatuwid, ito ay hindi mabuti upang matantya ang pagkawala ng trabaho rate sa bansa na may ang pagkawala ng trabaho rate sa sample. Sa halip na ang sample mean, ito ay mas mahusay na kumuha ng isang weighted mean, kung saan ang weights account para sa ang katunayan na ang mga tao mula sa Rhode Island ay mas malamang na isasama sa mga tao mula sa California. Halimbawa, ang bawat tao mula sa California ay magiging upweighted- sila bilangin higit pa sa estimate-at ang bawat tao mula sa Rhode Island ay downweighted-sila ay mabibilang mas mababa sa pagtatantya. Sa kakanyahan, ikaw ay bibigyan ng mas maraming boses sa mga tao na ikaw ay mas malamang na malaman ang tungkol sa.

Ito laruan na halimbawa ay naglalarawan ng isang mahalagang ngunit karaniwang gusot point: isang sample ay hindi kailangang maging isang pinaliit na bersyon ng populasyon upang makagawa ng mahusay na mga pagtatantya. Kung may sapat na ay kilala tungkol sa kung paano ang data ay tinipon, at pagkatapos na impormasyon ay maaaring gamitin kapag gumagawa ng mga pagtatantya mula sa mga sample. Ang diskarte lamang ko na inilarawan-at na ilarawan ko mathematically sa mga teknikal na appendix-bumaba squarely sa loob ng classical probabilidad sampling framework. Ngayon, kailangan ko ipakita kung paano na parehong ideya ay maaaring inilalapat sa mga di-posibilidad samples.