3.4.1 Pravděpodobnost vzorkování: sběr dat a analýza dat

Hmotnost se může vrátit zpět k narušení úmyslně způsobené procesu vzorkování.

Vzorky pravděpodobnostní jsou ty, kde všichni lidé mají známou nenulovou pravděpodobnost začlenění a nejjednodušší plán odběru vzorků pravděpodobnost je prostý náhodný výběr, kde každý člověk má stejnou pravděpodobnost inkluze. Když jsou respondenti vybrat pomocí jednoduchého namátkového výběru s dokonalým provedením (např žádná chyba pokrytí a bez non-response), pak odhad je jednoduchá, protože vzorek bude-on středně být miniaturní verzí populace.

Prostý náhodný výběr je zřídka použit v praxi, nicméně. Spíše, výzkumníci záměrně vybrat lidi s nerovnými pravděpodobnosti začleňování s cílem snížit náklady a zvýšit přesnost. Když výzkumníci záměrně vybrat lidi s různými pravděpodobnostmi začleňování, pak je třeba provést určité úpravy vrátit zpět narušení způsobených procesu vzorkování. Jinými slovy, jak zobecnit ze vzorku, závisí na tom, jak byl vybrán vzorek.

Například Aktuální průzkum obyvatel (CPS) je používán vládou USA odhadnout míru nezaměstnanosti. Každý měsíc asi 100.000 lidí dotazovaných, a to buď face-to-face, nebo telefonicky, a výsledky se používají k výrobě odhadované míry nezaměstnanosti. Vzhledem k tomu, že vláda chce odhadnout míru nezaměstnanosti v každém státě, nemůže udělat jednoduchý náhodný vzorek dospělé, protože to by dávalo příliš málo respondentů ve státech s malým počtem obyvatel (např Rhode Island) a příliš mnoho ze zemí s velkým počtem obyvatel (např , Kalifornie, USA). Místo toho, CPS vzorků lidé v různých státech různou rychlostí, proces volal rozvrstvené vzorkování s nerovným pravděpodobností výběru. Například v případě, že CPS chtěli 2,000 respondentů za stavu, pak dospělí v Rhode Island bude mít asi 30 krát vyšší pravděpodobnost zařazení než dospělí v Kalifornii (Rhode Island: 2,000 respondenti za 800.000 dospělých vs Kalifornie: 2,000 respondentů za 30.000.000 dospělých). Jak uvidíme později, tento druh vzorkování s nerovným pravděpodobností stane s on-line zdrojů dat taky, ale na rozdíl od CPS, mechanismus odběr vzorků je obvykle není znám nebo je řízena výzkumného pracovníka.

Vzhledem k jeho odběru design, CPS není přímo Zástupce; obsahuje příliš mnoho lidí z Rhode Island a příliš málo z Kalifornie. Proto by bylo moudré odhadnout míru nezaměstnanosti v zemi s mírou nezaměstnanosti ve vzorku. Namísto průměru vzorku, je lepší vzít si váženého průměru a tam, kde váhy za to, že lidé z Rhode Island byly více pravděpodobné, že budou zahrnuty než lidé z Kalifornie. Například, každý člověk z Kalifornie by upweighted- by počítat spíše v odhadu-a každou osobu od Rhode Island by downweighted-by se počítat méně v odhadu. V podstatě, dostanete více hlas lidem, že jste méně pravděpodobné, že se dozvědět o.

Tato hračka příklad ilustruje důležitý, ale obyčejně nepochopený tání: vzorek nemusí být miniaturní verzi populace za účelem vytvoření dobrých odhadů. Je-li dostatečně známo o tom, jak byly údaje shromažďovány, pak tato informace může být použita při tvorbě odhadů ze vzorku. Tento přístup jsem právě popsal, a že jsem matematicky popsat v technickém dodatku, spadá přímo do klasického rámce vzorkování pravděpodobnost. Teď budu ukázat, jak je možné, že stejný princip aplikován na vzorky non-pravděpodobnosti.