3.4.1 Verjetnost vzorčenja: zbiranje podatkov in analiza podatkov

Uteži lahko razveljavite izkrivljanje po postopku vzorčenja namerno povzroča.

Vzorci Verjetnost so tiste, kjer imajo vsi ljudje znano, da niso nič verjetnost vključitve in najpreprostejša oblika verjetnost vzorčenja je enostavno naključno vzorčenje, kjer ima vsak človek enako verjetnost vključitve. Ko so anketiranci izbrali s pomočjo naključnega vzorčenja z odlično izvedbo (npr brez napake zajetja in brez neodzivnosti), potem ocena je enostavna, saj se bo o vzorec v povprečju, je miniaturna različica prebivalstva.

Enostavno slučajno vzorčenje se redko uporablja v praksi, pa je. Namesto, raziskovalci namerno izbrati ljudi z neenakimi verjetnosti vključevanja, da bi zmanjšali stroške in povečali natančnost. Ko raziskovalci namerno izbrali ljudi z različnimi verjetnostmi inkluzije, nato pa so potrebne spremembe, da razveljavite izkrivljanje po postopku vzorčenja povzročila. Z drugimi besedami, kako posplošiti iz vzorca odvisna od tega, kako je bil izbran vzorec.

Na primer, raziskava sedanjega prebivalstva (CPS), ki ga uporablja ameriška vlada za oceno stopnje brezposelnosti. Vsak mesec približno 100.000 ljudi razgovor, bodisi iz oči v oči ali po telefonu, in rezultati se uporabljajo za proizvodnjo stopnje ocenjene brezposelnosti. Ker želi vlada oceniti stopnjo brezposelnosti v vsaki državi, da ne more storiti preprosto naključni vzorec odraslih, saj bi s tem dobili tudi nekaj anketirancev v državah z majhnimi populacijami (npr Rhode Island) in preveč iz držav z velikimi populacijami (npr , Kalifornija). Namesto tega CPS vzorcev ljudje v različnih državah na različnih stopnjah, proces se imenuje slojevito vzorčenje z neenake verjetnosti izbora. Na primer, če CPS želeli 2.000 anketirancev na državo, potem bi odrasli v Rhode Islandu imajo približno 30-krat višja verjetnost vključitve kot odrasli v Kaliforniji (Rhode Island: 2.000 anketiranci na 800.000 odraslih vs Kaliforniji: 2.000 anketiranci na 30.000.000 odraslih). Kot bomo videli kasneje, je ta vrsta vzorčenja z neenake verjetnosti zgodi s spletnimi viri podatkov preveč, vendar za razliko od CPS, se mehanizem vzorčenja ponavadi ne pozna ali ga raziskovalec nadzorom.

Glede na to, njegova oblika vzorčenja, CPS ni neposredno predstavnik ZDA; vključuje preveč ljudi iz Rhode Island in premalo iz Kalifornije. Zato bi bilo nespametno oceniti stopnjo brezposelnosti v državi s stopnjo brezposelnosti v vzorcu. Namesto povprečja vzorca, je bolje, da je tehtano povprečje, kjer so uteži račun dejstva, da so bili ljudje iz Rhode Island bolj verjetno, da se vključijo kot ljudi iz Kalifornije. Na primer, vsaka oseba iz Kalifornije je upweighted- bi računajo več na ocene-in vsako osebo iz Rhode Islanda bi downweighted, ki bi jih šteje manj v oceni. V bistvu, ste dobili večji glas ljudem, ki so manj verjetno, da se naučijo o vas.

Ta primer igrača ponazarja pomembno, a pogosto pravilno razumeli bistvo: vzorec ni treba biti pomanjšano različico prebivalstva, da se pripravijo dobre ocene. Če je dovolj znanega o tem, kako so bili podatki zbrani, se lahko te informacije uporabijo pri pripravi ocene iz vzorca. Pristop, ki sem jih pravkar opisal, in da bom opisati matematično v tehničnem odkrito prilogi, spada v klasični okviru verjetnost vzorčenja. Zdaj, bom pokazal, kako se ta ista ideja se lahko uporabljajo za ne-verjetnostnih vzorcih.