3.4.1 Pravdepodobnosť vzorkovania: zber dát a analýza dát

Hmotnosť sa môže vrátiť späť k narušeniu úmyselne spôsobené procesu vzorkovania.

Vzorky pravdepodobnostné sú tie, kde všetci ľudia majú známu nenulovú pravdepodobnosť začlenenia a najjednoduchší plán odberu vzoriek pravdepodobnosť je prostý náhodný výber, kde každý človek má rovnakú pravdepodobnosť inklúzia. Keď sú respondenti vybrať pomocou jednoduchého náhodného výberu s dokonalým prevedením (napr žiadna chyba pokrytie a bez non-response), potom odhad je jednoduchá, pretože vzorka bude-on stredne byť miniatúrne verzie populácie.

Jednoduchý náhodný výber je zriedka použitý v praxi, však. Skôr, výskumníci zámerne vybrať ľudí s nerovnými pravdepodobnosti začlenenie s cieľom znížiť náklady a zvýšiť presnosť. Keď výskumníci zámerne vybrať ľudí s rôznymi pravdepodobnosťami začleňovania, potom je potrebné vykonať úpravy vrátiť späť narušenie spôsobených procesu vzorkovania. Inými slovami, ako zovšeobecniť zo vzorky, závisí na tom, ako sa vybrala vzorka.

Napríklad Aktuálny prieskum obyvateľov (CPS) je používaný vládou USA odhadnúť mieru nezamestnanosti. Každý mesiac asi 100.000 ľudí opýtaných, a to buď face-to-face, alebo telefonicky, a výsledky sa používajú na výrobu odhadovanej miery nezamestnanosti. Vzhľadom na to, že vláda chce odhadnúť mieru nezamestnanosti v každom štáte, nemôže urobiť jednoduchý náhodný vzorka dospelých, pretože to by dávalo príliš málo respondentov v štátoch s malým počtom obyvateľov (napr Rhode Island) a príliš veľa z krajín s veľkým počtom obyvateľov (napr , Kalifornia, USA). Namiesto toho, CPS vzoriek ľudia v rôznych štátoch rôznou rýchlosťou, proces volal rozvrstvené vzorkovania s nerovným pravdepodobnosťou výberu. Napríklad v prípade, že CPS chceli 2,000 respondentov za stavu, potom dospelí v Rhode Island bude mať asi 30 krát vyššia pravdepodobnosť zaradenie ako dospelí v Kalifornii (Rhode Island: 2,000 respondenti za 800.000 dospelých vs Kalifornia: 2,000 respondentov za 30.000.000 dospelých). Ako uvidíme neskôr, tento druh vzorkovanie s nerovným pravdepodobnosťou stane s on-line zdrojov dát taky, ale na rozdiel od CPS, mechanizmus odber vzoriek je zvyčajne nie je známy, alebo je riadená výskumného pracovníka.

Vzhľadom k jeho odberu dizajn, CPS nie je priamo Zástupca; obsahuje príliš veľa ľudí z Rhode Island a príliš málo z Kalifornie. Preto by bolo múdre odhadnúť mieru nezamestnanosti v krajine s mierou nezamestnanosti vo vzorke. Namiesto priemeru vzorky, je lepšie vziať si váženého priemeru a tam, kde váhy za to, že ľudia z Rhode Island boli viac pravdepodobné, že budú zahrnuté ako ľudia z Kalifornie. Napríklad, každý človek z Kalifornie by upweighted- by počítať skôr v odhade-a každú osobu od Rhode Island by downweighted-by sa počítať menej v odhade. V podstate, dostanete viac hlas ľuďom, že ste menej pravdepodobné, že sa dozvedieť o.

Táto hračka príklad ilustruje dôležitý, ale obyčajne nepochopený topenia: vzorka nemusí byť miniatúrnu verziu populácie na vytvorenie dobrých odhadov. Ak je dostatočne známe o tom, ako boli údaje zhromažďované, potom táto informácia môže byť použitá pri tvorbe odhadov zo vzorky. Tento prístup som práve popísal, a že som matematicky popísať v technickom dodatku, spadá priamo do klasického rámca vzorkovanie pravdepodobnosť. Teraz budem ukázať, ako je možné, že rovnaký princíp aplikovaný na vzorky non-pravdepodobnosti.