3.4.1 Probability uzorkovanja: prikupljanje podataka i analizu podataka

Težine može poništiti iskrivljenja namjerno izazvanih procesa uzorkovanja.

Uzorci verovatnoća su one u kojima svi ljudi imaju poznato, od nule vjerojatnost uključivanja, i najjednostavniji dizajn vjerojatnost uzimanja uzoraka je jednostavna slučajnog uzorka, gdje svaka osoba ima jednaku vjerojatnost uključivanja. Kada su ispitanici odabrani putem jednostavne slučajnog uzorka sa savršenom izvršenja (npr, bez greške pokrivenosti i ne bez odgovora), a zatim procjena je jednostavna, jer je uzorak će-u proseku-biti minijaturna verzija stanovništva.

Jednostavni slučajni uzorak se rijetko koristi u praksi, međutim. Umjesto toga, istraživači su namjerno izabrati ljude sa nejednakim vjerovatnoće uključivanja kako bi se smanjili troškovi i povećala preciznost. Kada istraživači namjerno izabrati ljude sa različitim vjerovatnoće inkluzije, onda su potrebne prilagodbe poništiti poremećaje uzrokovane proces uzorkovanja. Drugim riječima, kako smo generalizovati iz uzorka ovisi o tome kako je odabran uzorak.

Na primjer, istraživanja Current stanovništva (CPS) se koristi od strane američke vlade za procjenu stope nezaposlenosti. Svaki mjesec oko 100.000 ljudi razgovarali, ili licem u lice ili preko telefona, a rezultati se koriste za proizvodnju procijenjena stopa nezaposlenosti. Jer Vlada želi procijeniti stopa nezaposlenosti u svakoj državi, ne može učiniti jednostavnom slučajnom uzorku odraslih, jer bi to dati premalo ispitanika u državama s malim populacijama (npr, Rhode Island) i previše od država s velikim populacijama (npr , California). Umjesto toga, CPS uzoraka ljudi u različitim državama na različitim stopama, proces koji se zove slojevitog uzorkovanja sa nejednakim vjerojatnost selekcije. Na primjer, ako je CPS želio 2.000 ispitanika po državi, onda odrasli u Rhode Island će imati oko 30 puta veća vjerojatnost uključivanja od odraslih u Kaliforniji (Rhode Island: 2.000 ispitanika po 800.000 odraslih vs Kalifornija: 2.000 ispitanika po 30.000.000 odrasle). Kao što ćemo vidjeti kasnije, ova vrsta uzorkovanja sa nejednakim vjerojatnost događa s online izvora podataka previše, ali za razliku od CPS, mehanizam uzorkovanja obično nije poznat ili pod kontrolom istraživača.

S obzirom na svoj dizajn uzorkovanja, CPS nije direktno predstavnik SAD; uključuje previše ljudi iz Rhode Island i premalo iz Kalifornije. Stoga, ne bi bilo mudro procijeniti stopa nezaposlenosti u zemlji sa stopom nezaposlenosti u uzorku. Umjesto srednji uzorak, da je bolje da se ponderirana sredina, gdje težine objasniti činjenicu da su ljudi iz Rhode Island su veće šanse da budu uključeni od ljudi iz Kalifornije. Na primjer, svaka osoba iz Kalifornije bi upweighted- bi računati više u procjeni-i svaka osoba iz Rhode Island bi se downweighted-oni računaju manje u procjeni. U suštini, ti dati više glas ljudima da ste manje vjerojatno da se upoznaju.

Ova igračka primjer ilustrira važan, ali često pogrešno shvaćen point: uzorak ne mora biti minijaturna verzija stanovništva, kako bi se proizvoditi dobre procjene. Ako se dovoljno zna o tome kako je prikupljenih podataka, onda te informacije se mogu koristiti prilikom procjene iz uzorka. Pristup sam upravo opisao-i da sam opisati matematički u tehničkom dodatku-potpada klasičnog okvira vjerojatnost uzorkovanja. Sada ću pokazati kako ta ista ideja može se primijeniti na uzorcima koji nisu verovatnoća.