3.4.1 sannsynlighetsutvalg: datainnsamling og dataanalyse

Vekter kan angre forvrengninger med vilje forårsaket av datainnsamlingen.

Sannsynlighetsutvalg er de der alle mennesker har en kjent, ikke-null sannsynlighet for inkludering, og den enkleste sannsynlighetsutvalg Designen er enkel tilfeldig utvalg der hver person har lik sannsynlighet for inkludering. Når respondentene velges via enkle stikkprøvekontroll med perfekt utførelse (f.eks, ingen dekning feil og ingen frafall), og estimering er grei fordi prøven vil-gjennomsnitt-være en miniatyr versjon av befolkningen.

Enkelt tilfeldig utvalg er sjelden brukt i praksis, men. Snarere forskere bevisst velge folk med ulik sannsynlighet for inkludering for å redusere kostnader og øke nøyaktigheten. Når forskerne bevisst velge mennesker med ulike sannsynligheter for inkludering, deretter justeringer for å angre forvrengninger forårsaket av datainnsamlingen. Med andre ord, hvor vi generalisere fra en prøve avhenger av hvor prøven ble valgt.

For eksempel er Current Population Survey (CPS) som brukes av den amerikanske regjeringen til å beregne ledigheten. Hver måned om lag 100.000 mennesker er intervjuet, enten ansikt til ansikt eller over telefon, og resultatene blir brukt til å produsere den estimerte ledigheten. Fordi regjeringen ønsker å beregne ledigheten i hver stat, kan den ikke gjøre en enkel tilfeldig utvalg av voksne fordi det ville gi for få respondenter i stater med små populasjoner (f.eks, Rhode Island) og for mange fra stater med store populasjoner (f.eks , California). I stedet CPS prøver mennesker i ulike tilstander med forskjellige satser, en prosess som kalles stratifisert prøvetaking med ulik sannsynlighet for utvalget. For eksempel, hvis barnevernet ønsket 2.000 respondenter per stat, da voksne i Rhode Island ville ha ca 30 ganger høyere sannsynlighet for inkludering enn voksne i California (Rhode Island: 2000 respondenter per 800.000 voksne vs California: 2000 respondenter per 30.000.000 voksne). Som vi skal se senere, denne typen prøvetaking med ulik sannsynlighet skjer med elektroniske datakilder også, men i motsetning til barnevernet, er sampling mekanisme som regel ikke kjent eller kontrolleres av forskeren.

Gitt sin sampling design, er CPS ikke direkte representant for USA; den inneholder for mange mennesker fra Rhode Island og også noen fra California. Derfor ville det være uklokt å anslå ledigheten i landet med ledigheten i prøven. I stedet for utvalgsgjennomsnitt, er det bedre å ta et vektet gjennomsnitt, der vektene hensyn til det faktum at folk fra Rhode Island var mer sannsynlig å bli inkludert enn folk fra California. For eksempel, ville hver person fra California være upweighted- de ville telle mer i estimatet-og hver person fra Rhode Island ville bli nedvektet-de ville telle mindre i estimatet. I hovedsak får du mer stemme til folk at du er mindre sannsynlig å lære om.

Denne leken eksempel illustrerer en viktig, men ofte misforstått poenget: et eksempel trenger ikke å være en miniatyr versjon av befolkningen for å produsere gode anslag. Hvis nok er kjent om hvordan dataene ble samlet inn, da denne informasjonen kan brukes når du gjør estimater fra prøven. Tilnærmingen jeg nettopp har beskrevet-, og at jeg beskrive matematisk i det tekniske vedlegget-faller holdent innenfor den klassiske sannsynlighetsutvalg rammeverk. Nå skal jeg vise hvordan den samme ideen kan brukes på ikke-sannsynlighetsutvalg.