3.4.1 valimit: andmete kogumise ja analüüsi

Massid saab tagasi võtta moonutusi tahtlikult põhjustatud valimivõtmisele.

Valimid on need, kus kõik inimesed on teada nullist kaasamise ja lihtsaim valimit disain on lihtne juhuslik valik, kus igal inimesel on võrdne tõenäosus kaasamine. Kui vastajad valitakse välja lihtsa juhuvalimi täiusliku täitmine (nt levi ei ole viga ja ei ole vastust), siis hinnangul on lihtne, kuna proov-keskmiselt-olla miniatuurne versioon elanikkonnast.

Lihtsa juhuvalimi kasutatakse harva praktikas siiski. Pigem teadlased tahtlikult vali inimeste ebavõrdse tõenäosuste lisamine et vähendada kulusid ja suurendada täpsust. Kui teadlased tahtlikult valida inimesed on erinevad tõenäosused lisamist, siis ei ole vaja korrigeerida undo põhjustatavaid valimivõtmisele. Teisisõnu, kuidas me üldistusi proovi sõltub sellest, kui valim.

Näiteks praegune rahvaarv Survey (CPS) on kasutatud USA valitsuse hinnangul on töötuse määr. Iga kuu umbes 100.000 inimest küsitletakse, kas näost-näkku või telefoni teel, ja tulemused on tootmiseks kasutatud hinnanguliselt tööpuudus. Kuna valitsus soovib hinnangul tööpuudus iga riik, siis ei saa seda teha lihtsa juhusliku valimi täiskasvanutele, sest see tooks liiga vähe vastajaid riikide väikese rahvaarvuga (nt Rhode Island) ja liiga palju on riigid suure rahvaarvuga (nt , California). Selle asemel, CPS proovid inimesed erinevates riikides erineva kiirusega, seda protsessi nimetatakse kihtvalik ebavõrdse valiku tõenäosust. Näiteks kui CPS tahtsid 2,000 vastajatest riigi kohta, siis täiskasvanute Rhode Island oleks umbes 30 korda suurem tõenäosus kaasamise kui täiskasvanud Californias (Rhode Island: 2,000 vastanutest per 800,000 täiskasvanutele vs California: 2,000 vastanutest kohta 30000000 täiskasvanutele). Nagu hiljem näeme, selline valimi ebavõrdse tõenäosusega juhtub Interneti allikatest andmete liiga, kuid erinevalt CPS, valimi mehhanism ei ole tavaliselt tuntud või kontrolli uurija.

Arvestades valimi disain, CPS ei ole otseselt esindaja USA; see sisaldab liiga palju inimesi Rhode Island ja liiga vähe California. Seetõttu oleks mõistlik hinnata töötuse määr riigis, kus tööpuudus proovi. Selle asemel, et proovi keskmine, siis on parem võtta kaalutud keskmine, kus kaalumine faktiga, et inimesed Rhode Island olid suurema tõenäosusega arvata kui inimesi California. Näiteks iga inimene California oleks upweighted- nad loota rohkem prognoos-ja iga inimene Rhode Island oleks downweighted-nad loota vähem hinnangu. Sisuliselt, siis on antud rohkem häält inimestele, et siis on vähem tõenäoline, et õppida.

See mänguasi näide illustreerib oluline, kuid tavaliselt valesti punkt: proovi ei pea olema miniatuurne versioon elanikkonnast, et häid hinnanguid. Kui piisavalt teada, kuidas andmed koguti, siis infot saab kasutada prognooside tegemisel proovist. Lähenemine Ma olen lihtsalt kirjeldatud-ja et ma kirjeldada matemaatiliselt tehnilise lisa-hõlmab otseselt klassikalise valimit raames. Nüüd ma näitan, kuidas see sama mõte saab rakendada mitte-valimid.