3.4.1 Probablo muestreo: datenkolektado kaj analizo de datumoj

Pezoj povas malfari distordoj intencite kaŭzita de la muestreo procezo.

Probablo specimenoj estas tiuj kie ĉiuj homoj havas konata, ne-nula probablo de inkludo kaj la plej simpla probablo muestreo dezajno estas simpla hazarda specimenigo kie ĉiu persono havas egalan probablecon de inkludo. Kiam respondantoj estas elektita per simpla hazarda specimenigo kun perfekta ekzekuto (ekzemple, neniu priraportado eraro kaj neniu ne-respondo), tiam takso estas simpla ĉar la specimeno-averaĝe-esti miniaturo versio de la loĝantaro.

Simpla hazarda specimenigo estas malofte uzata en praktiko, tamen. Prefere, esploristoj intence elektu personoj kun neegalaj probabloj de inkludo por redukti koston kaj pliigi precizecon. Kiam esploristoj intence elektu malsamlingvanoj probabloj de inkludo, tiam ĝustigas bezonas malfari la distordoj kaŭzita de la muestreo procezo. Alivorte, kiom ni ĝeneraligi de specimeno dependas de kiel la specimeno estis elektita.

Ekzemple, la Nuna Loĝantaro Survey (CPS) estas uzita de la usona registaro por taksi la senlaboreco imposto. Ĉiumonate ĉirkaŭ 100.000 homoj estas intervjuitaj, ĉu vizaĝo-al-vizaĝo aŭ super la telefono, kaj la rezultoj estas uzataj por produkti la estimita senlaboreco imposto. Ĉar la registaro deziras taksi la senlaboreco imposto en ĉiu stato, ĝi ne povas fari simplan hazarda specimeno de plenkreskuloj pro ke cedus tro malmultaj respondantoj en ŝtatoj kun malgrandaj populacioj (ekz, Rhode Island) kaj tro multaj el ŝtatoj kun grandaj populacioj (ekz , Kalifornio). Anstataŭe, la CPS specimenoj personoj en malsamaj statoj ĉe malsamaj tarifoj, procezo nomita estratificadas specimenigo kun neegala probableco de selektado. Ekzemple, se la CPS volis 2,000 respondantoj po ŝtato, tiam plenkreskuloj en Rhode Island havus ĉirkaŭ 30 fojojn pli alta probableco de inkludo ol plenkreskuloj en Kalifornio (Rhode Island: 2,000 respondantoj po 800.000 plenkreskuloj vs Kalifornio: 2,000 respondantoj po 30,000,000 plenkreskuloj). Kiel ni vidos poste, ĉi tiu speco de specimenigo kun neegala probableco okazas kun rete fontoj de datumoj ankaŭ, sed male al la CPS, la muestreo mekanismo estas kutime ne konata aŭ kontrolita de la esploristo.

Donita lia muestreo dezajno, la CPS ne rekte reprezentanto de Usono; ĝi inkludas tro multaj homoj el Rhode Island kaj tro malmultaj el Kalifornio. Sekve, estus malprudenta taksi la senlaboreco imposto en la lando kun la senlaboreco imposto en la specimeno. Anstataŭ la specimeno meznombro, estas pli bone preni meznombro, kie la pezoj klarigi la fakton, ke homoj el Rhode Island estis pli verŝajna al esti inkludita ol homoj el Kalifornio. Ekzemple, ĉiu persono el Kalifornio estus upweighted- ili rakontus pli en la takso-kaj ĉiu persono de Rhode Island estus downweighted-ili rakontus malpli en la takso. En esenco, vi ricevas pli voĉon al personoj ke vi estas malpli verŝajna al koni.

Tiu ludilo ekzemplo ilustras grava sed ofte miskomprenita punkto: specimeno ne bezonas esti miniaturo versio de la loĝantaro por produkti bonajn taksojn. Se sufiĉa scias kiom la datumoj estis kolektitaj, tiam tiu informo povas esti uzata kiam faranta taksoj de la specimeno. La alproksimiĝo mi ĵus priskribis-kaj ke mi priskribas matematike en la teknika apendico-falas rekte ene la klasika probablo specimenanta kadro. Nun mi montros kiel tiu sama ideo povas esti aplikita al ne-probablo specimenoj.