3.4.1 probabilitatea laginketa: datu bilketa eta datuen analisia

Pisu nahita laginketa prozesua eragindako distortsio desegin dezakezu.

Probabilitate laginak horiek non pertsona guztiek dute ezagutzen, ez-zero sartzeko probabilitatea bat dira, eta errazena probabilitatea laginaren diseinua sinplea da ausazko laginketa non pertsona bakoitzak sartzeko probabilitatea berdina dauka. Noiz inkestatuen dira exekuzioa perfektua (adibidez, estaldura error ez eta ez-erantzuna) ausazko laginketa sinple bidez aukeratua, orduan zenbatespen erraza da lagina izango-populazioa miniaturazko bertsioa bataz-izan delako.

Simple ausazko laginketa oso gutxi erabiltzen da, hala ere. Izan ere, ikertzaileek nahita hautatu sartzea probabilitateak berdinak ez dituzten pertsonen ordena kostua murrizteko eta zehaztasuna handitzeko ere. Ikertzaileek, nahita hautatu inclusión probabilitate ezberdinak dituzten pertsonek, orduan egokitzapenak beharrezkoak diren laginketa prozesua eragindako distortsio desegiteko. Beste era batera esanda, nola orokortu lagin batetik dugu lagina nola hautatu zuten araberakoa.

Adibidez, Oraingo Biztanleriaren inkesta (CPS) langabezia tasa kalkulatzeko, Estatu Batuetako gobernuak erabiltzen da. Hilero 100.000 pertsona inguru elkarrizketatu dira, bai face-to-face edo telefono bidez, eta emaitzak estimatutako langabezia tasa ekoizteko erabiltzen dira. Gobernuak langabezia egoera bakoitzean tasa kalkulatu nahi badu delako, ezin da ausazko helduak lagin sinple bat egiten duten inkestatuen gutxiegi amore lukeelako populazio txikiak (adibidez, Rhode Island) eta too populazio handiak dituzten estatu batetik beste hainbat estatu ere (ad Kalifornia). Horren ordez, CPS laginak estatu desberdinetan pertsona tasa ezberdinetan, prozesu bat izeneko aukeraketa probabilitatea berdinak ez dituzten laginketa. Adibidez, CPS bada nahi 2.000 inkestatuen egoera bakoitzeko, orduan Rhode Island helduek 30 aldiz handiagoa sartzea helduek baino California probabilitatea izango lituzke (Rhode Island: 800.000 helduek 2.000 inkestatuen vs California: 30.000.000 helduek 2.000 inkestatuen). Aurrerago ikusiko dugun bezala, desorekatua probabilitatea laginketa mota honetako datuak iturri online gehiegi gertatzen da, baina CPS ez bezala, laginketa mekanismoa da, normalean ez da ezaguna edo ikertzaile batek kontrolatzen.

bere laginaren diseinua kontuan hartuta, CPS ez da zuzenean AEBetako ordezkaria; Rhode Island jendearekin Gehiegi eta Kaliforniatik gutxi biltzen ditu. Beraz, zentzuzkoa izango litzateke, langabezia herrialdeko tasa kalkulatzeko langabezia lagin-tasa batekin. Horren ordez lagin batezbesteko, hobe da, batez besteko bat, non pisuak Izan ere kontuan Rhode Island jendearekin ez zirela gehiago litekeena California jendearekin baino sartuko hartzeko. Adibidez, California Pertsona bakoitzeko upweighted- estimazio-eta Rhode Island Pertsona bakoitzak litzateke gehiago zenbatu zuten izango litzateke estimazio gutxiago downweighted-dute zenbatu litzateke. Funtsean, ahots gehiago ematen zaie zarela gutxiago buruz ikasteko pertsonei.

Jostailu Adibide honek puntu garrantzitsu baina normalean ulertua bat ilustratzen: lagin bat ez da beharrezkoa biztanleriaren miniaturazko bertsio bat izan ahal izateko kalkuluen ona ekoizteko. nahikoa da datuak nola bildu zen ezagutzen, gero informazio hori erabili ahalko da lagin batetik kalkuluen egiteko. hurbilketa besterik ez dut deskribatu-eta matematikoki deskribatzeko erabiltzen dut teknikoan apendizea-jaitsierak squarely klasikoa probabilitate-laginketa esparru barruan. Orain, nola ideia hori bera izango ez-probabilitatea laginak aplika daiteke erakutsi dut.