3.4.1 Probability sampling: kumpulan data jeung analisis data

Timbangan bisa bolaykeun distortions intentionally disababkeun ku prosés sampling.

Sampel Probabilitas anu maranéhanana mana kabéh jelema boga dipikanyaho, non nol-probabiliti citakan, jeung pangbasajanna desain probability sampling basajan random sampling mana unggal jalma miboga probability sarua citakan. Lamun responden dipilih via basajan random sampling jeung palaksanaan sampurna (misalna, moal aya kasalahan sinyalna jeung no non-response), mangka estimasi nyaéta lugas sabab sampel bakal-on rata-jadi versi miniatur tina populasi.

Basajan random sampling jarang dipaké dina prakték, kumaha. Rada, panalungtik intentionally milih jalma nu probabiliti unequal tina citakan dina raraga ngurangan biaya jeung ngaronjatkeun akurasi. Lamun panalungtik intentionally milih jalma nu probabiliti beda citakan, tuluy pangaluyuan nu diperlukeun pikeun bolaykeun nu distortions disababkeun ku prosés sampling. Dina basa sejen, kumaha we generalize ti sampel gumantung kana kumaha sampel ieu dipilih.

Contona, Survey Populasi Wayah (rpm) jeung radian dipaké ku pamaréntah AS ka estimasi laju pangangguran. Unggal bulan kira-kira 100.000 jelema anu diwawancara, boh beungeut-to-beungeut atawa leuwih telepon, sarta hasil nu dipaké pikeun ngahasilkeun laju pangangguran estimasi. Sabab pamarentah wishes keur estimasi laju pangangguran di unggal nagara, eta teu bisa ngalakukeun sampel random sederhana sawawa sabab bakal ngahasilkeun teuing sababaraha responden di nagara jeung populasi leutik (misalna Rhode Island) jeung loba teuing ti nagara jeung populasi gede (misalna , California). Gantina, nu CPS sampel jalma di nagara beda di ongkos beda, prosés nu disebut sampling ngabedakeun lapisan jeung probability unequal seleksi. Contona, lamun CPS hayang 2.000 responden per nagara, tuluy dewasa di Rhode Island bakal mibanda kira-kira 30 kali leuwih luhur probabiliti citakan ti dewasa di California (Rhode Island: 2.000 responden per 800.000 sawawa vs California: 2.000 responden per 30.000.000 sawawa). Salaku bakal urang nempo saterusna, jenis ieu sampling jeung probability unequal kajadian jeung sumber online data teuing, tapi teu saperti CPS, mékanisme sampling biasana teu dipikawanoh atawa dikawasa ku panalungtik.

Dibikeun desain sampling anak, nu CPS teu langsung wawakil ti US; eta ngawengku loba teuing jelema ti Rhode Island jeung teuing sababaraha ti California. Ku alatan éta, eta bakal unwise ka estimasi laju pangangguran di nagara jeung laju pangangguran dina sampel. Gantina tina mean sampel, eta leuwih hade pikeun nyokot mean rata, di mana beurat akun pikeun kanyataan yén jelema ti Rhode Island éta leuwih gampang kaasup ti jelema ti California. Contona, unggal jalma ti California bakal upweighted- bakal cacah leuwih dina estimasi-jeung unggal jalma ti Rhode Island bakal downweighted-bakal cacah kurang di estimasi teh. Dina panggih, Anjeun dibere sora leuwih jelema anu anjeun kurang kamungkinan kana diajar ngeunaan.

conto kaulinan ieu illustrates an titik penting tapi ilahar ngartikeun: sampel teu kudu vérsi miniatur populasi dina raraga ngahasilkeun perkiraan alus. Lamun cukup dipikawanoh ngeunaan kumaha data ieu dikumpulkeun, tuluy informasi anu bisa dipaké nalika nyieun perkiraan tina sampel. pendekatan kuring geus ngan digambarkeun-jeung nu ngagambarkeun sacara matematis di téhnis lampiran-ragrag squarely dina kerangka klasik probability sampling. Ayeuna, Abdi gé mintonkeun kumaha nu pamanggih sarua bisa diterapkeun ka sampel non-probability.