3.4.1 Kebarangkalian persampelan: pengumpulan data dan analisis data

Timbang boleh membatalkan gangguan sengaja disebabkan oleh proses pensampelan.

Sampel kebarangkalian adalah mereka di mana semua orang mempunyai diketahui, bukan sifar kebarangkalian kemasukan, dan paling mudah reka bentuk pensampelan kebarangkalian adalah mudah persampelan rawak di mana setiap orang mempunyai kebarangkalian yang sama rangkuman. Apabila responden dipilih melalui persampelan rawak mudah dengan pelaksanaan sempurna (contohnya, tiada ralat liputan dan tidak bukan tindak balas), maka anggaran adalah mudah kerana sampel akan-purata-be versi miniatur penduduk.

persampelan rawak mudah jarang digunakan dalam amalan, namun. Sebaliknya, penyelidik dengan sengaja memilih orang yang mempunyai kebarangkalian yang tidak sama rata penyertaan dalam usaha untuk mengurangkan kos dan meningkatkan ketepatan. Apabila penyelidik dengan sengaja memilih orang yang mempunyai kebarangkalian yang berlainan kemasukan, maka pelarasan diperlukan untuk membatalkan herotan yang disebabkan oleh proses pensampelan. Dalam erti kata lain, bagaimana kita umum dari sampel bergantung kepada bagaimana sampel telah dipilih.

Sebagai contoh, Penduduk Ukur Semasa (CPS) digunakan oleh kerajaan Amerika Syarikat untuk menganggarkan kadar pengangguran. Setiap bulan kira-kira 100,000 orang yang ditemubual, sama ada muka-ke-muka atau melalui telefon, dan juga digunakan untuk menghasilkan kadar pengangguran yang dianggarkan. Oleh kerana kerajaan berhasrat untuk menganggarkan kadar pengangguran di setiap negeri, ia tidak boleh melakukan sampel rawak mudah daripada orang dewasa kerana itu akan menghasilkan terlalu sedikit responden di negeri-negeri yang mempunyai populasi kecil (contohnya, Rhode Island) dan terlalu banyak dari negeri-negeri yang mempunyai penduduk yang besar (contohnya , California). Sebaliknya, CPS sampel orang di negeri-negeri yang berbeza pada kadar yang berbeza, proses yang dipanggil persampelan berstrata dengan kebarangkalian yang tidak sama rata pemilihan. Sebagai contoh, jika CPS mahu 2,000 responden bagi setiap negeri, maka orang dewasa di Rhode Island akan mempunyai kira-kira 30 kali lebih tinggi kebarangkalian kemasukan daripada orang dewasa di California (Rhode Island: 2000 responden bagi setiap 800,000 orang dewasa vs California: 2,000 responden setiap 30,000,000 orang dewasa). Seperti yang akan kita lihat nanti, ini jenis pensampelan dengan kebarangkalian yang tidak sama rata yang berlaku dengan sumber dalam talian data juga, tetapi tidak seperti CPS, mekanisme pensampelan biasanya tidak diketahui atau dikawal oleh pengkaji.

Memandangkan reka bentuk pensampelan, maka CPS tidak secara langsung wakil Amerika Syarikat; ia termasuk juga ramai orang dari Rhode Island dan terlalu sedikit dari California. Oleh itu, ia tidak bijak untuk menganggarkan kadar pengangguran di negara ini dengan kadar pengangguran di dalam sampel. Daripada sampel min, ia adalah lebih baik untuk mengambil min wajaran, di mana akaun berat untuk fakta bahawa orang dari Rhode Island lebih cenderung untuk dimasukkan daripada orang dari California. Sebagai contoh, setiap orang dari California akan menjadi upweighted- mereka akan lebih bermakna dalam anggaran dan tiap-tiap orang dari Rhode Island akan downweighted-mereka menghitung kurang dalam anggaran. Pada dasarnya, anda diberi lebih suara kepada orang yang anda kurang cenderung untuk mempelajari.

Contoh mainan menggambarkan satu perkara yang penting tetapi biasanya salah faham: sampel tidak perlu menjadi versi kecil daripada penduduk untuk menghasilkan anggaran yang baik. Jika cukup diketahui tentang bagaimana data yang dikumpulkan, maka maklumat yang boleh digunakan apabila membuat anggaran daripada sampel. pendekatan yang saya baru sahaja diterangkan-dan saya menerangkan secara matematik dalam bidang teknikal lampiran-jatuh tepat dalam rangka kerja persampelan kebarangkalian klasik. Sekarang, saya akan menunjukkan bagaimana idea yang sama boleh digunakan untuk sampel bukan kebarangkalian.