3.4 Sing takon

translation iki digawe dening komputer. ×

3.4 Sing takon

Umur digital nggawe pengambilan sampel kemungkinan luwih praktis lan nyiptakake kesempatan anyar kanggo sampling non-probabilitas.

Ing sajroning sampling sejarah, ana rong pendekatan saingan: metode sampling probability lan metode sampling non-probability. Sanajan loro pendekatan kasebut digunakake ing awal-awal sampling, sampling kemungkinan wis nguwasani, lan akeh peneliti sosial diajokake kanggo ndeleng sampling non probabilitas kanthi skeptisisme gedhe. Nanging, kaya sing bakal dak jelasake ing ngisor iki, owah-owahan sing diwatesi dening umur digital berarti wektu para panaliti nemokake maneh sampling non probabilitas. Secara khusus, sampling probabilitas wis entuk dilakoni kanthi praktek, lan sampling non-probabilitas wis entuk luwih cepet, luwih murah, lan luwih apik. Survey sing luwih cepet lan sing luwih murah ora mung mandheg ing awake dhewe: mbiyantu kesempatan anyar kayata survey sing luwih kerep lan ukuran sampel sing luwih gedhe. Contone, kanthi nggunakake cara non-probability the Cooperative Congressional Election Study (CCES) bisa duwe kira-kira 10 kaping luwih peserta saka studi sadurunge nggunakake probability sampling. Sampel sing luwih gedhe iki nyedhiyakake peneliti pulitik kanggo nyinaoni variasi ing sikap lan prilaku antarane subkelompok lan konteks sosial. Luwih, kabeh ukuran sing ditambahake tanpa ngurangi kualitas prakiraan (Ansolabehere and Rivers 2013) .

Saiki, pendekatan sing paling dominan kanggo sampling kanggo riset sosial yaiku sampling kemungkinan . Ing probabilitas sampling, kabeh anggota populasi target wis dikenal, nonzero probability of being sampled, lan kabeh wong sing dijaluk respond to survey. Nalika kondisi kasebut ditemokake, asil matematika elegan menehi jaminan sing bisa ditemokake babagan kemampuan peneliti kanggo nggunakake sampel kanggo menehi kesimpulan bab populasi target.

Ing donya nyata, kahanan sing ndadekake asil matématika iki jarang ditemokake. Contone, kadhangkala ana kasalahan jangkoan lan nonresponse. Amarga masalah kasebut, para panaliti kerep kudu bisa nggunakake macem-macem penyesuaian statistik kanggo nggawe kesimpulan saka sampel menyang target populasi. Mangkono, penting kanggo mbedakake antarane probabilitas sampling ing teori , sing nduweni jaminan teoritis, lan probabilitas sampling ing praktik , sing ora menehi pituduh kasebut lan gumantung marang macem-macem penyesuaian statistik.

Sajrone wektu, beda antarane probabilitas sampling ing teori lan probabilitas sampling ing praktik wis nambah. Contone, tarif nonresponse wis tambah terus, sanajan ing dhuwur, survei larang (angka 3,5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Tarif nonresponse luwih dhuwur ing survey telpon komersial-sok-sok nganti 90% (Kohut et al. 2012) . Iki mundhak ing nonresponse ngancem kualitas prakiraan amarga perkiraan tambah gumantung marang model statistik sing digunakake dening peneliti kanggo nyetel nonresponse. Luwih, kualitas kasebut mudhun sanajan ana upaya sing luwih larang dening peneliti survey kanggo njaga tingkat respon dhuwur. Sawetara wong wedi yen tren kembar iki ngurangi kualitas lan nambah biaya ngancam yayasan riset survey (National Research Council 2013) .

Gambar 3.5: Nonresponse wis tambah akeh, sanajan ana ing survei mahal sing mahal (Dewan Riset Nasional 2013; B. D. Meyer, Mok, lan Sullivan 2015). Tarif nonresponse luwih dhuwur kanggo survey telephones komersial, kadhangkala malah nganti 90% (Kohut et al, 2012). Kecenderungan jangka panjang ing nonresponse tegese manawa data koleksi luwih larang lan prakiran kurang dipercaya. Diadaptasi saka B. D. Meyer, Mok, lan Sullivan (2015), tokoh 1.

Gambar 3.5: Nonresponse wis tambah akeh, sanajan ana ing survey mahal sing mahal (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Tarif nonresponse luwih dhuwur kanggo survey telephones komersial, kadhangkala malah nganti 90% (Kohut et al. 2012) . Kecenderungan jangka panjang ing nonresponse tegese manawa data koleksi luwih larang lan prakiran kurang dipercaya. Diadaptasi saka BD Meyer, Mok, and Sullivan (2015) , tokoh 1.

Ing wektu sing padha wis ana panandhang sing luwih akeh kanggo metode sampling kemungkinan, ana uga perkembangan sing menarik babagan metode sampling non-probabilitas . Ana macem-macem gaya non-probability sampling methods, nanging siji bab sing padha duwe ing umum sing padha ora bisa gampang cocog ing framework matematika probabilitas sampling (Baker et al. 2013) . Ing tembung liya, ing cara non-probability sampling ora saben wong nduweni probabilitas inklusi lan nonzero. Metoda sampling non-probabilitas nduweni reputasi sing banget ing antarane peneliti sosial lan padha digandhengake karo sawetara kegagalan paling dramatis peneliti survey, kayata kasalahan Literary Digest (dibahas sadurungé) lan "Dewey Defeats Truman," prediksi sing salah babagan AS Pemilu presiden taun 1948 (angka 3.6).

Gambar 3.6: Présidhèn Harry Truman nyepeng judhul koran sing wis ngumumaké kalah. Judhul iki adhedhasar ing prakiran saka sampel non probabilitas (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) . Sanajan "Dewey Defeats Truman" kedadean ing taun 1948, isih ana ing antarané sawetara peneliti mamang babagan perkiraan saka sampel non probabilitas. Sumber: Pustaka & Museum Harry S. Truman .

Salah siji wangun sampling non-probabilitas sing khusus cocog kanggo umur digital yaiku nggunakake panel online . Peneliti nggunakake panel online gumantung ing sawetara panyedhiya panel-biasane perusahaan, pemerintah, utawa universitas-kanggo mbangun kelompok gedhe lan maneka warna sing setuju minangka responden kanggo survey. Peserta panel iki asring direkrut nggunakake macem-macem cara ad hoc kayata iklan banner online. Banjur, panaliti bisa mbayar panyedhiya panel kanggo akses menyang sampel responden karo karakteristik sing dikarepake (contone, perwakilan nasional saka wong diwasa). Panel-panel online iki minangka cara non-probabilitas amarga ora saben wong nduweni kemungkinan, kalebu nonzero. Senajan panel online sing ora probabilitas wis digunakake dening peneliti sosial (contone, CCES), ana sawetara debat babagan kualitas perkiraan sing teka saka wong-wong kasebut (Callegaro et al. 2014) .

Senadyan debat iki, aku ngira ana rong alasan kenapa wektu iku pancen kanggo peneliti sosial kanggo nyinaoni ulang probabilitas non probabilitas. Kapisan, ing jaman digital, ana akeh perkembangan ing koleksi lan analisis saka sampel ora probabilitas. Cara-cara sing anyar iki cukup beda saka metode sing nyebabake masalah ing sasi kepungkur sing aku ngerteni minangka "non-probability sampling 2.0". Alasan liya yen paneliten kudu nyinaoni ulang probabilitas non-probabilitas amarga probabilitas sampling ing Praktek dadi tambah akeh angel. Nalika ana tingkat dhuwur saka non-respon-minangka ana ing survey nyata saiki-kemungkinan nyata saka inklusi kanggo responden ora dikenal, lan kanthi mangkono, sampel probabilitas lan sampel ora probabilitas ora beda minangka akeh peneliti pracaya.

Kaya sing wis dikandhakake sadurunge, sampel ora bisa ditemokake kanthi skeptisisme gedhe dening akeh peneliti sosial, amarga peran kasebut ing sawetara kegagalan paling memelas nalika awal panaliten. Conto sing cetha babagan carane adoh karo sampel non-probabilitas yaiku riset dening Wei Wang, David Rothschild, Sharad Goel, lan Andrew Gelman (2015) sing bisa ngrampungake asil Pemilu 2012 kanthi nggunakake sampel non-probabilitas Pengguna Xbox Amérika - sampel sing ora ditemtokake dening Amerika. Para panaliti ngrekrut responden saka sistem game XBox, lan minangka sampeyan bisa nyana, sampel Xbox miring lanang lan skewed enom: 18- kanggo 29 taun-lawas wis mbentuk 19% saka pemilih nanging 65% saka sampel Xbox, lan wong nggawe 47% saka pemilih nanging 93% saka sampel Xbox (angka 3.7). Amarga bias demografi kuwat, data Xbox mentah minangka indikator miskin pemilihan. Iku mbadek kamenangan sing kuat kanggo Mitt Romney liwat Barack Obama. Maneh, iki minangka conto liyane saka beboyo sampel non-probabilitas mentah, ora bisa dilaras lan mirip karo kegagalan Literary Digest .

Gambar 3.7: Demografi panutan ing W. Wang et al. (2015) . Amarga responden direkrut saka XBox, dheweke luwih cenderung enom lan luwih cenderung lanang, relatif marang pemilih ing pemilihan 2012. Diadaptasi saka W. Wang et al. (2015) , tokoh 1.

Nanging, Wang lan kanca-kancane padha weruh masalah kasebut lan nyoba nyetel proses sampling non-acak nalika nggawe prakiraan. Utamane, padha nggunakake stratifikasi pasca , sawijining teknik sing uga digunakake kanggo nyetel sampel kamungkinan sing duwe kasil jangkoan lan non-respon.

Ide pokok pasca stratifikasi yaiku nggunakake informasi tambahan babagan populasi target kanggo mbenakake perkiraan sing asal saka sampel. Nalika nggunakake stratifikasi pas kanggo nggawe prakiraan saka sampel non-probabilitas, Wang lan kolega nyemprotake populasi kasebut ing macem-macem kelompok, kira-kira ndhukung Obama ing saben klompok, banjur njupuk rata-rata bobot saka perkiraan kelompok kanggo ngasilake perkiraan sakabèhé. Contone, bisa dipérang dadi rong kelompok (lanang lan wadon), ngira-ngira dhukungan kanggo Obama ing antarané lanang lan wadon, lan banjur dianggep support sakabèhé Obama kanggo njupuk rata-rata bobot supaya bisa nyatakaké yèn wanita gawé 53% saka pemilih lan pria 47%. Sacara rata-rata, pasca-stratifikasi mbantu mbenerake sampel sing ora seimbang kanthi nggawa informasi tambahan babagan ukuran kelompok.

Kunci stratifikasi kanggo mbentuk kelompok tengen. Yen sampeyan bisa nyithak populasi dadi kelompok-kelompok homogen kayata sing nampilake respon padha kanggo saben wong ing saben grup, banjur post-stratification bakal ngasilake ora padha. Ing tembung liya, post-stratifying miturut jender bakal ngasilake ora resmi yen kabeh wong duwe kecenderungan respon lan kabeh wanita duwe propensitas respon sing padha. Asumsi iki diarani asumsi -respon-propensiti-ing-kelompok asumsi, lan aku nerangake luwih-luwih ing cathetan matématika ing pungkasan bab iki.

Temtu, ora ana kemungkinan sing beda-bedane respon bakal padha kanggo kabeh wong lan kabeh wanita. Nanging, asumsi-respon-propensiti-ing-kelompok asumsi luwih bisa ditemokake minangka nomer kelompok mundhak. Rata-rata, dadi luwih gampang kanggo nyemprotake populasi dadi siji-sijine klompok yen sampeyan nggawe grup liyane. Contone, koyone ora bisa ditemokake yen kabeh wanita duwe kecenderungan respon sing padha, nanging bisa uga luwih bisa ditemokake manawa ana propensitas respon sing padha kanggo kabeh wanita sing umur 18-29, sing lulus saka kuliah, lan sing manggon ing California . Mangkono, amarga nomer kelompok sing digunakake ing stratifikasi sawise dadi luwih gedhe, asumsi-asumsi sing dibutuhake kanggo ndhukung cara dadi luwih apik. Miturut fakta iki, panaliti kerep pengin nggawe akeh kelompok kanggo post-stratification. Nanging, amarga nomer kelompok mundhak, panaliti ngalami masalah sing beda: data sparsity. Yen mung ana sethithik wong ing saben klompok, prédhiksi bakal luwih ora mesthi, lan ing kasus nemen sing ana klompok sing ora ana responden, banjur stratifikasi pasca-pisah rampung.

Ana rong cara metu saka ketegangan sing ana ing antarané asumsi homogen-respons-propensity-ing-kelompok asumsi lan dikarepake kanggo ukuran sampel cukup ing saben klompok. Kaping pisanan, peneliti bisa ngumpulake sampel sing luwih gedhe, luwih gedhe, sing mbantu njamin ukuran sampel sing cukup ing saben kelompok. Kapindho, bisa nggunakake model statistik sing luwih canggih kanggo nggawe prakiraan ing kelompok. Lan, senajan mangkono, kadhangkala para panaliti nindakake loro-lorone, amarga Wang lan kanca-kanca nindakake studi babagan pemilihan kasebut kanthi nggunakake responden saka Xbox.

Amarga padha nggunakake metode sampling non-probabilitas karo wawancara sing dikelola komputer (Aku bakal ngobrol luwih akeh babagan wawancara sing dikelola komputer ing bagean 3.5), Wang lan kolega duwe koleksi data sing murah banget, sing bisa ngowahi informasi saka 345.858 peserta unik , nomer ageng dening standar pemilihan umum. Ukuran sampel sing gedhene iki bisa mbentuk kelompok pasca-stratifikasi. Dene post-stratification biasane nyebabake pemotongan populasi dadi ratusan kelompok, Wang lan kolega dibagi populasi dadi 176.256 kelompok sing ditetepake gender (2 kategori), ras (4 kategori), umur (4 kategori), pendidikan (4 kategori), negara (51 kategori), ID partai (3 kategori), ideologi (3 kategori), lan 2008 (3 kategori). Kanthi tembung liyane, ukuran sampel sing ageng, sing diwenehake dening dhokumèn data murah, bisa nggawe asumsi luwih bisa ditrapake ing proses panganggone.

Malah kanthi 345,858 peserta unik, nanging isih akeh, akeh kelompok sing ora dikarepake Wang lan kolega. Mulane, padha nggunakake teknik sing disebut regression multilevel kanggo ngira dhukungan ing saben grup. Ateges, kanggo ngira-ngira dhukungan kanggo Obama sajrone grup tartamtu, regresi multilevel ngumpulake informasi saka akeh kelompok sing raket banget. Contone, coba nyoba ngira-ngira dhukungan kanggo Obama antarane wanita Hispanik antarane 18 lan 29 taun, sing lulusan College, sing kadhaptar Demokrat, sing poto-ngenali minangka moderat, lan sing milih kanggo Obama ing 2008. Iki banget , klompok spesifik banget, lan bisa uga ana sing ora ana ing sampel kanthi ciri-ciri kasebut. Mulane, kanggo nggawe praduga babagan klompok iki, regression multilevel nggunakake model statistik kanggo nggabungake perkiraan saka wong ing grup sing padha banget.

Kanthi mangkono, Wang lan kanca-kanca nggunakake pendekatan sing nggabungake regression multilevel lan stratifikasi post, supaya padha disebut strategi regresi multilevel karo post-stratification utawa, luwih affectionately, "Pak. P. "Nalika Wang lan kanca-kancane nggunakake Pak P. kanggo nganakake perkiraan saka sampel Xbox non-probabilitas, dheweke ngasilake perkiraan sing cedhak karo dukungan sakabèhé sing ditampa dening Obama ing pemilihan 2012 (angka 3,8). Malah prakiraan sing luwih akurat tinimbang sing agregat jajak pendapat umum tradisional. Mangkono, ing kasus iki, penyesuaian statistik-khusus Pak P.-koyone nggawe proyek apik mbenerake biase ing data non-probabilitas; bias sing katon kanthi jelas nalika sampeyan ndeleng prakiraan saka data Xbox sing ora disetel.

Gambar 3.8: Perkiraan saka W. Wang et al. (2015) . Sampel XBox sing ora disetel diprodhuksi ora akurat. Nanging, sampel Xbox kanthi bobot ngasilake perkiraan sing luwih akurat tinimbang rata-rata survey telephone. Diadaptasi saka W. Wang et al. (2015) , tokoh 2 lan 3.

Ana rong pawulangan utama saka sinau Wang lan kolega. Kaping pisanan, sampel non-probabilitas sing ora disetel bisa nyebabake perkiraan kurang; Iki minangka pawulangan sing akeh peneliti wis krungu sadurunge. Nanging wulangan kapindho, yaiku yen sampel ora probabilitas, nalika dianalisis kanthi bener, bisa ngasilake perkiraan apik; Sampel non-probabilitas ora perlu kanthi otomatis nyebabake kegagalan Literary Digest .

Terus maju, yen sampeyan nyoba mutusake antarane nggunakake pendekatan sampling probability lan pendekatan sampling non-probability sampeyan ngadhepi pilihan sing angel. Kadhangkala peneliti pengin aturan sing cepet lan kaku (umpamane, tansah nggunakake metode sampling kemungkinan), nanging tambah akeh angel menehi aturan kuwi. Para peneliti ngadhepi pilihan sing angel ing antarane praktek sampling probabilitas ing laku-sing luwih larang lan adoh saka asil teoretis sing mbenerake cara sampling lan non probabilitas-sing luwih murah lan luwih cepet, nanging kurang akrab lan luwih akeh. Siji bab sing cetha, menawa, yen sampeyan dipeksa bisa nganggo sampel non-probabilitas utawa sumber data gedhe sing ora ana representatif (mikir maneh Bab 2), banjur ana alesan sing kuwat kanggo pracaya yen prakiraan digawe nggunakake pasca stratifikasi lan tèknik sing gegandhengan bakal luwih apik tinimbang pratelan mentah sing ora disetel.