3.4.2 sampel Non-probability: weighting

panarjamahan ieu dijieun ku komputer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.2 sampel Non-probability: weighting

Jeung sampel non-probabilitas, beurat bisa bolaykeun distortions disababkeun ku prosés sampling nu dianggap.

Dina cara nu sarua nu panalungtik beurat réspon ti sampel probability, maranéhanana ogé bisa beurat réspon ti sampel non-probability. Contona, salaku alternatif pikeun CPS, ngabayangkeun nu disimpen Iklan banner dina rébuan situs web ka recruit pamilon keur survey ka estimasi laju pangangguran. Alami, Anjeun bakal skeptis yen mean basajan tina sampel Anjeun bakal jadi estimasi nu hade laju pangangguran. skepticism Anjeun meureun sabab Anjeun mikir yén sababaraha urang anu leuwih gampang pikeun ngarengsekeun survey Anjeun ti batur. Contona, jalma nu teu méakkeun loba waktu dina web anu kurang kamungkinan pikeun ngarengsekeun survey Anjeun.

Sakumaha urang nempo dina bagian ahir, kumaha oge, lamun urang nyaho kumaha sampel ieu dipilih-sakumaha nu ayeuna urang teu jeung probability sampel-mangka urang bisa bolaykeun distortions disababkeun ku prosés sampling. Hanjakalna, lamun gawé bareng sampel non-probability, urang teu nyaho kumaha sampel ieu dipilih. Tapi, urang bisa make asumsi ngeunaan prosés sampling terus panawaran weighting dina cara nu sarua. Lamun asumsi ieu bener, mangka weighting bakal bolaykeun nu distortions disababkeun ku prosés sampling.

Contona, ngabayangkeun di response ka Iklan banner Anjeun, Anjeun direkrut 100.000 responden. Tapina, Anjeun teu percaya 100.000 responden ieu sampel random sederhana sawawa American. Kanyataanna, lamun ngabandingkeun responden Anjeun ka populasi US, Anjeun manggihan nu urang ti sababaraha nagara (misalna, New York) nu leuwih-digambarkeun jeung jelema ti sababaraha nagara (misalna, Alaska) aya dina kaayaan-digambarkeun. Ku kituna, laju pangangguran tina sampel Anjeun dipikaresep jadi estimasi goréng laju pangangguran di populasi target.

Hiji cara pikeun bolaykeun nu distorsi nu lumangsung dina prosés sampling pikeun napelkeun beurat ka unggal jalma; beurat handap ka jelema ti nagara anu leuwih-digambarkeun dina sampel (misalna, New York) jeung beurat luhur ka jelema ti nagara nu dina-digambarkeun dina sampel (misalna, Alaska). Leuwih spésifikna, beurat keur unggal réspondén pakait jeung Prévalénsi maranéhanana dina sampel relatif Anjeun ka Prévalénsi maranéhanana dina populasi AS. Prosedur weighting ieu disebut post-stratifikasi, jeung pamanggih timbangan kudu ngingetan tina conto dina Bagéan 3.4.1 mana responden ti Rhode Island dibere kurang beurat ti responden ti California. Post-stratifikasi merlukeun nyaho cukup pikeun nunda responden Anjeun ka grup jeung nyaho saimbang tina populasi target di unggal kelompok.

Sanajan weighting tina sampel probability sarta sampel non-probability nu sacara matematis sarua (tempo lampiran téhnis), sabab tiasa dianggo oge di kaayaan nu beda. Lamun panalungtik ngabogaan probability sampel sampurna (ie, taya kasalahan sinyalna jeung no non-response), mangka weighting bakal ngahasilkeun perkiraan unbiased keur sakabeh Tret dina sagala kasus. jaminan teoritis kuat Ieu naha ngabela sampel probability manggihan eta jadi menarik. Di sisi séjén, weighting sampel non-probability ngan bakal ngahasilkeun perkiraan unbiased keur sakabeh Tret lamun propensities response nu sarua for everyone di unggal kelompok. Dina basa sejen, pamikiran deui ka conto urang, ngagunakeun post-stratifikasi bakal ngahasilkeun unbiased perkiraan lamun dulur di New York boga probability sarua milu jeung dulur di Alaska boga probability sarua milu jeung saterusna. Asumsi ieu disebut anggapan homogen-response-propensities-jero-grup, sarta muterkeun hiji peran konci dina nyaho lamun pos-stratifikasi bakal bisa dipaké oge jeung sampel non-probability.

Hanjakalna, dina conto urang, anggapan homogen-response-propensities-jero-grup sigana saperti teu mirip jadi bener. Nyéta, jigana saperti teu mirip dulur di Alaska boga probability sarua keur di survey Anjeun. Tapi, aya tilu titik penting pikeun tetep dina pikiran ngeunaan pos-stratifikasi, sadaya nu make sigana leuwih ngajangjikeun.

Kahiji, asumsi homogen-response-propensities-jero-grup jadi leuwih masuk akal salaku jumlah golongan nambahan. Jeung, panalungtik teu diwatesan ka grup ngan dumasar kana dimensi géografis tunggal. Contona, urang bisa nyieun grup dumasar kana kaayaan, umur, baham, jeung tingkat atikan. Jigana leuwih masuk akal aya propensities response homogen dina grup 18-29, lulusan bikang, kuliah hirup di Alaska ti jero grup kabéh jelema hirup di Alaska. Ku kituna, salaku jumlah golongan dipaké pikeun pos-stratifikasi naek, asumsi diperlukeun pikeun ngarojong eta jadi leuwih wajar. Dibikeun kanyataan ieu, jigana kawas panalungtik bakal hoyong nyieun jumlah badag grup pikeun pos-stratifikasi. Tapi, salaku jumlah golongan nambahan, panalungtik ngajalankeun kana masalah beda: sparsity data. Lamun aya ngan sajumlah leutik jalma dina unggal grup, mangka taksiran bakal leuwih pasti, sarta dina kasus ekstrim mana aya group nu boga responden, mangka post-stratifikasi lengkep ngarecah. Aya dua cara kaluar ti tegangan alamiah ieu antara plausibility of homogeneous- asumsi response-propensity-jero-grup jeung paménta pikeun ukuran sample akal dina unggal grup. Hiji pendekatan anu pindah ka model statistik leuwih canggih pikeun ngitung beurat jeung lain pikeun ngumpulkeun a badag, leuwih rupa-rupa sample, nu mantuan mastikeun ukuran sample akal dina unggal grup. Jeung, sakapeung panalungtik ngalakukeun duanana, salaku Abdi gé ngajelaskeun leuwih jéntré di handap.

A tinimbangan kadua lamun gawé bareng post-stratifikasi ti sampel non-probability nyaeta anggapan homogen-response-propensity-jero-grup geus remen dijieun lamun analisa sampel probability. Alesan anu asumsi ieu diperlukeun pikeun sampel probability dina praktekna nu sampel probability geus non-response, sarta metoda nu paling umum pikeun nyaluyukeun pikeun non-response nyaéta post-stratifikasi sakumaha ditétélakeun di luhur. Tangtu, ngan sabab loba panalungtik nyieun asumsi tangtu teu mean nu kudu ngalakukeun hal eta teuing. Tapi, eta teu mean lamun ngabandingkeun sampel non-probability ka sampel probability dina prakna, urang kudu tetep dina pikiran kadua gumantung kana asumsi jeung inpo bantu dina raraga ngahasilkeun perkiraan. Dina setélan paling realistis, aya ngan saukur no pendekatan asumsi-Luncat ka inferensi.

Ahirna, lamun ngeunaan miara hiji estimasi hususna-di conto pangangguran urang laju-mangka anjeun kudu kaayaan lemah ti asumsi homogen-response-propensity-jero-grup. Husus, Anjeun teu kudu nganggap yen dulur geus response propensity sarua, Anjeun ngan kudu nganggap yen aya korelasi antara response propensity jeung laju pangangguran dina unggal grup. Tangtu, malah kaayaan lemah ieu moal tahan dina sababaraha kaayaan. Contona, ngabayangkeun estimasi saimbang Amerika nu ngalakukeun pagawean volunteer. Lamun jalma anu ngalakukeun pagawean volunteer nu leuwih dipikaresep pikeun satuju dina survey, mangka panalungtik bakal sistematis leuwih-estimasi jumlah volunteering, sanajan maranehna ngalakukeun pangaluyuan post-stratifikasi, hasil nu geus nunjukkeun émpiris ku Abraham, Helms, and Presser (2009) .

Salaku mah ceuk tadi, sampel non-probability nu ditempo jeung skepticism gede ku élmuwan sosial, sabagian alatan peranna dina sababaraha gagal paling ngerakeun dina poé awal panalungtikan survey. A conto jelas sabaraha jauh urang geus datang jeung sampel non-probability nyaéta panalungtikan Wei Wang, David Rothschild, Sharad Goel, jeung Andrew Gelman nu bener pulih hasil tina pamilihan 2012 US ngagunakeun sampel non-probability pamaké American Xbox -a sampel decidedly non-random Amerika (Wang et al. 2015) . Para panalungtik direkrut responden ti sistim kaulinan Xbox, sarta anjeun bisa ngaharepkeun, sampel Xbox skewed jalu jeung skewed ngora: 18 - olds 29 taun nyieun up 19% tina electorate tapi 65% tina sampel Xbox jeung lalaki make up 47% tina electorate jeung 93% tina Xbox sampel (Gambar 3.4). Kusabab ieu biases demografi kuat, data Xbox atah ieu indikator goréng tina mulih pamilihan. Ieu diprediksi meunangna kuat pikeun Mitt Romney leuwih Barack Obama. Sakali deui, ieu conto sejen tina bahaya atah, sampel non-probability unadjusted sarta reminiscent tina fiasco Literary Digest.

Gambar 3.4: Démografi responden di Wang et al. (2015) . Sabab responden direkrut ti Xbox, maranéhanana éta leuwih gampang jadi ngora jeung leuwih gampang jadi jalu, relatif ka pamilih dina pamilihan 2012.

Tapi, Wang sareng kolega éta sadar masalah ieu jeung nyoba beurat responden pikeun ngabenerkeun pikeun prosés sampling. Dina sababaraha hal, maranehna dipake bentuk leuwih canggih tina post-stratifikasi mah ka Anjeun tentang. Eta sia diajar saeutik leuwih ngeunaan pendekatan maranéhanana sabab ngawangun intuisi ngeunaan pos-stratifikasi, sarta vérsi nu tangtu Wang sareng kolega anu dipaké nyaéta salah sahiji deukeut paling seru ka sampel non-probability weighting.

Dina conto basajan urang ngeunaan estimasi pangangguran di Bagéan 3.4.1, urang dibagi populasi kana golongan dumasar kana kaayaan tempatna. Dina jelas, Wang sareng kolega dibagi populasi kana kana 176.256 grup diartikeun ku: gender (2 kategori), balap (4 kategori), umur (4 kategori), atikan (4 kategori), kaayaan (51 kategori), ID pihak (3 kategori), idéologi (3 kategori) jeung 2008 sora (3 kategori). Jeung golongan nu leuwih lengkep, panalungtik ngaharepkeun nu bakal beuki dipikaresep nu dina unggal grup, response propensity ieu taya hubungan jeung pangrojong pikeun Obama. Next, tinimbang diwangun beurat individu-tingkat, saperti urang teu di conto urang, Wang sareng kolega dipaké modél kompléks ka estimasi saimbang jalma dina unggal grup nu bakal ngajawab pikeun Obama. Ahirna, maranehna digabungkeun perkiraan group ieu pangrojong jeung ukuran dipikawanoh unggal grup pikeun ngahasilkeun hiji tingkat sakabéh ditaksir pangrojong. Dina basa sejen, maranehna dicincang nepi populasi kana kelompok beda, diperkirakeun pangrojong pikeun Obama dina unggal grup, terus nyandak rata rata tina perkiraan grup pikeun ngahasilkeun hiji estimasi sakabéh.

Ku kituna, tangtangan gedé di pendekatan maranéhanana nyaéta pikeun estimasi pangrojong pikeun Obama dina unggal 176.256 grup ieu. Sanajan panel maranéhanana kaasup 345.858 pamilon unik, sajumlah badag ku standar polling pamilihan, aya loba, loba grup nu Wang sareng kolega geus ampir euweuh responden. Ku alatan éta, keur estimasi pangrojong dina unggal grup maranehna dipaké téhnik nu disebut regression multilevel jeung post-stratifikasi, nu panalungtik affectionately nelepon Mr. P. Intina, keur estimasi pangrojong pikeun Obama dina hiji grup husus, Mr. P. pools inpo ti loba raket grup patali. Contona, anggap tangtangan estimasi pangrojong pikeun Obama antara awewe, Hispanics, antara kolot 18-29 taun, anu lulusan kuliah, anu kadaptar Demokrat, nu timer ngaidentipikasi salaku moderates, jeung nu milih pikeun Obama dina 2008. Ieu nyaeta grup pisan, pisan husus, sarta mungkin nu aya taya sahijieun dina sampel jeung ciri ieu. Ku alatan éta, nyieun perkiraan ngeunaan ieu grup, Mr. P. pools babarengan ngira-ngira ti jalma di grup sarupa pisan.

Maké strategi analisis ieu, Wang sareng kolega éta bisa make Xbox sampel non-probability pisan raket estimasi pangrojong sakabéh nu Obama meunang dina pamilihan 2012 (Gambar 3,5). Dina kanyataan perkiraan maranéhanana éta leuwih akurat ti hiji agrégat tina jajal pamanggih umum. Ku kituna, dina kasus ieu, weighting-husus Mr. P.-jigana mun pakasaban alus koréksi nu biases dina data non-probability; biases anu katempo lamun kasampak di perkiraan tina data Xbox unadjusted.

Gambar 3,5: ngira-ngira ti Wang et al. (2015) . sampel Xbox Unadjusted dihasilkeun perkiraan taliti. Tapi, sampel Xbox rata dihasilkeun perkiraan anu leuwih akurat ti rata-rata survey telepon basis probability.

Aya dua palajaran utama ti ulikan Wang sareng kolega. Kahiji, unadjusted sampel non-probability bisa ngakibatkeun perkiraan bad; ieu palajaran nu loba panalungtik geus kadéngé saméméhna. Sanajan kitu, palajaran kadua nyaeta sampel non-probability, lamun weighted bener, bisa sabenerna ngahasilkeun perkiraan cukup alus. Kanyataanna, perkiraan maranéhanana éta leuwih akurat tinimbang perkiraan ti pollster.com, hiji aggregation leuwih jajal pamilihan tradisional.

Ahirna, aya watesan penting naon bisa we diajar ti hiji ulikan husus ieu. Ngan sabab post-stratifikasi digawé ogé dina kasus husus ieu, teu aya jaminan yén nagara éta bakal digawe oge dina kasus séjén. Kanyataanna, pamilu nu sugan salah sahiji setélan panggampangna sabab pollsters geus nalungtik pamilu pikeun ampir 100 taun, aya feedback biasa (urang bisa nempo anu ngéléhkeun pamilu), jeung idéntifikasi pihak jeung ciri demografi anu kawilang prediksi voting. Dina titik ieu, urang kakurangan teori padet jeung pangalaman empiris nyaho lamun weighting pangaluyuan ka sampel non-probability bakal ngahasilkeun perkiraan sahingga akurat. Hiji hal anu jelas kitu, lamun kapaksa pikeun digawe sareng sampel non-probability, mangka aya alesan kuat percaya perkiraan disaluyukeun bakal leuwih hade tinimbang perkiraan non-disaluyukeun.