Matematik qaydlar

Bu tarjima kompyuter tomonidan yaratilgan. ×

Matematik qaydlar

Ushbu ilovada men bir nechta g'oyalarni biroz ko'proq matematik shaklda tasvirlab beraman. Bu erda, siz ushbu tadqiqot mavzusida yozilgan ayrim texnik materiallarga o'tishingiz uchun siz tadqiqotchi tadqiqotchilar tomonidan qo'llaniladigan matematik ramka va eslatmaga ega bo'lishingizga yordam berishdan iboratdir. Imkoniyatlarni tanlab olishni boshlash bilan boshlayman, keyin javobsizlik bilan probability sampleing ga o'taman va nihoyat, ehtimolliksiz namuna olishni boshlayman.

Ehtimollik namunasi

Ishlayotgan misol sifatida, Qo'shma Shtatlardagi ishsizlik darajasini baholash maqsadini ko'rib chiqaylik. $U = \{1, \ldots, k, \ldots, N\}$ maqsad populyatsiya bo'lsin va $y_k$ shaxs uchun $k$ natija o'zgaruvchisi qiymati bilan ruxsat beramiz. Ushbu misolda $y_k$ shaxs $k$ $y_k$ . Nihoyat, soddalik uchun maqsadli aholi bilan bir xil bo'lgan varsayılmak uchun, $F = \{1, \ldots, k, \ldots, N\}$ bo'lsin.

Asosiy namunaviy loyiha - oddiy tasodifiy tanlov. Bunday holatda, har bir kishi misol uchun $s = \{1, \ldots, i, \ldots, n\}$ teng bo'lishi mumkin. Ma'lumotlar ushbu namunaviy loyiha bilan to'planganda, tadqiqotchilar aholining ishsizlik darajasi namunadagi o'rtacha qiymatini baholashlari mumkin:

$\hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)$

Bu erda $\bar{y}$ aholining ishsizlik darajasi va $\hat{\bar{y}}$ ishsizlik darajasi taxminiyligi ( $\hat{ }$ odatda bir taxminchini ko'rsatish uchun ishlatilgan).

Aslida, tadqiqotchilar kamdan-kam hollarda oddiy tasodifiy namunani almashtirishsiz ishlatishadi. Turli sabablarga ko'ra (ulardan ba'zilari bir lahzada tasvirlab beraman), tadqiqotchilar ko'pincha qo'shilishning teng bo'lmagan ehtimoli bo'lgan namunalar yaratadilar. Misol uchun, tadqiqotchilar Kaliforniyadagi odamlarga nisbatan ko'proq ehtimollik bilan Florida shtatidagi odamlarni tanlashlari mumkin. Bunday holda, namuna o'rtacha (3.1-gachasi), yaxshi baholash mumkin emas. Buning o'rniga, inklyuzivlikning tengsizlik ehtimoli mavjud bo'lganda, tadqiqotchilar foydalanadi

$\hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)$

Bu erda $\hat{\bar{y}}$ ishsizlik darajasi taxminiyligi va $\pi_i$ - shaxsning $i$ ning kiritish ehtimoli. Standart amaliyotga amal qilgandan so'ng, men hisoblovchini tengdek chaqiraman. Horvits-Tompsonning taxminchisi. Horvits-Tompsonning baholashi juda foydalidir, chunki u har qanday ehtimollik namunasi loyihalash uchun xolis baholashga olib keladi (Horvitz and Thompson 1952) . Horvits-Tompson tahminchisi tez-tez kelib chiqqani uchun, uni qayta yozib olishni

$\hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)$

qaerda $w_i = 1 / \pi_i$ . Eq. 3.3 ga binoan, Horvits-Tompsonning hisoblagichi og'irliklar tanlov ehtimoli bilan bog'liq bo'lgan og'irlikdagi namunadir. Boshqacha qilib aytganda, insonning namunasiga kamroq ehtimollik bilan kirishi, bu odamning smeta ichida qanchalik og'irligi bo'lishi kerak.

Yuqorida aytib o'tilgandek, tadqiqotchilar ko'pincha odamlarni inklyuziya imkoniyatlarining tengsizligi bilan taqqoslashadi. Inklyuzivlikning teng bo'lmagan ehtimollariga olib keladigan dizayning bir misoli, tabaqalashtirilgan namunadir , bu tushunish uchun muhimdir, chunki u post-tabakalaştırma deb atalgan baholash usuli bilan chambarchas bog'liq. Stratifikatsiyalangan namuna olishda tadqiqotchi maqsadli populyatsiyani $H$ o'zaro eksklyuziv va to'liq guruhlarga ajratadi. Ushbu guruhlar qatlam deb ataladi va $U_1, \ldots, U_h, \ldots, U_H$ . Ushbu misolda qatlamlar holatlardir. Guruhlarning kattaligi $N_1, \ldots, N_h, \ldots, N_H$ . Tadqiqotchi davlat darajasida ishsizlik darajasini baholash uchun har bir davlatda etarli odamlari borligiga ishonch hosil qilish uchun tabaqalashtirilgan namunalarni qo'llashni istashi mumkin.

Aholi qatlamlarga bo'linib bo'lgach, tadqiqotchi har bir qatlamdan qat'i nazar $n_h$ o'zgarishsiz oddiy tasodifiy $n_h$ . Bundan tashqari, tanlovda tanlangan har bir kishi respondent bo'lib qoladi deb hisoblayman (keyingi qismda javob bermayman). Bunday holda, kiritish ehtimoli

$\pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)$

Ushbu ehtimolliklar insondan shaxsga farq qilishi mumkinligi sababli, ushbu namunaviy loyihani baholashda tadqiqotchilar har bir respondentni Horvits-Tompson prognozi (ekv. 3.2) yordamida kiritish ehtimoli bo'yicha teskari ta'sir qilishlari kerak.

Horvits-Tompsonning baholashi xolis bo'lsa-da, tadqiqotchilar qo'shimcha ma'lumot bilan namunani birlashtirish yo'li bilan tadqiqotchilar aniqroq (ya'ni, kam farqlilik) bashoratlarni ishlab chiqishi mumkin. Ba'zi odamlar, bu juda yaxshi bajarilgan ehtimollik namunasi bo'lsa ham, bu haqiqatning ajablanarli joyi borligini topadi. Yordamchi ma'lumotlardan foydalanadigan ushbu texnika ayniqsa muhimdir, chunki keyinroq ko'rsatadiganimdek, yordamchi ma'lumotlar, ehtimollik misollari bilan javob bermasdan va ehtimollik bo'lmagan misollardan baholash uchun juda muhimdir.

Yordamchi ma'lumotlardan foydalanishning umumiy usullaridan biri post-stratifikatsiya hisoblanadi . Tasavvur qiling, masalan, tadqiqotchi 50 ta davlatning har birida erkaklar va ayollar sonini biladi; biz ushbu guruhning o'lchamlarini $N_1, N_2, \ldots, N_{100}$ sifatida ifodalashimiz mumkin. Ushbu yordamchi ma'lumotni namuna bilan birlashtirish uchun, tadqiqotchi namunani $H$ guruhlariga (bu holatda 100) ajratishi, har bir guruh uchun taxmin qilish va keyin ushbu guruh vositalarining og'irligi o'rtacha hosil qilishi mumkin:

$\hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)$

Shunga qaramay, taxminiy tenglik. 3.5, aniqroq ma'lumotga ega bo'lganligi sababli, ma'lum populyatsion ma'lumotni - $N_h$ - muvozanatsiz namunani tanlab olish uchun bashoratlarni tuzatish uchun ishlatishi mumkin. Bu haqda o'ylashning bir usuli shundan iboratki, post-stratifikatsiya ma'lumotlar yig'ilganidan keyin tabaqalanish taxminiyligiga o'xshaydi.

Natijada, ushbu bo'lim bir nechta namunalar loyihasini tasvirlab berdi: oddiy tasodifiy tanlov, almashtirishsiz, teng bo'lmagan ehtimollik bilan namuna olish va qatlamli namunalar. Shuningdek, u taxminan ikkita asosiy g'oyani ta'riflab berdi: Horvits-Tompsonning baholash va post-tabakalashtirish. Ehtimollik namunalarini olishni yanada aniqroq aniqlash uchun, Särndal, Swensson, and Wretman (2003) ning Särndal, Swensson, and Wretman (2003) bobiga qarang. Stratifikatsiyalangan namunalarni yanada rasmiy va to'liq davolash uchun Särndal, Swensson, and Wretman (2003) 3.7-bo'limiga qarang. Horvits-Tompson tahminchisining xususiyatlarini texnik tavsiflash uchun qarang: Horvitz and Thompson (1952) , Overton and Stehman (1995) yoki @ sarndal_model_2003 ning 2.8 qismi. Post-stratifikatsiyani rasmiylashtirish uchun Holt and Smith (1979) , Smith (1991) , Little (1993) yoki Särndal, Swensson, and Wretman (2003) 7.6 qismiga Särndal, Swensson, and Wretman (2003) .

Javob bermaslik ehtimoli namunasi

Deyarli barcha real anketalar javob bermaydi; Ya'ni har bir misol populyatsiyasida har bir savol javob bermaydi. Javob bermaslikning ikki asosiy turi mavjud: elementni javobsiz qoldirish va birlik javobsiz qolmaslik . Bevosita respondentlarning ayrimlari ba'zi narsalarga javob bermaydi (masalan, respondentlar sezgir deb hisoblaydigan savollarga javob berishni istamaydi). Birlik javobsiz qolganda, namuna aholi uchun tanlangan ayrim odamlar so'rovga umuman javob bermaydi. Jihozni javobsiz qoldirmaslikning ikkita sababi quyidagilardan iboratki, namunali shaxsga murojaat etilmaydi va namunali shaxsga murojaat qilinadi, lekin ishtirok etishni rad etadi. Ushbu bo'limda men birlikka javob bermayman; Maqola bo'yicha javob berishga qiziqmagan kitobxonlar Little va Rubin (2002) ko'rishi kerak.

Tadqiqotchilar tez-tez ikkita bosqichda namuna olish jarayoni sifatida birlamchi javobsiz tekshiruvlar haqida o'ylashadi. Dastlabki bosqichda tadqiqotchi har bir kishining $\pi_i$ ( $0 < \pi_i \leq 1$ qo'shilish ehtimoli borligi uchun $s$ namunasini tanlaydi. Keyin, ikkinchi bosqichda, $\phi_i$ tanlangan odamlar $0 < \phi_i \leq 1$ ehtimollik bilan javob $\phi_i$ . Ushbu ikki bosqichli jarayon oxirgi javob beruvchi guruhga ( $r$ . Ushbu ikki bosqich o'rtasida muhim farq, tadqiqotchilar namunani tanlab olish jarayonini nazorat qilishadi, ammo ular tanlangan kishilardan qaysi biri respondent bo'lishini nazorat qila olmaydi. Ushbu ikki jarayonni bir joyga to'plash, kimdir javob berishi mumkinligi

$pr(i \in r) = \pi_i \phi_i \qquad(3.6)$

Oddiylik uchun dastlabki namuna dizayni o'rniga oddiy tasodifiy tanlov bo'ladigan ishni ko'rib chiqaman. Tadqiqotchi respondentlarning $n_r$ $n_s$ hajmi $n_s$ hajmini tanlaydi va agar tadqiqotchi respondentlarning javoblarini e'tiborsiz qoldirib, respondentlarning o'rtacha qiymatini ishlatsa, unda quyidagi taxminlar bo'ladi:

$\mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)$

(masalan, ishsizlik holati), $S(y)$ natijasining populyatsiyaning standart og'ishishi (masalan, ishsizlik darajasi) o'rtasidagi munosabatlarning aholi o'rtasidagi nisbati $cor(\phi, y)$ $S(\phi)$ reaktsiyaga qarshi (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) populyatsion standart og'ishmasidir va $\bar{\phi}$ aholi (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) javob harakati (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Eq. 3.7 da, quyidagi shartlardan birontasi ro'yobga chiqsa, javob bermaslik qarama-qarshilikni keltirib chiqarmaydi:

Ishsizlik holatida o'zgarish yo'q $(S(y) = 0)$ .
Javob reaktsiyalarida o'zgarishlar mavjud emas $(S(\phi) = 0)$ .
Ta'sirchanlik va ishsizlik holati o'rtasidagi munosabatlar mavjud emas $(cor(\phi, y) = 0)$ .

Afsuski, ushbu shartlarning hech biri tuyulishi mumkin emas. Ish o'rinlari maqomida hech qanday o'zgarish bo'lmasligi yoki javob choralari o'zgarmasligi ko'rinmaydi. Shunday qilib, tenglikning asosiy atamasi. 3.7 - korrelyatsiya: $cor(\phi, y)$ . Misol uchun, agar ishsiz bo'lgan odamlar javob berishga ko'proq mos keladigan bo'lsa, unda ish bilan bandlikning hisob-kitob darajasi yuqoriligicha qoladi.

Bevosita javob bo'lmasa, bashorat qilish uchun yordamchi ma'lumotni ishlatishdir. Masalan, yordamchi axborotdan foydalanishning bir usuli - post-stratifikatsiya (yuqoridagi 3.5-rasmni esga oling). Ko'rinib turibdiki, post-tabakalaştırma tahmincisinin yanlılığı quyidagicha:

$bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)$

qaerda $cor(\phi, y)^{(h)}$ , $S(y)^{(h)}$ $S(\phi)^{(h)}$ va $\bar{\phi}^{(h)}$ yuqoridagi kabi belgilanadi, lekin $h$ guruhidagi odamlar bilan cheklangan (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Shunday qilib, har bir post-tabakalaştırma guruhidagi yanlılık juda kichik bo'lsa, umumiy yanlılık juda kichik bo'ladi. Har bir post-tabakalaşma guruhida kichiklik yaratish borasida o'ylashni yoqtiradigan ikki yo'l bor. Birinchidan, siz bir hil guruhlarni shakllantirishga harakat qilmoqchisiz, bu erda $S(\phi)^{(h)} \approx 0$ ) va natijalar ( $S(y)^{(h)} \approx 0$ ). Ikkinchidan, siz ko'rgan odamlar siz ko'rmagan odamlarga o'xshash guruhlar tashkil qilishni xohlaysiz ( $cor(\phi, y)^{(h)} \approx 0$ ). Eq. Solishtirish. 3.7 va teng. 3.8 post-stratifikatsiya javobsiz qolmaslik oqibatida yuzaga keladigan noto'g'ri ta'sirni kamaytirishi mumkinligini aniqlashga yordam beradi.

Natijada, ushbu bo'limda probasiz masalalar bo'yicha namuna olish uchun namuna yaratildi va javobsiz qolmasdan ham, keyinchalik va tabaqadan ajralib chiqadigan tuzatishlarni ham kiritishi mumkinligini ko'rsatdi. Bethlehem (1988) ko'proq umumiy namunaviy loyihalar uchun javob berishdan kelib chiqadigan noto'g'ri ma'lumotni taklif qiladi. Bevosita javob bermaslik uchun pater-stratifikatsiyadan foydalanish haqida ko'proq ma'lumot olish uchun qarang: Smith (1991) va Gelman and Carlin (2002) . Post-tabakalaştırma, kalibrlash tahmincileri deb nomlangan texniklarning umumiy umumiy qismining bir qismi bo'lib, uzun-uzunlikdagi davolanish uchun Zhang (2000) va Särndal and Lundström (2005) kitoblarini uzaytirish uchun qarang. Kalton and Flores-Cervantes (2003) uchun boshqa og'irliklarni aniqlash usullari haqida ko'proq ma'lumot olish uchun qarang: Kalton and Flores-Cervantes (2003) , Brick (2013) va Särndal and Lundström (2005) .

Imkoniyatsiz namuna olish

Imkoniyatlar bo'lmagan namunalar turli xil dizaynlarni o'z ichiga oladi (Baker et al. 2013) . Wang va uning hamkasblari (W. Wang et al. 2015) tomonidan Xbox foydalanuvchilari Xbox foydalanuvchilari misoliga alohida e'tibor qaratishingiz mumkin, masalan, namunaviy loyihaning asosiy qismi $\pi_i$ ( $\pi_i$ tadqiqotchi tomonidan kiritilgan ehtimollik), lekin $\phi_i$ (respondent tomonidan boshqariladigan javoblarning $\phi_i$ ). Tabiiyki, bu ideal emas, chunki $\phi_i$ noma'lum. Ammo, Vang va uning hamkasblari shuni ko'rsatdiki, tadqiqotchi yaxshi yordamchi ma'lumotga ega va ushbu muammolarni hisobga olish uchun yaxshi statistik modelga ega bo'lsa, hatto bunday qamrov doirasidagi xatoliklar bilan bir qatorda tanlab olish doirasidan tortib, bunday tanqidiy misolni keltirib chiqarmaslik kerak.

Bethlehem (2010) yuqorida aytilgan ko'plab qatlamlarni post-tabakalaşma haqida keng tarqalib, javob bermaydigan va qamrovli xatlarni o'z ichiga oladi. Post-stratifikatsiyadan tashqari, ehtimollik bo'lmagan namunalar bilan ishlov berishning boshqa usullari va qamrovi bo'yicha xatoliklarga ega bo'lish ehtimoli namunalari va (Ansolabehere and Rivers 2013; ??? ) , moyillik ko'rsatkichlari (Lee 2006; Schonlau et al. 2009) va kalibrlash (Lee and Valliant 2009) . Ushbu metodlar orasida umumiy mavzulardan biri - yordamchi axborotlardan foydalanish.