गणितीय नोट्स

हे भाषांतर संगणक तयार केले होते. ×

गणितीय नोट्स

या परिशिष्टात, मी थोडक्यात अधिक गणितीय स्वरूपात अध्याय मधील काही कल्पनांचे वर्णन करू. सर्वेक्षण संशोधकांनी वापरलेल्या नोटेशन आणि गणितीय फ्रेमवर्कबद्दल आपल्याला सहज मदत करण्यासाठी हे लक्ष्य आहे जेणेकरुन आपण या विषयावर लिहिलेल्या काही अधिक तांत्रिक सामग्रीमध्ये बदल करू शकता. मी संभाव्यता नमूना सादर करून सुरू करू, नंतर गैरप्रतिसाद सह संभाव्यता नमूना हलवा, आणि शेवटी, गैर-संभाव्यता नमूना

संभाव्यता नमूना

परिपुर्ण उदाहरण म्हणून, अमेरिकेत बेरोजगारीच्या दराचे अनुमान काढण्याचे उद्दीष्ट विचारात घेऊया. लक्ष्यित लोकसंख्या असू द्या आणि $y_k$ व्यक्तीसाठी परिणाम वेरीयेबलच्या मूल्याने $k$ ला $U = \{1, \ldots, k, \ldots, N\}$ द्या $U = \{1, \ldots, k, \ldots, N\}$ असू द्या. या उदाहरणात $y_k$ हे आहे की व्यक्ती $k$ बेरोजगार आहे. शेवटी, $F = \{1, \ldots, k, \ldots, N\}$ फ्रेम लोकसंख्या असू द्या, जे साधेपणाच्या फायद्यासाठी लक्ष्य लोकसंख्येप्रमाणेच असेल असे मानले जाते.

मूलभूत नमुना डिझाईन हे पुनर्स्थित न करता सहज यादृच्छिक नमूने आहे. या प्रकरणात, प्रत्येक व्यक्तीस नमुन्यामध्ये $s = \{1, \ldots, i, \ldots, n\}$ समाविष्ट होण्याची तितकेच शक्यता असते. जेव्हा या सॅम्पलिंग डिझाईनसह डेटा गोळा केला जातो, तेव्हा संशोधक लोकसंख्येच्या बेरोजगारीच्या दरास नमुना मानू शकतात:

$\hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)$

जेथे $\bar{y}$ लोकसंख्येमधील बेरोजगारी दर आहे आणि $\hat{\bar{y}}$ बेरोजगारी दराचा अंदाज आहे ( $\hat{ }$ सामान्यतः अंदाजपत्रक सूचित करण्यासाठी वापरले).

प्रत्यक्षात, संशोधक पुनर्स्थापनेसाठी क्वचितच सरळ यादृच्छिक नमूने वापरतात. विविध कारणांसाठी (ज्यापैकी एक मी एका क्षणात वर्णन करतो), संशोधक बर्याचदा समावेश केलेल्या असमान संभाव्यतेसह नमुने तयार करतात. उदाहरणार्थ, संशोधक कॅलिफोर्नियातील लोकांपेक्षा फ्लोरिडातील लोकांना निवडण्याची जास्त शक्यता मानू शकतात. या प्रकरणात, नमुना अर्थ (ईक 3.1) हे चांगले अंदाजक नसावे. त्याऐवजी, समावेश केल्याच्या असमान संभाव्यता नसल्यास, संशोधक वापरतात

$\hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)$

जेथे $\hat{\bar{y}}$ बेरोजगारी दराचा अंदाज आहे आणि $\pi_i$ ही व्यक्ती $i$ च्या समावेशाची संभाव्यता आहे. खालील मानक सराव, मी eq मध्ये अंदाजकर्ता कॉल करू. हॉर्वित्झ-थॉम्पसन अंदाजपत्रक 3.2. हॉरविट्झ-थॉम्पसन अंदाजपत्रक अत्यंत उपयुक्त आहे कारण हे कोणत्याही संभाव्यता नमूनाकरण डिझाइनसाठी (Horvitz and Thompson 1952) निःपक्षपाती अंदाज घेते. हॉर्वित्झ-थॉम्पसन अंदाजपत्रक इतक्या वारंवार येतो म्हणून, हे लक्षात येईल की हे पुन्हा लिहीले जाऊ शकते

$\hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)$

जेथे $w_i = 1 / \pi_i$ . ईक म्हणून 3.3 प्रकट करतो, हॉर्वित्झ-थॉम्पसन अंदाजपत्रक एक भारित नमूना आहे जेथे वेट्स निवडीच्या संभाव्यतेशी व्यस्त असतात. दुस-या शब्दात सांगायचे तर, एखाद्या व्यक्तीला नमुनामध्ये समाविष्ट करणे जितके कमी होते तितके अधिक वजन त्या व्यक्तीच्या अंदाजापेक्षा जास्त असावे.

आधी वर्णन केल्याप्रमाणे, संशोधक बर्याचदा समाजात असमान संभाव्यतेबद्दल लोकांना नमुना देतात. समाविष्ट केलेल्या असमान संभाव्यतेची कारणे बनविणार्या डिझाइनचे एक उदाहरण म्हणजे स्तरीकृत नमूने , जे समजून घेणे महत्त्वाचे आहे कारण ते पोस्ट-स्टेराफिकेशन नावाच्या अंदाज प्रक्रियेशी जवळून संबंधित आहे. स्तरीकृत सॅम्पलिंग मध्ये, संशोधक लक्ष्य लोकसंख्या $H$ रे $H$ परस्पर अनन्य आणि संपूर्ण गटांमध्ये विभाजन करतात. या गटांना स्ट्रेट असे म्हटले जाते आणि त्यास $U_1, \ldots, U_h, \ldots, U_H$ असे सूचित केले जाते. या उदाहरणात, स्ट्रेट्स हे राज्य आहेत. गटांची आकार $N_1, \ldots, N_h, \ldots, N_H$ असे दर्शविले जाते. बेकारीच्या राज्य-स्तरीय अंदाजानुसार प्रत्येक राज्यातील पुरेसे लोक असल्याची खात्री करण्यासाठी एक संशोधनकर्ता स्तरीकृत नमूना वापरू शकतो.

एकदा लोकसंख्या स्तरावर विभाजित केली गेल्यानंतर असे गृहीत धरा की संशोधक स्वतंत्रपणे प्रत्येक $n_h$ आकारमान $n_h$ न बदलता एक साधे यादृच्छिक नमुना निवडतो. पुढे असे गृहित धरू की नमुन्यात निवडलेला प्रत्येकजण प्रतिवादी (मी पुढील विभागात गैर-प्रतिसाद हाताळू शकते) बनतो. या प्रकरणात, समावेश संभाव्यता आहे

$\pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)$

कारण हे संभाव्यता प्रत्येकाशी बदलू शकते, कारण या नमूना डिझाइनवरून अंदाजे अंदाज करतांना, संशोधकांना प्रत्येक प्रतिवादीला हॉर्वित्झ-थॉम्पसन अंदाजपत्रक (ईक. 3.2) वापरून समाविष्ट करण्याची संभाव्य शक्यता व्युत्पन्न करण्याची आवश्यकता आहे.

हॉर्वित्झ-थॉम्पसन अंदाजपत्रक निःपक्षपाती असला तरीही संशोधक अधिक तपशीला (म्हणजे, खालच्या फरकासह) सापेक्ष माहितीसह सॅम्पल एकत्रित करून अंदाज लावू शकतात . काही लोकांना हे आश्चर्यकारक वाटते की हे अगदी खरे आहे जेव्हा संभाव्यता नमूना पूर्ण करणे योग्य असते तेव्हा देखील हे खरे आहे. सहायक माहितीचा उपयोग करून ही पद्धत विशेषतः महत्वाची आहे कारण जेव्हा मी नंतर दर्शवेल, संभाव्यता नमुन्यांना नॉन-पर्स्पॅनसह आणि गैर-संभाव्यता नमुन्यांपासून अंदाज तयार करण्यासाठी सहायक माहिती महत्वपूर्ण आहे.

पूरक माहितीचा उपयोग करण्यासाठी एक सामान्य तंत्र हे पोस्ट स्तरीकरण आहे . कल्पना करा, उदाहरणार्थ, एका संशोधकाने 50 राज्यातील प्रत्येक स्त्री आणि पुरुषांची संख्या; आम्ही या समूहाचे आकार $N_1, N_2, \ldots, N_{100}$ . नमुनासह या सहायक माहितीचा एकत्रितपणे अभ्यास करण्यासाठी शोधक नमुना $H$ गटांना (या प्रकरणात 100) विभाजित करू शकता, प्रत्येक गटासाठी अंदाज तयार करा, आणि नंतर या गटांचा एक भारित सरासरी तयार करा म्हणजे:

$\hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)$

साधारणतः, ईक मधील अंदाजपत्रक. 3.5 अधिक अचूक असण्याची शक्यता आहे कारण ती ज्ञात लोकसंख्या $N_h$ चा वापर $N_h$ योग्य अंदाज अचूक असावे की जर एक असमतोल नमुना निवडला गेला तर. याचा विचार करण्याचा एक मार्ग आहे की पोस्ट-स्टेराटीफिकेशन डेटा आधीपासूनच संकलित केल्यानंतर स्तरीकरण अंदाजे आहे.

शेवटी, या विभागात काही नमूनाकृतींचे वर्णन केले आहे: प्रतिस्थापकांशिवाय सोपे नमुने नमूनाकरण, असमान संभाव्यतेसह नमूनाकरण आणि स्तरीकृत नमूना यामध्ये अंदाजे दोन मुख्य कल्पना देखील आहेत: हॉर्वित्झ-थॉम्पसन अंदाजपत्रक आणि पोस्ट स्तरीकरण संभाव्यता नमूनाकरण डिझाईन्सची अधिक औपचारिक व्याख्यासाठी, Särndal, Swensson, and Wretman (2003) अध्याय 2 पहा. स्तरीकृत Särndal, Swensson, and Wretman (2003) अधिक औपचारिक आणि संपूर्ण उपचारांसाठी, Särndal, Swensson, and Wretman (2003) सेक्शन 3.7 पाहा. हॉर्वित्झ-थॉम्पसनच्या अंदाजपत्रकाचे गुणधर्म विवरण म्हणून Horvitz and Thompson (1952) Overton and Stehman (1995) किंवा @ सरंडल_मॉडेल_2003 चे खंड 2.8 पोस्ट-स्तरीकरणच्या अधिक औपचारिक प्रक्रियेसाठी, Holt and Smith (1979) , Smith (1991) , Little (1993) , किंवा Särndal, Swensson, and Wretman (2003) कलम 7.6 Särndal, Swensson, and Wretman (2003) .

Nonresponse सह संभाव्य नमूना

जवळपास सर्व खर्या सर्वेक्षणात नॉन प्रॉस्पेक्शन आहे; म्हणजे, नमुना मध्ये प्रत्येकजण प्रत्येक प्रश्नाचे उत्तर देत नाही. दोन मुख्य प्रकारचे nonresponse आहेत: आयटम गैर-प्रतिक्रिया आणि एकक गैर-उत्तरदायित्व गैर-प्रतिक्रियेच्या आयटममध्ये, काही प्रतिसाददार काही आयटमचे उत्तर देत नाहीत (उदा., कधीकधी प्रतिसादकांना ते प्रश्नांना उत्तरे देऊ नयेत जे ते संवेदनशील मानतात). युनिट नॉन पर्स्पान्समध्ये, नमुना लोकसंख्येसाठी निवडलेल्या काही लोकांना सर्वेक्षणानुसार प्रतिसाद देत नाही. युनिट नॉन पर्स्पेन्ससाठी दोन सर्वात सामान्य कारण म्हणजे नमुना असलेल्या व्यक्तीशी संपर्क साधता येत नाही आणि नमुना व्यक्तीशी संपर्क साधला जातो परंतु भाग घेण्यास नकार दिला जातो. या विभागात, मी युनिट गैर-प्रतिक्रियांवर लक्ष केंद्रित करेल; आयटम nonresponse रस वाचकांना लिटल आणि Rubin (2002) पहावे.

संशोधक बहुतेकदा दोन-स्टेज नमुना प्रक्रिया म्हणून युनिट नॉन-रिस्पॉन्ससह सर्वेक्षणाबद्दल विचार करतात. पहिल्या टप्प्यात, संशोधक एक नमुना $s$ निवडतो ज्यात प्रत्येक व्यक्तीस समावेश करण्याची संभाव्यता आहे $\pi_i$ (जिथे $0 < \pi_i \leq 1$ ). नंतर, दुसर्या टप्प्यात, जे लोक नमुना मध्ये निवडलेले आहेत ते संभाव्यता $\phi_i$ (जिथे $0 < \phi_i \leq 1$ ) सह प्रतिसाद देतात. या दोन-स्तरीय प्रक्रियेचा परिणाम सर्वेक्षणाच्या अंतिम सेटमध्ये होतो $r$ या दोन टप्प्यांमध्ये एक महत्त्वपूर्ण फरक असा आहे की संशोधक नमुना निवडण्याच्या प्रक्रियेवर नियंत्रण करतात, परंतु त्यापैकी कोणते नमूने लोक प्रतिसाद देत नाहीत यावर नियंत्रण ठेवत नाही. या दोन प्रक्रिया एकत्र ठेवल्यास, एखाद्या व्यक्तीला प्रतिवादी असेल अशी शक्यता

$pr(i \in r) = \pi_i \phi_i \qquad(3.6)$

साधेपणाच्या फायद्यासाठी, मी या प्रकरणाचा विचार करतो जेथे मूळ नमुना डिझाईन पुनर्स्थापनेशिवाय सरळ यादृच्छिक नमूने आहे. संशोधक $n_s$ आकाराचे एक नमुना $n_s$ $n_r$ उत्तरदायित्व उत्पन्न करतात आणि जर संशोधक प्रतिसाद देत नसले आणि उत्तरदाताओंचे मध्य वापरत नसतील तर अनुमानाचा पूर्वाभिमुख असेल:

$\mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)$

जेथे $cor(\phi, y)$ प्रतिसाद प्रजनन आणि परिणाम (उदा. बेकारी स्थिती) दरम्यान लोकसंख्या सहसंबंध आहे, $S(y)$ परिणामी लोकसंख्या प्रमाणित विचलन आहे (उदा. बेरोजगारी स्थिती), $S(\phi)$ म्हणजे प्रतिसाद प्रक्षेत्राची लोकसंख्या प्रमाणित विचलन, आणि $\bar{\phi}$ ही लोकसंख्या सरासरी प्रतिसादाची प्रवृत्ती आहे (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Eq. 3.7 वर असे नमूद केले आहे की खालीलपैकी कोणत्याही अटी पूर्ण झाल्या असल्यास गैर-प्रतिक्रिया पूर्वाग्रह सादर करणार नाही:

बेरोजगारीच्या स्थितीमध्ये फरक नाही $(S(y) = 0)$ .
प्रतिसादात्मकतांमध्ये फरक नाही $(S(\phi) = 0)$ .
प्रतिसाद प्रजनन आणि बेकारी स्टेटसमध्ये कोणताही परस्पर संबंध नाही $(cor(\phi, y) = 0)$ .

दुर्दैवाने, यापैकी कोणतीही परिस्थिती असंभवनीय वाटत नाही. हे असंभावनीय आहे की रोजगाराच्या स्थितीत काही फरक पडणार नाही किंवा प्रतिसादप्रक्रियेत कोणताही बदल होणार नाही. अशाप्रकारे, ईक मधील प्रमुख पद 3.7 हे सहसंबंध आहे: $cor(\phi, y)$ . उदाहरणार्थ, जे लोक बेरोजगार आहेत त्यांना प्रतिसाद देण्याची अधिक शक्यता असते, तर अंदाजे रोजगाराची दर वाढीव असेल.

गैर-प्रतिक्रांती नसताना अंदाज तयार करण्यासाठी युक्ती सहायक माहिती वापरणे आहे. उदाहरणार्थ, आपण सहायक माहिती वापरू शकता असे एक मार्ग म्हणजे पोस्ट स्तरीकरण (उपरोक्त किंमत 3.5 चोरणे). हे पोस्ट-स्तरीकरण अंदाजपत्रकाचे पूर्वाभिमुख आहे हे उघड होते:

$bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)$

$cor(\phi, y)^{(h)}$ , $S(y)^{(h)}$ , $S(\phi)^{(h)}$ , आणि $\bar{\phi}^{(h)}$ वरील प्रमाणे परिभाषित केले आहेत परंतु गट $h$ (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . अशा प्रकारे, प्रत्येक पोस्ट-स्तरीकरण गटात लहान असेल तर संपूर्ण पूर्वाभिमुख असेल. प्रत्येक पोस्ट-स्टेराटिफिकेशन गटातील पूर्वाभिमुख बनविण्यासाठी मला दोन मार्ग आहेत. प्रथम, आपण एकसंध गट तयार करण्याचा प्रयत्न करू इच्छितो जेथे प्रतिसाद प्रजनन ( $S(\phi)^{(h)} \approx 0$ ) आणि परिणाम ( $S(y)^{(h)} \approx 0$ ). दुसरे म्हणजे, आपण गट तयार करू इच्छित आहात जिथे आपण पाहत आहात ते लोक असे लोक असतात जे आपण पाहू शकत नाहीत ( $cor(\phi, y)^{(h)} \approx 0$ ). तुलना ईक. 3.7 आणि ईक. 3.8 पोस्ट-स्तरीकरण गैर-प्रतिक्रियेमुळे पक्षपातीपणा कमी करू शकते तेव्हा स्पष्ट करण्यास मदत करते.

शेवटी, या विभागात गैर-प्रतिसादांसह संभाव्यता नमूनासाठी एक मॉडेल प्रदान केले आहे आणि पूर्वाभिमुखता दर्शविणारी पूर्वाभिणाम म्हणजे पोस्ट-स्तरीकरण ऍडजस्टमेंटशिवाय आणि पोस्टर दोन्हीसह परिचय होऊ शकते. Bethlehem (1988) अधिक सामान्य सॅम्पलिंग डिझाईन्ससाठी गैर-प्रतिक्रियेमुळे निर्माण झालेल्या पूर्वाभिमुखतेची व्युत्पत्ति देते. गैर-प्रतिक्रियेसाठी समायोजित करण्यासाठी पोस्ट-स्तरीकरण वापरण्याबद्दल अधिक माहितीसाठी, Smith (1991) आणि Gelman and Carlin (2002) . स्लेट-स्तरीकरण तंत्रज्ञानाच्या अधिक सामान्य कुटुंबाचा भाग आहे ज्याचे नाव आहे कॅलिब्रेशन Särndal and Lundström (2005) पुस्तक-लांबीच्या उपचारांसाठी लेख-लांबीचे उपचार आणि Särndal and Lundström (2005) साठी झांग (2000) आहेत. गैर Kalton and Flores-Cervantes (2003) प्रतिक्रियेसाठी समायोजित करण्याच्या अन्य इतर पद्धतींवर अधिक माहितीसाठी Kalton and Flores-Cervantes (2003) , Brick (2013) , आणि Särndal and Lundström (2005) .

गैर-संभाव्यता नमूने

गैर-संभाव्यता नमूनामध्ये प्रचंड डिझाइनचा समावेश आहे (Baker et al. 2013) . वांग आणि सहकाऱ्यांनी (W. Wang et al. 2015) द्वारे एक्सबॉक्स वापरकर्त्यांच्या नमुन्यावर विशेषतः लक्ष केंद्रित करणे, आपण असे नमुन्याचे असे विचार करू शकता जेथे $\pi_i$ मुख्य भाग $\pi_i$ ( $\phi_i$ -चालणारी संभाव्यता) परंतु $\phi_i$ (उत्तरदायी-प्रतिसादित प्रतिसाद गुणधर्म). स्वाभाविकच, हे आदर्श नाही कारण $\phi_i$ अज्ञात आहेत. पण, वॅंग आणि त्यांचे सहकाऱ्यांनी दाखविलेल्याप्रमाणे, अशा प्रकारची ऑप्टिकल नमुना - अगदी मोठ्या प्रमाणावर कव्हरेज त्रुटींसह एक नमूना चौकटीतूनही - संकटग्रस्त नसल्यास संशोधकांना चांगली माहिती आणि या समस्यांसाठी खातेवार चांगले मॉडेल दिले जाते.

Bethlehem (2010) गैर-प्रतिक्रिया आणि कव्हरेज त्रुटी यासह दोन्हीमध्ये पोस्ट-स्तरीकरण बद्दल वरील अनेक व्युत्पन्न करतो. पोस्ट-स्ट्रॅटीफिकेशन व्यतिरिक्त, गैर-संभाव्यतेच्या नमुने-आणि संभाव्यता नमुनेसह कव्हरेज चुका आणि नॉन- (Ansolabehere and Rivers 2013; ??? ) -नमुना जुळणी (Ansolabehere and Rivers 2013; ??? ) , (Ansolabehere and Rivers 2013; ??? ) स्कोर वेटिंग (Lee 2006; Schonlau et al. 2009) , आणि कॅलिब्रेशन (Lee and Valliant 2009) . या तंत्रामध्ये एक सामान्य थीम म्हणजे पूरक माहितीचा वापर.