3.4.2 गैर संभावना नमूने: भार

यह बात एक कंप्यूटर द्वारा बनाया गया था। ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.2 गैर संभावना नमूने: भार

गैर संभावना नमूनों के साथ, भार ग्रहण नमूना लेने की प्रक्रिया की वजह से विकृतियों पूर्ववत कर सकते हैं।

एक ही तरीका है कि शोधकर्ताओं संभावना नमूनों से प्रतिक्रियाएं वजन में, वे भी गैर संभावना नमूनों से प्रतिक्रियाएं वजन कर सकते हैं। उदाहरण के लिए, सीपीएस के लिए एक विकल्प के रूप में, कल्पना करो कि तुम वेबसाइटों के हजारों पर बैनर विज्ञापन रखा बेरोजगारी की दर अनुमान लगाने के लिए एक सर्वेक्षण के लिए प्रतिभागियों को भर्ती करने के लिए। स्वाभाविक रूप से, आप उलझन में है कि अपने नमूना का सरल मतलब बेरोजगारी दर का एक अच्छा अनुमान हो जाएगा। अपने संदेह शायद इसलिए है क्योंकि आपको लगता है कि कुछ लोगों को और अधिक दूसरों की तुलना में अपने सर्वेक्षण पूरा करने के लिए की संभावना है। उदाहरण के लिए, जो लोग वेब पर समय की एक बहुत खर्च नहीं करते कम अपने सर्वेक्षण पूरा होने की संभावना है।

हम पिछले अनुभाग में देखा था, हालांकि, अगर हम जानते हैं कि कैसे नमूना चयन किया गया था के रूप में हम संभावना के साथ क्या नमूने-फिर हम नमूना लेने की प्रक्रिया की वजह से विकृतियों पूर्ववत कर सकते हैं। दुर्भाग्य से, जब गैर संभावना नमूनों के साथ काम कर रहा है, हम नहीं जानते कि कैसे नमूना चुना गया था। लेकिन, हम नमूना लेने की प्रक्रिया के बारे में धारणा बना सकते हैं और उसके बाद ही रास्ते में भार लागू होते हैं। इन मान्यताओं सही हैं, तो भार नमूना लेने की प्रक्रिया की वजह से विकृतियों पूर्ववत होगा।

उदाहरण के लिए, कल्पना है कि अपने बैनर विज्ञापन के जवाब में, आप 100,000 उत्तरदाताओं भर्ती किया था। हालांकि, अगर आप को विश्वास नहीं है कि इन 100,000 उत्तरदाताओं अमेरिकी वयस्कों के एक सरल यादृच्छिक नमूना है। वास्तव में, जब आप अमेरिका की आबादी के लिए अपने उत्तरदाताओं की तुलना, आप पाते हैं कि कुछ राज्यों (जैसे, न्यूयार्क) से लोगों को कुछ राज्यों (जैसे, अलास्का) से अधिक-प्रतिनिधित्व किया और कहा कि लोगों को कर रहे तहत प्रतिनिधित्व कर रहे हैं। इस प्रकार, अपने नमूने की बेरोजगारी की दर लक्ष्य आबादी में बेरोजगारी की दर के अनुमान को एक बुरा होने की संभावना है।

एक तरीका यह है कि विरूपण नमूना प्रक्रिया में हुआ पूर्ववत करने के लिए प्रत्येक व्यक्ति को वजन आवंटित करने के लिए है; राज्यों से लोगों के लिए कम वजन जो बताता है कि नमूना (जैसे, अलास्का) के तहत प्रतिनिधित्व कर रहे हैं से नमूना (जैसे, न्यू यार्क) और उच्च वजन के लोगों के लिए अधिक-प्रतिनिधित्व कर रहे हैं। अधिक विशेष रूप से, प्रत्येक प्रतिवादी के लिए वजन अमेरिका की आबादी में उनके प्रसार के लिए अपने नमूना रिश्तेदार उनके प्रसार से संबंधित है। यह भार प्रक्रिया के बाद स्तरीकरण कहा जाता है, और वजन के विचार धारा 3.4.1 में उदाहरण की याद दिलाने चाहिए, जहां रोड आइलैंड से उत्तरदाताओं कैलिफोर्निया से उत्तरदाताओं की तुलना में कम वजन दिया गया। पोस्ट-स्तरीकरण की आवश्यकता है आप समूहों में अपने उत्तरदाताओं डाल करने के लिए और प्रत्येक समूह में लक्ष्य जनसंख्या के अनुपात में पता करने के लिए पर्याप्त है कि पता है।

हालांकि संभावना नमूने की और गैर संभावना नमूने का भार एक ही गणितीय (तकनीकी परिशिष्ट देखें) कर रहे हैं, वे अलग अलग स्थितियों में अच्छी तरह से काम करते हैं। शोधकर्ता एक आदर्श संभावना नमूने (यानी, कोई कवरेज त्रुटि और कोई गैर प्रतिक्रिया) है, तो भार सभी मामलों में सभी लक्षण के लिए निष्पक्ष अनुमान का उत्पादन होगा। यह मजबूत सैद्धांतिक गारंटी यही वजह है कि संभावना नमूने के अधिवक्ताओं उन्हें इतना आकर्षक लगता है। दूसरी ओर, भार गैर संभावना नमूने ही अगर प्रतिक्रिया प्रवृत्तियों प्रत्येक समूह में हर किसी के लिए ही कर रहे हैं सभी लक्षण के लिए निष्पक्ष अनुमान का उत्पादन होगा। दूसरे शब्दों में, बाद स्तरीकरण का उपयोग अगर न्यूयॉर्क में हर किसी को भाग लेने और अलास्का में सभी को भाग लेने के लिए और इतने पर की ही संभावना है की ही संभावना है निष्पक्ष अनुमान का उत्पादन होगा हमारे उदाहरण के लिए वापस सोच,। यह धारणा सजातीय प्रतिक्रिया-प्रवृत्तियों के भीतर समूहों धारणा कहा जाता है, और यह जानने में एक महत्वपूर्ण भूमिका निभाता है, तो बाद के स्तरीकरण गैर संभावना नमूनों के साथ अच्छी तरह से काम करेगा।

दुर्भाग्य से, हमारे उदाहरण में, सजातीय प्रतिक्रिया-प्रवृत्तियों के भीतर समूहों धारणा सच होने की संभावना नहीं लगती है। यह है, यह संभावना नहीं लगती अलास्का में हर किसी को अपने सर्वेक्षण में होने की ही संभावना है। लेकिन, वहाँ तीन महत्वपूर्ण बिंदुओं के बाद स्तरीकरण के बारे में मन में रखने के लिए, जो सभी के लिए इसे और अधिक होनहार लग रहे हैं।

सबसे पहले, सजातीय प्रतिक्रिया-प्रवृत्तियों के भीतर समूहों धारणा समूहों की संख्या बढ़ जाती रूप में और अधिक प्रशंसनीय हो जाता है। और, शोधकर्ताओं ने सिर्फ एक ही भौगोलिक आयाम पर आधारित समूहों तक सीमित नहीं हैं। उदाहरण के लिए, हम राज्य, आयु, लिंग, और शिक्षा के स्तर के आधार पर समूह बना सकता है। यह और अधिक प्रशंसनीय है कि वहाँ 18-29 के समूह के भीतर सजातीय प्रतिक्रिया प्रवृत्तियों लगता है, अलास्का में रहने वाले सभी लोगों के समूह के भीतर से अलास्का में रहने वाले महिला, कॉलेज के स्नातकों। इस प्रकार, पोस्ट-स्तरीकरण वृद्धि के लिए इस्तेमाल किया समूहों की संख्या के रूप में, मान्यताओं यह अधिक उचित बनने के समर्थन की जरूरत है। इस तथ्य को देखते हुए यह एक शोधकर्ताओं के बाद स्तरीकरण के लिए समूहों में से एक बड़ी संख्या बनाने के लिए चाहते हो जाएगा जैसा लगता है। डेटा विरलता: लेकिन, समूहों की संख्या बढ़ जाती रूप में, शोधकर्ताओं ने एक अलग समस्या में चलाते हैं। अगर वहाँ केवल प्रत्येक समूह में लोगों की एक छोटी संख्या में हैं, तो अनुमान अधिक अनिश्चित हो जाएगा, और चरम मामले में एक समूह में कोई उत्तरदाताओं है कि वहाँ है, जहां है, तो बाद के स्तरीकरण पूरी तरह से टूट जाती है। वहाँ homogeneous- प्रतिक्रिया-प्रवृत्ति के भीतर समूहों धारणा की दिखावट और प्रत्येक समूह में उचित नमूना आकार के लिए मांग के बीच इस निहित तनाव से बाहर दो तरीके हैं। एक दृष्टिकोण वजन की गणना के लिए एक और अधिक परिष्कृत सांख्यिकीय मॉडल के लिए स्थानांतरित करने के लिए है और अन्य एक बड़े, अधिक विविध नमूना है, जो प्रत्येक समूह में उचित नमूना आकार को सुनिश्चित करने में मदद करता जमा है। और, कभी कभी शोधकर्ताओं दोनों करते हैं, के रूप में मैं नीचे और अधिक विस्तार से वर्णन करेंगे।

एक दूसरे से विचार जब गैर संभावना नमूनों से पोस्ट-स्तरीकरण के साथ काम कर रहा है कि सजातीय प्रतिक्रिया-प्रवृत्ति के भीतर समूहों धारणा पहले से ही अक्सर जब संभावना नमूनों का विश्लेषण किया जाता है। कारण यह है कि इस धारणा को व्यवहार में संभावना नमूने के लिए आवश्यक है कि संभावना नमूने गैर प्रतिक्रिया है, और गैर प्रतिक्रिया के लिए एडजस्ट करने के लिए सबसे आम तरीका पद के स्तरीकरण के रूप में ऊपर वर्णित है। बेशक, सिर्फ इसलिए कि कई शोधकर्ताओं के लिए एक निश्चित धारणा मतलब यह नहीं है कि आप इसे भी करना चाहिए बनाते हैं। लेकिन, इसका मतलब यह है कि जब व्यवहार में संभावना नमूने के गैर संभावना नमूनों की तुलना में, हम ध्यान रखें कि दोनों आदेश अनुमानों का उत्पादन करने में मान्यताओं और सहायक सूचना के आधार पर निर्भर में रखना चाहिए। सबसे यथार्थवादी सेटिंग्स में, वहाँ बस कोई धारणा से मुक्त दृष्टिकोण अनुमान है।

अंत में, आप के बारे में एक अनुमान परवाह अगर हमारे उदाहरण बेरोजगारी विशेष में दर-तो आप एक शर्त सजातीय प्रतिक्रिया-प्रवृत्ति के भीतर समूहों धारणा की तुलना में कमजोर जरूरत है। विशेष रूप से, आप पाएंगे कि हर कोई एक ही प्रतिक्रिया प्रवृत्ति है कल्पना करने के लिए, आप केवल कल्पना करने के लिए प्रत्येक समूह के भीतर प्रतिक्रिया प्रवृत्ति और बेरोजगारी की दर के बीच कोई संबंध नहीं है कि जरूरत जरूरत नहीं है। बेशक, इस कमजोर हालत कुछ स्थितियों में पकड़ नहीं होगा। उदाहरण के लिए, अमेरिकियों कि स्वयंसेवक काम कर के अनुपात का आकलन करने की कल्पना। जो लोग स्वयंसेवक काम करना अधिक एक सर्वेक्षण में होने के लिए सहमत होने की संभावना है, तो शोधकर्ताओं होगा व्यवस्थित ढंग से अधिक- अनुमान स्वयं सेवा की राशि, भले ही वे बाद के स्तरीकरण समायोजन एक परिणाम है कि द्वारा अनुभव से प्रदर्शन किया गया है, Abraham, Helms, and Presser (2009) ।

जैसा कि मैंने पहले कहा, गैर संभावना नमूने महान संदेह के साथ सामाजिक वैज्ञानिकों द्वारा, सर्वेक्षण अनुसंधान के शुरुआती दिनों में सबसे शर्मनाक विफलताओं में से कुछ में उनकी भूमिका की वजह से देखा जाता हिस्से में। कितनी दूर हम गैर संभावना नमूनों के साथ आए हैं का एक स्पष्ट उदाहरण है कि सही ढंग से अमेरिकी एक्सबॉक्स उपयोगकर्ताओं के एक गैर संभावना नमूने का उपयोग कर 2012 अमेरिकी चुनाव के परिणाम बरामद वी वैंग, डेविड रोथ्सचाइल्ड, शरद गोयल, और एंड्रयू Gelman का शोध है -एक अमेरिकियों की निश्चित गैर यादृच्छिक नमूना (Wang et al. 2015) शोधकर्ताओं Xbox गेमिंग सिस्टम से उत्तरदाताओं की भर्ती, और जैसा कि आप उम्मीद कर सकते, एक्सबॉक्स नमूना पुरुष विषम और युवा विषम: 18 - 29 साल के बच्चों के मतदाताओं के 19% लेकिन एक्सबॉक्स नमूना के 65% तक है और पुरुषों के 47% तक है मतदाताओं और एक्सबॉक्स नमूना (चित्रा 3.4) के 93% की। क्योंकि इन मजबूत जनसांख्यिकीय पूर्वाग्रहों की, कच्चे एक्सबॉक्स डेटा चुनाव रिटर्न की एक गरीब सूचक था। यह बराक ओबामा पर मिट रोमनी के लिए एक मजबूत जीत की भविष्यवाणी की। फिर, यह कच्चे, असमायोजित गैर संभावना नमूने के खतरों का एक और उदाहरण है और साहित्यिक डाइजेस्ट असफलता की याद ताजा करती है।

चित्रा 3.4: वांग एट अल में उत्तरदाताओं का जनसांख्यिकी। (2015)। क्योंकि उत्तरदाताओं Xbox से भर्ती थे, वे और अधिक युवा और अधिक पुरुष, 2012 के चुनाव में मतदाताओं के सापेक्ष होने की संभावना होने की संभावना थी।

चित्रा 3.4: में उत्तरदाताओं का जनसांख्यिकी Wang et al. (2015) । क्योंकि उत्तरदाताओं Xbox से भर्ती थे, वे और अधिक युवा और अधिक पुरुष, 2012 के चुनाव में मतदाताओं के सापेक्ष होने की संभावना होने की संभावना थी।

हालांकि, वांग और उनके सहयोगियों ने इन समस्याओं के बारे में जानते थे और नमूना प्रक्रिया के लिए सही करने के लिए उत्तरदाताओं वजन करने के लिए प्रयास किया। विशेष रूप से, वे बाद के स्तरीकरण मैं तुम्हारे बारे में बताया की एक और अधिक परिष्कृत रूप में इस्तेमाल किया। यह इसलिए है क्योंकि यह बाद के स्तरीकरण के बारे में अंतर्ज्ञान बनाता है उनके दृष्टिकोण के बारे में थोड़ा और अधिक सीखने लायक है, और विशेष रूप से संस्करण वांग और उनके सहयोगियों का इस्तेमाल किया भार गैर संभावना नमूने के सबसे रोमांचक तरीकों में से एक है।

धारा 3.4.1 में बेरोजगारी का आकलन करने के बारे में हमारी सरल उदाहरण में, हम निवास के राज्य के आधार पर समूहों में विभाजित आबादी। इसके विपरीत, वांग और उनके सहयोगियों द्वारा परिभाषित 176256 समूहों में विभाजित में जनसंख्या: लिंग (2 श्रेणियों), जाति (4 श्रेणियों), उम्र (4 श्रेणियों), शिक्षा (4 श्रेणियों), राज्य (51 श्रेणियों), पार्टी आईडी (3 श्रेणियों), विचारधारा (3 श्रेणियों) और 2008 वोट (3 श्रेणियों)। अधिक समूहों के साथ, शोधकर्ताओं ने आशा व्यक्त की कि यह तेजी से होने की संभावना है कि प्रत्येक समूह के भीतर, प्रतिक्रिया प्रवृत्ति ओबामा के लिए समर्थन के साथ असहसंबद्ध होता था। अगले, बल्कि, अलग-अलग स्तर के वजन के निर्माण के रूप में हम हमारे उदाहरण में किया था की तुलना में, वांग और उनके सहयोगियों ने एक जटिल मॉडल प्रत्येक समूह है कि ओबामा के लिए मतदान होगा में लोगों के अनुपात का अनुमान किया। अंत में, वे एक समूह के नाम से जाना जाता आकार के साथ समर्थन के इन समूह के अनुमानों संयुक्त समर्थन के एक अनुमान के अनुसार समग्र स्तर का उत्पादन। दूसरे शब्दों में, वे अलग-अलग समूहों में आबादी तक कटा हुआ, ओबामा के लिए समर्थन का अनुमान प्रत्येक समूह में, और फिर एक समग्र अनुमान के उत्पादन के लिए समूह के अनुमानों की एक भारित औसत ले लिया।

इस प्रकार, उनके दृष्टिकोण में बड़ी चुनौती इन 176256 समूहों में से प्रत्येक में ओबामा के लिए समर्थन का अनुमान है। हालांकि उनके पैनल 345,858 अद्वितीय प्रतिभागियों, चुनाव के मतदान के मानकों के द्वारा एक बड़ी संख्या शामिल है, वहाँ कई, कई समूहों जिसके लिए वांग और उनके सहयोगियों ने लगभग कोई उत्तरदाताओं थे। इसलिए, प्रत्येक समूह में वे एक तकनीक का इस्तेमाल के बाद स्तरीकरण के साथ बहुस्तरीय प्रतिगमन कहा जाता है, जो शोधकर्ताओं प्यार से अनिवार्य रूप से श्री पी फोन, एक विशिष्ट समूह के भीतर ओबामा के लिए समर्थन अनुमान लगाने के लिए, श्री पी पूल कई से जानकारी में समर्थन अनुमान लगाने के लिए बारीकी से संबंधित समूहों। उदाहरण के लिए, 18-29 वर्ष के बीच, महिला Hispanics के बीच ओबामा के लिए समर्थन का आकलन करने की चुनौती पर विचार हैं, जो कॉलेज के स्नातकों, जो पंजीकृत हैं डेमोक्रेट, नरमपंथियों के रूप में जो स्वयं की पहचान कर रहे हैं, और यह 2008 में ओबामा के लिए जो मतदान एक बहुत, बहुत विशिष्ट समूह है, और यह इन विशेषताओं के साथ नमूने में कोई भी नहीं है कि वहाँ संभव है। इसलिए, इस समूह के बारे में अनुमान बनाने के लिए, श्री पी पूल एक साथ बहुत इसी तरह के समूहों में लोगों से अनुमान है।

इस विश्लेषण रणनीति का प्रयोग, वांग और उनके सहयोगियों XBox गैर संभावना नमूने का उपयोग करने के लिए बहुत बारीकी से समग्र समर्थन है कि ओबामा 2012 के चुनाव में प्राप्त अनुमान लगाने के लिए सक्षम थे (चित्रा 3.5)। वास्तव में उनके अनुमान सार्वजनिक जनमत सर्वेक्षणों की कुल तुलना में ज्यादा सटीक थे। इस प्रकार, इस मामले में वेटिंग-विशेष रूप से श्री एक अच्छा गैर संभावना डेटा में पूर्वाग्रहों को सही काम करने के लिए पी-लगता है; पूर्वाग्रहों कि दिखाई दे रहे हैं जब आप असमायोजित एक्सबॉक्स डेटा से अनुमान को देखो।

चित्रा 3.5: वांग एट अल से अनुमान। (2015)। असमायोजित XBox नमूना गलत अनुमान का उत्पादन किया। लेकिन, भारित XBox नमूना अनुमान है कि संभावना के आधार पर टेलीफोन सर्वेक्षणों के औसत की तुलना में अधिक सटीक थे उत्पादन किया।

चित्रा 3.5: से अनुमान Wang et al. (2015) । असमायोजित XBox नमूना गलत अनुमान का उत्पादन किया। लेकिन, भारित XBox नमूना अनुमान है कि संभावना के आधार पर टेलीफोन सर्वेक्षणों के औसत की तुलना में अधिक सटीक थे उत्पादन किया।

वहाँ वांग और उनके सहयोगियों के अध्ययन से दो मुख्य सबक हैं। सबसे पहले, असमायोजित गैर संभावना नमूने बुरा अनुमान के नेतृत्व कर सकते हैं; यह एक सबक है कि कई शोधकर्ताओं से पहले सुना है। हालांकि, दूसरा सबक है कि गैर संभावना नमूने, जब ठीक से भारित, वास्तव में काफी अच्छा अनुमान का उत्पादन कर सकते है। वास्तव में, उनके अनुमान pollster.com, और अधिक परंपरागत चुनाव चुनाव से एक एकत्रीकरण से अनुमान से कहीं अधिक सटीक थे।

अंत में, वहाँ हम क्या यह एक विशिष्ट अध्ययन से सीख सकते हैं करने के लिए महत्वपूर्ण सीमाएं हैं। सिर्फ इसलिए कि बाद के स्तरीकरण इस विशेष मामले में अच्छी तरह से काम किया है, वहाँ कोई गारंटी नहीं है कि यह अन्य मामलों में अच्छी तरह से काम करेगा। वास्तव में, चुनाव क्योंकि pollsters लगभग 100 वर्षों के लिए चुनाव अध्ययन किया गया है शायद सबसे आसान सेटिंग्स में से एक रहे हैं, वहाँ नियमित रूप से प्रतिक्रिया (हम देख सकते हैं जो चुनाव जीतता है), और पार्टी की पहचान है और जनसांख्यिकीय विशेषताओं मतदान की अपेक्षाकृत भविष्य कहनेवाला हैं। इस बिंदु पर, हम ठोस सिद्धांत और पता है जब गैर संभावना नमूने के भार समायोजन पर्याप्त सटीक अनुमान का उत्पादन होगा अनुभवजन्य अनुभव की कमी है। एक बात है कि स्पष्ट है, हालांकि, अगर आप गैर संभावना नमूनों के साथ काम करने के लिए मजबूर कर रहे हैं, तो वहाँ का मानना है कि समायोजित अनुमान गैर समायोजित अनुमान से बेहतर होगा मजबूत कारण है।