3.4.1 संभावना नमूना: डेटा संग्रह और डेटा विश्लेषण

यह बात एक कंप्यूटर द्वारा बनाया गया था। ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.1 संभावना नमूना: डेटा संग्रह और डेटा विश्लेषण

बाट विकृतियों जानबूझकर नमूना लेने की प्रक्रिया की वजह से पूर्ववत कर सकते हैं।

संभावना नमूने जहां उन सभी लोगों के लिए एक जाना जाता है, गैर शून्य शामिल किए जाने की संभावना है, और सरल संभावना नमूना डिजाइन यादृच्छिक नमूना जहां प्रत्येक व्यक्ति को शामिल किए जाने की बराबर संभावना है सरल है। उत्तरदाताओं सही निष्पादन (जैसे, कोई कवरेज त्रुटि और कोई गैर प्रतिक्रिया) के साथ सरल यादृच्छिक नमूना के माध्यम से चयन किया जाता है, तो अनुमान है क्योंकि नमूना होगा पर आबादी का एक लघु संस्करण औसत होने सीधा है।

सरल यादृच्छिक नमूना शायद ही कभी व्यवहार में प्रयोग किया जाता है, लेकिन। बल्कि, शोधकर्ताओं ने जानबूझकर क्रम में लागत को कम करने और सटीकता को बढ़ाने के लिए शामिल किए जाने की संभावनाओं के साथ लोगों को असमान का चयन करें। शोधकर्ताओं ने जानबूझकर शामिल किए जाने की विभिन्न संभावनाओं के साथ लोगों को चयन करते हैं, तो समायोजन नमूना लेने की प्रक्रिया की वजह से विकृतियों को पूर्ववत करने की जरूरत है। दूसरे शब्दों में, हम कैसे एक नमूना से सामान्यीकरण कैसे नमूना चयनित किया गया था पर निर्भर करता है।

उदाहरण के लिए, वर्तमान जनसंख्या सर्वेक्षण (सीपीएस) बेरोजगारी की दर अनुमान लगाने के लिए अमेरिकी सरकार द्वारा किया जाता है। हर महीने लगभग 100,000 लोगों का साक्षात्कार कर रहे हैं, या तो सामना करने वाली चेहरा है या टेलीफोन पर है, और परिणाम का अनुमान बेरोजगारी दर का उत्पादन करने के लिए उपयोग किया जाता है। क्योंकि सरकार को हर राज्य में बेरोजगारी की दर अनुमान लगाने के लिए चाहता है, इसकी वजह यह है कि छोटे आबादी (जैसे, रोड आइलैंड) और बड़ी आबादी के साथ राज्यों से भी कई के साथ राज्यों में भी कुछ उत्तरदाताओं उपज होगा वयस्कों के एक सरल यादृच्छिक नमूना नहीं कर सकते हैं (उदाहरण , कैलिफोर्निया)। इसके बजाय, अलग दरों पर विभिन्न राज्यों में सीपीएस नमूने लोगों को एक प्रक्रिया के चयन के असमान संभावना के साथ स्तरीकृत नमूना कहा जाता है। उदाहरण के लिए, यदि सीपीएस 2,000 उत्तरदाताओं चाहता था राज्य के प्रति, तो रोड आइलैंड में वयस्कों के कैलिफोर्निया में वयस्कों की तुलना में शामिल किए जाने के बारे में 30 गुना अधिक संभावना है जाएगा (रोड आइलैंड: 800,000 वयस्कों के प्रति 2,000 उत्तरदाताओं बनाम कैलिफोर्निया: 30000000 वयस्कों प्रति 2,000 उत्तरदाताओं)। हम बाद में देखेंगे, असमान संभावना के साथ नमूने के इस तरह के भी डेटा के ऑनलाइन स्रोतों के साथ होता है, लेकिन सीपीएस के विपरीत, नमूने तंत्र आम तौर पर जाना जाता है या शोधकर्ता द्वारा नियंत्रित नहीं है।

इसका नमूना डिजाइन को देखते हुए, सीपीएस सीधे अमेरिका की प्रतिनिधि नहीं है; यह रोड आइलैंड से भी कई लोगों और कैलिफोर्निया से बहुत कुछ शामिल है। इसलिए, यह नमूने में बेरोजगारी की दर के साथ देश में बेरोजगारी की दर अनुमान लगाने के लिए मूर्ख होगा। इसके बजाय नमूना मतलब है, यह एक भारित मतलब है, जहां वजन तथ्य यह है कि के लिए खाते रोड आइलैंड से लोगों को और अधिक कैलिफोर्निया से लोगों से शामिल होने की संभावना थे लेने के लिए बेहतर है। उदाहरण के लिए, कैलिफोर्निया से प्रत्येक व्यक्ति होगा upweighted- वे रोड आइलैंड से अनुमान और प्रत्येक व्यक्ति को किया जाएगा में अधिक गिनती होती downweighted-वे अनुमान में कम गिनती होती है। संक्षेप में, आप लोगों को कि आप कम के बारे में जानने की संभावना है के लिए और अधिक आवाज दी जाती है।

यह खिलौना उदाहरण के लिए एक महत्वपूर्ण है, लेकिन आमतौर पर गलत समझा बिंदु दिखाता है: एक नमूना आदेश अच्छा अनुमान का उत्पादन करने में आबादी का एक लघु संस्करण होने की जरूरत नहीं है। पर्याप्त कैसे डाटा एकत्र किया गया था के बारे में जाना जाता है, तो वह जानकारी जब नमूना से अनुमान बनाने के लिए इस्तेमाल किया जा सकता है। दृष्टिकोण मैं सिर्फ वर्णित और है कि मैं तकनीकी में गणितीय वर्णन शास्त्रीय संभावना नमूने ढांचे के भीतर squarely परिशिष्ट गिर जाता है। अब, मैं कैसे है कि एक ही विचार गैर संभावना नमूने लिए लागू किया जा सकता है दिखाता हूँ।