3.4.1 احتمال سیمپلنگ ڈیٹا کلیکشن اور ڈیٹا انیلیسیز

باٹ جان بوجھ کے نمونے لینے کے عمل کی وجہ سے بگاڑ رد کر سکتے ہیں.

احتمال نمونے جہاں تمام لوگوں کو ایک نام سے جانا جاتا، غیر صفر شامل کئے جانے کا امکان ہے ان لوگوں کے ہیں، اور سادہ ترین احتمال سیمپلنگ ڈیزائن سادہ ہر شخص کے شامل کئے جانے کے برابر امکان ہے جہاں یادرچرچھیک نمونہ ہے. مدعا کامل عملدرآمد (مثلا، کوئی کوریج کی خرابی اور کوئی غیر جواب) کے ساتھ سادہ یادرچرچھیک نمونہ کے ذریعے منتخب کیا جاتا ہے تو، پھر کیونکہ نمونہ گا پر آبادی کا ایک چھوٹا ورژن اوسط ہونا تخمینہ سیدھا ہے.

سادہ یادرچرچھیک نمونہ شاذ و نادر ہی، عملی طور پر استعمال کیا جاتا ہے، تاہم. بلکہ، محققین جان بوجھ لاگت کو کم اور درستگی میں اضافہ کرنے کے لئے میں شامل کئے جانے کے غیر مساوی امکانات کے ساتھ لوگوں کو منتخب کریں. محققین نے جان بوجھ کر شامل کئے جانے کی مختلف امکانات کے ساتھ لوگوں کو منتخب کرتے ہیں تو، اس کے بعد ایڈجسٹمنٹ نمونے لینے کے عمل کی وجہ سے کیا بگاڑ کالعدم کرنے کی ضرورت ہے. دوسرے الفاظ میں، ایک نمونہ سے ہم وسیع کس طرح نمونہ منتخب کیا گیا ہے کہ کس طرح پر منحصر ہے.

مثال کے طور پر، موجودہ آبادی سروے (سی پی ایس) بے روزگاری کی شرح کا اندازہ لگانے کی امریکی حکومت کی طرف سے استعمال کیا جاتا ہے. ہر ماہ تقریبا 100،000 افراد کا انٹرویو کر رہے ہیں، چہرے سے چہرہ یا ٹیلی فون پر، اور نتائج کے اندازے کے مطابق بے روزگاری کی شرح پیدا کرنے کے لئے استعمال ہوتے ہیں. حکومت ہر ریاست میں بے روزگاری کی شرح کا اندازہ لگانے کے لئے چاہتا ہے کیونکہ اس میں اس کی وجہ سے چھوٹے آبادی (مثلا، رہوڈ آئی لینڈ) اور بڑی آبادی کے ساتھ ریاستوں سے بھی بہت سے کے ساتھ امریکہ میں بھی چند مدعا برآمد ہوں گے بالغوں کے ایک سادہ بے ترتیب نمونے نہیں کر سکتا (مثلا ، کیلی فورنیا). اس کے بجائے، مختلف نرخوں پر مختلف ریاستوں میں CPS نمونے لوگوں، ایک عمل کے انتخاب کے غیر مساوی امکان کے ساتھ ستریقرت نمونے لینے بلایا. مثال کے طور پر، اگر CPS 2،000 مدعا چاہتے تھے کہ ریاست کی فی، پھر رہوڈ آئی لینڈ میں بالغ افراد (رہوڈ آئی لینڈ: 2،000 فی 800،000 بالغوں مدعا بمقابلہ کیلی فورنیا: 2،000 فی 30،000،000 بالغوں مدعا) کیلی فورنیا میں بالغوں کے مقابلے میں شامل کئے جانے کے 30 گنا زیادہ کے بارے میں احتمال ہوگا. ہم بعد میں دیکھیں گے کے طور پر، غیر مساوی امکان کے ساتھ نمونے لینے کے اس قسم کے بھی اعداد و شمار کی آن لائن کے ذرائع کے ساتھ ہوتا ہے، لیکن سی پی ایس کے برعکس، نمونے لینے کے طریقہ کار کو عام طور پر نام سے جانا جاتا یا محقق کی طرف سے کنٹرول نہیں ہے.

اس کے نمونے لینے کے ڈیزائن دی، CPS امریکہ کے براہ راست نمائندے نہیں ہے؛ یہ رہوڈ آئی لینڈ سے بھی بہت سے لوگ اور کیلی فورنیا سے بھی چند شامل ہیں. لہذا، یہ نمونے میں بے روزگاری کی شرح کے ساتھ ملک میں بے روزگاری کی شرح کا اندازہ کرنا دانشمندی نہیں ہوگی. اس کے بجائے نمونہ مطلب، یہ ایک بارت اوسط، وزن اس حقیقت کے لئے اکاؤنٹ جہاں رہوڈ آئی لینڈ کی طرف سے لوگوں کو کیلی فورنیا سے لوگوں کے مقابلے میں شامل کیا جائے کے امکانات زیادہ تھے کہ لینے کے لئے بہتر ہے. مثال کے طور پر، کیلی فورنیا سے ہر شخص upweighted- وہ رہوڈ آئی لینڈ سے تخمینہ اور ہر شخص کی جائے گی میں زیادہ شمار کرنا چاہو ہو گا downweighted-وہ اندازے سے کم شمار کرنا چاہو. جوہر میں، آپ کو آپ کے بارے میں جاننے کے لئے کے امکان کم ہے کہ لوگوں کو زیادہ آواز دی جاتی ہے.

یہ کھلونا مثال ایک اہم لیکن عام غلط فہمی بات کی وضاحت کرتا ہے: ایک نمونہ اچھا تخمینے پیدا کرنے کے لئے آبادی کے ایک چھوٹے ورژن ہونے کی ضرورت نہیں کرتا ہے. کافی ڈیٹا جمع کیا گیا تھا کہ کس طرح کے بارے میں جانا جاتا ہے، تو ہے کہ معلومات نمونے سے اندازوں کرنے جب استعمال کیا جا سکتا. نقطہ نظر میں نے ابھی بیان کیا ہے اور کیا ہے کہ میں تکنیکی میں ریاضی کی وضاحت ہے کہ کلاسیکی احتمال کے نمونے لینے کے فریم ورک کے اندر اندر پے اپینڈکس-آتا. اب، میں نے اس کے ایک ہی خیال عدم امکان کے نمونے پر لاگو کیا جا سکتا ہے کس طرح دکھائیں گے.