ریاضی نوٹ

اس اپ ڈیٹ میں، میں باب کے کچھ نظریات تھوڑا زیادہ ریاضیاتی شکل میں بیان کروں گا. یہاں تک کہ آپ سروے محققین کی طرف سے استعمال ہونے والی تشخیص اور ریاضیاتی فریم ورک کے ساتھ آرام دہ اور پرسکون ہو جانے کا مقصد یہ ہے کہ آپ ان موضوعات پر لکھے جانے والے زیادہ سے زیادہ تکنیکی مواد کو منتقلی کرسکتے ہیں. میں امکانات نمونے لگانے کی طرف سے شروع کروں گا، پھر غیر رائے کے ساتھ ممکنہ نمونے لینے کے لۓ، اور آخر میں، غیر امکان نمونہ نمونے.

احتساب نمونے

چل رہا ہے مثال کے طور پر، ہم امریکہ میں بے روزگاری کی شرح کا اندازہ کرنے کا مقصد پر غور کرتے ہیں. آئیے \(U = \{1, \ldots, k, \ldots, N\}\) ھدف آبادی کی آبادی اور شخص \(k\) لئے نتائج متغیر کی قیمت سے \(y_k\) دو. اس مثال میں \(y_k\) یہ ہے کہ آیا شخص \(k\) بے روزگار ہے. آخر میں، دو \(F = \{1, \ldots, k, \ldots, N\}\) آبادی \(F = \{1, \ldots, k, \ldots, N\}\) فریم آبادی ہو، جس کی وجہ سے سادگی کا مقصد ہدف آبادی کے طور پر فرض کیا جاتا ہے.

ایک بنیادی نمونے کے ڈیزائن کے بغیر متبادل بے ترتیب نمونے کے بغیر. اس صورت میں، ہر شخص کو نمونہ میں شامل ہونے کا امکان ہے \(s = \{1, \ldots, i, \ldots, n\}\) . جب اس نمونے کے ڈیزائن سے اعداد و شمار جمع کیے جاتے ہیں، تو محققین آبادی کے بے روزگاری کی شرح کا نمونے کے ساتھ اندازہ کر سکتے ہیں:

\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]

جہاں \(\bar{y}\) آبادی میں بیروزگاری کی شرح ہے اور \(\hat{\bar{y}}\) بے روزگاری کی شرح کا تخمینہ ہے \(\hat{ }\) عام طور پر ہے ایک تخمینہ کا اشارہ کرنے کے لئے استعمال کیا جاتا ہے).

حقیقت میں، محققین کو آسانی سے متبادل بے ترتیب نمونے کے بغیر متبادل کے استعمال کرتے ہیں. مختلف وجوہات کے لئے (جس میں میں نے ایک لمحے میں بیان کیا)، محققین اکثر شامل ہونے کے عدم مساوات کے ساتھ نمونے بناتے ہیں. مثال کے طور پر، کیلی فورنیا میں لوگوں کے مقابلے میں محققین کی زیادہ امکان کے ساتھ محققین فلوریڈا میں لوگ منتخب کرسکتے ہیں. اس صورت میں، نمونے کا مطلب ہے (مثلا 3.1) شاید ایک اچھا تخمینہ نہیں ہے. اس کے بجائے، جب شامل ہونے کی غیر مساوی امکانات ہیں، محققین کا استعمال ہوتا ہے

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]

جہاں \(\hat{\bar{y}}\) بے روزگاری کی شرح کا تخمینہ ہے اور \(\pi_i\) شخص \(i\) شامل ہونے کا امکان ہے. مندرجہ بالا معیار کے عمل میں، میں تخمینہ میں eim میں کال کریں گے. 3.2 Horvitz-Thompson تخمینہ. Horvitz-Thompson تخمینہ انتہائی مفید ہے کیونکہ یہ کسی امکانات نمونے کے ڈیزائن (Horvitz and Thompson 1952) لئے غیر متوقع تخمینوں کی طرف جاتا ہے. کیونکہ Horvitz-Thompson کے تخمینہ میں اتنی کثرت سے آتا ہے، یہ محسوس کرنے میں مددگار ثابت ہوتا ہے کہ یہ دوبارہ لکھا جا سکتا ہے.

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]

کہاں \(w_i = 1 / \pi_i\) . جیسا کہ 3.3 سے پتہ چلتا ہے، Horvitz-Thompson تخمینہ والا ایک وزن والا نمونہ ہے جس کا مطلب یہ ہے کہ وزن انفرادی طور پر انتخاب کی امکان سے متعلق ہے. دوسرے الفاظ میں، ممکنہ طور پر کسی شخص کو نمونہ میں شامل کیا جانا چاہئے، زیادہ وزن وہ شخص جو تخمینہ میں ہونا چاہئے.

جیسا کہ پہلے بیان کیا گیا ہے، محققین اکثر شامل لوگوں کے غیر مساوی امکانات کے ساتھ نمونہ دیتے ہیں. ایک ایسے ڈیزائن کا ایک مثال جس میں شامل ہونے کے غیر مساوی امکانات کی وجہ سے ہوسکتی ہے، اس سے نمونے کا نمونے ہوتا ہے، جس کو سمجھنے کے لئے ضروری ہے کیونکہ اس کے بعد اس کے استحکام کا تخمینہ لگانے والی تخمینہ کے طریقہ کار سے بہت قریب ہے. استحکام نمونے میں، ایک محقق نے ہدف آبادی کو \(H\) باہمی طور پر خصوصی اور مکمل گروپوں میں تقسیم کیا ہے. ان گروپوں کو \(U_1, \ldots, U_h, \ldots, U_H\) کہا جاتا ہے اور اس کے طور پر اشارہ دیا جاتا ہے \(U_1, \ldots, U_h, \ldots, U_H\) . اس مثال میں، ریاستی ریاستیں ہیں. گروپوں کے سائز کے طور پر اشارہ کیا جاتا ہے \(N_1, \ldots, N_h, \ldots, N_H\) . ممکن ہے کہ محققین نے اس بات کا یقین کرنے کے لئے کہ ریاستی سطح پر بےروزگاری کا اندازہ لگانے کے لۓ ہر ریاست میں کافی لوگ ہیں.

ایک بار جب آبادی کو میدان میں تقسیم کیا جاتا ہے تو، فرض کرتے ہیں کہ محققین کو ہر طبقہ سے آزادانہ طور پر \(n_h\) سائز تبدیل کرنے کے بغیر سادہ بے ترتیب نمونہ کا انتخاب ہوتا ہے. اس کے علاوہ، فرض کریں کہ ہر ایک نمونہ میں منتخب کردہ ایک جواب دہندہ بن جاتا ہے (میں اگلے سیکشن میں غیر رد عمل کا جواب دونگا). اس صورت میں، شامل ہونے کا امکان ہے

\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]

کیونکہ ان امکانات کو اس نمونے کے ڈیزائن سے اندازہ لگایا جاتا ہے، جب ان امکانات کو انسان سے مختلف ہوتی ہے، محققین کو ہر جواب کے جواب میں وزن کی ضرورت ہوتی ہے جو ہارویزٹ تھ تھامسن کے تخمینر (ایق 3.2) کا استعمال کرتے ہیں.

اگرچہ Horvitz-Thompson تخمینہ غیر منصفانہ ہے، محققین معاون معلومات کے ساتھ نمونہ کو یکجا کرکے محققین زیادہ درست (یعنی، کم متغیر) تخمینہ پیدا کرسکتے ہیں. کچھ لوگ حیران کن تلاش کرتے ہیں کہ یہ بالکل صحیح ہے جب بھی مکمل طور پر معطل امکان نمونے لگ رہا ہے. معاون معلومات کا استعمال کرتے ہوئے یہ تکنیک خاص طور پر اہم ہیں کیونکہ، میں بعد میں ظاہر کروں گا، معاون معلومات غیر امکانات اور غیر امکانات کے نمونے سے ممکنہ نمونے سے تخمینہ کرنے کے لئے اہم ہے.

معاون معلومات کا استعمال کرنے کے لئے ایک عام ٹیکنالوجی پوسٹ استحکام ہے . تصور کریں، مثال کے طور پر، ایک محقق کو 50 ریاستوں میں ہر مرد اور مرد کی تعداد معلوم ہے؛ ہم ان گروہوں کے سائز کو \(N_1, N_2, \ldots, N_{100}\) طور پر نشانہ بنا سکتے ہیں. نمونے کے ساتھ اس معاون معلومات کو یکجا کرنے کے لئے، محقق نمونہ \(H\) گروہوں میں (اس معاملے میں 100) میں تقسیم کر سکتے ہیں، ہر گروہ کے لئے تخمینہ بناتے ہیں، اور پھر ان گروپ کے وزن میں اوسط کا مطلب ہے:

\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]

بالکل، تخمینہ میں eq. 3.5 ممکنہ طور پر زیادہ درست ہوسکتا ہے کیونکہ یہ معلوم آبادی کی معلومات کا استعمال کرتا ہے - \(N_h\) درست اندازہ لگایا جاتا ہے کہ اگر غیر متوازن نمونہ منتخب ہوجائے گا. اس کے بارے میں سوچنے کا ایک طریقہ یہی ہے کہ اعداد و شمار پہلے سے ہی جمع کیے جانے کے بعد پوسٹ کی طرف سے استحکام کے قریب لگتے ہیں.

اختتام میں، اس سیکشن نے چند نمونے کے ڈیزائن کو بیان کیا ہے: سادہ بے ترتیب نمونے بغیر متبادل، غیر مساوی امکانات کے ساتھ نمونے، اور استحکام نمونے. اس نے تخمینہ کے بارے میں دو اہم نظریات بھی بیان کیے ہیں: ہارویزٹ تھامسن کا تخمینہ لگانے والے اور بعد میں استحکام. احتساب نمونے کے ڈیزائن کی زیادہ رسمی تعریف کے لئے، ملاحظہ کریں باب 2، Särndal, Swensson, and Wretman (2003) . Särndal, Swensson, and Wretman (2003) نمونے کے زیادہ سے زیادہ رسمی اور مکمل علاج کے لئے، Särndal, Swensson, and Wretman (2003) سیکشن 3.7 دیکھیں. Horvitz-Thompson تخمینہ کے خصوصیات کی تکنیکی وضاحت کے لئے، Horvitz and Thompson (1952) ، Overton and Stehman (1995) ، یا سیکشن 2.8 کے @ sarndal_model_2003 دیکھیں. پوزیشن میں اضافی علاج کے لۓ مزید رسمی علاج کے لئے، Holt and Smith (1979) ، Smith (1991) ، Little (1993) ، یا Särndal, Swensson, and Wretman (2003) سیکشن 7.6 Särndal, Swensson, and Wretman (2003) .

غیر ذمہ داریاں کے ساتھ احتساب نمونے

تقریبا تمام حقیقی سروے غیر ذمہ دار ہیں؛ یہ ہے، نمونہ آبادی میں ہر ایک کو ہر سوال کا جواب نہیں ہے. دو اہم قسم کے غیر مشورہ ہیں: شے غیر منفی اور یونٹ غیر رائے . شے غیر مشورہ میں، بعض جواب دہندگان نے بعض چیزوں کا جواب نہیں دیا (مثال کے طور پر، کبھی کبھی جواب دہندہ ایسے سوالات کا جواب نہیں دینا چاہتے ہیں جو سنجیدگی سے متفق ہیں). یونٹ غیر رائے میں، نمونے کی آبادی کے لئے منتخب کردہ کچھ لوگ اس سروے میں جواب نہیں دیتے. یونٹ غیر رائے کے دو اہم وجوہات یہ ہیں کہ نمونہ شخص سے رابطہ نہیں کیا جاسکتا ہے اور نمونہ شخص سے رابطہ کیا جاتا ہے لیکن حصہ لینے سے انکار کر دیا جاتا ہے. اس سیکشن میں، میں یونٹ nonresponse پر توجہ مرکوز کروں گا؛ لوط اور روبین (2002) کو دیکھنا چاہئے ناپسندیدہ اشیاء میں دلچسپی رکھنے والا قارئین.

محققین اکثر دو مرحلے نمونے کے عمل کے طور پر یونٹ غیر رد عمل کے ساتھ سروے کے بارے میں سوچتے ہیں. پہلے مرحلے میں، محقق ایک نمونہ \(s\) اس طرح کا انتخاب کرتا ہے کہ ہر فرد میں شامل ہونے کا امکان ہے \(\pi_i\) (جہاں \(0 < \pi_i \leq 1\) ). پھر، دوسرا مرحلے میں، جو نمونے میں منتخب کیا جاتا ہے وہ امکانات \(\phi_i\) ساتھ جواب دیتے ہیں (جہاں \(0 < \phi_i \leq 1\) ). یہ دو مرحلے کے عمل کے جواب دہندگان کے حتمی سیٹ \(r\) . ان دو مراحل کے درمیان ایک اہم فرق یہ ہے کہ محققین نمونے کو منتخب کرنے کے عمل پر قابو پاتے ہیں، لیکن وہ کنٹرول نہیں کرتے جن میں سے نمونے والے لوگ جواب دہندگان بن جاتے ہیں. ان دو طریقوں کو ایک ساتھ مل کر، ممکنہ طور پر کوئی جواب دہندہ ہو گا

\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]

سادگی کی خاطر، میں اس کیس پر غور کروں گا جہاں اصل نمونہ کے ڈیزائن کو متبادل بے ترتیب نمونے کے بغیر بغير متبادل نہیں ہے. اگر محققین سائز \(n_s\) کا نمونہ منتخب کرتا ہے جو \(n_r\) جواب دہندگان کو حاصل کرتا ہے، اور اگر محققین غیر ردعمل کو نظر انداز کرتے ہیں اور جواب دہندگان کے معنی کا استعمال کرتے ہیں تو، تخمینہ کا اندازہ ہو گا:

\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]

جہاں سے \(cor(\phi, y)\) جواب ردعمل اور نتائج (مثال کے طور پر، بے روزگاری کی حیثیت) کے درمیان آبادی کے تعلق ہے، \(S(y)\) آبادی کے نتائج کا معیاری انحراف ہے (مثال کے طور پر، بے روزگاری حیثیت)، \(S(\phi)\) آبادی معیاری انحراف کا ردعمل ہے، اور \(\bar{\phi}\) آبادی کا مطلب ہے (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Eq. 3.7 سے پتہ چلتا ہے کہ غیر ذمہ داریاں تعصب نہیں کریں گے اگر مندرجہ ذیل حالات میں سے کوئی بھی ملاقات کی جائے تو:

  • بے روزگاری کی حیثیت میں کوئی تبدیلی نہیں ہے \((S(y) = 0)\) .
  • ردعمل کی صلاحیتوں میں کوئی تبدیلی نہیں ہے \((S(\phi) = 0)\) .
  • ردعمل اور بےروزگاری کی حیثیت کے درمیان کوئی تعلق نہیں ہے \((cor(\phi, y) = 0)\) .

بدقسمتی سے، ان حالات میں سے کوئی بھی ممکن نہیں ہوتا. یہ ممکنہ لگتا ہے کہ ملازمت کی حیثیت میں کوئی تبدیلی نہیں ہوگی یا ردعمل کی صلاحیتوں میں کوئی تبدیلی نہیں ہوگی. اس طرح، eq میں اہم اصطلاح. 3.7 کنکشن ہے: \(cor(\phi, y)\) . مثال کے طور پر، اگر لوگ ایسے ہیں جو بے روزگاری جواب دینے کا امکان رکھتے ہیں، توقع ہے کہ روزانہ کی شرح کا اندازہ بڑھایا جائے گا.

جب غیر منفی طور پر معاون معلومات کا استعمال کرنا ہے تو تخمینہ کرنے کے لئے چال. مثال کے طور پر، جس طرح آپ معاون معلومات کا استعمال کرسکتے ہیں، اس کے بعد استحکام ہے (اوپر سے 3.5 یاد رکھیں). اس سے پتہ چلتا ہے کہ پوسٹ کے استحکام کے تخمینہ کا تعاقب یہ ہے:

\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]

جہاں \(cor(\phi, y)^{(h)}\) ، \(S(y)^{(h)}\) ، \(S(\phi)^{(h)}\) اور \(\bar{\phi}^{(h)}\) اوپر کے طور پر بیان کیا جاتا ہے لیکن گروپ میں لوگوں کو محدود \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . اس طرح، مجموعی طور پر تعصب چھوٹے ہو جائے گا اگر ہر مراحل کے استحکام گروپ میں تعصب چھوٹا ہے. میرے دو مراحل سے متعلق گروپ میں چھوٹے تعصب بنانے کے بارے میں سوچنا چاہتے ہیں کہ دو طریقے ہیں. سب سے پہلے، آپ متنوع گروپوں کو تشکیل دینے کی کوشش کرنا چاہتے ہیں جہاں ردعمل پر اثر انداز ہوسکتا ہے ( \(S(\phi)^{(h)} \approx 0\) ) اور نتائج ( \(S(y)^{(h)} \approx 0\) ). دوسرا، آپ گروپ بنانا چاہتے ہیں جہاں لوگ آپ کو دیکھتے ہیں وہ لوگ جیسے لوگ ہیں جو آپ نہیں دیکھتے ہیں ( \(cor(\phi, y)^{(h)} \approx 0\) ). مثال کے طور پر 3.7 اور ایق. 3.8 واضح کرنے میں مدد ملتی ہے جب پوسٹ اسٹریٹجیکشن nonresponse کی طرف سے باصلاحیت کی وجہ سے کم کر سکتا ہے.

آخر میں، اس سیکشن نے غیر ردعمل کے ساتھ ممکنہ نمونے لینے کے لئے ایک ماڈل فراہم کیا ہے اور اس تعصب کو ظاہر کیا ہے کہ غیر رائے پوزیشن کے بغیر ایڈجسٹمنٹ ایڈجسٹمنٹ کے ساتھ اور بغیر دونوں متعارف کر سکتے ہیں. Bethlehem (1988) زیادہ عام نمونے کے ڈیزائن کے لئے غیر رائے دینے کی وجہ سے تعصب کی خواہشات پیش کرتا ہے. غیر ذمہ داریاں ایڈجسٹ کرنے کے بعد پوسٹ اسٹریٹجیٹ استعمال کرنے کے بارے میں مزید معلومات کے لئے Smith (1991) اور Gelman and Carlin (2002) . Särndal and Lundström (2005) لگانے کا انشانکن تخنیکشن کے تخمینوں کے نام سے زیادہ عام خاندانوں کا حصہ ہے، جس میں کتاب کی لمبائی کے علاج کے لئے ایک مضمون لمبائی کے علاج اور Särndal and Lundström (2005) کے لئے ژانگ (2000) دیکھیں. غیر رائے کے لۓ ایڈجسٹ کرنے کے لۓ دوسرے دوسرے وزن کے طریقوں پر مزید کے لۓ، Kalton and Flores-Cervantes (2003) ، Brick (2013) ، اور Särndal and Lundström (2005) .

غیر احتساب نمونے

غیر احتساب نمونے میں ایک بہت بڑا قسم کے ڈیزائن (Baker et al. 2013) شامل ہیں. وانگ اور ساتھیوں کی طرف سے بکس صارفین کے نمونے پر خاص طور پر توجہ مرکوز (W. Wang et al. 2015) ، آپ اس نمونے کے بارے میں سوچ سکتے ہیں جہاں نمونے کے ڈیزائن کا اہم حصہ \(\pi_i\) ( شمولیت کے محققین پر مبنی امکان) لیکن \(\phi_i\) (جواب دہندگان سے مبنی ردعمل جوابی صلاحیت). قدرتی طور پر، یہ مثالی نہیں ہے کیونکہ \(\phi_i\) نامعلوم ہیں. لیکن، جیسا کہ وانگ اور ساتھیوں نے دکھایا، اس طرح کے نمونہ نمونہ- یہاں تک کہ ایک نمونے لگانے کے فریم سے بھی بہت زیادہ کوریج خرابی کی ضرورت ہوتی ہے. اگر محققین نے ان سے متعلق معاون معلومات اور ایک اچھا اعداد و شمار کے مطابق ان مشکلات کو پورا کرنے کی ضرورت ہے.

Bethlehem (2010) بعد میں استحکام کے بارے میں مندرجہ بالا مندرجہ بالا بہت سے اخراجات کو غیر ذمہ داریاں اور کوریج کی غلطیوں میں شامل کرنے کے لۓ. پوزیشن میں استحکام کے علاوہ، غیر امکانات کے نمونے اور امکانات کے نمونے کے ساتھ کام کرنے کے لئے دیگر تراکیب، کوریج کی غلطیوں اور غیر رائے میں شامل نمونہ ملازمت (Ansolabehere and Rivers 2013; ??? ) ، پروموشن سکور وزن (Lee 2006; Schonlau et al. 2009) ، اور انشانکن (Lee and Valliant 2009) . ان تکنیکوں میں ایک عام موضوع معاون معلومات کا استعمال ہے.