نوتات رياضية

في هذا التذييل ، سأصف بعض الأفكار الواردة في الفصل بشكل رياضي أكثر بعض الشيء. الهدف هنا هو مساعدتك في الحصول على الراحة مع التدوين والإطار الرياضي المستخدم من قبل الباحثين في الاستقصاء بحيث يمكنك الانتقال إلى بعض المواد التقنية المكتوبة حول هذه الموضوعات. سأبدأ بإدخال طريقة أخذ العينات الاحتمالية ، ثم ننتقل إلى أخذ العينات الاحتمالية مع عدم الاستجابة ، وأخيرا أخذ العينات غير الاحتمالية.

أخذ العينات احتمال

وكمثال جاري ، دعونا نفكر في هدف تقدير معدل البطالة في الولايات المتحدة. Let \(U = \{1, \ldots, k, \ldots, N\}\) تكون المجموعة المستهدفة وتسمح ب \(y_k\) بواسطة قيمة متغير النتيجة للشخص \(k\) . في هذا المثال \(y_k\) هو ما إذا كان الشخص \(k\) عاطل عن العمل. أخيرًا ، لندع \(F = \{1, \ldots, k, \ldots, N\}\) يكون نطاق الإطار ، والذي يُفترض أنه من أجل البساطة هو نفس المجموعة السكانية المستهدفة.

تصميم العينة الأساسي هو أخذ عينات عشوائية بسيطة بدون استبدال. في هذه الحالة ، يُحتمل أيضًا تضمين كل شخص في العينة \(s = \{1, \ldots, i, \ldots, n\}\) . عندما يتم جمع البيانات باستخدام تصميم العينات هذا ، يمكن للباحثين تقدير معدل البطالة السكاني مع متوسط ​​العينة:

\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]

حيث \(\bar{y}\) هو معدل البطالة بين السكان و \(\hat{\bar{y}}\) هو تقدير معدل البطالة (the \(\hat{ }\) شائع تستخدم للإشارة إلى المقدر).

في الواقع ، نادرا ما يستخدم الباحثون عينات عشوائية بسيطة بدون استبدال. لمجموعة متنوعة من الأسباب (واحد منها سوف أصف في لحظة) ، والباحثين في كثير من الأحيان إنشاء عينات مع احتمالات غير متكافئة من الإدراج. على سبيل المثال ، قد يختار الباحثون الأشخاص في ولاية فلوريدا مع وجود احتمال أكبر للاشتمال من الأشخاص في كاليفورنيا. في هذه الحالة ، قد لا يكون متوسط ​​العينة (مكافئ 3.1) مقدر جيد. بدلا من ذلك ، عندما تكون هناك احتمالات غير متساوية للإدراج ، يستخدم الباحثون

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]

حيث \(\hat{\bar{y}}\) هو تقدير معدل البطالة و \(\pi_i\) هو \(\pi_i\) الشخص \(i\) لإدراجها. بعد الممارسة المعيارية ، سأتصل بالمقدّر في eq. 3.2 مقدر Horvitz-Thompson. مقدر Horvitz-Thompson مفيد للغاية لأنه يؤدي إلى تقديرات غير متحيزة لأي تصميم لأخذ العينات (Horvitz and Thompson 1952) . نظرًا لأن مقوِّم Horvitz-Thompson يظهر كثيرًا ، من المفيد ملاحظة أنه يمكن إعادة كتابته باسم

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]

حيث \(w_i = 1 / \pi_i\) . كما مكافئ. 3.3 يوضح ، مقدِّر Horvitz-Thompson هو متوسط ​​عينة مرجح حيث ترتبط الأوزان عكسياً باحتمالية الاختيار. وبعبارة أخرى ، كلما قل احتمال إدراج الشخص في العينة ، كلما زاد وزن الشخص الذي ينبغي عليه تقديره.

كما هو موضح سابقًا ، يقوم الباحثون في كثير من الأحيان بتجربة الأشخاص الذين لديهم احتمالات غير متساوية للإدراج. أحد الأمثلة على التصميم الذي يمكن أن يؤدي إلى احتمالات غير متساوية للإدراج هو أخذ العينات الطبقية ، وهو أمر مهم لفهمه لأنه يرتبط ارتباطًا وثيقًا بإجراءات التقدير التي تسمى بعد التقسيم الطبقي . في العينة الطبقية ، يقسم الباحث السكان المستهدفين إلى مجموعات \(H\) حصرية \(H\) متبادلة وشاملة. وتسمى هذه المجموعات طبقات وأشارت باسم \(U_1, \ldots, U_h, \ldots, U_H\) . في هذا المثال ، تكون الطبقات عبارة عن حالات. تتم الإشارة إلى أحجام المجموعات كـ \(N_1, \ldots, N_h, \ldots, N_H\) . قد يرغب الباحث في استخدام أخذ العينات الطبقية من أجل التأكد من أن لديها ما يكفي من الناس في كل ولاية لوضع تقديرات على مستوى الدولة للبطالة.

بمجرد تقسيم السكان إلى طبقات ، افترض أن الباحث يختار عينة عشوائية بسيطة بدون استبدال الحجم \(n_h\) ، بشكل مستقل عن كل طبقة. علاوة على ذلك ، افترض أن كل شخص تم اختياره في العينة يصبح مستجيبًا (سوف أتعامل مع عدم الاستجابة في القسم التالي). في هذه الحالة ، فإن احتمال الإدراج هو

\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]

ولأن هذه الاحتمالات يمكن أن تختلف من شخص لآخر ، عند إجراء تقدير من تصميم العينات هذا ، يحتاج الباحثون إلى وزن كل مجيب من قبل معكوس احتمالهم في الدمج باستخدام مقدِّر هورفيتز-طومسون (المعادلة 3.2).

على الرغم من أن مُقدِّر هورفيتز-طومسون غير متحيز ، يمكن للباحثين أن ينتجوا تقديرات أكثر دقة (أي التباين الأقل) من خلال دمج العينة مع المعلومات المساعدة . بعض الناس يجدون أنه من المدهش أن هذا صحيح حتى عندما يكون هناك احتمال سحب التنفيذ بشكل مثالي. تعتبر هذه التقنيات التي تستخدم المعلومات المساعدة مهمة بشكل خاص ، لأنني سأبين لاحقًا أن المعلومات الإضافية ضرورية لتقدير التقديرات من عينات احتمالية مع عدم الاستجابة ومن عينات غير محتملة.

إحدى التقنيات الشائعة لاستخدام المعلومات المساعدة هي مرحلة ما بعد التقسيم إلى طبقات . تخيل ، على سبيل المثال ، أن الباحث يعرف عدد الرجال والنساء في كل ولاية من الولايات الخمسين. يمكننا الإشارة إلى أحجام هذه المجموعات كـ \(N_1, N_2, \ldots, N_{100}\) . لدمج هذه المعلومات الإضافية مع العينة ، يمكن للباحث تقسيم العينة إلى مجموعات \(H\) (في هذه الحالة 100) ، قم بعمل تقدير لكل مجموعة ، ثم قم بإنشاء متوسط ​​مرجح لهذه المجموعة يعني:

\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]

تقريبا ، المقدر في مكافئ. 3.5 من المرجح أن يكون أكثر دقة لأنه يستخدم المعلومات السكانية المعروفة - \(N_h\) - لتصحيح التقديرات إذا تم اختيار عينة غير متوازنة. إحدى الطرق للتفكير في الأمر هي أن مرحلة ما بعد التقسيم تشبه التقسيم الطبقي التقريبي بعد جمع البيانات بالفعل.

في الختام ، وصف هذا القسم بعض تصميمات أخذ العينات: أخذ عينات عشوائية بسيطة بدون بدائل ، وأخذ عينات مع احتمالية غير متساوية ، وأخذ عينات طبقية. كما أنه وصف اثنين من الأفكار الرئيسية حول التقدير: المقيم Horvitz- طومسون وما بعد الطبقية. للحصول على تعريف أكثر رسمية لتصاميم أخذ العينات Särndal, Swensson, and Wretman (2003) انظر الفصل الثاني من Särndal, Swensson, and Wretman (2003) . للحصول على معالجة أكثر رسمية وكاملة لأخذ العينات الطبقية ، راجع القسم 3.7 من Särndal, Swensson, and Wretman (2003) . للحصول على وصف تقني لخصائص مقدّر Horvitz-Thompson ، راجع Horvitz and Thompson (1952) و Overton and Stehman (1995) أو القسم 2.8 من @ sarndal_model_2003. للحصول على معالجة أكثر رسمية للطبقات التالية ، انظر Holt and Smith (1979) ، Smith (1991) ، Little (1993) ، أو القسم 7.6 من Särndal, Swensson, and Wretman (2003) .

أخذ العينات الاحتمالية مع عدم الاستجابة

تقريبا جميع الدراسات الاستقصائية الحقيقية لديها عدم الاستجابة ؛ أي ، لا يجيب كل الأشخاص في عينة السكان على كل سؤال. هناك نوعان رئيسيان من عدم الاستجابة: عنصر عدم الاستجابة وعدم استجابة الوحدة . في بند عدم الاستجابة ، لا يجيب بعض المستجيبين على بعض العناصر (على سبيل المثال ، في بعض الأحيان لا يرغب المجيبون في الإجابة عن الأسئلة التي يعتبرونها حساسة). في الوحدة nonresponse ، لا يستجيب بعض الأشخاص الذين تم اختيارهم لعينة السكان للاستبيان على الإطلاق. السببان الأكثر شيوعًا لعدم الاستجابة للوحدة هو أنه لا يمكن الاتصال بشخص العينة وأنه تم الاتصال بشخص العينة ، ولكنه يرفض المشاركة. في هذا القسم ، سأركز على وحدة عدم الاستجابة ؛ يجب على القراء المهتمين بعدم الإجابة على العنصر أن يروا Little and Rubin (2002) .

غالباً ما يفكر الباحثون في الاستطلاعات مع عدم استجابة الوحدة كعملية أخذ العينات على مرحلتين. في المرحلة الأولى ، يختار الباحث عينة \(s\) بحيث يكون لكل شخص احتمال تضمين \(\pi_i\) (حيث \(0 < \pi_i \leq 1\) ). ثم ، في المرحلة الثانية ، يستجيب الأشخاص الذين يتم اختيارهم في العينة باحتمال \(\phi_i\) (حيث \(0 < \phi_i \leq 1\) ). تنتج هذه العملية ذات المرحلتين المجموعة النهائية من المستجيبين \(r\) . من الاختلافات المهمة بين هاتين المرحلتين هو أن الباحثين يسيطرون على عملية اختيار العينة ، لكنهم لا يتحكمون في أي من هؤلاء الأشخاص الذين تم أخذ عينات منهم يصبحون مستجيبين. بوضع هاتين العمليتين معًا ، يكون احتمال أن يكون شخص ما مستجيبًا

\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]

من أجل البساطة ، سوف أعتبر الحالة التي يكون فيها تصميم العينة الأصلي عينة عشوائية بسيطة بدون استبدال. إذا قام الباحث باختيار عينة من الحجم \(n_s\) التي تعطي \(n_r\) ، وإذا تجاهل الباحث عدم الاستجابة ويستخدم متوسطات المستجيبين ، فسيكون التحيز التقديري:

\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]

حيث \(cor(\phi, y)\) هو ارتباط السكان بين اتجاه الاستجابة والنتيجة (على سبيل المثال ، حالة البطالة) ، \(S(y)\) هو الانحراف المعياري للسكان للنتيجة (على سبيل المثال ، البطالة الحالة) ، \(S(\phi)\) هو الانحراف المعياري للسكان لنزوع الاستجابة ، و \(\bar{\phi}\) هو ميل استجابة السكان (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

مكافئ. يوضح 3.7 أن عدم الاستجابة لن يؤدي إلى التحيز في حالة تحقق أي من الشروط التالية:

  • لا يوجد أي اختلاف في حالة البطالة \((S(y) = 0)\) .
  • لا يوجد تباين في الاستجابة الاستجابة \((S(\phi) = 0)\) .
  • لا يوجد ارتباط بين اتجاه الاستجابة وحالة البطالة \((cor(\phi, y) = 0)\) .

لسوء الحظ ، لا يبدو أي من هذه الشروط مرجحًا. يبدو من غير المعقول أنه لن يكون هناك أي اختلاف في حالة العمل أو أنه لن يكون هناك أي اختلاف في حالات الاستجابة. وبالتالي ، فإن المصطلح الرئيسي في eq. 3.7 هو الارتباط: \(cor(\phi, y)\) . على سبيل المثال ، إذا كان من المرجح أن يستجيب الناس للعاطلين عن العمل ، فإن معدل التوظيف المقدر سوف يكون متحيزًا إلى الأعلى.

تتمثل الحيلة في وضع التقديرات عند عدم الاستجابة في استخدام المعلومات المساعدة. على سبيل المثال ، إحدى الطرق التي يمكنك من خلالها استخدام المعلومات المساعدة هي مرحلة ما بعد التقسيم إلى طبقات (أذكر المكافئ 3.5 من الأعلى). اتضح أن التحيز لمقدِّر ما بعد الطبقية هو:

\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]

where \(cor(\phi, y)^{(h)}\) ، \(S(y)^{(h)}\) ، \(S(\phi)^{(h)}\) ، و \(\bar{\phi}^{(h)}\) يتم تعريفها على النحو الوارد أعلاه ولكنها مقيدة (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) المجموعة \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . وبالتالي ، سيكون التحيز الكلي صغيراً إذا كان التحيز في كل مجموعة بعد التقسيم صغيراً. هناك طريقتان أود أن أفكر في جعل التحيز صغيرًا في كل مجموعة بعد التقسيم. أولاً ، ترغب في محاولة تشكيل مجموعات متجانسة حيث يوجد اختلاف بسيط في اتجاه الاستجابة ( \(S(\phi)^{(h)} \approx 0\) ) والنتيجة ( \(S(y)^{(h)} \approx 0\) ). ثانيًا ، تريد تكوين مجموعات حيث الأشخاص الذين تراه هم مثل الأشخاص الذين لا تراهم ( \(cor(\phi, y)^{(h)} \approx 0\) ). مقارنة مكافئ. 3.7 و eq. 3.8 يساعد على توضيح متى يمكن للتقسيم اللاحق أن يقلل من التحيز الناجم عن عدم الاستجابة.

في الختام ، قدم هذا القسم نموذجًا لأخذ العينات الاحتمالية مع عدم الاستجابة ، وأظهر التحيز الذي يمكن أن يقدمه عدم الاستجابة على حد سواء وبدون تعديلات ما بعد التقسيم الطبقي. Bethlehem (1988) اشتقاق التحيز الناجم عن عدم الاستجابة لتصاميم العينات الأكثر عمومية. لمعرفة المزيد عن استخدام التذييل اللاحق للضبط من أجل عدم الإجابة ، راجع Smith (1991) و Gelman and Carlin (2002) . تعتبر مرحلة ما بعد التقسيم جزءًا من مجموعة أكثر عمومية من التقنيات تسمى مقدرات المعايرة ، انظر Zhang (2000) لمعالجة طول المقالة و Särndal and Lundström (2005) لمعالجة طول الكتاب. لمعرفة المزيد عن طرق الترجيح الأخرى الأخرى Särndal and Lundström (2005) Kalton and Flores-Cervantes (2003) ، Brick (2013) ، و Särndal and Lundström (2005) .

أخذ العينات غير الاحتمالية

يتضمن أخذ العينات غير الاحتمالية مجموعة كبيرة من التصميمات (Baker et al. 2013) . بالتركيز بشكل محدد على عينة مستخدمي Xbox من قبل وانغ وزملائه (W. Wang et al. 2015) ، يمكنك التفكير في هذا النوع من العينة كواحد حيث الجزء الرئيسي من تصميم أخذ العينات ليس هو \(\pi_i\) ( احتمالية الباحثة في الدمج) ولكن \(\phi_i\) ( \(\phi_i\) الاستجابة المدفوعة من المستجيبين). بطبيعة الحال ، هذا غير مثالي لأن \(\phi_i\) غير معروف. ولكن ، كما أظهر وانج وزملاؤه ، فإن هذا النوع من عينة الاشتراك - حتى من إطار أخذ العينات مع خطأ كبير في التغطية - لا ينبغي أن يكون كارثيا إذا كان لدى الباحث معلومات مساعدة جيدة ونموذج إحصائي جيد لمراعاة هذه المشاكل.

يوسع Bethlehem (2010) العديد من الاشتقاقات أعلاه حول ما بعد التقسيم إلى شرائح لتشمل كلا من عدم الاستجابة وأخطاء التغطية. بالإضافة إلى مرحلة ما بعد التقسيم الطبقي ، تشتمل التقنيات الأخرى للعمل مع العينات غير الاحتمالية - وعينات الاحتمال مع أخطاء التغطية وعدم الاستجابة - على مطابقة العينة (Ansolabehere and Rivers 2013; ??? ) ، (Lee 2006; Schonlau et al. 2009) درجة الميل (Lee 2006; Schonlau et al. 2009) ، والمعايرة (Lee and Valliant 2009) . أحد الموضوعات الشائعة بين هذه التقنيات هو استخدام المعلومات المساعدة.