3.4.2 العينات غير الاحتمالية: الترجيح

تم إنشاء هذه الترجمة بواسطة الكمبيوتر. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.2 العينات غير الاحتمالية: الترجيح

مع العينات غير الاحتمالية، يمكن الأوزان التراجع عن التشوهات الناجمة عن عملية أخذ العينات المفترضة.

وبنفس الطريقة أن الوزن الباحثون ردود من العينات الاحتمالية، كما أنها يمكن أن الوزن ردود من العينات غير الاحتمالية. على سبيل المثال، كبديل للالنيابة العامة، تخيل أن كنت قد وضعت لافتة الإعلانات على آلاف المواقع الإلكترونية لتجنيد المشاركين لإجراء مسح لتقدير معدل البطالة. وبطبيعة الحال، سوف يكون متشككا أن المعدل البسيط للنموذج الخاص بك سيكون على تقدير جيد من معدل البطالة. الشك هو ربما لأنك تعتقد أن بعض الناس أكثر عرضة لاستكمال الدراسة الخاصة بك من غيرها. على سبيل المثال، الأشخاص الذين لا تنفق الكثير من الوقت على شبكة الإنترنت هم أقل عرضة لاستكمال الدراسة الخاصة بك.

كما رأينا في القسم الأخير، ومع ذلك، إذا عرفنا كيف تم اختيار كما هو عينة نقوم به مع احتمال العينات وبعد ذلك يمكننا التراجع عن التشوهات الناجمة عن عملية أخذ العينات. للأسف، عند التعامل مع العينات غير الاحتمالية، ونحن لا نعرف كيف تم اختيار العينة. ولكن، يمكننا أن نجعل افتراضات حول عملية أخذ العينات ومن ثم تطبيق الترجيح في نفس الطريق. إذا كانت هذه الافتراضات صحيحة، ثم الترجيح والتراجع عن التشوهات الناجمة عن عملية أخذ العينات.

على سبيل المثال، تخيل أنه استجابة لافتة الإعلانات الخاصة بك، تجنيد 100،000 المشاركين. ومع ذلك، لا أعتقد أن هذه العينة 100000 هي عينة عشوائية بسيطة من البالغين في الولايات المتحدة. في الواقع، عند مقارنة العينة لسكان الولايات المتحدة، تجد أن الناس من بعض الدول (مثل نيويورك) هي أكثر من ممثلة، وأن الناس من بعض الدول (مثل ألاسكا) ممثلة تمثيلا ناقصا. وبالتالي، فإن معدل البطالة من عينتك من المرجح أن يكون تقدير سوء معدل البطالة في السكان المستهدفين.

طريقة واحدة للتراجع عن التشويه الذي حدث في عملية أخذ العينات لتعيين الأوزان لكل شخص. أوزان أقل للناس من الدول التي يتم على الممثلة في العينة (على سبيل المثال، نيويورك) والأوزان المرتفعة للناس من الدول التي تحت الممثلة في العينة (على سبيل المثال، ألاسكا). وبشكل أكثر تحديدا، ويرتبط وزن كل مدعى عليه أن انتشارها في عينتك نسبة إلى انتشارها في سكان الولايات المتحدة. ويسمى هذا الإجراء الترجيح بعد التقسيم الطبقي، وعلى فكرة من وزنها أذكركم المثال في القسم 3.4.1 حيث أعطيت المشاركين من ولاية رود آيلاند أقل وزنا من المشاركين من ولاية كاليفورنيا. يتطلب في مرحلة ما بعد التقسيم الطبقي عليك أن تعرف ما يكفي لوضع المشاركين في مجموعات ومعرفة نسبة السكان المستهدفين في كل مجموعة.

على الرغم من أن ترجيح عينة احتمالية ومن العينة غير الاحتمالية هي نفس رياضيا (انظر الملحق الفني)، أنها تعمل بشكل جيد في حالات مختلفة. إذا كان الباحث لديه عينة احتمالية مثالية (أي أي خطأ التغطية وأي عدم الاستجابة)، ثم الترجيح سوف تنتج تقديرات غير متحيزة لجميع الصفات في جميع الحالات. هذا الضمان نظري قوي هو لماذا دعاة عينات احتمال العثور عليها جذابة جدا. من ناحية أخرى، فإن العينات غير الاحتمالية الترجيح تنتج سوى تقديرات غير متحيزة لجميع الصفات إذا كانت النزعات استجابة هي نفسها للجميع في كل مجموعة. وبعبارة أخرى، التفكير في العودة إلى مثالنا، وذلك باستخدام ما بعد التقسيم الطبقي سوف تنتج تقديرات غير متحيزة إذا كان الجميع في نيويورك لديه نفس احتمال المشاركة والجميع في ألاسكا لديه نفس احتمال المشاركة وهلم جرا. ويسمى هذا الافتراض افتراض متجانسة، استجابة النزعات داخل الجماعات، وأنها تلعب دورا رئيسيا في معرفة ما إذا كانت في مرحلة ما بعد التدرج سوف تعمل بشكل جيد مع العينات غير الاحتمالية.

لسوء الحظ، في هذا المثال، يبدو من غير المحتمل أن يكون صحيحا افتراض استجابة متجانسة-النزعات داخل الجماعات. وهذا هو، يبدو من غير المحتمل أن الجميع في ألاسكا لديه نفس احتمال كونها في الاستطلاع. ولكن، هناك ثلاث نقاط هامة لنضع في اعتبارنا عن بعد التقسيم الطبقي، وكلها تجعل الأمر يبدو أكثر إشراقا.

أولا، افتراض متجانسة، استجابة النزعات داخل الجماعات يصبح أكثر قبولا كما يزيد عدد المجموعات. ووالباحثين لا تقتصر على الجماعات تستند فقط على البعد الجغرافي واحد. على سبيل المثال، يمكننا إنشاء مجموعات على أساس الدولة، والعمر، والجنس، ومستوى التعليم. ويبدو من المعقول أن هناك نزعات استجابة متجانسة ضمن مجموعة 18-29، خريجات، الكلية الذين يعيشون في ولاية ألاسكا من ضمن مجموعة من جميع الناس الذين يعيشون في ألاسكا. وهكذا، وعدد المجموعات المستخدمة لزيادة ما بعد التقسيم الطبقي، والافتراضات اللازمة لدعم تصبح أكثر معقولية. ونظرا لهذا الواقع، يبدو وكأنه الباحثين يريد لإنشاء عدد كبير من المجموعات لمرحلة ما بعد التقسيم الطبقي. ولكن، كما يزيد عدد المجموعات وتشغيل الباحثين إلى مشكلة مختلفة: تبعثر البيانات. إذا لا يوجد سوى عدد قليل من الناس في كل مجموعة، ثم التقديرات ستكون أكثر غموضا، وفي الحالة القصوى حيث هناك مجموعة لديها أي المستطلعين، ثم بعد التقسيم الطبقي يكسر تماما أسفل. هناك طريقتان للخروج من هذا التوتر الكامن بين معقولية homogeneous- افتراض استجابة ميل داخل الجماعات والطلب على أحجام عينة معقولة في كل مجموعة. نهج واحد هو للانتقال إلى نموذج إحصائي أكثر تطورا لحساب الأوزان، والآخر هو لجمع أكبر، عينة أكثر تنوعا، مما يساعد على ضمان أحجام عينة معقولة في كل مجموعة. وأحيانا الباحثين القيام على حد سواء، وأنا أصف بمزيد من التفاصيل أدناه.

والاعتبار الثاني عند العمل مع مرحلة ما بعد التدرج، من العينات غير الاحتمالية هو أن افتراض متجانسة، استجابة ميل داخل الجماعات بالفعل جعل كثيرا عند تحليل العينات الاحتمالية. والسبب أن هناك حاجة إلى هذا الافتراض لعينات احتمال عمليا هو أن العينات الاحتمالية لها عدم الاستجابة، والأسلوب الأكثر شيوعا لتعديل لعدم الاستجابة هو ما بعد التدرج كما هو موضح أعلاه. بالطبع، فقط لأن العديد من الباحثين جعل افتراض معين لا يعني أن عليك أن تفعل ذلك أيضا. ولكن، هل يعني ذلك عند مقارنة عينات غير الاحتمالية لعينات احتمال في الممارسة العملية، يجب علينا أن نأخذ في الاعتبار أن كلا تعتمد على افتراضات ومعلومات مساعدة من أجل إنتاج التقديرات. في الإعدادات الأكثر واقعية، وببساطة ليس هناك نهج خالية من الافتراض إلى الاستدلال.

وأخيرا، إذا كنت تهتم واحدة التقدير على وجه الخصوص في مثالنا البطالة معدل ثم كنت في حاجة الى حالة أضعف مما كان استجابة ميل داخل جماعات متجانسة الافتراض. على وجه التحديد، لا تحتاج أن نفترض أن كل شخص لديه نفس الميل ردا على ذلك، ما عليك سوى أن نفترض أن ليست هناك علاقة بين ميل الاستجابة ومعدل البطالة داخل كل مجموعة. وبطبيعة الحال، وحتى هذا الشرط الأضعف لن تجري في بعض الحالات. على سبيل المثال، تخيل تقدير نسبة الأميركيين أن تفعل العمل التطوعي. إذا كان الناس الذين لا عمل المتطوعين هم أكثر عرضة للتوافق على أن تكون في المسح، ثم الباحثين سوف منهجي الإفراط في تقدير كمية العمل التطوعي، حتى لو كانت تفعل تعديلات ما بعد التقسيم الطبقي، نتيجة لأنه قد ثبت تجريبيا من قبل Abraham, Helms, and Presser (2009) .

كما قلت سابقا، وينظر العينات غير الاحتمالية بتشكك كبير من قبل علماء الاجتماع، وذلك جزئيا بسبب دورهم في بعض الإخفاقات أحرج في الأيام الأولى من الدراسات المسحية. وهناك مثال واضح لكيفية ما وصلنا إليه مع العينات غير الاحتمالية هي البحوث انغ وي، ديفيد روتشيلد، شاراد غويل، وأندرو غيلمان أن تعافى نتائج الانتخابات الامريكية 2012 بشكل صحيح باستخدام العينات غير الاحتمالية من مستخدمي أجهزة إكس بوكس الأمريكية -a عينة بالتأكيد غير عشوائية من الأميركيين (Wang et al. 2015) . جمع الباحثون المشاركين من نظام الألعاب إكس بوكس، وكما هو متوقع، تفاوت العينة إكس بوكس الذكور ومنحرفة الشباب: 18 - الذين تتراوح أعمارهم بين 29 سنة يشكلون 19٪ من الناخبين ولكن 65٪ من العينة اكس بوكس والرجال يشكلون 47٪ من الناخبين و 93٪ من العينة اكس بوكس (الشكل 3.4). بسبب هذه التحيزات الديموغرافية القوية، والبيانات إكس بوكس الخام مؤشر ضعف نتائج الانتخابات. وتوقعت نصرا قويا لميت رومني على باراك أوباما. مرة أخرى، وهذا هو مثال آخر على مخاطر الخام العينات غير الاحتمالية، غير المعدلة ويذكرنا الفشل الذريع الأدبية دايجست.

الشكل 3.4: التركيبة السكانية من المشاركين في وانغ وآخرون. (2015). لأنه تم تجنيد المشاركين من أجهزة إكس بوكس، كانوا أكثر عرضة ليكون الشباب ومن المرجح أن يكون ذكرا، بالنسبة إلى الناخبين في انتخابات 2012.

الشكل 3.4: التركيبة السكانية من المشاركين في Wang et al. (2015) . لأنه تم تجنيد المشاركين من أجهزة إكس بوكس، كانوا أكثر عرضة ليكون الشباب ومن المرجح أن يكون ذكرا، بالنسبة إلى الناخبين في انتخابات 2012.

ومع ذلك، كان وانغ وزملاؤه على علم بهذه المشاكل وحاول لوزن المشاركين لتصحيح عملية أخذ العينات. على وجه الخصوص، كانوا شكل أكثر تطورا من مرحلة ما بعد التقسيم الطبقي قلت لك عنه. ومن الجدير تعلم أكثر قليلا عن نهجها لأنه يبني حدس حول ما بعد التقسيم الطبقي، ونسخة خاصة وانغ وزملاؤه المستخدمة هي واحدة من الطرق الأكثر إثارة للعينات غير الاحتمالية الترجيح.

في مثالنا بسيط عن تقدير البطالة في القسم 3.4.1، قسمنا السكان إلى مجموعات على أساس دولة الإقامة. في المقابل، وانغ وزملاؤه تقسيم المجتمع إلى إلى 176256 مجموعات المحددة: الجنس (2 فئات)، سباق (4 فئات)، عمر (4 فئات)، والتعليم (4 فئات)، دولة (51 فئات)، معرف حزب (3 فئات)، أيديولوجية (3 فئات) و 2008 صوت (3 فئات). مع أكثر من المجموعات، يأمل الباحثون أنه سيكون من المرجح بشكل متزايد أن داخل كل مجموعة، كان رد الميل غير مترابطة مع دعم لأوباما. المقبل، بدلا من بناء الأوزان على المستوى الفردي، كما فعلنا في مثالنا، استخدم وانغ وزملاؤه نموذج معقد لتقدير نسبة السكان في كل مجموعة أن سيصوتون لأوباما. وأخيرا، اقترنت هذه التقديرات مجموعة من الدعم مع حجم معروفة من كل مجموعة لإنتاج المستوى العام المقدر للدعم. وبعبارة أخرى، فإنها المفروم حتى السكان إلى مجموعات مختلفة، ويقدر الدعم لأوباما في كل مجموعة، ثم أخذ المتوسط المرجح لتقديرات مجموعة لإنتاج تقديرا عاما.

وبالتالي، فإن التحدي الكبير في نهجها لتقدير الدعم لاوباما في كل من هذه المجموعات 176256. على الرغم من أن لوحة بها شملت 345858 مشاركا فريدة من نوعها، وعدد كبير من معايير الاقتراع الانتخابات، كان هناك العديد والعديد من المجموعات التي كان وانغ وزملاؤه تقريبا أي المستجيبين. لذلك، لتقدير الدعم في كل مجموعة أنها تستخدم تقنية تسمى الانحدار متعدد المستويات مع مرحلة ما بعد التدرج والباحثين التي تدعو بمودة السيد ب. في الأساس، لتقدير الدعم لاوباما ضمن مجموعة معينة، وحمامات السيد P. المعلومات من العديد جماعات مرتبطة ارتباطا وثيقا. على سبيل المثال، والنظر في التحدي المتمثل في تقدير الدعم لاوباما بين اللاتينيين الإناث، بين 18-29 سنة، الذين هم من خريجي الكلية، والذين تم تسجيلهم الديمقراطيين، الذين تعرف نفسها كما المعتدلين، والذين صوتوا لأوباما في عام 2008. وهذا هي مجموعة جدا ومحددة جدا، وأنه من الممكن أن يكون هناك أحد في العينة مع هذه الخصائص. لذلك، لعمل تقديرات عن هذه المجموعة، وحمامات السيد P. يقدر معا من الناس في مجموعات متشابهة جدا.

باستخدام هذه الاستراتيجية التحليل، كان وانغ وزملاؤه قادرا على استخدام أجهزة إكس بوكس غير الاحتمالية عينة لتقدير عن كثب الدعم الشامل أن أوباما حصل في انتخابات عام 2012 (الشكل 3.5). في الواقع كانت تقديراتهم أكثر دقة من مجرد مجموع استطلاعات الرأي العام. وهكذا، في هذه الحالة، الترجيح على وجه التحديد السيد ب-يبدو أن القيام بعمل جيد تصحيح التحيز في البيانات غير الاحتمالية. التحيزات التي هي واضحة عند النظر في التقديرات من البيانات غير المعدلة أجهزة إكس بوكس.

الشكل 3.5: تقديرات من وانغ وآخرون. (2015). أنتجت عينة إكس بوكس غير المعدلة تقديرات غير دقيقة. ولكن، أنتجت عينة إكس بوكس المرجح التقديرات التي كانت أكثر دقة من أي بمعدل الاستبيانات الهاتفية القائمة على الاحتمال.

الشكل 3.5: تقديرات من Wang et al. (2015) . أنتجت عينة إكس بوكس غير المعدلة تقديرات غير دقيقة. ولكن، أنتجت عينة إكس بوكس المرجح التقديرات التي كانت أكثر دقة من أي بمعدل الاستبيانات الهاتفية القائمة على الاحتمال.

هناك نوعان من الدروس الرئيسية من دراسة وانغ وزملاؤه. أولا، يمكن أن العينات غير الاحتمالية غير المعدلة يؤدي إلى تقديرات سيئة. هذا هو الدرس أن العديد من الباحثين قد سمعت من قبل. ومع ذلك، فإن الدرس الثاني هو أن العينات غير الاحتمالية، عندما المرجحة بشكل صحيح، يمكن أن تنتج في الواقع تقديرات جيدة جدا. في الواقع، كانت تقديراتهم أكثر دقة من تقديرات pollster.com، تجميع المزيد من استطلاعات الرأي الانتخابية التقليدية.

وأخيرا، هناك قيود هامة لما يمكن أن نتعلمه من هذه الدراسة واحدة محددة. فقط لأن ما بعد التقسيم الطبقي عملت بشكل جيد في هذه الحالة بالذات، ليس هناك ما يضمن أنه سوف يعمل بشكل جيد في حالات أخرى. في الواقع، والانتخابات هي ربما واحدة من أسهل إعدادات لاستطلاعات الرأي كانوا يدرسون الانتخابات ما يقرب من 100 سنة، وهناك تغذية راجعة منتظمة (يمكننا أن نرى من يفوز في الانتخابات)، وتحديد الطرف، والخصائص الديموغرافية والتنبؤي نسبيا من التصويت. عند هذه النقطة، أننا نفتقر إلى نظرية متينة والتجربة العملية لمعرفة متى الترجيح تعديلات على عينات غير الاحتمالية سينتج تقديرات دقيقة بما فيه الكفاية. شيء واحد واضح، ولكن، إذا كنت اضطر للعمل مع العينات غير الاحتمالية، ثم هناك سبب قوي للاعتقاد بأن التقديرات المعدلة سيكون أفضل من تقديرات غير المعدلة.