3.4.1 احتمال أخذ العينات: جمع البيانات وتحليل البيانات

يمكن الأوزان التراجع عن التشوهات الناجمة عن قصد من قبل عملية أخذ العينات.

العينات الاحتمالية هي تلك التي يكون كل شخص يعرف غير صفرية احتمال والاستيعاب، وأبسط تصميم العينات احتمال بسيط أخذ العينات العشوائية حيث كل شخص لديه احتمال متساو من إدراج. عندما يتم اختيار العينة عن طريق العينة العشوائية البسيطة مع تنفيذ الكمال (على سبيل المثال، لا خطأ التغطية وأي عدم الاستجابة)، ثم تقدير واضح وصريح لعينة و-في المتوسط-أن يكون نسخة مصغرة من السكان.

نادرا ما يتم استخدام العينة العشوائية البسيطة في الممارسة العملية، ولكن. بدلا من ذلك، الباحثين عن قصد تحديد الأشخاص الذين يعانون من الاحتمالات غير متكافئة الإدماج من أجل خفض التكاليف وزيادة دقة. عندما الباحثين عن قصد اختيار الناس مع الاحتمالات المختلفة للإدراج، ثم هناك حاجة إلى إدخال تعديلات على التراجع عن التشوهات الناجمة عن عملية أخذ العينات. وبعبارة أخرى، كيف يمكننا التعميم من عينة يعتمد على كيفية اختيار العينة.

على سبيل المثال، يستخدم المسح السكاني الحالي و(CPS) من قبل حكومة الولايات المتحدة لتقدير معدل البطالة. وتستخدم كل شهر تجري مقابلات مع حوالي 100،000 شخص، سواء وجها لوجه أو عبر الهاتف، والنتائج لإنتاج تصل نسبة البطالة تقريبا. لأن الحكومة ترغب في تقدير معدل البطالة في كل دولة، فإنه لا يمكن القيام به على عينة عشوائية بسيطة من البالغين لأن ذلك من شأنه أن يسفر عن عدد قليل جدا من المشاركين في الدول ذات الكثافة السكانية الصغيرة (على سبيل المثال، رود ايلاند)، والكثير من من الدول ذات الكثافة السكانية العالية (على سبيل المثال ، كاليفورنيا). بدلا من ذلك، CPS عينات الناس في ولايات مختلفة بأسعار مختلفة، تسمى عملية أخذ العينات الطبقية مع احتمال عدم المساواة في الاختيار. على سبيل المثال، إذا أرادت النيابة العامة 2000 من شملهم الاستطلاع لكل دولة، ثم البالغين في ولاية رود آيلاند سيكون حوالي 30 أضعاف احتمال إدراج من البالغين في ولاية كاليفورنيا (رود ايلاند: 2،000 المشاركين في 800،000 البالغين مقابل كاليفورنيا: 2،000 المشاركين في 30،000،000 البالغين). كما سنرى لاحقا، وهذا النوع من العينات مع احتمال عدم المساواة يحدث مع المصادر على شبكة الانترنت من بيانات للغاية، ولكن على العكس من النيابة العامة، وآلية أخذ العينات عادة لا يعرف أو السيطرة عليها من قبل الباحث.

نظرا تصميم العينة لها، والنيابة العامة هي لا تمثل مباشرة من الولايات المتحدة. ويشمل الكثير من الناس من ولاية رود آيلاند، وعدد قليل جدا من ولاية كاليفورنيا. ولذلك، فإنه من الحكمة لتقدير معدل البطالة في البلاد مع معدل البطالة في العينة. بدلا من متوسط ​​العينة، فمن الأفضل أن تأخذ المتوسط ​​الموزون، حيث تمثل الأوزان لحقيقة أن الناس من ولاية رود آيلاند كانوا أكثر عرضة للتدرج من الناس من ولاية كاليفورنيا. على سبيل المثال، فإن كل شخص من ولاية كاليفورنيا أن يكون upweighted- أنها تعول أكثر في التقدير ولكل شخص من ولاية رود آيلاند سيتم downweighted-أنها تعول أقل في التقدير. في الجوهر، الذي يتم إعطاء المزيد من صوت للناس أنك أقل عرضة للمعرفة.

يوضح هذا المثال لعبة نقطة مهمة ولكن يساء فهمها عادة: عينة لا حاجة إلى أن يكون نسخة مصغرة من السكان من أجل إنتاج تقديرات جيدة. إذا كان يعرف ما يكفي عن كيفية جمع البيانات، ثم أن المعلومات التي يمكن استخدامها عند وضع التقديرات من العينة. النهج لقد وصف ومجرد أن أصف رياضيا في التقنية ملحق-يندرج تماما ضمن إطار أخذ العينات الاحتمالية الكلاسيكية. الآن، سوف تظهر كيف أن نفس الفكرة يمكن تطبيقها على عينات غير الاحتمالية.