3.4.1 تجزیه و تحلیل جمع آوری داده ها و اطلاعات: احتمال نمونه گیری

این ترجمه توسط یک کامپیوتر ساخته شده است. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.1 تجزیه و تحلیل جمع آوری داده ها و اطلاعات: احتمال نمونه گیری

وزن را می تحریف عمد توسط فرایند نمونه برداری باعث خنثیسازی.

نمونه احتمال آن که در آن همه مردم به یک شناخته شده است، غیر صفر احتمال گنجاندن هستند، و ساده ترین طرح نمونه برداری احتمال ساده است روش نمونه گیری تصادفی که در آن هر فرد دارای احتمال برابر شمول است. هنگامی که پاسخ دهندگان از طریق نمونه گیری تصادفی ساده با اجرای کامل (به عنوان مثال، بدون خطا پوشش و عدم پاسخ) انتخاب شده، سپس برآورد و راحت است چون نمونه خواهد-به طور متوسط، یک نسخه مینیاتوری از جمعیت.

نمونه گیری تصادفی ساده به ندرت در عمل استفاده می شود، با این حال. در عوض، محققان به عمد مردم با احتمال نابرابر گنجاندن را انتخاب کنید به منظور کاهش هزینه و افزایش دقت و صحت. هنگامی که محققان به عمد مردم با احتمالات مختلف از شمول انتخاب کنید، سپس تنظیمات مورد نیاز برای خنثیسازی تحریف ناشی از فرایند نمونه برداری. به عبارت دیگر، چگونه ما از یک نمونه تعمیم بستگی دارد که چگونه نمونه انتخاب شد.

به عنوان مثال، بررسی جمعیت فعلی (CPS) است که توسط دولت ایالات متحده برای برآورد نرخ بیکاری است. هر ماه حدود 100،000 نفر مصاحبه، یا چهره به چهره و یا از طریق تلفن، و نتایج را به تولید نرخ بیکاری برآورد استفاده می شود. از آنجا که دولت به برآورد نرخ بیکاری در هر ایالت، از آن می توانید یک نمونه تصادفی ساده از بزرگسالان نمی کند چرا که که بیش از حد چند پاسخ دهندگان در ایالات پر جمعیت کوچک (به عنوان مثال، رود آیلند) و بیش از حد بسیاری از ایالات با جمعیت های بزرگ عملکرد (به عنوان مثال ، کالیفرنیا). در عوض، نمونه CPS مردم در کشورهای مختلف در نرخ های مختلف، یک فرآیند به نام نمونه گیری طبقه ای با احتمال نابرابر انتخاب. به عنوان مثال، اگر CPS خواست 2000 پاسخ دهندگان در هر حالت، و سپس بزرگسالان در رود آیلند حدود 30 برابر بیشتر احتمال گنجاندن نسبت به بزرگسالان در کالیفرنیا (رود آیلند: 2000 پاسخ دهندگان در هر 800،000 بزرگسالان در مقابل کالیفرنیا: 2000 پاسخ دهندگان در 30،000،000 بزرگسالان). همانطور که بعدا خواهید دید، این نوع از نمونه با احتمال نابرابر اتفاق می افتد با منابع آنلاین از داده، اما بر خلاف CPS، مکانیسم نمونه برداری است که معمولا شناخته شده نیست و یا توسط محقق کنترل می شود.

با توجه به طراحی نمونه آن، CPS است به طور مستقیم نماینده ما نیست؛ آن شامل بیش از حد بسیاری از مردم از رود آیلند و بیش از حد چند از کالیفرنیا. بنابراین، آن را غیر عاقلانه خواهد بود به برآورد نرخ بیکاری در این کشور با نرخ بیکاری در نمونه است. به جای میانگین نمونه، بهتر است به یک میانگین وزنی، که در آن وزن این واقعیت را تبیین است که مردم از رود آیلند احتمال بیشتری نسبت به مردم از کالیفرنیا به گنجانده شوند. به عنوان مثال، هر فرد از کالیفرنیا می شود upweighted- آنها در برآورد و هر فرد از رود آیلند می شود شمارش downweighted-آنها را در برآورد کمتر حساب می کنند. در واقع، شما صدای بیشتر به مردم است که شما کمتر احتمال دارد برای یادگیری در مورد داده می شود.

این مثال نشان می دهد اسباب بازی یک نکته مهم اما معمولا اشتباه: یک نمونه نیازی به یک نسخه مینیاتوری از جمعیت به منظور تولید برآورد خوب است. اگر به اندازه کافی در مورد چگونه داده ها جمع آوری شد شناخته شده است، پس از آن که اطلاعات را می توان در هنگام ساخت برآورد از نمونه استفاده می شود. رویکرد من فقط توضیح و این در چارچوب نمونه گیری احتمال کلاسیک که من ریاضی در فنی توصیف آپاندیس-می گیرند. در حال حاضر، من نشان می دهد که چگونه است که همان ایده را می توان به نمونه های غیر احتمال اعمال می شود.