یادداشت های ریاضی

این ترجمه توسط یک کامپیوتر ساخته شده است. ×

یادداشت های ریاضی

در این ضمیمه، من بعضی از ایده های فصل را در قالب کمی بیشتر ریاضی توصیف می کنم. هدف این است که به شما کمک کند با چارچوب نشانه گذاری و ریاضی که توسط محققان بررسی استفاده می کنید راحت باشید تا بتوانید به برخی از مطالب فنی بیشتر در این موضوعات منتقل شوید. من با معرفی نمونه گیری احتمالی شروع می کنم، سپس به نمونه گیری احتمالی با عدم پاسخ، و در نهایت نمونه گیری غیر احتمالی حرکت خواهم کرد.

نمونه برداری احتمالی

به عنوان مثال در حال اجرا، بیایید در نظر سنجی نرخ بیکاری در ایالات متحده را در نظر بگیریم. اجازه بدهید \(U = \{1, \ldots, k, \ldots, N\}\) جمعیت هدف و let \(y_k\) با مقدار متغیر نتیجه برای person \(k\) . در این مثال \(y_k\) این است که آیا فرد \(k\) بیکار است یا نه. در نهایت، اجازه بدهید \(F = \{1, \ldots, k, \ldots, N\}\) یک جمعیت فریم است که به خاطر سادگی فرض شده است همانند جمعیت هدف است.

طرح نمونه گیری اولیه نمونه گیری تصادفی ساده بدون جایگزینی است. در این مورد، هر فرد احتمالا در نمونه \(s = \{1, \ldots, i, \ldots, n\}\) گنجانده شده است. هنگامی که داده ها با استفاده از این طرح نمونه گیری جمع آوری می شوند، محققان می توانند میزان بیکاری جمعیت را با میانگین نمونه برآورد کنند:

\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]

\(\bar{y}\) نرخ بیکاری در جمعیت است و \(\hat{\bar{y}}\) برآورد میزان بیکاری است ( \(\hat{ }\) معمولا برای نشان دادن یک برآورد استفاده می شود).

در واقع، محققان به ندرت از نمونه گیری تصادفی ساده بدون جایگزینی استفاده می کنند. به دلایل مختلف (که یکی از آن ها در یک لحظه توضیح داده می شود) محققان اغلب نمونه هایی را با احتمالات نابرابر احتمالی ایجاد می کنند. به عنوان مثال، محققان ممکن است افرادی را در فلوریدا انتخاب کنند که دارای احتمال بیشتری از افراد در کالیفرنیا باشند. در این مورد، میانگین نمونه (معادل 3.1) ممکن است یک برآوردگر خوب نباشد. در عوض، محققان هنگام استفاده از احتمالات نابرابر احتمالی وجود دارند

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]

که \(\hat{\bar{y}}\) برآورد میزان بیکاری است و \(\pi_i\) فرد \(i\) احتمال پذیرش است. پس از عمل استاندارد، من برآوردگر را در معادل برابر می نامم. 3.2 برآورد کننده Horvitz-Thompson. برآوردگر Horvitz-Thompson بسیار سودمند است زیرا منجر به برآوردهای بی طرفانه برای هر طرح نمونه گیری احتمالی می شود (Horvitz and Thompson 1952) . از آنجا که برآوردگر Horvitz-Thompson به طور مرتب بالا می آید، مفید است که متوجه شوید که می توان آن را دوباره به عنوان

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]

جایی که \(w_i = 1 / \pi_i\) . به عنوان عدد 3.3 نشان می دهد که برآورد کننده Horvitz-Thompson یک میانگین نمونه وزن ای است که وزن آن به طور معکوس مربوط به احتمال انتخاب است. به عبارت دیگر، کمتر احتمال دارد فرد در نمونه قرار گیرد، وزن بیشتری که فرد باید در تخمین دریافت کند.

همانطور که قبلا توضیح داده شد، محققان اغلب افرادی را با احتمالات نابرابر احتمالی انتخاب می کنند. یک نمونه از یک طرح که می تواند منجر به احتمال نابرابر احتمالات شود، نمونه گیری استراتیژیک است که برای درک مهم است، زیرا نزدیک به روش تخمین زده شده به نام پس از طبقه بندی است . در نمونه برداری طبقه ای، یک محقق جمعیت هدف را به گروه های \(H\) متقابل منحصر به فرد و جامع تقسیم می کند. این گروه ها به عنوان " شاخه ها " نامیده می شوند و به عنوان \(U_1, \ldots, U_h, \ldots, U_H\) . در این مثال، لایه ها حالت هستند. اندازه گروه ها به عنوان \(N_1, \ldots, N_h, \ldots, N_H\) . یک محقق ممکن است بخواهد از نمونه گیری طبقه ای استفاده کند تا اطمینان حاصل کند که او در هر ایالت به اندازه کافی برای ارزیابی سطح بیکاری در سطح کشور دارد.

هنگامی که جمعیت به طبقه ها تقسیم می شود، فرض کنید که محقق یک نمونه تصادفی ساده را بدون جایگزینی اندازه \(n_h\) ، به صورت مستقل از هر گروه انتخاب می کند. علاوه بر این، فرض کنید که هر کسی که در نمونه انتخاب شده، یک پاسخ دهنده باشد (من در بخش بعدی بدون پاسخ پاسخ خواهم داد). در این مورد، احتمال ورود به آن است

\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]

از آنجا که این احتمالات ممکن است از فرد به فرد متفاوت باشد، هنگام برآورد از این طرح نمونه گیری، محققان باید هر پاسخ دهندگان را با معکوس از احتمال ورود آنها با استفاده از برآورد کننده Horvitz-Thompson (معادل 3.2)، وزن کنند.

گرچه برآوردگر Horvitz-Thompson بی طرفانه است، محققان می توانند با استفاده از ترکیب نمونه با اطلاعات کمکی ، دقیق تر (یعنی واریانس پایین) را تولید کنند. بعضی از افراد آن را تعجب آور می دانند که این درست است حتی زمانی که نمونه برداری احتمالا کاملا اجرا شده باشد. این تکنیک ها با استفاده از اطلاعات کمکی مخصوصا مهم هستند زیرا، همانطور که بعدا نشان خواهم داد، اطلاعات کمکی برای ساخت تخمین ها از نمونه های احتمالی با عدم پاسخ و نمونه های غیر احتمالی حیاتی است.

یک روش رایج برای استفاده از اطلاعات کمکی پس از طبقه بندی است . به عنوان مثال، تصور کنید که محقق تعداد مردان و زنان را در هر یک از 50 ایالت می داند؛ ما می توانیم این اندازه های گروه را به عنوان \(N_1, N_2, \ldots, N_{100}\) . برای ترکیب این اطلاعات کمکی با نمونه، محقق می تواند نمونه را به گروه های \(H\) تقسیم کند (در این مورد 100)، یک برآورد برای هر گروه ایجاد می کند و سپس یک میانگین وزنی از این گروه ایجاد می کند:

\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]

تقریبا برآوردگر در معادله. 3.5 احتمالا دقیق تر است زیرا از اطلاعات شناخته شده جمعیت استفاده می کند - \(N_h\) - برای برآوردهای درست اگر نمونه ای نامتعادل برای انتخاب انتخاب شود. یک راه برای فکر کردن در مورد آن این است که بعد از طبقه بندی مانند تقریب طبقه بندی پس از جمع آوری داده ها است.

در نهایت، در این بخش، چندین طرح نمونه گیری را شرح داده ایم: نمونه گیری تصادفی ساده بدون جایگزین، نمونه برداری با احتمال نابرابر و نمونه گیری طبقه بندی شده. این نیز دو ایده اصلی در مورد برآورد را شرح داده است: برآوردگر Horvitz-Thompson و بعد از طبقه بندی. برای تعریف رسمی تر از طرح های نمونه گیری احتمالی، به فصل 2 Särndal, Swensson, and Wretman (2003) . برای درمان رسمی و کامل از نمونه گیری طبقه بندی شده، به بخش 3.7 Särndal, Swensson, and Wretman (2003) . برای توصیف فنی خواص برآورد کننده Horvitz-Thompson، به Horvitz and Thompson (1952) ، Overton and Stehman (1995) یا بخش 2.8 از @ sarndal_model_2003 مراجعه کنید. برای درمان رسمی تر بعد از طبقه بندی، نگاه کنید به Holt and Smith (1979) ، Smith (1991) ، Little (1993) ، یا بخش 7.6 از Särndal, Swensson, and Wretman (2003) .

نمونه گیری احتمالی با عدم پاسخ

تقریبا تمام نظرسنجی های واقعی دارای عدم پاسخ هستند؛ به این معنی نیست که هر کس در جمعیت نمونه به هر پرسش پاسخ دهد. دو نوع اصلی عدم پاسخ وجود دارد: عدم پاسخ به اقلام و عدم پاسخ واحد . در مورد عدم پاسخ، برخی از پاسخ دهندگان به برخی از موارد پاسخ نمی دهند (مثلا گاهی اوقات پاسخ دهندگان نمی خواهند به سوالاتی پاسخ دهند که حساس هستند). در پاسخ غیر واحدی، برخی از افرادی که برای جمعیت نمونه انتخاب شده اند به طور کلی به نظرسنجی پاسخ نمی دهند. دو دلیل رایج برای واکنش واحد این است که با فرد تماس گرفته نمیشود تماس گرفت و فرد نمونه تماس گرفته میشود اما حاضر به شرکت در آن نیست. در این بخش، من بر روی عدم پاسخ واحد تمرکز می کنم؛ خوانندگان علاقه مند به آیتم nonresponse باید Little و روبین (2002) .

محققان اغلب در مورد نظرسنجی با عدم پاسخ واحد به عنوان یک فرایند نمونه برداری دو مرحله ای فکر می کنند. در مرحله اول، محقق نمونه \(s\) را انتخاب می کند به طوری که هر فرد دارای احتمال \(\pi_i\) (where \(0 < \pi_i \leq 1\) ) است. سپس در مرحله دوم، افرادی که به نمونه انتخاب می شوند، با احتمال \(\phi_i\) (where \(0 < \phi_i \leq 1\) ) پاسخ می دهند. این فرآیند دو مرحلهای نتیجه مجموعه نهایی پاسخ دهندگان \(r\) . تفاوت مهم بین این دو مرحله این است که محققان فرایند انتخاب نمونه را کنترل می کنند، اما آنها کنترل نمی کنند که کدام یک از افرادی که نمونه برداری می شوند، پاسخگو باشند. با قرار دادن این دو فرآیند با هم، احتمال این که کسی پاسخگو باشد

\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]

به خاطر ساده بودن، من در مورد که در آن نمونه اولیه نمونه نمونه تصادفی ساده بدون جایگزینی در نظر بگیرند. اگر یک محقق نمونه ای از اندازه \(n_s\) که \(n_r\) پاسخ دهندگان را انتخاب می کند، انتخاب می کند و اگر محقق نادیده گرفته شده از عدم پاسخ و از میانگین پاسخ دهندگان استفاده کند، تعصب برآورد خواهد شد:

\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]

جایی که \(cor(\phi, y)\) همبستگی جمعیتی بین تمایل واکنش و نتیجه است (به عنوان مثال وضعیت بیکاری)، \(S(y)\) انحراف استاندارد جمعیت نتیجه است (به عنوان مثال، بیکاری وضعیت \(S(\phi)\) انحراف استاندارد جمعیت واکنش پاسخ است و \(\bar{\phi}\) میل متوسط پاسخ جمعیت است (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4)

معادله 3.7 نشان می دهد که اگر هیچ یک از شرایط زیر رعایت نشود، عدم پاسخ، تعصب را معرفی نمی کند:

هیچ تغییری در وضعیت بیکاری وجود ندارد \((S(y) = 0)\) .
هیچ تفاوتی در اهداف پاسخ وجود ندارد \((S(\phi) = 0)\) .
هیچ ارتباطی بین تمایل پاسخ و وضعیت بیکاری وجود ندارد \((cor(\phi, y) = 0)\) .

متاسفانه، هیچ یک از این شرایط به نظر نمی رسد. به نظر می رسد غیر قابل باور است که هیچ تغییری در وضعیت اشتغال وجود نخواهد داشت و یا تغییرات در تمایلات واکنش وجود نخواهد داشت. بنابراین، کلیدی در معادله. 3.7 همبستگی است: \(cor(\phi, y)\) . به عنوان مثال، اگر افراد بیکار هستند بیشتر احتمال دارد که پاسخ دهند، بنابراین میزان اشتغال برآورد شده به سمت بالا قرار می گیرد.

ترفند ارزیابی زمانی که عدم پاسخ وجود دارد استفاده از اطلاعات کمکی است. به عنوان مثال، یکی از راه هایی که می توانید از اطلاعات کمکی استفاده کنید طبقه بندي بعدي است (به یاد آوردن معادل 3.5 از بالا). معلوم می شود که تعصب برآورد کننده پس از طبقه بندی است:

\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]

\(S(\phi)^{(h)}\) که در آن \(cor(\phi, y)^{(h)}\) ، \(S(y)^{(h)}\) و \(\bar{\phi}^{(h)}\) به عنوان فوق تعریف شده است، اما محدود به افراد در گروه \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . بنابراین، تعصب کلی اگر کوچکترین تعصب در هر گروه بعد از طبقه بندی باشد، کوچک خواهد بود. دو راه وجود دارد که من دوست دارم در مورد ایجاد تعصب کوچک در هر گروه پس از طبقه بندی قرار بگیرم. اولا شما می خواهید سعی کنید گروه های همگن را تشکیل دهید که در تفاوتی کمی در گرایش پاسخ وجود دارد ( \(S(\phi)^{(h)} \approx 0\) ) و نتیجه ( \(S(y)^{(h)} \approx 0\) ). دوم، شما می خواهید گروه هایی ایجاد کنید که در آن افرادی که می بینید مانند افرادی هستند که نمی بینید ( \(cor(\phi, y)^{(h)} \approx 0\) ). مقایسه عدد 3.7 و عدد 3.8 کمک می کند تا روشن شود که بعد از طبقه بندی می تواند منشأ ناشی از عدم پاسخ را کاهش دهد.

در نتيجه، اين بخش مدلي از نمونه گيري احتمالي با عدم پاسخ را ارائه مي دهد و نشان مي دهد که عدم پاسخ مي تواند بدون تغيير و با تنظيم پس از طبقه بندي معرفي شود. Bethlehem (1988) پیشنهاد می کند که تعصب ناشی از عدم پاسخ برای طرح های نمونه گیری عمومی تر باشد. برای اطلاعات بیشتر در مورد استفاده از طبقه بندی پس از تنظیم برای عدم پاسخ، Smith (1991) و Gelman and Carlin (2002) . طبقه بندی پس از آن، بخشی از خانواده های عمومی Särndal and Lundström (2005) برآوردهای کالیبراسیون است؛ ژانگ (2000) برای یک مقاله طول درمان و Särndal and Lundström (2005) برای یک دوره طولانی کتاب، را ببینید. برای اطلاعات بیشتر در مورد دیگر روش های وزن گیری برای تنظیم عدم پاسخ، به Kalton and Flores-Cervantes (2003) ، Brick (2013) و Särndal and Lundström (2005) .

نمونه برداری غیر احتمالی

نمونه گیری غیر احتمالی شامل انواع مختلفی از طرح ها است (Baker et al. 2013) . به طور خاص با توجه به نمونه های کاربران Xbox توسط وانگ و همکاران (W. Wang et al. 2015) ، شما می توانید از این نوع نمونه به عنوان یکی که در آن بخش اصلی از طرح نمونه گیری، \(\pi_i\) ( احتمالات احتمالی محقق محور) اما \(\phi_i\) (خواسته های واکنش پاسخ دهنده). به طور طبیعی این ایده ای نیست چون \(\phi_i\) نامشخص است. اما همانطور که وانگ و همکارانش نشان دادند، این نوع نمونه انتخابی حتی از یک چارچوب نمونه برداری با خطای پوشش بسیار زیاد - اگر پژوهشگر اطلاعات کمکی خوب و یک مدل آماری خوب برای حساب برای این مشکلات نداشته باشد، فاجعه بار نیست.

Bethlehem (2010) بسیاری از اصطلاحات فوق را در مورد طبقه بندی پس از گسترش شامل هر دو خطای عدم پاسخ و پوشش را گسترش می دهد. علاوه بر پس از طبقه بندی، روش های دیگر برای کار با غیر احتمال نمونه و احتمال نمونه ها با خطا پوشش و nonresponse-شامل مطابقت نمونه (Ansolabehere and Rivers 2013; ??? ) ، تمایل نمره وزن (Lee 2006; Schonlau et al. 2009) و کالیبراسیون (Lee and Valliant 2009) . یک موضوع مشترک در میان این تکنیک ها استفاده از اطلاعات کمکی است.