3.4.1 ניתוח איסוף נתונים: דגימת הסתברות

משקולות יכולות לבטל עיוותים שנגרמו במכוון על-ידי תהליך הדגימה.

דגימות הסתברות הן אלה שבן כל מה שיש אנשי הסתברות ידועה, שאינה אפס של הכללה, ואת עיצוב דגימת הסתברות הפשוט ביותר הוא פשוט דגימה אקראית שבו כל בעל אדם הסתברות שווה של הכללה. כאשר משיבים נבחרו באמצעות דגימה אקראית פשוטה עם ביצוע מושלם (למשל, אין שגיאת כיסוי ולא אי-שבה), אז ההערכה היא פשוטה כי המדגם יהיה-בממוצע-להיות גרסה מיניאטורית של האוכלוסייה.

דגימה אקראית פשוטה משמשת לעתים רחוקות בפועל, עם זאת. במקום זאת, החוקרים בכוונה לבחור אנשים בהסתברויות לא שוויונית של הכללה מנת להוזיל את עלויות ולהגדיל את הדיוק. כאשר החוקרים בכוונה לבחור אנשים עם הסתברויות שונות של הכללה, אז התאמות נדרשות כדי לבטל את העיוותים שנגרמו על ידי תהליך הדגימה. במילים אחרות, איך אנחנו להכליל ממדגם תלוי איך נבחר המדגם.

לדוגמא, סקר האוכלוסייה השוטף (CPS) משמש על ידי ממשלת ארה"ב כדי להעריך את שיעור האבטלה. בכל חודש כ -100,000 אנשים מתראיינים, או פנים אל פנים או בטלפון, והתוצאות משמשים לייצור שיעור האבטלה המוערך. בגלל שהממשלה מבקשת לאמוד את שיעור האבטלה בכל מדינה, הוא לא יכול לעשות מדגם מקרי פשוט של מבוגרים כי יניב מעט מדי משיבים במדינות עם אוכלוסיות קטנות (למשל, רוד איילנד) ויותר מדי ממדינות בעלות אוכלוסייה גדולה (למשל , קליפורניה). במקום זאת, אנשי דגימות CPS במדינות שונות בשיעורים שונים, תהליך הנקראים דגימה מרובדת בהסתברות של מבחר שוויוני. לדוגמא, אם CPS רצה 2,000 המשיבים לכל מדינה, אז מבוגרים ב רוד איילנד יצטרכו כ -30 פעמים גבוהות הסתברות של הכללה ממבוגרים בקליפורניה (רוד איילנד: 2,000 המשיב לכל 800,000 מבוגרים לעומת קליפורניה: 2,000 המשיב לכל 30,000,000 מבוגרים). כפי שנראה בהמשך, זה סוג של דגימה בהסתברות שוויונית קורה עם מקורות מקוונים של נתונים מדי, אך בניגוד CPS, מנגנון הדגימה בדרך כלל אינו ידוע או בשליטת החוקר.

בהתחשב עיצוב הדגימה שלו, את CPS אינו מייצג באופן ישיר של ארה"ב; היא כוללת יותר מדי אנשים מרוד איילנד ומעט מדי מקליפורניה. לכן, זה לא יהיה חכם כדי להעריך את שיעור האבטלה במדינה עם שיעור האבטלה במדגם. במקום לממוצע המדגם, עדיף לקחת ממוצע משוקלל, שבו משקולות להסביר את העובדה שאנשים מרוד איילנד היו בסבירות גבוהה יותר להיכלל מאשר אנשים מקליפורניה. לדוגמא, כל אדם מקליפורניה יהיה upweighted- היה מונה יותר באומדן-וכל אדם מן רוד איילנד יהיה משקל נמוך שלא-כך היה מונה פחות באומדן. בעיקרו של דבר, אתם מקבלים יותר קול לאנשים שאתה נוטה פחות ללמוד על.

לדוגמא צעצוע זו ממחישה נקודה חשובה אבל לא מובנת כלל: מדגם לא צריך להיות גרסה מיניאטורית של האוכלוסייה כדי לייצר הערכה טובה. אם מספיק ידוע על האופן שבו נאספו נתונים, המידע, שניתן להשתמש בהם בעת ביצוע אומדנים מן המדגם. הגישה שתארתי-ושאני לתאר באופן מתמטי ב הטכני נספח-מוטל במסגרת דגימת הסתברות הקלסית. עכשיו, אני אראה איך אותו הרעיון יכול להיות מיושם על דגימות בלתי סבירות.