3.4.2 דגימות ללא הסתברות: שקלול

התרגום הזו נוצר על ידי מחשב. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.2 דגימות ללא הסתברות: שקלול

עם דגימות בלתי סבירות, משקולות יכולות לבטל עיוותים שנגרמו על ידי תהליך הדגימה להניח.

באותו אופן כי חוקרי משקל תגובות ממדגם הסתברות, הם יכולים גם לשקלל תגובות ממדגמים הלא הסתברות. לדוגמה, כחלופה אל CPS, לדמיין שאתה להציב מודעות באנר על אלפי אתרי לגייס המשתתפים לסקירה כדי להעריך את שיעור האבטלה. באופן טבעי, אתה תהיה סקפטי כי ממוצע פשוט של המדגם שלך יהיה אומדן טוב של שיעור האבטלה. הספקנות שלך היא כנראה בגלל שאתה חושב שאנשים מסוימים נוטים יותר כדי להשלים את הסקר שלך יותר מאחרים. לדוגמה, אנשים שאינם מבלים הרבה זמן באינטרנט הם פחות סביר כדי להשלים את הסקר.

כפי שראינו בפרק האחרון, לעומת זאת, אם אנחנו יודעים איך המדגם נבחר-כמונו בהסתברות דגימות-אז נוכל לבטל עיוותים שנגרמו על ידי תהליך הדגימה. למרבה הצער, כאשר עובדים עם דגימות בלתי סבירות, אנחנו לא יודעים איך נבחר המדגם. אבל, אנחנו יכולים לעשות הנחות על תהליך הדגימה ולאחר מכן להחיל שקלול באותה הדרך. אם ההנחות הללו נכונות, אז השקלול יהיה לבטל את העיוותים שנגרמו על ידי תהליך הדגימה.

לדוגמה, נניח כי בתגובה מודעות באנר שלך, אתה גייס 100,000 המשיבים. עם זאת, אתה לא מאמין כי 100,000 משיבים אלה הם מדגם מקרי פשוט מהבוגרים האמריקנים. למעשה, כאשר אתה משווה המשיבים שלך מאוכלוסיית ארה"ב, תגלה כי אנשים ממדינות מסוימות (למשל, ניו-יורק) יש ייצוג יתר ושאנשים ממדינות מסוימות (למשל, אלסקה) הם מתת-ייצוג. לפיכך, שיעור האבטלה של המדגם שלך עשוי להיות אומדן רע של שיעור האבטלה באוכלוסיית היעד.

אחת הדרכים לבטל את העיוות שקרו בתהליך הדגימה הוא להקצות משקולות לכל אדם; משקולות נמוכות לאנשים ממדינות שאינם ייצוג יתר במדגם (למשל, ניו-יורק) ומשקולות גבוהות לאנשים ממדינות שאינן תחת ייצוג במדגם (למשל, אלסקה). באופן ספציפי יותר, המשקל עבור כל מרואיין קשור לשכיחות שלהם ביחס המדגם שלך לשכיחות באוכלוסייה בארה"ב. הליך שקלול זה נקרא פוסט-ריבוד, והרעיון של שקילה צריך להזכיר לך את הדוגמה בסעיף 3.4.1 שבו המשיבים מרוד איילנד קיבלו משקל פחות המשיבים מקליפורניה. פוסט ריבוד דורש כי אתה יודע מספיק כדי לשים המשיבים שלך לקבוצות לדעת את חלקם של אוכלוסיית היעד בכל קבוצה.

למרות השקלול של מדגם ההסתברות של המדגם הלא ההסתברות הוא אותם מתמטי (ראה נספח טכני), הם עובדים טוב במצבים שונים. אם לחוקר מדגם הסתברות מושלם (כלומר, אין שגיאת כיסוי ולא אי-שבה), אז השקלול יפיק הערכות משוחדות עבור כל התכונות בכל המקרים. ערבות תיאורטיות חזקות זו הסיבה מדוע חסידי דגימות הסתברות למצוא אותם כל כך אטרקטיביים. מצד השני, דגימות הלא הסתברות שקלול תהיינה רק לייצר הערכות משוחדות עבור כל התכונות אם הנטיות בתגובה זהות עבור כולם בכל קבוצה. במילים אחרות, נזכר בדוגמה שלנו, באמצעות-ריבוד פוסט יפיקו הערכות משוחדת אם כולם בניו יורק לו הסתברות שווה של משתתפים וכולם באלסקה לו הסתברות שווה של המשתתפים וכן הלאה. הנחה זו נקראת ההנחה הומוגנית-תגובה-נטיות-בתוך-קבוצות, והוא ממלא תפקיד מפתח לדעת אם-ריבוד פוסט יעבוד היטב עם דגימות בלתי סבירות.

למרבה הצער, בדוגמה שלנו, בהנחה הומוגנית-תגובה-נטיות-בתוך-קבוצות נראה סביר שיהיה נכון. כלומר, זה נראה לא סביר שכולם באלסקה לו הסתברות שווה להיות בסקר שלך. אבל, ישנן שלוש נקודות חשובות שכדאי לזכור על-ריבוד פוסט, שכולן לעשות את זה נראה מבטיח יותר.

ראשית, הומוגנית-תגובה-נטיות-בתוך-קבוצות הנחה הופכת סבירה יותר ככל שגדל מספר קבוצות. וגם, חוקרים אינם מוגבלים לקבוצות צודקות המבוססות על ממד גיאוגרפי אחת. לדוגמא, אנו יכולים ליצור קבוצות על בסיס המדינה, גיל, מין, רמת ההשכלה. נראה יותר מתקבל על הדעת שיש נטיות תגובה הומוגנית בתוך קבוצה של 18-29, נקבה, בוגרי קולג 'המתגוררים באלסקה מאשר בתוך הקבוצה של כל בני האדם החיים באלסקה. לפיכך, ככל שגדל מספר קבוצות המשמשים עליות שלאחר ריבוד, ההנחות צורך לתמוך בו להיות סביר יותר. לנוכח עובדה זו, זה נראה כמו חוקרים ירצו ליצור מספר עצום של קבוצות-ריבוד פוסט. אבל, כפי שמספר קבוצות, החוקרים נתקלים בבעיה אחרת: דְלִילוּת נתונים. אם יש רק מספר קטן של אנשים בכל קבוצה, שההערכות תהיינה בטוחות יותר, ובמקרה הקיצוני שבו יש קבוצה שאין לה משיבים, אז פוסט-ריבוד מתפרק לחלוטין. ישנן שתי דרכים מתוך מתח מובנה בין מידת הסבירות של homogeneous- תגובה-נטייה-בתוך-קבוצות הנחה ואת ביקוש גודל מדגם סביר בכל קבוצה. גישה אחת היא לעבור למודל סטטיסטי מתוחכם יותר לחישוב משקולות והשנייה הוא לאסוף מדגם גדול יותר, מגוון יותר, אשר מסייע להבטיח גודל מדגם סביר בכל קבוצה. וגם, לפעמים החוקרים לעשות את שני הדברים, כפי שאני אתאר ביתר פירוט בהמשך.

שיקול שני כשעובדים עם ריבוד פוסט ממדגמים הלא הסתברות הוא כי הנחת-בתוך-קבוצות הומוגניות-תגובה-נטייה כבר נעשית לעתים קרובות בעת ניתוח דגימות הסתברות. הסיבה כי הנחה זו נדרשת עבור דגימות הסתברות בפועל הוא כי דגימות הסתברות יש אי-שבה, ואת השיטה הנפוצה ביותר עבור ההתאמה אי-השבה היא-ריבוד פוסט כמתואר לעיל. כמובן, רק בגלל חוקרים רבים מניחים הנחה מסוימת לא אומר שאתה צריך לעשות את זה יותר מדי. אבל, זה אומר כי כאשר משווים דגימות הלא הסתברות דגימות הסתברות בפועל, עלינו לזכור כי הן תלויות על נחות ומידע עזר כדי לייצר אומדנים. בהגדרות הריאליסטיות, פשוט אין גישת הנחה-חופשי היקש.

לבסוף, אם אכפת לך הערכה אחת בפרט-באבטלה בדוגמא שלנו השיעור-אז אתה צריך מצב חלש יותר הנחה הומוגנית-תגובה-נטייה-בתוך-קבוצות. באופן ספציפי, אתה לא צריך להניח שלכל אחד יש את אותה נטיית התגובה, אתה רק צריך להניח כי אין קורלציה בין נטיית תגובה ושיעור אבטלה בתוך כל קבוצה. כמובן, אפילו במצב חלש זה לא יחזיק במצבים מסוימים. לדוגמה, נניח אמידת שיעור האמריקאים כי לעשות עבודה התנדבותית. אם אנשים שעושים עבודה התנדבותית נוטים יותר להסכים להיות בסקר, אז החוקרים באופן עקבי על-לאמוד את הסכום של התנדבות, גם אם הם עושים התאמות שלאחר ריבוד, מכך כי הודגם אמפירי על ידי Abraham, Helms, and Presser (2009) .

כמו שאמרתי קודם, דגימות הלא הסתברות נתפסות בספקנות רבה על ידי מדעני חברה, בין שאר בשל תפקידם חלק הכישלונות הכי המביכים בימים הראשונים של מחקר סקר. דוגמא מובהקת כמה רחוק אנחנו צריכים לבוא עם דגימות בלתי סבירות היא המחקר של ואנג ויי, דוד רוטשילד, Sharad גואל, ואנדרו גלמן כי כראוי התאושש התוצאה של הבחירות בארה"ב 2012 באמצעות מדגם שאינו הסתברות של משתמשים האמריקאים Xbox -a בהחלט לא רנדומלית מדגם של האמריקאים (Wang et al. 2015) . החוקרים גייסו המשיבות ממערכת משחקי Xbox, כפי שהיה אפשר לצפות, מדגם Xbox מוטה זכר מוטה צעיר: 18 - 29 ילדים בגילאים לפצות 19% מבעלי זכות הבחירה אבל 65% ממדגם Xbox וגברים לפצות 47% של ציבור הבוחרים ו -93% מהמדגם Xbox (איור 3.4). בגלל הטיות הדמוגרפיות החזקות הנתונים אלה כשהם Xbox הגלם היה אינדיקטור גרוע של תוצאות בחירות. זה ניבאו ניצחון חזק עבור מיט רומני על ברק אובמה. שוב, זוהי דוגמא נוספת של הסכנות של דגימות גלם, ללא התאמות שאינן הסתברות והוא מזכיר את הפיאסקו Digest הספרותי.

איור 3.4: דמוגרפיה מהמשיבים וואנג et al. (2015). בגלל המשיבים גויסו XBox, הם היו בסבירות גבוהה יותר להיות צעירים יותר צפוי להיות זכר, ביחס הבוחרים בבחירות 2012.

איור 3.4: דמוגרפיה מהמשיבים Wang et al. (2015) . בגלל המשיבים גויסו XBox, הם היו בסבירות גבוהה יותר להיות צעירים יותר צפוי להיות זכר, ביחס הבוחרים בבחירות 2012.

עם זאת, וואנג ועמיתיו היו מודעים לבעיות האלה וניסה לשקלל את המשיבים לתקן בתהליך הדגימה. בפרט, הם השתמשו בצורה מתוחכמת יותר של-ריבוד הפוסט הזה שסיפרתי לך עליו. כדאי ללמוד קצת יותר על הגישה שלהם כי זה בונה אינטואיציה לגבי-ריבוד הדואר, ועל גרסה מסוימת וואנג ועמיתיו השתמשו היא אחת הגישות הכי מרגש דגימות הלא ההסתברות שקלול.

בדוגמה פשוטה שלנו על אמידת האבטלה בסעיף 3.4.1, חילקנו את האוכלוסייה לקבוצות על פי המדינה בה אתה מתגורר. לעומת זאת, וואנג ועמיתיו חילק את האוכלוסייה לתוך לתוך 176,256 קבוצות שהוגדרו על ידי: מגדר (2 קטגוריות), גזע (4 קטגוריות), גיל (4 קטגוריות), חינוך (4 קטגוריות), המדינה (51 קטגוריות), מזהה שלישי (3 קטגוריות), אידיאולוגיה (3 קטגוריות) ולהצביע 2008 (3 קטגוריות). עם קבוצות יותר, החוקרים קיוו שזה יהיה יותר ויותר סביר כי בתוך כל קבוצה, נטיית תגובה הייתה מתואמת עם תמיכת אובמה. הבא, במקום בניית משקולות ברמת הפרט, כפי שעשינו בדוגמה שלנו, וואנג ועמיתיו השתמשו במודל מורכב להעריך את חלקם של העובדים בכל אחת מהקבוצות כי יצביעו עבור אובמה. לבסוף, הם בשילוב הערכות קבוצת התמיכה האלה עם הגודל הידוע של כל קבוצה לייצר רמה כללית משוערת של תמיכה. במילות אחרות, הם קצוצים את האוכלוסייה לקבוצות שונות, העריכו את התמיכה באובמה בכל קבוצה, ולאחר מכן לקחו ממוצע משוקלל של ערכות הקבוצה לייצר הערכה כללית.

לפיכך, האתגר הגדול בגישתם הוא להעריך את התמיכה באובמה בכל אחד 176,256 אלה קבוצות. למרות הלוח שלהם כלל 345,858 משתתפים ייחודיים, מספר עצום על פי אמות המידה של קלפי בחירות, היו רבות, קבוצות רבות אשר וואנג ועמיתיו היו כמעט שום משיבים. לכן, כדי להעריך את התמיכה בכל קבוצה הם השתמשו בטכניקה הנקראת רגרסיה מדורגת עם ריבוד-פוסט, אשר חוקר בחיבה לקרוא מר פ בעיקר של דבר, כדי להעריך את התמיכה באובמה בתוך קבוצה ספציפית, מר פ ברכות מידע רב ודוק קבוצות. לדוגמה, לשקול את האתגר של אמידת התמיכה באובמה בקרב הנשי, היספאנים, בין ישן 18-29 שנים, אשר הם בעלי תואר ראשון, הרשומים הדמוקרטים, אשר מזהים את עצמם מתונים, שהצביעו עבור אובמה בשנת 2008. זה הוא קבוצה ספציפית מאוד, מאוד, ולא מן הנמנע כי אין מי במדגם עם מאפיינים אלה. לכן, כדי לבצע הערכות לגבי קבוצה זו, ברכות מר פ יחד מעריכות מאנשים בקבוצות דומות מאוד.

באמצעות אסטרטגית הניתוח הזה, וואנג ועמיתיו הצליחו להשתמש במדגם הלא הסתברות XBox לעקוב מקרוב מאוד להעריך את התמיכה הכוללת שאובמה קבלה בבחירות 2012 (איור 3.5). למעשה הערכותיהם היו מדויקות יותר מאשר המצרפי של סקרי דעת קהל. לכן, במקרה זה, שקלול-במיוחד מר פ-נראה לעשות עבודה טובה תיקון הטיות נתונים שאינם הסתברות; הטיות הנראים כאשר אתה מסתכל על ההערכות מנתוני Xbox המקוריים.

איור 3.5: ערכות של וואנג et al. (2015). מדגם XBox מקורי המיוצר אומדנים לא מדויקים. אבל, מדגם XBox המשוקלל יוצר הערכות כי היו מדויקים יותר מאשר ממוצע של סקרים טלפוניים מבוסס הסתברות.

איור 3.5: ערכות של Wang et al. (2015) . מדגם XBox מקורי המיוצר אומדנים לא מדויקים. אבל, מדגם XBox המשוקלל יוצר הערכות כי היו מדויקים יותר מאשר ממוצע של סקרים טלפוניים מבוסס הסתברות.

ישנם שני לקחים עיקריים מהמחקר של וואנג ועמיתיו. ראשית, דגימות הלא הסתברות לא מותאמות יכולות מובילות להערכות רעות; זה לקח שחוקרים רבים שמעו קודם לכן. עם זאת, השיעור השני הוא כי דגימות בלתי סבירות, כאשר משוקללים כראוי, יכולות למעשה לייצר הערכה טובה למדי. למעשה, ההערכות שלהם היו מדויקות יותר מאשר הערכות של pollster.com, מאגר נתונים של סקרי בחירות מסורתיים יותר.

לבסוף, יש מגבלות חשובות מה אנחנו יכולים ללמוד מן המחקר הספציפי הזה. רק בגלל-ריבוד פוסט עבד גם במקרה המסוים הזה, אין כל ערובה שזה יעבוד גם במקרים אחרים. למעשה, בחירות הן אולי אחת מההגדרות הקלות כי סוקרים כבר לומדים בחירות של כמעט 100 שנים, יש משוב קבוע (נוכל לראות מי ינצח בבחירות), וזיהוי צד ומאפיינים דמוגרפיים הם יחסית חזויים של הצבעה. בשלב זה, אין לנו תאוריה מוצקה וניסיון אמפירי לדעת מתי התאמות שקלול קטעים שאינם הסתברות תפקנה הערכות מדויקות מספיק. דבר אחד ברור, עם זאת, הוא אם אתה נאלצת לעבוד עם דגימות בלתי סבירות, אז יש סיבה טובה להאמין כי ערכות מתואמות תהיינה טובות יותר מאשר הערכות הלא מותאם.