3.4 מי לשאול

העידן הדיגיטלי עושה דגימה הסתברות בפועל קשה יותר יוצר הזדמנויות חדשות עבור הדגימה לא הסתברות.

בהיסטוריה של הדגימה, היו שתי גישות מתחרות: שיטות דגימה הסתברות ושיטות דגימה לא הסתברותיות. למרות ששתי הגישות שימשו כבר בימים הראשונים של הדגימה, דגימת ההסתברות באה להשתלט, וחוקרים חברתיים רבים לומדים להציג דגימות לא-הסתברותיות בספקנות רבה. עם זאת, כפי שאראה להלן, שינויים שנוצרו על ידי העידן הדיגיטלי אומר כי הגיע הזמן לחוקרים לשקול מחדש את הדגימה לא הסתברות. בפרט, הדגימה ההסתברות כבר מקבל קשה לעשות בפועל, ודגימה הסתברות כבר מקבל מהר יותר, זול יותר, וטוב יותר. סקרים מהירים וזולים יותר אינם רק מטרה בפני עצמה: הם מאפשרים הזדמנויות חדשות כגון סקרים תכופים יותר וגדלים גדולים יותר. לדוגמה, על ידי שימוש בשיטות לא-הסתברותיות, בחקר הבחירות של הקונגרס השיתופי (CCES) יש כ -10 משתתפים יותר ממחקרים קודמים תוך שימוש בדגימת הסתברות. מדגם זה הרבה יותר גדול מאפשר לחוקרים פוליטיים ללמוד וריאציה בעמדות ובהתנהגות על פני תת קבוצות והקשרים חברתיים. יתר על כן, כל זה הוסיף בקנה מידה בא ללא ירידות באיכות של הערכות (Ansolabehere and Rivers 2013) .

כיום, הגישה הדומיננטית לדגימה למחקר חברתי היא הדגימה ההסתברותית . בדגימת ההסתברות, לכל בני אוכלוסיית היעד יש הסתברות ידועה, לא מזויפת, ונמדדים כל האנשים שנדגמו לסקר. כאשר תנאים אלה מתקיימים, תוצאות מתמטיות אלגנטיות מציעות ערבויות מוכחות לגבי יכולתו של חוקר להשתמש במדגם כדי ליצור מסקנות לגבי אוכלוסיית היעד.

בעולם האמיתי, לעומת זאת, התנאים בבסיס תוצאות מתמטיות אלה נפגשו רק לעתים רחוקות. לדוגמה, לעתים קרובות יש שגיאות כיסוי ולא תגובה. בגלל בעיות אלה, החוקרים נאלצים לעתים קרובות להשתמש במגוון של התאמות סטטיסטיות על מנת להסיק מהמדגם שלהם לאוכלוסיית היעד שלהם. לכן, חשוב להבחין בין הדגימה ההסתברותית בתיאוריה , שיש לה ערבויות תיאורטיות חזקות, לבין הדגימה הסתברותית בפועל , אשר מציעה שום ערבויות כאלה תלויה במגוון של התאמות סטטיסטיות.

עם הזמן, ההבדלים בין הדגימה הסתברות בתיאוריה דגימה הסתברות בפועל הלכה וגדלה. לדוגמה, שיעורי היענות עלו בהתמדה, אפילו באיכות גבוהה, סקרים יקרים (איור 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . שיעורי היענות גבוהים בהרבה בסקרים טלפוניים מסחריים - לפעמים אפילו גבוה ככל 90% (Kohut et al. 2012) . עליות אלו באי-היענות מאיימות על איכות האומדנים משום שהאומדנים תלויים יותר ויותר במודלים הסטטיסטיים שהחוקרים משתמשים בהם כדי להסתגל לאי-היענות. יתר על כן, ירידות אלה באיכות קרה למרות מאמצים יקרים יותר ויותר על ידי חוקרי הסקר לשמור על שיעורי תגובה גבוהים. יש אנשים חוששים כי אלה מגמות תאומות של ירידה באיכות והגדלת העלות מאיימים על יסוד מחקר הסקר (National Research Council 2013) .

איור מס '3.5: Nonresponse כבר בהתמדה יותר ויותר, גם בסקרים יקרים באיכות גבוהה (המועצה הלאומית למחקר 2013, ב ד' מאייר, Mok, ו Sullivan 2015). שיעורי היענות גבוהים בהרבה עבור סקרים טלפוניים מסחריים, לפעמים אפילו גבוה ככל 90% (Kohut et al 2012). מגמות ארוכות טווח אלה ב nonresponse אומר כי איסוף נתונים יקר יותר והאומדנים הם פחות אמינים. הסתגלות מ ב ד 'מאייר, מוק, סאליבן (2015), איור 1.

איור 3.5: Nonresponse כבר בהתמדה יותר ויותר, גם בסקרים יקרים באיכות גבוהה (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . שיעורי היענות גבוהים בהרבה עבור סקרים טלפוניים מסחריים, לפעמים אפילו גבוה ככל 90% (Kohut et al. 2012) . מגמות ארוכות טווח אלה ב nonresponse אומר כי איסוף נתונים יקר יותר והאומדנים הם פחות אמינים. מותאם מ BD Meyer, Mok, and Sullivan (2015) , איור 1.

יחד עם זאת, כי יש קשיים גוברים על שיטות דגימה הסתברות, יש גם התפתחויות מרגשות בשיטות דגימה לא הסתברות . יש מגוון של סגנונות של שיטות דגימה לא הסתברותיות, אבל הדבר היחיד שיש להם במשותף הוא שהם לא יכולים להתאים בקלות במסגרת המתמטית של דגימת ההסתברות (Baker et al. 2013) . במילים אחרות, בשיטות דגימה לא הסתברות לא לכל אחד יש הסתברות ידועה ו nonzero של הכללה. לשיטות הדגימה הלא-סבירות יש מוניטין איומים בקרב חוקרים חברתיים, והן קשורות לכשלים דרמטיים ביותר של חוקרי הסקר, כגון הפיסקול הספרותי של Digest (שהוזכר קודם לכן) ו- "Dewey Defeats Truman", התחזית השגויה לגבי ארה"ב (איור 3.6).

איור 3.6: הנשיא הארי טרומן נושא את כותרתו של עיתון שהכריז על תבוסתו בצורה לא נכונה. כותרת זו התבססה, בין היתר, על אומדנים מדגימות לא-הסתברותיות (Mostler 1949; Bean 1950; פרידמן, פיסני ופורבס 2007). למרות Dewey תבוסות טרומן קרה ב -1948, זה עדיין בין הסיבה כי כמה חוקרים ספקנים לגבי הערכות מדגמים שאינם הסתברות. מקור: ספריית & מוזיאון הארי טרומן.

איור 3.6: הנשיא הארי טרומן נושא את כותרתו של עיתון שהכריז על תבוסתו בצורה לא נכונה. כותרת זו התבססה, בין היתר, על אומדנים מדגימות לא-הסתברותיות (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) . למרות "Dewey התבוסות טרומן" קרה בשנת 1948, זה עדיין בין הסיבה כי כמה חוקרים ספקנים לגבי הערכות מדגמים שאינם הסתברות. מקור: ספריית & מוזיאון הארי טרומן .

צורה אחת של הדגימה לא הסתברות כי הוא מתאים במיוחד לעידן הדיגיטלי הוא השימוש של לוחות מקוונים . חוקרים המשתמשים בפאנלים מקוונים תלויים בפאנל כלשהו - בדרך כלל חברה, ממשלה או אוניברסיטה - כדי לבנות קבוצה גדולה ומגוונת של אנשים שמסכימים לשמש כמרואיינים לסקרים. משתתפי פאנל אלה מגויסים לעתים קרובות באמצעות מגוון שיטות אד-הוק כגון מודעות באנר מקוונות. לאחר מכן, חוקר יכול לשלם את ספק פאנל עבור גישה למדגם של המשיבים עם המאפיינים הרצויים (למשל, נציג ארצי של מבוגרים). אלה לוחות מקוונים הן שיטות הסתברות לא כי לא לכולם יש הסתברות ידוע, nonzero של הכללה. למרות לוחות ההסתברות לא מקוון כבר בשימוש על ידי חוקרים חברתיים (למשל, CCES), יש עדיין קצת דיון על איכות האומדנים שמגיעים מהם (Callegaro et al. 2014) .

למרות הדיונים האלה, אני חושב שיש שתי סיבות מדוע הזמן מתאים לחוקרים חברתיים לשקול מחדש את הדגימה לא הסתברות. ראשית, בעידן הדיגיטלי, היו התפתחויות רבות באוסף וניתוח של דוגמאות לא הסתברות. שיטות חדשות אלה הן שונות מספיק מן השיטות שגרמו לבעיות בעבר, כי אני חושב שזה הגיוני לחשוב עליהם כעל "הדגימה לא הסתברות 2.0". הסיבה השנייה מדוע החוקרים צריכים לשקול מחדש את הדגימה לא הסתברות היא בגלל הסתברות דגימה in התרגול נעשה קשה יותר ויותר. כאשר ישנם שיעורים גבוהים של אי-תגובה - כפי שקיימים כיום בסקרים אמיתיים - ההסתברויות בפועל של ההכללה למרואיינים אינן ידועות, ולכן, דגימות ההסתברות ודגימות לא-הסתברותיות אינן שונות כפי שחושבים חוקרים רבים.

כפי שאמרתי קודם, דגימות לא-הסתברות נראות בספקנות רבה מצד חוקרים חברתיים רבים, בין השאר בגלל תפקידם בכמה מהכישלונות המביכים ביותר בימים הראשונים של מחקר הסקר. דוגמה מובהקת של עד כמה הגענו לדגימות לא-הסתברותיות היא מחקרם של ויי וואנג, דוד רוטשילד, שרד גואל ואנדרו גלמן (2015) אשר החזירו נכונה את תוצאות הבחירות בארה"ב ב -2012 תוך שימוש במדגם לא-הסתברותי אמריקני Xbox משתמשים - מדגם לא אקראי בהחלט של האמריקנים. החוקרים גייסו את המשיבים ממערכת המשחקים של Xbox, וכפי שניתן לצפות, מדגם Xbox מוטה על גברים צעירים ונטויים: בני 18-18 הם רק 19% מהבוחרים, אך 65% מדגם Xbox, וגברים מהווים 47% מהבוחרים אך 93% מהמדגם Xbox (איור 3.7). בגלל ההטיות הדמוגרפיות החזקות הללו, נתוני ה- Xbox הגולמיים היו אינדיקציה גרועה לתשואות הבחירות. הוא ניבא ניצחון חזק עבור מיט רומני על ברק אובמה. שוב, זוהי דוגמה נוספת של הסכנות של דגימות גלם, הסתגלות שאינם הסתברות ומזכיר את הפיאסקו ספרותית Digest .

איור 3.7: דמוגרפיה של המשיבים ב W. Wang et al. (2015). מאחר שהמשיבים גויסו מ- XBox, הם נטו להיות צעירים יותר, ויתכן ויהיו יותר גברים, יחסית לבוחרים בבחירות 2012. הסתגלות מ Wang ו et al. (2015), איור 1.

איור 3.7: דמוגרפיה של המשיבים ב W. Wang et al. (2015) . מאחר שהמשיבים גויסו מ- XBox, הם נטו להיות צעירים יותר, ויתכן ויהיו יותר גברים, יחסית לבוחרים בבחירות 2012. הסתגלות מ W. Wang et al. (2015) , איור 1.

עם זאת, וואנג ועמיתיו היו מודעים לבעיות אלה וניסו להתאים את תהליך הדגימה הלא אקראי שלהם בעת ביצוע הערכות. בפרט, הם השתמשו שלאחר ריבוד , טכניקה כי הוא גם בשימוש נרחב כדי להתאים הסתברות דגימות כי יש שגיאות כיסוי ואי-תגובה.

הרעיון המרכזי של פוסט-ריבוד הוא שימוש במידע עזר על אוכלוסיית היעד כדי לסייע בשיפור האומדן שמגיע מדגם. כאשר משתמשים בניתוח פוסט-ריבוד כדי לבצע אומדנים ממדגם ההסתברות שלהם, החוקרים חתכו את האוכלוסייה לקבוצות שונות, העריכו את התמיכה באובמה בכל קבוצה, ולאחר מכן לקחו בממוצע משוקלל של אומדני הקבוצה כדי להפיק הערכה כוללת. לדוגמה, הם יכלו לפצל את האוכלוסייה לשתי קבוצות (גברים ונשים), העריכו את התמיכה באובמה בקרב גברים ונשים, ולאחר מכן העריכו את התמיכה הכוללת באובמה על ידי לקיחת ממוצע משוקלל כדי להסביר את העובדה כי נשים עלייה של 53% בקרב ציבור הבוחרים והגברים 47%. באופן גורף, לאחר ריבוד עוזר לתקן למדגם לא מאוזן על ידי הבאת מידע עזר על הגדלים של הקבוצות.

המפתח לריבוד-אחרי הוא ליצור את הקבוצות הנכונות. אם אתה יכול לקצץ את האוכלוסייה לקבוצות הומוגניות כך שתגובות התגובה זהות לכל אחד מכל קבוצה, הרי שלאחר הריבוד יוצגו אומדנים לא משוחדים. במילים אחרות, פוסט-ריבוד על-ידי מינים יניב אומדנים לא משוחדים אם לכל הגברים יש את נטיית התגובה ולכל הנשים יש את אותה נטייה של תגובה. הנחה זו נקראת ההנחה ההומוגנית-תגובה- הנחות -בתוך הקבוצות , ואני מתארת ​​אותה קצת יותר בהערות המתמטיות שבסופו של פרק זה.

כמובן, זה נראה סביר כי נטייה התגובה יהיה זהה עבור כל הגברים וכל הנשים. עם זאת, ההנחה ההומוגנית-תגובה-הנטייה-בתוך הקבוצות הופכת סבירה יותר ככל שמספר הקבוצות גדל. באופן כללי, זה הופך להיות קל יותר לקצץ את האוכלוסייה לקבוצות הומוגניות אם אתה יוצר קבוצות יותר. לדוגמה, נראה כי אין כל סבירות שלכל הנשים יש את אותה נטייה של תגובה, אך נראה כי קיימת נטייה תגובה זהה לכל הנשים בגילאי 18-29, שסיימו את לימודיהן בקולג ', והן מתגוררות בקליפורניה . לכן, ככל שמספר הקבוצות המשמשות לאחר הריבוד הולך וגדל, ההנחות הדרושות לתמיכה בשיטה הופכות ליותר סבירות. לאור עובדה זו, החוקרים לעיתים קרובות רוצים ליצור מספר עצום של קבוצות עבור ריבוד שלאחר. עם זאת, ככל שמספר הקבוצות גדל, החוקרים נתקלים בבעיה אחרת: נתונים דלילות. אם יש רק מספר קטן של אנשים בכל קבוצה, אזי האומדנים יהיו לא בטוחים יותר, ובמקרה הקיצוני שבו יש קבוצה שאין לה משיבים, הרי שלאחר הריבוד תתפורר לחלוטין.

ישנן שתי דרכים לצאת מהמתח הגלום בין סבירות ההנחה ההומוגנית-תגובה-נכונות-בתוך הקבוצות לבין הביקוש לגודל מדגם סביר בכל קבוצה. ראשית, החוקרים יכולים לאסוף מדגם גדול ומגוון יותר, אשר מסייע להבטיח גדלים מדגם סביר בכל קבוצה. שנית, הם יכולים להשתמש במודל סטטיסטי מתוחכם יותר להכנת אומדנים בתוך קבוצות. ולמעשה, לפעמים חוקרים עושים את שניהם, כפי שעשו וואנג ועמיתיהם עם המחקר שלהם בבחירות באמצעות המשיבים מ- Xbox.

מאחר שהם השתמשו בשיטת דגימה לא הסתברותית עם ראיונות ממוחשבים (אני אדבר יותר על ראיונות ממוחשבים בסעיף 3.5), היו לואנג ועמיתיו אוסף נתונים זול מאוד, שאיפשר להם לאסוף מידע מ -345,858 משתתפים ייחודיים , מספר עצום לפי הסטנדרטים של הבחירות הבחירות. גודל מדגם מסיבי זה איפשר להם ליצור מספר עצום של קבוצות פוסט-ריבוד. בעוד שרוב הריבודים מחלקים את האוכלוסייה למאות קבוצות, וואנג ועמיתיו חילקו את האוכלוסייה ל - 176,256 קבוצות שהוגדרו לפי מין (2 קטגוריות), גזע (4 קטגוריות), גיל (4 קטגוריות), חינוך (4 קטגוריות) (51 קטגוריות), מזהה המפלגה (3 קטגוריות), אידיאולוגיה (3 קטגוריות), ו 2008 הצבעת (3 קטגוריות). כלומר, גודל המדגם העצום שלהם, שאופשר על ידי איסוף נתונים זול, איפשר להם לבצע הנחה סבירה יותר בתהליך ההערכה שלהם.

גם עם 345,858 משתתפים ייחודיים, עם זאת, היו עדיין הרבה קבוצות רבות אשר וואנג ועמיתיו כמעט לא היו המשיבים. לכן, הם השתמשו בטכניקה שנקראת רגרסיה מדורגת כדי להעריך את התמיכה בכל קבוצה. בעיקרון, כדי להעריך את התמיכה של אובמה בתוך קבוצה מסוימת, רגרסיה מדורגת אוסף מידע מקבוצות רבות הקשורות זה לזה. לדוגמה, דמיינו שאתם מנסים להעריך את התמיכה באובמה בקרב נשים היספאניות בין גילאי 18 ל -29, בוגרות אוניברסיטאות, שהן דמוקרטים רשומים, שמזהים את עצמם כמתונים, ומי הצביע לאובמה ב -2008. , קבוצה ספציפית מאוד, וייתכן שאף אחד לא מדגם עם מאפיינים אלה. לכן, כדי לבצע אומדנים לגבי קבוצה זו, רגרסיה רב-שכבתית משתמשת במודל סטטיסטי כדי לאחד אומדנים מאנשים בקבוצות דומות מאוד.

לפיכך, וואנג ועמיתיו השתמשו בגישה שמשלבת רגרסיה רב-שנתית ופוסט-ריבוד, ולכן הם כינו את האסטרטגיה שלהם עם רגרסיה רב-שנתית עם פוסט-ריבוד , או יותר בחיבה. פ. "כאשר וואנג ועמיתיו השתמשו במר פ. כדי לבצע אומדנים מדגם אי-ההסתברות של XBox, הם הפיקו אומדנים קרובים מאוד לתמיכה הכוללת שקיבל אובמה בבחירות 2012 (איור 3.8). למעשה, ההערכות שלהם היו מדויקות יותר ממספר מצומצם של סקרי דעת קהל מסורתיים. לכן, במקרה זה, התאמות סטטיסטיות - במיוחד מר פ. נראה לעשות עבודה טובה לתקן את ההטיות בנתונים שאינם הסתברות; biases שהיו בבירור גלוי כאשר אתה מסתכל על האומדנים של נתוני Xbox לא מותאמים.

איור 3.8: אומדנים מ W. Wang et al. (2015). מדגם XBox שלא הוכח יוצר אומדנים לא מדויקים. אולם, המדגם המשוקלל של XBox הפיק אומדנים שהיו מדויקים יותר מממוצע של סקרים טלפוניים מבוססי הסתברות. הסתגלות מ Wang ו et al. (2015), דמויות 2 ו -3.

איור 3.8: אומדנים מ W. Wang et al. (2015) . מדגם XBox שלא הוכח יוצר אומדנים לא מדויקים. אולם, המדגם המשוקלל של XBox הפיק אומדנים שהיו מדויקים יותר מממוצע של סקרים טלפוניים מבוססי הסתברות. הסתגלות מ W. Wang et al. (2015) , דמויות 2 ו -3.

ישנם שני לקחים עיקריים ממחקרו של וואנג ועמיתיו. ראשית, ללא הסתגלות לא הסתברות דגימות יכול להוביל הערכות רעות; זה לקח שחוקרים רבים שמעו לפני כן. הלקח השני, לעומת זאת, הוא כי דגימות לא הסתברות, כאשר ניתח כראוי, יכול למעשה לייצר הערכות טובות; דגימות לא הסתברות לא צריך להוביל באופן אוטומטי למשהו כמו כישלון ספרותי Digest .

במבט קדימה, אם אתה מנסה להחליט בין שימוש בגישה דגימה הסתברות לבין גישה הדגימה לא הסתברות אתה עומד בפני בחירה קשה. לפעמים חוקרים רוצים כלל מהיר ונוקשה (למשל, תמיד להשתמש בשיטות הדגימה הסתברות), אבל זה קשה יותר ויותר להציע כזה כלל. החוקרים מתמודדים עם בחירה קשה בין שיטות הדגימה ההסתברותיות בפועל - שהן יקרות יותר ויותר, הרחק מהתוצאות התיאורטיות המצדיקות את דגימת השימוש שלהן - ואת שיטות הדגימה שאינן הסתברותיות - שהן זולות ומהירות יותר, אך פחות מוכרות ומגוונות יותר. דבר אחד ברור, עם זאת, הוא שאם אתה נאלץ לעבוד עם דגימות שאינם הסתברות או מקורות נתונים גדולים שאינם מייצגים (חושב בחזרה פרק 2), אז יש סיבה חזקה להאמין כי הערכות שנעשו לאחר ריבוד ו טכניקות קשורות יהיה טוב יותר מאשר הערכות גלם לא מתוקן.