3.4 מי לשאול

התרגום הזו נוצר על ידי מחשב. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4 מי לשאול

דגימות הסתברות דגימות הלא הסתברות אינן שונות כי בפועל; בשני המקרים, זה הכול עניין של המשקולות.

דגימה היא אחד מערכי יסוד ולחקר דעת קהל. חוקר כמעט אף פעם לשאול את שאלותיהם לכולם באוכלוסיית היעד שלהם. בהקשר זה, סקרים אינם ייחודיים. רוב המחקרים, בדרך זו או אחר, כרוך דגימה. לפעמים דגימה זו נעשית באופן מפורש על ידי החוקר; פעמים אחרות זה קורה במרומז. לדוגמה, חוקר שיוצא ניסוי מעבדה על סטודנטים לתואר ראשון באוניברסיטה שלה גם נקטה מדגם. לפיכך, דגימה היא בעיה שעולה לכל אורך הספר הזה. למעשה, אחת הדאגות השכיחות ביותר שאני שומע על מקורות בעידן דיגיטליים של נתונים "הם אינם מייצגים." כפי שנראים בסעיף זה, חשש זה הוא גם פחות רציני יותר מתוחכם ממה ספקן רב מבין. למעשה, אטען כי כל הרעיון של "ייצוגיות" לא ממש מועיל לחשיבה על דגימות הסתברות ובלתי סבירות. במקום זאת, המפתח הוא לחשוב כיצד המידע נאסף ואיך כל הטיות כי איסוף הנתונים ניתן לבטל בהערכות.

נכון לעכשיו, הגישה התיאורטית הדומיננטית לייצוג היא דגימת הסתברות. כאשר נתונים נאספים עם שיטת דגימת הסתברות בוצעה באופן מושלם, חוקרים מסוגלים לשקלל את הנתונים שלהם מבוסס על האופן שבו הם נאספו לבצע הערכות משוחדות על אוכלוסיית היעד. עם זאת, דגימת הסתברות מושלמת בעצם לא קורית בעולם האמיתי. יש בדרך כלל שתי בעיות עיקריות 1) הבדלים בין אוכלוסיית היעד לבין אוכלוסיית המסגרת ו -2) אי-שבה (אלה הם בדיוק הבעיות שגרמו להרס סקר התקציר הספרותי). לכן, במקום לחשוב על דגימת הסתברות כמודל מציאותי של מה בעצם קורה בעולם, עדיף לחשוב על דגימת הסתברות כמודל מועיל, מופשט, בדומה הפיזיקאים דרך לחשוב על כדור חיכוך שמתגלגלים על באורך אינסופי רמפה.

אלטרנטיבת דגימת הסתברות היא לדגימה שאינה הסתברות. ההבדל העיקרי בין הסתברות הדגימה הלא הסתברות הוא כי בהסתברות דגימת כולם באוכלוסייה יש הסתברות ידועה של הכללה. ישנם, למעשה, סוגים רבים של דגימה הלא הסתברות, ושיטות אלה של איסוף נתונים הופכות נפוצות יותר ויותר בעידן הדיגיטלי. אבל, לדגימה שאינה הסתברות שיש לו מוניטין נוראיים בקרב מדענים וסטטיסטיקאים חברתיים. למעשה, לדגימה שאינה הסתברות קשורה כמה כשלים הדרמטיים ביותר של חוקרי סקר, כגון הפיאסקו Digest הספרותי (דן קודם לכן) ואת התחזית הנכונה על הבחירות לנשיאות ארצות הברית בשנת 1948 ( "דיואי תבוסות טרומן") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .

עם זאת, זה הזמן נכון לשקול מחדש לדגימה שאינה הסתברות משתי סיבות. ראשית, כפי דגימות הסתברות הפכו יותר ויותר קשות לעשות בפועל, הקו המפריד בין דגימות הסתברות ודוגמאות הלא הסתברות מטשטש. כאשר יש שיעור גבוה של אי-שבה (כפי שיש בסקרים אמיתיים עכשיו), ההסתברות בפועל של תכלילים עבור משיבים אינן ידועות, ולכן, דגימות הסתברות ודוגמאות הלא הסתברות אינו שונים כמו מאמינים חוקרים רבים. למעשה, כפי שנראה בהמשך, שתי הגישות להסתמך בעצם על שיטת האמידה אותו: פוסט-ריבוד. שנית, חלו התפתחויות רבות לאיסוף וניתוח של דגימות בלתי סבירות. שיטות אלה הם שונים במידה ניכרת מאלו השיטות שגרמו בעיות בעבר כי אני חושב שזה הגיוני לחשוב עליהם כעל "לדגימה שאינה ההסתברות 2.0." אנחנו לא צריכים סלידה רציונלי לשיטות הלא ההסתברות בגלל שגיאות שקרו לפני זמן רב.

לאחר מכן, על מנת להפוך את הטיעון הזה יותר בטון, ואני אבדוק דגימת הסתברות רגילה ושקלול (סעיף 3.4.1). הרעיון המרכזי הוא כי איך אספת הנתונים שלך אמור להשפיע איך אתה לבצע הערכות. בפרט, אם כולם אין את אותה ההסתברות של הכללה, ואז כולם לא צריך אותו המשקל. במילים אחרות, אם הדגימה שלך אינה דמוקרטית, אז הערכות שלך לא צריכה להיות דמוקרטית. לאחר סקירת שקלול, אתאר שתי גישות לדגימה שאינה ההסתברות: אחד המתמקד שקלול להתמודד עם הבעיה של נתונים שנאספו באקראי (סעיף 3.4.2), ואחד שמנסה למקם שליטה רבה יותר על אופן הצגת הנתונים הוא אסף (סעיף 3.4.3). הטיעונים בטקסט הראשי שיוסבר להלן עם מילים ותמונות; קוראים מי רוצה טיפול מתמטי יותר צריכים גם לראות בנספח הטכני.