3.6.1 בקשה מועשרת

ב שאילתה מועשר, נתוני הסקר בונה הקשר סביב מקור נתונים גדול המכיל כמה מדידות חשובות אבל חסרים אחרים.

אחת הדרכים לשלב נתוני סקר ומקורות נתונים גדולים היא תהליך שאקרא לו מועשר . בשאילתה מועשרת, מקור נתונים גדול מכיל כמה מדידות חשובות אך חסר מדידות אחרות ולכן החוקר אוספת את המידות החסרות הללו בסקר ולאחר מכן מקשר את שני מקורות הנתונים יחד. דוגמה אחת לשאלה מעשירה היא מחקרם של Burke and Kraut (2014) על השאלה אם אינטראקציה בפייסבוק מגבירה את כוח הידידות, כפי שתיארתי בסעיף 3.2). במקרה זה, בורק וקראוט שילבו נתוני סקר עם נתוני יומן פייסבוק.

אולם, ההגדרה שבה פעלו בורק וקראוט היתה, שהם לא היו צריכים להתמודד עם שתי בעיות גדולות שחוקרים מתעניינים בדרך כלל. ראשית, למעשה לקשר יחד את הנתונים ברמת הפרט קבוצות, תהליך הנקרא הצמדה שיא , יכול להיות קשה אם אין מזהה ייחודי בשני מקורות הנתונים שניתן להשתמש בהם כדי להבטיח את הרשומה הנכונה במערך אחד מתאימה עם הרשומה הנכונה במערך הנתונים האחר. הבעיה העיקרית השנייה עם לשאול מועשר היא כי איכות מקור הנתונים הגדול יהיה לעתים קרובות קשה לחוקרים להעריך כי התהליך שבו הנתונים נוצרו עשוי להיות קנייני יכול להיות רגישים רבות הבעיות המתוארות בפרק 2. במילים אחרות, לשאול מועשר יהיה לעתים קרובות כרוך נוטה טעויות קישור של סקרים למקורות נתונים שחורים באיכות לא ידוע. למרות הבעיות הללו, ניתן להשתמש בשאלות מועלות כדי לערוך מחקר חשוב, כפי שהוכיחו על ידי סטיבן אנסולבהר ואיתן הרש (2012) במחקרם על דפוסי ההצבעה בארצות הברית.

שיעור ההצבעה היה נושא למחקרים נרחבים במדע המדינה, ובעבר, הבנתם של החוקרים לגבי מי הקולות ומדוע התבססה בדרך כלל על ניתוח נתוני הסקר. ההצבעה בארצות הברית, לעומת זאת, היא התנהגות חריגה בכך שהממשלה רושמת אם כל אזרח הצביע (כמובן, הממשלה לא רשומה מי כל אזרח מצביע). במשך שנים רבות, רשומות ההצבעה הממשלתיות היו זמינות בטופסי נייר, מפוזרים במשרדי ממשלה מקומיים שונים ברחבי הארץ. זה עשה את זה קשה מאוד, אבל לא בלתי אפשרי, עבור מדענים פוליטיים יש תמונה מלאה של הבוחרים ולהשוות מה אנשים אומרים בסקרים על הצבעה עם ההצבעה בפועל שלהם (Ansolabehere and Hersh 2012) .

אבל רשומות אלה הצביעו כעת על דיגיטציה, ומספר חברות פרטיות אספו באופן שיטתי ומיזגו אותן כדי לייצר תיקי הצבעה מקיפים הכוללים את התנהגות ההצבעה של כל האמריקאים. Ansolabehere ואת הרש שותפות עם אחת החברות האלה - קטליסטי LCC - כדי להשתמש בקובץ ההצבעה הראשי שלהם כדי לעזור לפתח תמונה טובה יותר של הבוחרים. יתר על כן, מכיוון שמחקריהם הסתמכו על רישומים דיגיטליים שנאספו ואצרו על ידי חברה שהשקיעו משאבים משמעותיים באיסוף נתונים ובהאחדה, היא הציעה מספר יתרונות על פני מאמצים קודמים שנעשו ללא סיוע של חברות ובהשימוש ברשומות אנלוגיות.

כמו רבים ממקורות הנתונים הגדולים בפרק 2, קובץ המאסטר הקאטאליסטי לא כלל הרבה מן המידע הדמוגרפי, האתיטודיאלי וההתנהגותי שאנסולבהר והרש היו זקוקים לו. למעשה, הם התעניינו במיוחד בהשוואת התנהגות ההצבעה המדווחת בסקרים עם התנהגות הצבעה תקפה (כלומר, המידע במאגר הקטליסטי). אז אנסולבהר והרש אספו את הנתונים שרצו כסקירה חברתית גדולה, ה- CCES, שהוזכר קודם לכן בפרק זה. לאחר מכן הם נתנו את הנתונים שלהם לקטאליסטי, וקטאליסטי החזיר להם קובץ נתונים ממוזג שכלל התנהגות הצבעה מאומתת (מקטאליסטית), התנהגות ההצבעה המדווחת עצמית (מתוך CCES) והדמוגרפיה והעמדות של המשיבים (מתוך CCES) 3.13). במילים אחרות, Ansolabehere והרש שילבו את נתוני ההצבעה עם נתוני הסקר כדי לבצע מחקר שלא היה אפשרי עם מקור הנתונים בנפרד.

איור 3.13: סכימטי של המחקר על ידי Ansolabehere ו- Hersh (2012). כדי ליצור את datafile הראשי, קטליסטי משלב והרמוניות מידע ממקורות רבים ושונים. תהליך זה של מיזוג, לא משנה כמה זהיר, יהיה להפיץ שגיאות במקורות הנתונים המקוריים יציג שגיאות חדשות. מקור שני של טעויות הוא הצמדה בין נתוני הסקר לבין דטפיל המאסטר. אם לכל אדם היה מזהה יציב, ייחודי בשני מקורות הנתונים, הקשר יהיה טריוויאלי. אבל, קטליסטי היה צריך לעשות את הקישור באמצעות מזהה לא מושלם, במקרה זה שם, מין, שנת לידה, כתובת הבית. למרבה הצער, במקרים רבים יכול להיות מידע לא שלם או לא מדויק; הבוחר בשם הומר סימפסון עשוי להיראות כמו הומר ג'יי סימפסון, הומי ג'יי סימפסון, או אפילו הומר סמפסין. למרות הפוטנציאל לטעויות בדטפיל של המאסטר הקאטאליסטי ובטעויות בקישור הרשומות, הצליחו אנסולבהר והרש לבנות אמון באומדנים שלהם באמצעות מספר סוגים שונים של בדיקות.

איור 3.13: סכימטי של המחקר על ידי Ansolabehere and Hersh (2012) . כדי ליצור את datafile הראשי, קטליסטי משלב והרמוניות מידע ממקורות רבים ושונים. תהליך זה של מיזוג, לא משנה כמה זהיר, יהיה להפיץ שגיאות במקורות הנתונים המקוריים יציג שגיאות חדשות. מקור שני של טעויות הוא הצמדה בין נתוני הסקר לבין דטפיל המאסטר. אם לכל אדם היה מזהה יציב, ייחודי בשני מקורות הנתונים, הקשר יהיה טריוויאלי. אבל, קטליסטי היה צריך לעשות את הקישור באמצעות מזהה לא מושלם, במקרה זה שם, מין, שנת לידה, כתובת הבית. למרבה הצער, במקרים רבים יכול להיות מידע לא שלם או לא מדויק; הבוחר בשם הומר סימפסון עשוי להיראות כמו הומר ג'יי סימפסון, הומי ג'יי סימפסון, או אפילו הומר סמפסין. למרות הפוטנציאל לטעויות בדטפיל של המאסטר הקאטאליסטי ובטעויות בקישור הרשומות, הצליחו אנסולבהר והרש לבנות אמון באומדנים שלהם באמצעות מספר סוגים שונים של בדיקות.

בעזרת קובץ הנתונים המשולב שלהם, הגיעו אנסולבהר והרש לשלוש מסקנות חשובות. ראשית, דיווח יתר של ההצבעה מתפרע: כמעט מחצית מהבלתי-מדווחים דיווחו על הצבעה, ואם מישהו דיווח על הצבעה, יש רק סיכוי של 80% שהם הצביעו בפועל. שנית, דיווח יתר אינו מקרי: דיווח יתר הוא נפוץ יותר בקרב בעלי הכנסה גבוהה, משכילים, העוסקים בענייני ציבור. במילים אחרות, סביר להניח שהאנשים שיותר צפויים להצביע ישקרו על ההצבעה. שלישית, ומבחינה ביקורתית ביותר, בשל האופי השיטתי של דיווח יתר, ההבדלים בפועל בין מצביעים לבין מצביעים אינם קטנים יותר מאשר הם מופיעים רק מתוך סקרים. לדוגמה, אלו עם תואר ראשון הם כ 22 אחוזים יותר סיכוי לדווח על ההצבעה, אבל הם רק 10 אחוזים יותר סיכוי להצביע בפועל. מתברר, אולי לא במפתיע, שהתאוריות הקיימות המבוססות על המשאבים של ההצבעה עדיפות בהרבה על הניבוי של מי ידווח על ההצבעה (שהיא הנתונים שהחוקרים השתמשו בהם בעבר) מאשר בחיזוי מי באמת מצביע. לפיכך, הממצאים האמפיריים של Ansolabehere and Hersh (2012) קוראים לתיאוריות חדשות להבין ולחזות הצבעה.

אבל כמה אנחנו צריכים לסמוך על התוצאות האלה? זכור, תוצאות אלה תלויות בקישור מועדים לשגיאות לנתוני תיבה שחורה עם כמות לא ידועה של שגיאה. באופן ספציפי יותר, התוצאות מתבססות על שני שלבים עיקריים: (1) היכולת של קטליסטי לשלב מקורות נתונים שונים כדי לייצר מאסטר datafile מדויק ו (2) היכולת של קטליסטי לקשר את נתוני הסקר כדי datafile הראשי שלה. כל אחד משלבים אלה קשה, ושגיאות בשני הצעדים עלולות להוביל את החוקרים למסקנות שגויות. עם זאת, הן עיבוד נתונים וקישור הן קריטיות להמשך קיומו של קטליסטי כחברה, כך שהוא יכול להשקיע משאבים בפתרון בעיות אלה, לעתים קרובות בקנה מידה שאף חוקר אקדמי לא יכול להתאים. במאמרם, Ansolabehere והרש עוברים מספר שלבים כדי לבדוק את התוצאות של שני השלבים הללו - למרות שחלקם קנייניים - והמחאות אלו עשויות לסייע לחוקרים אחרים המעוניינים לקשר נתוני סקר לנתונים גדולים של תיבה שחורה מקורות.

מהם הלקחים הכלליים שיכולים החוקרים להפיק ממחקר זה? ראשית, יש ערך עצום הן מהעשרת מקורות נתונים גדולים לנתוני הסקר והן מעיבוד נתוני הסקר עם מקורות נתונים גדולים (ניתן לראות את המחקר בכל מקרה). על ידי שילוב של שני מקורות הנתונים, החוקרים הצליחו לעשות משהו שלא היה אפשרי עם כל אחד בנפרד. הלקח הכללי השני הוא שלמרות שמצטבר, מקורות נתונים מסחריים, כגון הנתונים מקטאליסט, לא צריכים להיחשב "אמת הקרקע", במקרים מסוימים, הם יכולים להיות שימושיים. הספקנים משווים לפעמים מקור נתונים מסחרי מצטבר זה עם אמת מוחלטת ומצביעים על כך שמקורות נתונים אלה אינם קצרים. עם זאת, במקרה זה, הספקנים עושים השוואה לא נכונה: כל הנתונים החוקרים להשתמש נופלים האמת המוחלטת. במקום זאת, עדיף להשוות בין מקורות נתונים מסחריים מצטברים לבין מקורות נתונים זמינים אחרים (למשל, התנהגות הצבעה עצמית), אשר תמיד יש שגיאות גם כן. לבסוף, השיעור הכללי השלישי של המחקר של Ansolabehere ו- Hersh הוא שבמצבים מסוימים, החוקרים יכולים להפיק תועלת מההשקעות העצומות שמפעילות חברות פרטיות רבות באיסוף והרמוניה של ערכות נתונים חברתיות מורכבות.