2.3.4 לא הושלם

לא משנה כמה גדול הנתונים הגדולים שלך, זה כנראה אין את המידע הרצוי.

רוב מקורות הנתונים הגדולים אינם מלאים , במובן זה שאין להם את המידע שאתה רוצה עבור המחקר שלך. זוהי תכונה נפוצה של נתונים שנוצרו למטרות אחרות מאשר מחקר. מדענים חברתיים רבים כבר חוו את הניסיון להתמודד עם חוסר השלמות, כגון סקר קיים שלא שאל את השאלה שנדרשה. למרבה הצער, הבעיות של חוסר השלמות נוטות להיות קיצוניות יותר בנתונים גדולים. מניסיוני, נתונים גדולים נוטים להיעדר שלושה סוגים של מידע שימושי למחקר חברתי: מידע דמוגרפי על המשתתפים, התנהגות בפלטפורמות אחרות ונתונים למימוש מבנים תיאורטיים.

מתוך שלושה סוגים של חוסר השלמות, הבעיה של נתונים לא מלאים ליישם מבנים תיאורטיים היא הקשה ביותר לפתרון. מניסיוני, זה לעתים קרובות התעלם בטעות. בערך, המבנים התיאורטיים הם רעיונות מופשטים כי מדענים חברתיים ללמוד ותיפעול מבנה תיאורטי אומר מציעים בדרך כלשהי כדי ללכוד כי לבנות עם נתונים שנצפו. למרבה הצער, תהליך זה נשמע פשוט מתברר לעתים קרובות די קשה. לדוגמה, בואו נדמיין לנסות לבחון באופן אמפירי את הטענה הפשוטה לכאורה שאנשים יותר אינטליגנטיים מרוויחים יותר כסף. כדי לבדוק את הטענה הזאת, היית צריך למדוד "אינטליגנציה". אבל מה הוא אינטליגנציה? Gardner (2011) טען שיש למעשה שמונה צורות שונות של אינטליגנציה. והאם ישנם נהלים שיכולים למדוד במדויק כל צורה של מודיעין? למרות כמויות עצומות של עבודה על ידי פסיכולוגים, שאלות אלה עדיין אין תשובות חד משמעיות.

לכן, אפילו תביעה פשוטה יחסית - אנשים שהם יותר אינטליגנטיים מרוויחים יותר כסף - יכולה להיות קשה להעריך באופן אמפירי, כי זה יכול להיות קשה כדי ליישם מבנים תיאורטיים בנתונים. דוגמאות נוספות של מבנים התיאורטיים שחשובים אבל קשה לתפעל כולל "נורמות", "הון חברתי" ו- "דמוקרטיה." מדעני חברה להתקשר ההתאמה בין מבנים התיאורטיים לבין תוקף מבנה נתונים (Cronbach and Meehl 1955) . כפי שמציין רשימה קצרה זו של מבנים, תוקפנות הבנייה היא בעיה שמדענים חברתיים נאבקו בה זמן רב. אבל מניסיוני, הבעיות של תקפות המבנה הן אפילו יותר כאשר עובדים עם נתונים שלא נוצרו למטרות מחקר (Lazer 2015) .

כאשר אתה מעריך תוצאה של מחקר, אחת הדרכים המהירות והמועילות להערכת תוקף המבנה היא לקחת את התוצאה, המתבטאת בדרך כלל במונחים של מבנים, ולבטא אותה מחדש במונחים של הנתונים שנעשה בהם שימוש. לדוגמה, שקול שתי מחקרים היפותטיים טוענים כי להראות כי אנשים יותר אינטליגנטי להרוויח יותר כסף. במחקר הראשון, החוקרים מצאו כי אנשים שמקבלים ציון טוב במבחן המטריצות המתקדמות של Raven - מבחן מבוקר היטב של אינטליגנציה אנליטית (Carpenter, Just, and Shell 1990) - יש להם הכנסות גבוהות יותר על החזרי המס שלהם. במחקר השני, החוקרים מצאו כי אנשים על צפצוף שהשתמשו במילים ארוכות יותר נוטים יותר להזכיר מותגי מותרות. בשני המקרים, חוקרים אלה יכולים לטעון כי הם הראו כי אנשים יותר אינטליגנטי להרוויח יותר כסף. עם זאת, במחקר הראשון המבנים התיאורטיים מופעלים היטב על ידי הנתונים, ואילו השני הם לא. יתר על כן, כפי שהדוגמה הזו ממחישה, נתונים נוספים אינם פותרים באופן אוטומטי בעיות בתוקף הבניה. אתה צריך ספק את תוצאות המחקר השני אם זה היה מעורב מיליון טוויטים, מיליארד טוויטים, או טריליון טוויטים. עבור חוקרים שאינם מכירים את הרעיון של תקפות המבנה, לוח 2.2 מספק כמה דוגמאות של מחקרים כי יש מבוצע מבנים תיאורטיים באמצעות נתונים דיגיטליים עקבות.

טבלה 2.2: דוגמאות לעקבות דיגיטליים ששימשו להפעלת מבנים תיאורטיים
מקור מידע המבנה התיאורטי הפניות
יומני דוא"ל מאוניברסיטה (meta-data only) מערכת יחסים חברתית Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
מדיה חברתית הודעות על Weibo מעורבות אזרחית Zhang (2016)
יומני דוא"ל מפירמה (meta-data וטקסט מלא) התאמה תרבותית בארגון Srivastava et al. (2017)

למרות שהבעיה של נתונים לא מלאים ללכידת מבנים תיאורטיים היא די קשה לפתרון, ישנם פתרונות משותפים לסוגים נפוצים אחרים של חוסר השלמות: מידע דמוגרפי לא שלם ומידע לא שלם על התנהגות בפלטפורמות אחרות. הפתרון הראשון הוא למעשה לאסוף את הנתונים הדרושים לך; אני אספר לך על זה בפרק 3 כשאני אומר לך על סקרים. הפתרון העיקרי השני הוא לעשות מה הנתונים מדענים קוראים למשתמש התכונה היסק ומדענים חברתיים קוראים זקיפה . בגישה זו, החוקרים משתמשים במידע שיש להם על אנשים מסוימים כדי להסיק תכונות של אנשים אחרים. פתרון שלישי אפשרי הוא לשלב מקורות נתונים מרובים. תהליך זה נקרא לעתים הצמדה שיא . המטאפורה האהובה עלי על תהליך זה נכתבה על ידי Dunn (1946) בפסקה הראשונה של המאמר הראשון שנכתב אי פעם על הצמדה:

"כל אדם בעולם יוצר ספר חיים. ספר זה מתחיל בלידה ומסתיים במוות. הדפים שלו מורכבים מרשומות של האירועים העיקריים בחיים. הקלט הוא השם שניתן לתהליך של הרכבת דפי הספר לכרך. "

כאשר דאן כתב את הקטע הזה הוא דמיין שספר החיים יכול לכלול אירועים מרכזיים בחיים כמו לידה, נישואין, גירושין ומוות. עם זאת, עכשיו כל כך הרבה מידע על אנשים נרשם, ספר החיים יכול להיות דיוקן מפורט להפליא, אם אלה דפים שונים (כלומר, עקבות דיגיטליים שלנו) יכול להיות קשור יחד. ספר החיים הזה יכול להיות משאב מצוין לחוקרים. אבל, זה יכול גם להיקרא מסד נתונים של חורבה (Ohm 2010) , אשר יכול לשמש עבור כל מיני מטרות לא מוסריות, כפי שאני אתאר בפרק 6 (אתיקה).