2.3.2 תמיד

תמיד-על נתונים גדולים מאפשר המחקר של אירועים בלתי צפויים ומדידה בזמן האמת.

מערכות נתונים גדולות רבות הם תמיד-על; הם אוספים נתונים כל הזמן. תמיד-על מאפיין זה מספק חוקרים עם נתוני אורך (כלומר, נתונים לאורך זמן). להיות תמיד על יש שתי השלכות חשובות למחקר.

ראשית, איסוף הנתונים תמיד מאפשר לחוקרים ללמוד אירועים בלתי צפויים בדרכים שלא היו אפשריות אחרת. לדוגמה, חוקרים המעוניינים ללמוד את מחאות גזי בטורקיה בקיץ 2013 היו מתמקדים בדרך כלל בהתנהגותם של מפגינים במהלך האירוע. Ceren Budak ו Duncan Watts (2015) היו מסוגלים לעשות יותר באמצעות הטבע תמיד על טוויטר ללמוד המפגינים שהשתמשו טוויטר לפני, במהלך, ואחרי האירוע. בנוסף, הם הצליחו ליצור קבוצת השוואה של משתתפים לא לפני, במהלך ואחרי האירוע (איור 2.2). בסך הכל, פאנל לשעבר שלהם פוסט כלל את tweets של 30,000 אנשים על פני שנתיים. על ידי הגדלת הנתונים הנפוצים מהמחאות עם מידע אחר זה, בודק וואטס היו מסוגלים ללמוד הרבה יותר: הם הצליחו להעריך אילו סוגים של אנשים נטו יותר להשתתף בהפגנות גזי ולהעריך את השינויים בעמדות של משתתפים ומשתתפים, הן בטווח הקצר (השוואה בין טרום גזי לגזי) והן בטווח הארוך (השוואה בין טרום גזי לפוסט גזי).

איור 2.2: עיצוב המשמש את בודק וואטס (2015) כדי לחקור את מחאות גזי בטורקיה בקיץ 2013. על ידי שימוש בטבע המתמשך של טוויטר, החוקרים יצרו את מה שהם כינו פאנל לשעבר, שכלל בערך 30,000 אנשים במשך שנתיים. בניגוד למחקר טיפוסי שהתמקד במשתתפים במהלך ההפגנות, הלוח שאחרי הפוסט-פאוסט מוסיף 1) נתונים מהמשתתפים לפני ואחרי האירוע ו -2) נתונים של משתתפים שאינם לפני האירוע, לפני ואחרי האירוע. מבנה נתונים מועשר זה איפשר ל - Budak ול - Watts להעריך אילו סוגים של אנשים היו בעלי סיכוי גבוה יותר להשתתף בהפגנות גזי ולהעריך את השינויים בעמדות של משתתפים ולא משתתפים, הן בטווח הקצר (השוואה בין קדם - גזי עם גזי ) ובטווח הארוך (השוואת טרום גזי עם פוסט גזי).

איור 2.2: עיצוב המשמש את Budak and Watts (2015) כדי לחקור את מחאות גזי בטורקיה בקיץ 2013. על ידי שימוש בטבע המתמשך של טוויטר, החוקרים יצרו את מה שהם כינו פאנל לשעבר , שכלל בערך 30,000 אנשים במשך שנתיים. בניגוד למחקר טיפוסי שהתמקד במשתתפים במהלך ההפגנות, הלוח שאחרי הפוסט-פאוסט מוסיף 1) נתונים מהמשתתפים לפני ואחרי האירוע ו -2) נתונים של משתתפים שאינם לפני האירוע, לפני ואחרי האירוע. מבנה נתונים מועשר זה איפשר ל - Budak ול - Watts להעריך אילו סוגים של אנשים היו בעלי סיכוי גבוה יותר להשתתף בהפגנות גזי ולהעריך את השינויים בעמדות של משתתפים ולא משתתפים, הן בטווח הקצר (השוואה בין קדם - גזי עם גזי ) ובטווח הארוך (השוואת טרום גזי עם פוסט גזי).

ספקן יכול להצביע על כך שחלק מההערכות הללו היו יכולות להיעשות ללא תמיד - על מקורות איסוף נתונים (למשל, אומדנים ארוכי טווח של שינוי עמדות), וזה נכון, אם כי איסוף נתונים כזה עבור 30,000 אנשים היה די יָקָר. גם בהתחשב בתקציב בלתי מוגבל, עם זאת, אני לא יכול לחשוב על כל שיטה אחרת המאפשרת לחוקרים לחזור אחורה בזמן ולבחון באופן ישיר את התנהגות המשתתפים בעבר. החלופה הקרובה ביותר תהיה לאסוף דיווחים רטרוספקטיביים על ההתנהגות, אך הדיווחים האלה יהיו ברמת פירוט מוגבלת ודיוק מפוקפק. טבלה 2.1 מספקת דוגמאות אחרות של מחקרים המשתמשים במקור נתונים תמיד על מנת ללמוד אירוע בלתי צפוי.

טבלה 2.1: מחקרים על אירועים בלתי צפויים באמצעות מקורות נתונים גדולים תמיד.
אירוע בלתי צפוי תמיד על מקור הנתונים צִיטָטָה
כובשים את תנועת גזי בטורקיה טוויטר Budak and Watts (2015)
הפגנות אמברלה בהונג קונג וייבו Zhang (2016)
יריות שוטרים בניו יורק דוחות עצור ו-פריסק Legewie (2016)
אדם שהצטרף ל- ISIS טוויטר Magdy, Darwish, and Weber (2016)
11 בספטמבר 2001 livejournal.com Cohn, Mehl, and Pennebaker (2004)
11 בספטמבר 2001 הודעות זימונית Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

בנוסף ללימוד אירועים בלתי צפויים, מערכות נתונים גדולות תמיד מאפשרות לחוקרים לייצר אומדנים בזמן אמת, אשר יכולים להיות חשובים בהגדרות שבהן קובעי המדיניות - בממשלה או בתעשייה - רוצים להגיב על סמך מודעות מצבית. לדוגמה, ניתן להשתמש בנתוני מדיה חברתית כדי להנחות את תגובת החירום לאסונות טבע (Castillo 2016) ומגוון מקורות נתונים גדולים שונים יכולים לשמש לייצור אומדנים בזמן אמת של הפעילות הכלכלית (Choi and Varian 2012) .

לסיכום, מערכות נתונים תמיד מאפשרות לחוקרים ללמוד אירועים בלתי צפויים ולספק מידע בזמן אמת לקובעי המדיניות. עם זאת, אני לא חושב שתמיד מערכות נתונים מתאימות היטב למעקב אחר שינויים לאורך תקופות זמן ארוכות מאוד. הסיבה לכך היא שמערכות נתונים גדולות רבות משתנות ללא הרף - תהליך שאקרא לו סחיפה בהמשך הפרק (סעיף 2.3.7).