2.3.7 סחף

סחיפה באוכלוסייה, סחיפה בשימוש והסטת מערכת מקשים על השימוש במקורות נתונים גדולים כדי ללמוד מגמות ארוכות טווח.

אחד היתרונות הגדולים של מקורות נתונים גדולים רבים הוא שהם אוספים נתונים לאורך זמן. מדענים חברתיים קוראים לזה נתונים לאורך זמן על נתונים אורכיים . וכמובן, נתונים אורכיים חשובים מאוד ללימוד שינוי. על מנת למדוד באופן מהימן את השינוי, מערכת המדידה עצמה חייבת להיות יציבה. לדברי הסוציולוג אוטיס דאדלי דאנקן, "אם אתה רוצה למדוד שינוי, אל תשנה את המדד" (Fischer 2011) .

לרוע המזל, מערכות נתונים גדולות רבות - במיוחד מערכות עסקיות - משתנות כל הזמן, תהליך שאני מכנה סחיפה . בפרט, מערכות אלה משתנות בשלוש דרכים עיקריות: הסטת אוכלוסין (שינוי מי משתמש בהם), סחיפה התנהגותית (שינוי האופן שבו אנשים משתמשים בהם) והסטה של ​​המערכת (שינוי במערכת עצמה). שלושת המקורות של סחף פירושו שכל תבנית של מקור נתונים גדול יכולה להיגרם על ידי שינוי חשוב בעולם, או שהיא עלולה להיגרם על ידי צורה כלשהי של סחף.

המקור הראשון להיסחפות של סחף - נגרם על ידי שינויים במי משתמש במערכת, ושינויים אלה יכולים לקרות על לוחות זמנים קצרים וארוכים. לדוגמה, במהלך הבחירות לנשיאות ארצות הברית ב -2012 התנודד שיעור הפרוטוקולים של הפוליטיקה שנכתבו על ידי נשים מיום ליום (Diaz et al. 2016) . לכן, מה עשוי להיראות שינוי במצב הרוח של Twitter- הפסוק עשוי למעשה להיות רק שינוי מי מדבר בכל רגע. בנוסף לתנודות קצרות טווח אלו, קיימת גם מגמה ארוכת טווח של קבוצות דמוגרפיות מסוימות המאמצות ונטושות את טוויטר.

בנוסף לשינויים מי משתמש במערכת, ישנם גם שינויים באופן שבו המערכת משמשת, אשר אני קורא נסחף התנהגותי. כך, למשל, במהלך ההפגנות שנערכו ב -2013 בגייזי בטורקיה, המפגינים שינו את השימוש שלהם בהאסטג 'בזמן שהמחאה התפתחה. הנה איך Zeynep Tufekci (2014) תיאר את ההתנהגות ההתנהגות, שהיא הצליחה לזהות כי היא התבוננה התנהגות בטוויטר ובאופן אישי:

"מה שקרה זה שברגע שהמחאה הפכה לסיפור הדומיננטי, אנשים רבים ... הפסיקו להשתמש בהאסטאג, רק כדי למשוך תשומת לב לתופעה חדשה ... בזמן שהמחאות נמשכו, ואפילו החריפו, האסטאגים מתו. הראיונות חשפו שתי סיבות לכך. ראשית, ברגע שכולם ידעו את הנושא, ההאשטאג היה מיותר ומבזבז על פלטפורמת הטוויטר המוגבלת. שנית, hashtags נראו רק שימושיים למשוך תשומת לב לנושא מסוים, לא לדבר על זה. "

לפיכך, חוקרים שחקרו את המחאה על ידי ניתוח טוויטים עם סולמית הקשורים במחאה יצטרכו תחושה מעוותת של מה שקורה בגלל סחף התנהגותי זה. לדוגמה, הם עשויים להאמין שהדיון המחאה ירד הרבה לפני שזה בעצם ירד.

הסוג השלישי של סחף הוא נסחף במערכת. במקרה זה, זה לא העם משתנה או ההתנהגות שלהם משתנה, אבל המערכת עצמה משתנה. לדוגמה, עם הזמן פייסבוק הגדילה את המגבלה על אורך עדכוני הסטטוס. לפיכך, כל מחקר אורך של עדכוני סטטוס יהיה חשוף לממצאים הנגרמים כתוצאה משינוי זה. סחיפת המערכת קשורה קשר הדוק לבעיה הנקראת בלבול אלגוריתמי, שאכסה בסעיף 2.3.8.

לסיכום, מקורות נתונים גדולים רבים נסחפים בגלל שינויים במי משתמש בהם, איך הם נמצאים בשימוש, וכיצד המערכות פועלות. מקורות שינוי אלה הם לעתים שאלות מחקר מעניינות, אך שינויים אלה מסבכים את היכולת של מקורות נתונים גדולים לעקוב אחר שינויים ארוכי טווח לאורך זמן.