2.3.2.3 -נציג חדרים

שני מקורות-הייצוגיות הלא הוא אוכלוסיות שונות ודפוסי שימוש שונים.

נתונים גדולים נוטים להיות מוטים באופן שיטתי בשתי דרכים עיקריות. זה לא צריך לגרום לבעיה עבור כל סוג של ניתוח, אבל לניתוח מסוימים זה יכול להיות פגם קריטי.

המקור ראשון של הטיה שיטתית הוא שהאנשים שנתפסו הם בדרך כלל לא יקום שלם של כל האנשים או מדגם אקראי מכל אוכלוסייה מסוימת. לדוגמה, האמריקנים בטוויטר אינם מדגם אקראי של האמריקאים (Hargittai 2015) . מקור שני של הטיה שיטתית הוא שמערכות נתונים גדולות רבות המתעדות את פעולותיך, ואנשים מסוימים לתרום רבות יותר פעולות מאשר לאחרים. לדוגמה, כמה אנשים בטוויטר לתרום מאות פעמים יותר טוויטים יותר מאחרים. לכן, האירועים על פלטפורמה ספציפית יכולים להיות אי פעם מהורהרים יותר בכבדות של תת-קבוצות מסוימות מאשר הפלטפורמה עוצמה.

בדרך כלל חוקרים רוצים לדעת הרבה על הנתונים שיש להם. אבל, בהתחשב באופי הלא מייצג של נתונים גדולים, כדאי גם להעיף את החשיבה שלך. אתה גם צריך לדעת הרבה על הנתונים שאתה לא צריך. הדבר נכון במיוחד כאשר הנתונים שאתה אין הם שונים באופן שיטתי מהנתונים כי אתה צריך. לדוגמא, אם יש לך את רשומות שיחות מחברה במכשירי טלפון ניידת במדינות מתפתחות, אתה צריך לחשוב לא רק על האנשים בקבוצת הנתונים שלך, אלא גם על האנשים שעשויים להיות עני מכדי להיות בעלים של טלפון נייד. יתר על כן, בפרק 3, נלמדים על איך ניפוח לאפשר לחוקרים לבצע הערכות טובות יותר מנתונים לא מייצגים.