2.3.1.1 ביג

התרגום הזו נוצר על ידי מחשב. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

2.3.1.1 ביג

מערכי נתונים גדולים הם אמצעי להשגת מטרה; הם אינם מטרה בפני עצמם.

הראשון מבין שלושה המאפיינים הטובים של נתונים גדולים הוא דן ביותר: אלה הם נתונים גדולים. מקורות נתונים אלה יכולים להיות גדולים בשלוש דרכים שונות: אנשים רבים, המון מידע לאדם, או תצפיות רבות לאורך זמן. לאחר במערך גדול מאפשר כמה סוגים ספציפיים של ההטרוגניות מדידה-מחקר, לימוד אירועים נדירים, גילוי הבדלים קטנים, וקבלת אומדן סיבתי מנתונים תצפיתיים. זה גם נראה להוביל סוג מסוים של רשלנות.

הדבר הראשון עבורו הגודל שימושי במיוחד משתנה ועובר ממוצעים לבצע הערכות עבור תת-קבוצות ספציפיות. לדוגמא, גארי קינג, ג'ניפר פאן, ומולי רוברטס (2013) מודדים את הסתברות הודעות מדיה החברתית בסין תהיינה מצונזרת בידי הממשלה. כשלעצמה הסתברות ממוצעת זו של מחיקה אינה מועילה מאוד עבור להבין כיצד מבקש הממשלה מצנזרת כמה הודעות אך לא לאחרים. אבל, בגלל הנתונים שלהם כללו 11 מיליון הודעות, המלך ועמיתיו גם הפיק הערכות של ההסתברות צנזורה הודעות על 85 קטגוריות נפרדות (למשל, פורנוגרפיה, טיבט, והתעבורה בבייג'ינג). על ידי השוואת ההסתברות צנזורה הודעות בקטגוריות שונות, הם הצליחו להבין טוב יותר כיצד ומדוע הממשלה מצנזרת סוגים מסוימים של הודעות. עם 11 אלף הודעות (ולא 11 מיליון הודעות), הם לא הצליחו לייצר הערכות ספציפיות לקטגוריה אלה.

שנית, הגודל שימושי במיוחד עבור הלומדת של אירועים נדירים. לדוגמא, הגואל ועמיתיו (2015) רצו ללמוד את הדרכים השונות כי טוויטים יכול ללכת ויראלי. בגלל מפלה גדול של טוויטים מחדש הם נדירים ביותר-על אחד בתוך 3,000 שהם צריכים ללמוד יותר ממיליארדים טוויטים כדי למצוא מספיק מפלים גדולים לניתוח שלהם.

שלישית, מערכי נתונים גדולים לאפשר לחוקרים לזהות הבדלים קטנים. למעשה, חלק גדול של התמקדות נתונים גדולים בתעשייה הוא על ההבדלים הקטנים האלה: איתור ההבדל באופן מהימן בין 1% ו -1.1% שיעורי הקליקים על מודעה יכול לתרגם מיליוני דולרים להכנסות נוספות. בחלק ההגדרות המדעיות, הבדלים קטנים כגון לא יכול להיות פרט חשוב (גם אם הם משמעותיים מבחינה סטטיסטית). אבל, בחלק ההגדרות מדיניות, הבדלים קטנים כאלה יכולים להיות חשובים כאשר צופים במצטבר. לדוגמה, אם ישנן שתי התערבויות בריאות הציבור ואחד הוא מעט יותר יעיל מאשר אחרים, ואחר עוברת התערבות יעילה יותר יכול בסופו של דבר חוסך את חייהם של אלפים נוספים.

לבסוף, ערכות נתונים גדולות משמעותית את יכולתנו לבצע הערכות סיבתי מנתונים תצפיתיים. למרות מערכי נתונים גדולים לא לשנות מן היסוד את הבעיות עם קבלת היסק סיבתי מנתונים תצפיתיים, התאמת וניסויים ושתיים טבעי טכניקות כי החוקרים פיתחו עבור קבלת טענות סיבתי בין תצפיתי נתוני הן תועלת רבה מן מערכי נתונים גדולים. אני אסביר ולהמחיש טענה זו ביתר פירוט בהמשך פרק זה כשאני מתאר אסטרטגיות מחקר.

למרות הגודל הוא נכס טוב בדרך כלל כאשר משתמשים בו נכון, שמתי לב כי הגודל להביל טעות קונספטואלית. מסיבה כלשהי, גודל נראה להוביל חוקר להתעלם איך הנתונים שלהם נוצרו. בעוד גודל אכן מפחית את הצורך לדאוג שגיאה אקראית, זה דווקא מגביר את הצורך לדאוג שגיאות שיטתיות, סוגי שגיאות אתאר בלמעלה מתחת עולות הטיות איך נוצרים נתונים ואסף. במערך נתונים קטן, הן שגיאה אקראית וטעייה שיטתית יכול להיות חשוב, אבל טעות אקראית במערך גדול הוא יכול להיות בממוצע משם טעות שיטתית שולט. חוקרים שאינם חושבים על טעות שיטתית יהיה בסופו של דבר באמצעות מערכי נתונים גדולים שלהם כדי לקבל הערכה מדויקת של הדבר הלא נכון; הם יהיו בדיוק מדויק (McFarland and McFarland 2015) .