5.2.1 חיות גלקסי

גן החיות גלקסי משלב את המאמצים של מתנדבים שאינם מומחים רבים לסווג מיליון גלקסיות.

גן החיות גלקסי צמחה מתוך לבעיה של קווין Schawinski, סטודנטית לתואר שני ואסטרונומיה באוניברסיטת אוקספורד בשנת 2007. פישוט לא מעט, Schawinski התעניין בגלקסיות, והגלקסיות ניתן לסווג על ידי המורפולוגיה-סגלגל או שלהם-ספירלה לפי הצבע הכחול או אדום שלהם. בזמנו, דעה רווחת בקרב אסטרונומים הייתה כי גלקסיות ספירליות, כמו שביל החלב שלנו, היו בצבע כחולות (נוער מציין) וכי גלקסיות אליפטיות היו בצבע אדומות (מציין זקן). Schawinski פקפק דעה רווחת זה. הוא חשד כי בעוד דפוס זה עשוי להיות נכון באופן כללי, כנראה היו מספר לא מבוטל של יוצאים מן הכלל, וכי על ידי הלימוד המון גלקסיות-דופן אלה אלה שלא התאימו צפויי דפוס-הוא יכול ללמוד משהו על התהליך שבאמצעותו הגלקסיות נוצרו.

לכן, מה Schawinski הדרוש על מנת להפוך דעה רווחת הייתה קבוצה גדולה של גלקסיות מסווגות מורפולוגית; כלומר, גלקסיות סווגו או ספירלה או סגלגל. הבעיה, עם זאת, הייתה כי השיטות אלגוריתמיות קיימים לסיווג עדיין לא היו טובות מספיק כדי לשמש עבור מחקר מדעי; במילים אחרות, גלקסיות לסיווג היה, באותה תקופה, בעיה היה קשה למחשבים. לכן, מה שנדרש היה מספר רב של גלקסיות מסווגות אדם. Schawinski התחייבה בעיה סיווג זה בהתלהבות של סטודנט לתואר שני. בפגישת מרתון של שבעה, 12 שעות ביום, הוא היה מסוגל לסווג 50,000 גלקסיות. בעוד 50,000 גלקסיות אולי נשמע כמו הרבה, הוא למעשה רק כ -5% של קרוב למיליון גלקסיות שהיו שצולמו סקר השמים הדיגיטלי סלואן. Schawinski הבין שהוא צריך גישה מדרגי יותר.

למרבה המזל, מתברר שהמשימה של גלקסיות לסיווג אינה דורשת הכשרה מתקדמת באסטרונומיה; אתה יכול ללמד מישהו לעשות את זה די מהר. במילים אחרות, אף על פי הסיווג של גלקסיות היא משימה קשה עבור מחשבים, זה היה די קל עבור בני אדם. אז, בעת שישב בפאב באוקספורד, Schawinski ואסטרונום בחור כריס Lintott חלם אתר אינטרנט שבו מתנדבים היה לסווג תמונות של גלקסיות. כמה חודשים לאחר מכן, גן החיות גלקסי נולדה.

באתר גן החיות גלקסי, מתנדב יעבור כמה דקות של אימון; למשל, ללמוד את ההבדל בין ספירלת גלקסיה אליפטית (איור 5.2). לאחר הכשרה זו, המתנדבים היו צריך לעבור בקלות יחסית חידון-נכון לסיווג 11 של 15 גלקסיות עם ידוע סיווגים-ואז מתנדב תתחיל סיווג אמיתי של גלקסיות ידועות באמצעות ממשק אינטרנט מבוסס פשוט (איור 5.3). המעבר מתנדב אסטרונום יתקיים בפחות מ -10 דקות ורק נדרש להעביר את הנמוך ביותר של משוכות, חידון פשוט.

איור 5.2: דוגמאות של שני הסוגים העיקריים של גלקסיות: ספיראליות סגלגל. הפרויקט החיות גלקסי בשימוש יותר מ -100,000 מתנדבים לקטגוריות יותר מ 900,000 תמונות. מקור: www.galaxyzoo.org.

איור 5.2: דוגמאות של שני הסוגים העיקריים של גלקסיות: ספיראליות סגלגל. הפרויקט החיות גלקסי בשימוש יותר מ -100,000 מתנדבים לקטגוריות יותר מ 900,000 תמונות. מקור: www.galaxyzoo.org .

איור 5.3: מסך קלט היכן התבקשו המצביעים לסווג תמונה אחת. מקור: www.galaxyzoo.org.

איור 5.3: מסך קלט היכן התבקשו המצביעים לסווג תמונה אחת. מקור: www.galaxyzoo.org .

גן חי גלקסי משך המתנדבים הראשוניים שלה אחרי הפרויקט היה מובלט מאמר חדשותי, ובערך בעוד שישה חודשי הפרויקט גדל לערב יותר מ -100,000 מדעני אזרח, אנשים שהשתתפו משום שהם נהנו המשימה והם רצו לעזור אסטרונומיה מראש. יחד, 100,000 אלה מתנדבים תרמו סך של יותר מ -40 מיליון סיווגים, עם רוב הסיווגים המגיעים קטן יחסית, גרעין של המשתתפים (Lintott et al. 2008) .

חוקרים שיש להם שכירת ניסיון עוזרי מחקר לתואר ראשון אולי מיד להיות סקפטי לגבי איכות הנתונים. בעוד ספקנות זו היא סבירה, Galaxy Zoo מראה שכאשר תרומות מתנדבים מנקים כראוי, debiased, והצטברו, הם יכולים להפיק תוצאות באיכות גבוהה (Lintott et al. 2008) . טריק חשוב להשגת הקהל ליצור נתונים באיכות מקצועיות הוא יתירות; כלומר, נתקל באותה המשימה שבוצעה על ידי אנשים רבים ושונים. בגן החיות גלקסי, היו כ -40 סיווגים לכל גלקסיה; החוקרים באמצעות עוזרי מחקר לתואר ראשון לא יכלו להרשות לעצמם את זה ברמה של יתירות ולכן צריך להיות הרבה יותר מודאג עם איכות של כל סיווג הפרט. מה המתנדב חסר באימונים, הם פיצו על עם יתירות.

אפילו עם סיווגים מרובים לכל גלקסיה, עם זאת, שילוב של הקבוצה של סיווגים מתנדבים לייצר סיווג קונסנסוס הוא מסובך. בגלל אתגרים דומים מאוד להתעורר ברוב פרויקטי חישוב אנושיים, הוא לסרוק את השלושה השלבים בקצרה כי חוקרי החיות גלקסי המשמשים לייצור סיווגי ההסכמה שלהם. ראשית, החוקרים "לנקות" את הנתונים על ידי הסרת סיווגים מזויפים. לדוגמא, אנשים אשר מסווגים שוב ושוב את אותה ומשהו הגלקסיה יקרה אם הם היו מנסים לתפעל את התוצאות-היו כל הסיווגים שלהם מבוטלים. ניקוי דומה אחר זה הוסר על 4% מכלל הסיווגים.

שנית, לאחר הניקוי, שהחוקרים צריכים להסיר דעות קדומות שיטתיות בסיווגים. באמצעות סדרה של מחקרי איתור הטיה מוטבעים בתוך למשל פרויקט-עבור המקורי, מראה כמה התנדב גלקסית צבע אחד במקום בצבעים-גילה חוקר כמה הטיות שיטתיות, כגון הטיה שיטתית לסווג רחוק גלקסיות ספירליות כמו גלקסיות אליפטיות (Bamford et al. 2009) . בניכוי ההטיות השיטתיות אלה חשובים מאוד כי ממוצעי תרומות רבות אינו מסיר הטיה שיטתית; זה רק מסיר שגיאה אקראית.

לבסוף, לאחר debiasing, שהחוקרים צריכים שיטה לשלב סיווגים היחידים לייצר סיווג קונסנסוס. הדרך הפשוטה ביותר לשלב סיווגים של כל גלקסיה תהיה לבחור את הסיווג הנפוץ ביותר. עם זאת, גישה זו תיתן כל משקולת מתנדב שווה, ואת החוקרים חשדו כי חלק מהמתנדבים היו טובים יותר לסיווג יותר מאחרים. לכן, החוקרים פתחו הליך שקלול איטרטיבי מורכב יותר המנסה לזהות את המסווגים הטובים ביותר באופן אוטומטי ולתת להם משקל רב יותר.

לפיכך, לאחר ניקוי תהליך בן שלושה שלבים, debiasing, ושקלול-צוות מחקר החיות גלקסי המיר 40 מיליון סיווגים מתנדבים לתוך מערכת של סיווגים מורפולוגיים קונסנסוס. כאשר סיווגי החיות גלקסי אלה הושוו שלושה ניסיונות קטן בקנה מידה קודמים על ידי אסטרונומים מקצועיים, כוללים במיון לפי Schawinski שסייע לעורר חיות גלקסי, הייתה הסכמה חזקה. לפיכך, המתנדבים, במצטבר, הצליחו לספק סיווגים באיכות גבוהה בקנה מידה שהחוקרים יכלו לא התאים (Lintott et al. 2008) . למעשה, על ידי בעל סיווגי אדם עבור מספר כה גדול של גלקסיות, Schawinski, Lintott, ואחרים הצליחו להראות כי רק כ -80% של גלקסיות אחרי ספירלות הדפוס כחול הצפויות אליפטיות-ואדום מאמרים רבים נכתבו כבר על הגילוי הזה (Fortson et al. 2011) .

על רקע זה, עכשיו אנחנו יכולים לראות איך חיות גלקסי כדלקמן פיצול-apply-לשלב מתכון, אותו המתכון המשמש פרויקטי חישוב האנושיים ביותר. ראשית, בעיה גדולה היא לפצל לקוביות. במקרה זה, הבעיה של לסיווג מ'גלקסיות מחולקת מ'בעיות הסיווג בגלקסיה אחת. הבא, מבצע מוחל לכל נתח עצמאי. במקרה זה, מתנדב היה לסווג כל גלקסיה כמו גם ספירלה או סגלגלה. לבסוף, התוצאות משולבות כדי להפיק תוצאת קונסנסוס. במקרה זה, הצעד לשלב כללו ניקוי, debiasing, ושקלול לייצר סיווג קונצנזוס עבור כל גלקסיה. למרות שרוב הפרויקטים להשתמש מתכון כללי זו, כל אחד מן השלבים צריך אישית לבעיה הספציפית שפונה. לדוגמא, בפרויקט חישוב האדם המתואר להלן, אותו המתכון יהיה ואחריו, אך השלבים להחיל ולשלב יהיו שונים לגמרי.

עבור צוות גן החיות גלקסי, פרויקט ראשון זה היה רק ​​ההתחלה. מהר מאוד הם הבינו כי למרות שהם הצליחו לסווג קרובים למ' גלקסיות, בקנה מידה זה לא מספיק לעבוד עם סקרי שמים דיגיטליים חדשים, אשר יכול להפיק תמונות של כ -10 מיליארדים גלקסיות (Kuminski et al. 2014) . כדי להתמודד עם גידול מ 1 מיליון ל 10 מיליארד גורם של 10,000 Galaxy Zoo ייאלצו לגייס כ -10,000 פעמים יותר משתתפים. למרות המספר המתנדב באינטרנט הוא גדול, הוא אינו אינסופי. לכן, החוקרים הבינו כי אם הם הולכים להתמודד עם אי פעם כמויות גדלות והולך של נתונים, חדשה, אפילו יותר מדרגים, גישה הייתה נחוצה.

לכן, מנדא Banerji עבודה עם קווין Schawinski, כריס Lintott, וחברים אחרים של המחשבים הוראה בצוות הפעלה החיות גלקסי לסווג גלקסיות. באופן ספציפי יותר, באמצעות סיווגי האדם נוצרו על ידי גן החיות גלקסי, Banerji et al. (2010) בנו מודל למידה מכונה שיכול לחזות את הסיווג האנושי של גלקסיה מבוססת על מאפייני התמונה. אם מודל הלמידה המכונה הזאת יכול לשחזר את סיווגי אדם ברמת דיוק גבוה, אז זה יכול להיות בשימוש על ידי חוקרי חיות גלקסי לסווג מספר אינסופי במהותו של גלקסיות.

ביסוד הגישה 'Banerji ועמיתיו הוא בעצם די דומה טכניקות נפוצות מחקר חברתי, למרות הדמיון שעשוי להיות לא ברור במבט ראשון. ראשית, Banerji ועמיתיו להמיר כל תמונה לתוך מערכת של תכונות המספרים, לסכם שזה נכסים. לדוגמא, עבור תמונות של גלקסיות יכולות להיות שיש שלוש תכונות: בכמות הכחולה בתמונה, מהשונות הבהירות של הפיקסלים, ואת חלקם של פיקסלים שאינם לבנים. הבחירה של התכונות הנכונות היא חלק חשוב של הבעיה, וזה בדרך כלל דורש מומחיות לנושא באזור. זה צעד הראשון, הידוע בכינויו הנדסת תכונה, תוצאה היא מטריצת נתונים עם שורה אחת לכל תמונה ולאחר מכן שלוש עמודות המתארות את התמונה. בהינתן הנתונים מטריקס ואת התפוקה הרצויה (למשל, אם התמונה סווגה על ידי אדם כמו גלקסיה אליפטית), החוקר מעריך את הפרמטרים של דוגמא מודל עבור סטטיסטי, משהו כמו רגרסיה-כי לוגיסטית מנבאת את הסיווג האנושי מבוסס על התכונות של התמונה. לבסוף, החוקר משתמש בפרמטרים במודל סטטיסטי זה לייצר סיווגים משוערים של גלקסיות חדשות (איור 5.4). כדי לחשוב על אנלוגי חברתי, לדמיין שיש לך מידע דמוגרפי כמיליון תלמידים, ואתה יודע אם הם בוגר קולג 'או לא. אתה יכול להתאים רגרסיה לוגיסטית על נתונים אלו, ואז אתה יכול להשתמש בפרמטרי מודל המתקבל לחזות אם תלמידים חדשים הולכים לסיים את לימודיו בקולג '. בשנת למידת מכונה, הגישה באמצעות זה דוגמאות שכותרתו ליצור מודל סטטיסטי שיכול עליו מדבקה חדשה נתוני נקרא בפיקוח למידה (Hastie, Tibshirani, and Friedman 2009) .

איור 5.4: תיאור מפושט של אופן Banerji et al. (2010) השתמשו סיווגי חי גלקסי לאמן מודל למידה מכונה לעשות סיווג גלקסיה. תמונות של גלקסיות הוסבו על מטריצה ​​של תכונות. בדוגמא פשוטה זו יש שלוש תכונות (בכמות הכחולה בתמונה, מהשונות הבהירות של הפיקסלים, ואת חלקם של פיקסלים שאינם לבנים). לאחר מכן, עבור תת-קבוצה של התמונות, תוויות חי גלקסי משמשות לאמן מודל למידת מכונה. לבסוף, למידת המכונה משמשת להעריך סיווגים עבור הגלקסיות הנותרות. אני קורא את זה סוג של פרויקט פרויקט חישובית אדם מדור שני כי, ולא בני אדם שיש לפתור בעיה, הם צריכים בני אדם לבנות מערך נתונים שניתן להשתמש בם כדי להכשיר מחשב כדי לפתור את הבעיה. היתרון של גישה בסיוע מחשב זה הוא בכך שהוא מאפשר לך להתמודד עם כמויות בעצם אינסופיות של נתונים באמצעות רק כמות מוגבלת של מאמץ אנושי.

איור 5.4: תיאור מפושט של אופן Banerji et al. (2010) השתמשו סיווגי חי גלקסי לאמן מודל למידה מכונה לעשות סיווג גלקסיה. תמונות של גלקסיות הוסבו על מטריצה ​​של תכונות. בדוגמא פשוטה זו יש שלוש תכונות (בכמות הכחולה בתמונה, מהשונות הבהירות של הפיקסלים, ואת חלקם של פיקסלים שאינם לבנים). לאחר מכן, עבור תת-קבוצה של התמונות, תוויות חי גלקסי משמשות לאמן מודל למידת מכונה. לבסוף, למידת המכונה משמשת להעריך סיווגים עבור הגלקסיות הנותרות. אני קורא את זה סוג של פרויקט פרויקט חישובית אדם מדור שני כי, ולא בני אדם שיש לפתור בעיה, הם צריכים בני אדם לבנות מערך נתונים שניתן להשתמש בם כדי להכשיר מחשב כדי לפתור את הבעיה. היתרון של גישה בסיוע מחשב זה הוא בכך שהוא מאפשר לך להתמודד עם כמויות בעצם אינסופיות של נתונים באמצעות רק כמות מוגבלת של מאמץ אנושי.

התכונות ב- Banerji et al. (2010) מודל למידה המכונה היה יותר מורכב מאלו הצעצוע שלי למשל-למשל, נהגו תכונות כמו "דה ווקולר להתאים יחס צירי" -ואז המודל שלה היה לא רגרסיה לוגיסטית, זה היה רשת עצבית מלאכותית. שימוש בתכונות שלה, המודל שלה, ואת סיווגי החיות גלקסי קונסנסוס, היא הצליחה ליצור משקולות על כל תכונה, ולאחר מכן להשתמש משקולות אלה לבצע תחזיות לגבי הסיווג של גלקסיות. לדוגמא, הניתוח מצא כי תמונות עם נמוך "דה ווקולר להתאים יחס צירי" היו בסבירות גבוהות יותר להיות גלקסיות ספירליות. בהתחשב משקולות אלה, היא הצליחה לחזות את הסיווג האנושי של גלקסיה עם דיוק סביר.

העבודה Banerji et al. (2010) פנו Galaxy Zoo לתוך מה שהייתי מכנה מערכת חישוב אדם מדור שני. הדרך הטובה ביותר לחשוב על מערכות הדור השני האלה היא ולא בני אדם שיש לפתור בעיה, הם צריכים בני האדם לבנות מערך נתונים שניתן להשתמש בהם כדי להכשיר המחשב כדי לפתור את הבעיה. כמות הנתונים הדרושים כדי לאמן את המחשב יכולה להיות כל כך גדולה שזה דורש שיתוף פעולה המוני אדם ליצור. במקרה של גן חיות גלקסי, הרשתות העצביות שמוצגות Banerji et al. (2010) נדרש מספר גדול מאוד של דוגמאות שכותרתו אדם על מנת לבנות מודל שהיה מסוגל לשחזר את סיווג האדם מהימן.

היתרון של גישה בסיוע מחשב זה הוא בכך שהוא מאפשר לך להתמודד עם כמויות בעצם אינסופיות של נתונים באמצעות רק כמות מוגבלת של מאמץ אנושי. לדוגמא, חוקר עם מ'גלקסיות מסווגות אדם יכול לבנות מודל חיזוי כי לאחר מכן ניתן להשתמש כדי לסווג מיליארדים או אפילו טריליון גלקסיות. אם יש מספר עצום של גלקסיות, אז זה סוג של היברידית אדם-מחשב הוא באמת הפתרון היחיד האפשרי. מדרגיות אינסופית זה אינה חופשית, עם זאת. בניית מודל למידת מכונה שיכולה לשכפל סיווגי האדם נכון היא עצם בעיה קשה, אך למרבה המזל כבר יש ספרים מצוינים המוקדשים לנושא זה (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

גן החיות גלקסי מראה את האבולוציה של פרויקטי חישוב אנושיים רבים. ראשית, חוקר מנסה הפרויקט בעצמה או עם צוות קטן של עוזרי מחקר (למשל, מאמץ הסיווג הראשוני של Schawinski). אם גישה זו אינה קנה מידה טובה, החוקר יכול לעבור פרויקט חישוב אדם שבו אנשים רבים לתרום סיווגים. אבל, עבור נפח מסוים של נתונים, מאמץ אנושי טהור לא יהיה מספיק. בשלב זה, חוקרים צריכים לבנות מערכות דור השני שבו סיווגי אדם משמשים לאמן מודל למידת מכונה, כי אז יכול להיות מיושם על כמויות בלתי מוגבלות כמעט של נתונים.