5.2.1 חיות גלקסי

גן החיות של גלקסי שילב את המאמצים של מתנדבים רבים שאינם מומחים לסווג מיליון גלקסיות.

גן החיות של גלקסי צמח מתוך בעיה שעמדה בפני קווין שווינסקי, סטודנט לתואר שני באסטרונומיה באוניברסיטת אוקספורד ב -2007. בפשטות לא מעט, היה שגאווי מעוניין בגלקסיות, וגלקסיות יכולות להיות מסווגות לפי המורפולוגיה שלהן - אליפטיות או ספירליות - על ידי צבעם כחול או אדום. באותה עת, החוכמה המקובלת בין האסטרונומים היתה שגלקסיות ספירליות, כמו שביל החלב שלנו, היו בצבע כחול (המציין נעורים) וגלקסיות אליפטיות היו אדומות (המצביעות על זקנה). שווינסקי הטיל ספק בחוכמה המקובלת. הוא חשד כי בעוד דפוס זה עשוי להיות נכון באופן כללי, סביר להניח שיש מספר לא מבוטל של חריגים, וכי על ידי לימוד רבות של גלקסיות בלתי רגילות אלה - אלה שלא התאימו לדפוס הצפוי - הוא יכול ללמוד משהו על התהליך שדרכו גלקסיות נוצרו.

לפיכך, מה ששווינסקי נזקק לו כדי להפוך את החוכמה המקובלת היה אוסף גדול של גלקסיות מסווגות מבחינה מורפולוגית; כלומר, גלקסיות שסווגו כמו ספירלית או אליפטית. הבעיה, עם זאת, היה כי שיטות אלגוריתמיות קיימות לסיווג עדיין לא היה מספיק טוב כדי לשמש למחקר מדעי; במילים אחרות, סיווג הגלקסיות היה, באותה עת, בעיה שקשה למחשבים. לכן, מה שנדרש היה מספר גדול של גלקסיות מסווגות אנושיות . Schawinski התחייבה בעיה זו סיווג בהתלהבות של סטודנט לתואר שני. בפגישת מרתון של שבע עשרה שעות, הוא יכול לסווג 50,000 גלקסיות. בעוד ש- 50,000 גלקסיות עשויות להישמע כמו הרבה, זה למעשה רק כ 5% של כמעט מיליון גלקסיות שצולמו בסקר סלואן דיגיטלי שמיים. שווינסקי הבין שהוא זקוק לגישה מדרגת יותר.

למרבה המזל, מתברר שהמשימה של גלקסיות לסיווג אינה דורשת הכשרה מתקדמת באסטרונומיה; אתה יכול ללמד מישהו לעשות את זה די מהר. במילים אחרות, אף על פי הסיווג של גלקסיות היא משימה קשה עבור מחשבים, זה היה די קל עבור בני אדם. אז, בעת שישב בפאב באוקספורד, Schawinski ואסטרונום בחור כריס Lintott חלם אתר אינטרנט שבו מתנדבים היה לסווג תמונות של גלקסיות. כמה חודשים לאחר מכן, גן החיות גלקסי נולדה.

באתר החיות של גלקסי, המתנדבים יעברו כמה דקות של אימונים; למשל, לימוד ההבדל בין גלקסיה ספירלית ואליפטית (איור 5.2). לאחר אימון זה, כל מתנדב נאלץ לעבור מבחן קל יחסית - מסווג נכון 11 מתוך 15 גלקסיות עם סיווגים ידועים - ולאחר מכן היה מתחיל בסיווג אמיתי של גלקסיות לא ידועות באמצעות ממשק פשוט מבוסס אינטרנט (איור 5.3). המעבר מתנדבים לאסטרונום יתקיים תוך פחות מ -10 דקות ורק נדרש לעבור את המשוכה הנמוכה ביותר, חידון פשוט.

איור 5.2: דוגמאות לשני סוגי הגלקסיות העיקריים: ספירלה וסגלגל. פרויקט גן החיות של גלקסי השתמש ביותר מ -100,000 מתנדבים כדי לסווג יותר מ -900,000 תמונות. משוחזר באישור של http://www.GalaxyZoo.org ו- Sloan Digital Sky Survey.

איור 5.2: דוגמאות לשני סוגי הגלקסיות העיקריים: ספירלה וסגלגל. פרויקט גן החיות של גלקסי השתמש ביותר מ -100,000 מתנדבים כדי לסווג יותר מ -900,000 תמונות. משוחזר באישור של http://www.GalaxyZoo.org ו- Sloan Digital Sky Survey .

איור 5.3: מסך קלט שבו התבקשו מתנדבים לסווג תמונה אחת. משוחזר על ידי אישור מאת כריס Lintott מבוסס על תמונה של סקר שמיים דיגיטלי סלואן.

איור 5.3: מסך קלט שבו התבקשו מתנדבים לסווג תמונה אחת. משוחזר על ידי אישור מאת כריס Lintott מבוסס על תמונה של סקר שמיים דיגיטלי סלואן .

גן החיות של גלקסי משך את המתנדבים הראשונים שלו לאחר שהפרויקט הוצג במאמר חדשותי, וכעבור שישה חודשים גדל הפרויקט לערב יותר מ -100,000 מדענים אזרחיים, אנשים שהשתתפו כי הם נהנו מהמשימה והם רצו לעזור לקדם אסטרונומיה. יחד עם זאת, 100,000 מתנדבים אלה תרמו סך של למעלה מ -40 מיליון סיווגים, כאשר רוב הסיווגים הגיעו מקבוצת ליבה קטנה יחסית (Lintott et al. 2008) .

חוקרים שיש להם ניסיון להעסיק עוזרי מחקר לתואר ראשון עשויים מיד להיות סקפטי לגבי איכות הנתונים. בעוד ספקנות זו היא סבירה, גן החיות של גלקסי מראה שכאשר התרומות מתנדבות מנוקות כהלכה, מתפרסמות ומצטברות, הן יכולות להפיק תוצאות באיכות גבוהה (Lintott et al. 2008) . טריק חשוב עבור מקבל את הקהל כדי ליצור נתונים באיכות מקצועית יתירות , כלומר, שיש את אותה משימה שבוצעה על ידי אנשים שונים. בגן החיות של גלקסי, היו כ 40 סיווגים לכל גלקסיה; חוקרים באמצעות עוזרי מחקר לתואר ראשון לא יכול להרשות לעצמו רמה זו של יתירות ולכן צריך להיות מודאג הרבה יותר עם איכות של כל סיווג הפרט. מה שהמתנדבים חסרו באימון, הם הפיצו עבורם יתירות.

עם זאת, עם סיווגים מרובים לכל גלקסיה, שילוב של סיווג מתנדבים כדי ליצור סיווג קונצנזוס היה מסובך. בגלל אתגרים דומים מאוד מתעוררים ברוב הפרויקטים חישוב האדם, זה עוזר בקצרה לסקור את שלושת השלבים כי חוקרי החיות גלקסי המשמש לייצור סיווגים הקונצנזוס שלהם. ראשית, החוקרים "ניקו" את הנתונים על ידי הסרת סיווג מזויף. לדוגמה, אנשים שסיווגו שוב ושוב את אותה גלקסיה - משהו שיקרה אם ינסו לתמרן את התוצאות - אם יימחקו כל הסיווגים שלהם. זה ועוד ניקוי דומה הוסרו על 4% מכלל הסיווגים.

שנית, לאחר הניקוי, החוקרים היו צריכים להסיר הטיות שיטתיות בסיווגים. באמצעות סדרה של מחקרים לזיהוי הטיה המשובצים בפרויקט המקורי - לדוגמה, הצגת חלק מהמתנדבים בגלקסיה במונוכרום במקום בצבע - החוקרים גילו מספר הטיות שיטתיות, כגון הטיה שיטתית לסיווג גלקסיות ספירליות רחוקות כגלקסיות אליפטיות (Bamford et al. 2009) . התאמת אלה הטיות שיטתי חשוב ביותר כי יתירות לא באופן אוטומטי להסיר משוא פנים שיטתית; זה רק עוזר מסיר שגיאה אקראית.

לבסוף, לאחר debiasing, החוקרים צריכים שיטה לשלב את הסיווגים האישיים לייצר סיווג קונצנזוס. הדרך הפשוטה ביותר לשלב סיווגים עבור כל גלקסיה היתה לבחור את הסיווג הנפוץ ביותר. עם זאת, גישה זו היתה נותנת לכל מתנדב משקל שווה, והחוקרים חשדו כי חלק מהמתנדבים היו טובים יותר בסיווג מאחרים. לכן, החוקרים פיתחו הליך ניפוח איטרטיבי מורכב יותר, אשר ניסה לזהות את המינים הטובים ביותר ולתת להם משקל רב יותר.

לכן, לאחר שלושה שלבים בתהליך הניקוי, debiasing, ו שקלול - צוות המחקר בגלקסיה גלקסי הפך 40 מיליון סיווג התנדבות לתוך קבוצה של סיווגים מורפולוגיים קונצנזוס. כאשר אלה סיווגים גלקסי החיות הושוו עם שלושה ניסיונות בקנה מידה קטן יותר קודם על ידי אסטרונומים מקצועיים, כולל סיווג על ידי שווינסקי שסייעו השראה בגן החיות של גלקסי, היה הסכם חזק. לכן, המתנדבים, יחד, הצליחו לספק סיווג איכותי בקנה מידה שלא יכלו החוקרים להתאים (Lintott et al. 2008) . למעשה, על ידי סיווגם של מספר כה גדול של גלקסיות, שווינסקי, לינטוט ואחרים הצליחו להראות שרק כ -80% מהגלקסיות עוקבות אחר הספירלות הכחולות הצפויות, והאליפטיות האדומות - ועיתונים רבים נכתבו על גילוי זה (Fortson et al. 2011) .

בהתחשב ברקע זה, עכשיו אתה יכול לראות איך גלקסי החיות בעקבות מתכון לפצל לשלב, אותו מתכון המשמש עבור רוב המחשוב האנושי פרויקטים. ראשית, בעיה גדולה מחולקת לגושים. במקרה זה, הבעיה של סיווג מיליון גלקסיות חולקה למיליון בעיות של סיווג גלקסיה אחת. לאחר מכן, פעולה מוחלת על כל נתח באופן עצמאי. במקרה זה, מתנדבים מסווגים כל גלקסיה כמו גם ספירלית או אליפטי. לבסוף, התוצאות משולבות כדי לייצר תוצאה קונצנזוס. במקרה זה, שלב לשלב כלל ניקוי, debiasing, ו שקלול לייצר סיווג קונצנזוס עבור כל גלקסיה. למרות שרוב הפרויקטים משתמשים במתכון הכללי הזה, כל צעד צריך להיות מותאם אישית לבעיה ספציפית להיות מטופל. לדוגמה, בפרויקט חישוב האדם המתואר להלן, המתכון אותו יילך, אך השלבים החלים והשלבים יהיו שונים למדי.

עבור צוות החיות של גלקסי, הפרויקט הראשון היה רק ​​ההתחלה. מהר מאוד הם הבינו שלמרות שהם הצליחו לסווג קרוב למיליון גלקסיות, קנה המידה הזה לא מספיק לעבוד עם סקרים דיגיטליים חדשים יותר, אשר יכולים לייצר תמונות של כ -10 מיליארד גלקסיות (Kuminski et al. 2014) . כדי להתמודד עם גידול מ 1 מיליון ל -10 מיליארד דולר - גורם של 10,000-Galaxy Zoo צריך לגייס בערך 10,000 פעמים יותר משתתפים. למרות שמספר המתנדבים באינטרנט גדול, הוא אינו אינסופי. לכן, החוקרים הבינו כי אם הם הולכים להתמודד עם כמויות ההולכות וגדלות של נתונים, גישה חדשה, אפילו יותר מדרגי, היה צורך.

לכן, מנדה Banerji - עבודה עם Schawinski, Lintott, וחברים אחרים של צוות החיות בגלקסיה (2010) החלה ללמד מחשבים לסווג גלקסיות. באופן ספציפי יותר, באמצעות הסיווגים האנושיים שנוצרו על ידי גן החיות של גלקסי, בנה באנרג'י מודל למידה מכונה שיכול לחזות את הסיווג האנושי של גלקסיה בהתבסס על המאפיינים של התמונה. אם המודל הזה יכול לשחזר את הסיווגים האנושיים בדייקנות גבוהה, אז זה יכול להיות בשימוש על ידי חוקרי גן החיות של גלקסי כדי לסווג מספר אינסופי של גלקסיות.

ליבת הגישה של Banerji ועמיתים היא למעשה די דומה טכניקות נפוץ במחקר חברתי, אם כי דמיון אולי לא יהיה ברור במבט ראשון. ראשית, Banerji ועמיתיו הפכו כל תמונה לאוסף של תכונות מספריות שסיכמו את מאפייניה. לדוגמה, עבור תמונות של גלקסיות, יכולות להיות שלוש תכונות: כמות הכחול בתמונה, השונות בהירות הפיקסלים, ושיעור הפיקסלים שאינם לבנים. הבחירה של התכונות הנכונות היא חלק חשוב של הבעיה, וזה בדרך כלל דורש מקצוע בתחום הנושא. השלב הראשון, המכונה בדרך כלל הנדסת תכונות , גורם מטריצת נתונים עם שורה אחת לכל תמונה ולאחר מכן שלוש עמודות המתארות את התמונה. בהתחשב במטריצת הנתונים ובפלט הרצוי (למשל, אם התמונה סווגה על ידי אדם כגלקסיה אליפטית), החוקר יוצר מודל סטטיסטי או מכונה ללמידה - לדוגמה, רגרסיה לוגיסטית - המנבאת את הסיווג האנושי בהתבסס על התכונות של התמונה. לבסוף, החוקר משתמש בפרמטרים במודל סטטיסטי זה כדי לייצר סיווגים משוערים של גלקסיות חדשות (איור 5.4). בלמידה של מכונה, גישה זו - תוך שימוש בדוגמאות מסומנות ליצירת מודל שיכול לתייג נתונים חדשים - נקראת למידה מבוקרת .

איור 5.4: תיאור פשוט של האופן שבו Banerji et al. (2010) השתמשו בסיווגים בגן החיות של גלקסי כדי להכשיר מודל הלמידה של מכונה לעשות סיווג גלקסיות. תמונות של גלקסיות הומרו במטריצה ​​של תכונות. בדוגמה פשוטה זו, ישנן שלוש תכונות (כמות הכחול בתמונה, השונות בהירות הפיקסלים ושיעור הפיקסלים הלא לבנים). לאחר מכן, עבור קבוצת משנה של תמונות, תוויות גלקסיית החיות משמשות לאמן מודל למידה של מכונה. לבסוף, הלמידה המכונה משמשת לאמידת הסיווגים של הגלקסיות הנותרות. אני קורא לזה מחשב בסיוע מחשב מחשב בסיוע פרויקט, כי במקום שיש בני אדם לפתור בעיה, יש לו בני אדם לבנות מערך נתונים שניתן להשתמש בהם כדי להכשיר מחשב כדי לפתור את הבעיה. היתרון של מחשב זה בסיוע מחשב מחשב המערכת היא שזה מאפשר לך להתמודד עם כמויות אינסופיות של נתונים באמצעות רק כמות מוגבלת של מאמץ אנושי. תמונות - גלקסיות, לשכפל, אישור, sloan, דיגיטלי, שמיים, סקר.

איור 5.4: תיאור פשוט של האופן שבו Banerji et al. (2010) השתמשו בסיווגים בגן החיות של גלקסי כדי להכשיר מודל הלמידה של מכונה לעשות סיווג גלקסיות. תמונות של גלקסיות הומרו במטריצה ​​של תכונות. בדוגמה פשוטה זו, ישנן שלוש תכונות (כמות הכחול בתמונה, השונות בהירות הפיקסלים ושיעור הפיקסלים הלא לבנים). לאחר מכן, עבור קבוצת משנה של תמונות, תוויות גלקסיית החיות משמשות לאמן מודל למידה של מכונה. לבסוף, הלמידה המכונה משמשת לאמידת הסיווגים של הגלקסיות הנותרות. אני קורא לזה מחשב בסיוע מחשב מחשב בסיוע פרויקט, כי במקום שיש בני אדם לפתור בעיה, יש לו בני אדם לבנות מערך נתונים שניתן להשתמש בהם כדי להכשיר מחשב כדי לפתור את הבעיה. היתרון של מחשב זה בסיוע מחשב מחשב המערכת היא שזה מאפשר לך להתמודד עם כמויות אינסופיות של נתונים באמצעות רק כמות מוגבלת של מאמץ אנושי. תמונות - גלקסיות, לשכפל, אישור, sloan, דיגיטלי, שמיים, סקר .

התכונות של מודל הלמידה של באנרג'י ועמיתיו היו מורכבות יותר מאלו שבדוגמנית הצעצועים שלי - לדוגמה, היא השתמשה בתכונות כמו "יחס הציר של דה ווקולרס" - והמודל שלה לא היה רגרסיה לוגיסטית, אלא רשת עצבית מלאכותית. באמצעות התכונות שלה, המודל שלה, ואת הקונצנזוס בגן החיות מסווגים, היא הצליחה ליצור משקולות על כל תכונה, ולאחר מכן להשתמש משקולות אלה כדי לבצע תחזיות על סיווג של גלקסיות. לדוגמה, הניתוח שלה מצא כי תמונות עם נמוך "דה Vaucouleurs יחס מתאים צירית" היו יותר סביר להיות גלקסיות ספירליות. בהתחשב במשקלים אלה, היא הצליחה לחזות את הסיווג האנושי של גלקסיה בדייקנות סבירה.

עבודתם של באנרג'י ועמיתיו הפכו את גן החיות של גלקסי למה שאני מכנה מערכת חישוב אנושית בסיוע מחשב . הדרך הטובה ביותר לחשוב על מערכות אלה היברידית היא כי במקום שיש בני אדם לפתור בעיה, יש להם בני אדם לבנות מערך נתונים שניתן להשתמש בהם כדי להכשיר מחשב כדי לפתור את הבעיה. לפעמים, אימון מחשב כדי לפתור את הבעיה יכול לדרוש הרבה דוגמאות, והדרך היחידה לייצר מספר מספיק של דוגמאות הוא שיתוף פעולה המוני. היתרון של גישה זו בסיוע מחשב היא כי זה מאפשר לך להתמודד עם כמויות אינסופיות של נתונים באמצעות רק כמות מוגבלת של מאמץ אנושי. לדוגמה, חוקר עם מיליון גלקסיות מסווגות אנושיות יכול לבנות מודל ניבוי שניתן להשתמש בו כדי לסווג מיליארד או אפילו טריליון גלקסיות. אם יש מספר עצום של גלקסיות, אז זה סוג של מחשב היברידי מחשב הוא באמת הפתרון היחיד האפשרי. זה מדרגיות אינסופית אינה חופשית, עם זאת. בניית מודל הלמידה של מכונה שיכולה לשכפל את הסיווגים האנושיים בצורה נכונה היא בעיה קשה, אך למרבה המזל יש כבר ספרים מצוינים המוקדשים לנושא זה (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

גן החיות של גלקסי הוא איור טוב של כמה פרויקטים חישוב האדם להתפתח. ראשית, חוקרת מנסה את הפרויקט לבד או עם צוות קטן של עוזרי מחקר (למשל, המאמץ הסיווג הראשוני של Schawinski). אם גישה זו אינה בקנה מידה טוב, החוקר יכול לעבור לפרויקט חישוב אנושי עם משתתפים רבים. אבל, עבור כמות מסוימת של נתונים, מאמץ אנושי טהור לא יהיה מספיק. בשלב זה, החוקרים צריכים לבנות מחשב בסיוע מחשב מערכת חישוב שבו סיווג האדם משמשים להכשרת מודל הלמידה המכונה כי אז יכול להיות מיושם על כמויות כמעט בלתי מוגבל של נתונים.