5.2.1 غالاكسي حديقة حيوان

تم إنشاء هذه الترجمة بواسطة الكمبيوتر. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

5.2.1 غالاكسي حديقة حيوان

حديقة حيوان جالاكسي يجمع بين جهود العديد من المتطوعين غير الخبراء لتصنيف مليون مجرة.

نمت حديقة حيوان جالاكسي للخروج من المشكلة عن طريق كيفن Schawinski، وهو طالب دراسات عليا في علم الفلك في جامعة أكسفورد واجه في عام 2007. وتبسيط لا بأس به، كان Schawinski المهتمين في المجرات، والمجرات يمكن تصنيفها من قبل من-التشكل بيضاوي الشكل أو دوامة و بواسطة ونهم أزرق أو أحمر. في ذلك الوقت، كانت الحكمة التقليدية بين علماء الفلك أن المجرات الحلزونية، مثل مجرتنا درب التبانة، وكانت زرقاء اللون (تشير الشباب) وكان أن المجرات الإهليلجية أحمر اللون (تشير إلى الشيخوخة). يشك Schawinski هذه الحكمة التقليدية. انه يشتبه في حين أن هذا النمط قد يكون صحيحا بشكل عام، كان هناك على الارجح عددا لا بأس به من الاستثناءات، وذلك من خلال دراسة الكثير من هذه المجرات غير عادية تلك التي لا تناسب المتوقع نمط انه يمكن أن تتعلم شيئا عن العملية التي من خلالها المجرات.

وهكذا، ما يحتاج Schawinski من أجل إسقاط الحكمة التقليدية ومجموعة كبيرة من المجرات سرية شكليا. وهذا هو، المجرات التي تم تصنيفها على أنها إما دوامة أو بيضاوي الشكل. المشكلة، ومع ذلك، كان أن وسائل حسابي القائمة لتصنيف لم تكن حتى الآن جيدة بما فيه الكفاية لاستخدامها لأغراض البحث العلمي؛ وبعبارة أخرى، كانت المجرات تصنيف، في ذلك الوقت، وهي مشكلة من الصعب على أجهزة الكمبيوتر. ولذلك، فالمطلوب هو عدد كبير من المجرات تصنف الإنسان. قام Schawinski هذه المشكلة تصنيف مع حماسة وهو طالب دراسات عليا. في جلسة ماراثونية من سبعة أيام لمدة 12 ساعة، وقال انه كان قادرا على تصنيف 50،000 المجرات. بينما 50،000 المجرات قد يبدو مثل الكثير، هو في الواقع حوالي 5٪ فقط من ما يقرب من مليون المجرات التي تم تصويرها في السماء مسح سلون الرقمي. أدركت Schawinski انه في حاجة الى نهج أكثر للتحجيم.

لحسن الحظ، اتضح أن مهمة المجرات تصنيف لا يتطلب تدريبا متقدما في علم الفلك. يمكنك تعليم شخص للقيام بذلك بسرعة كبيرة. وبعبارة أخرى، على الرغم من تصنيف المجرات ليست بالمهمة التي كان من الصعب على أجهزة الكمبيوتر، وكان من السهل جدا بالنسبة للبشر. لذلك، في حين يجلس في حانة في أكسفورد، Schawinski وزميله الفلكي كريس Lintott يحلم موقع على شبكة الانترنت حيث المتطوعين سيقومون تصنيف الصور للمجرات. وبعد بضعة أشهر، ولدت حديقة حيوان جالاكسي.

في موقع حديقة حيوان جالاكسي، فإن المتطوعين الخضوع لبضع دقائق من التدريب؛ على سبيل المثال، تعلم الفرق بين دوامة ومجرة إهليلجية الشكل (5.2). بعد هذا التدريب، وكان متطوعا لتمرير تصنيف سهلة نسبيا مسابقة بشكل صحيح 11 من 15 المجرات مع المعروف التصنيفات وبعد ذلك المتطوع يبدأ تصنيف الحقيقي للمجرات غير معروفة من خلال واجهة على شبكة الإنترنت بسيطة (الشكل 5.3). ان الانتقال من المتطوعين لعالم الفلك تجري في أقل من 10 دقائق، والمطلوب فقط تمرير أدنى من العقبات، مسابقة بسيطة.

الشكل 5.2: أمثلة من هناك نوعان رئيسيان من المجرات: دوامة وبيضاوي الشكل. ويستخدم المشروع حديقة حيوان جالاكسي أكثر من 100،000 متطوع لفئات أكثر من 900،000 الصور. المصدر: www.galaxyzoo.org .

الشكل 5.3: شاشة الإدخال حيث طلب الناخبين لتصنيف صورة واحدة. المصدر: www.galaxyzoo.org .

اجتذبت حديقة حيوان جالاكسي المتطوعين الأولي بعد ظهر المشروع في المادة الإخبارية، وفي نحو ستة أشهر نما المشروع إلى إشراك أكثر من 100،000 مواطن العلماء، والناس الذين شاركوا لأنها تتمتع المهمة، وانهم يريدون مساعدة الفلك مسبق. معا، ساهم هؤلاء المتطوعين 100000 أي ما مجموعه أكثر من 40 مليون التصنيفات، مع الغالبية العظمى من التصنيفات قادمة من، مجموعة أساسية صغيرة نسبيا من المشاركين (Lintott et al. 2008) .

الباحثون الذين لديهم خبرة توظيف مساعدي البحوث الجامعية قد يكون على الفور يشككون جودة البيانات. في حين أن هذا الشك هو معقول، ويظهر حديقة حيوان جالاكسي أنه عندما يتم تنظيف مساهمات المتطوعين بشكل صحيح، debiased، وتجميعها، فإنها يمكن أن تؤدي إلى نتائج ذات جودة عالية (Lintott et al. 2008) . خدعة مهمة للحصول على الحشد لخلق نوعية البيانات المهنية هي التكرار. وهذا هو، بعد أن نفس المهمة التي يقوم بها كثير من الناس مختلفة. في حديقة حيوان جالاكسي، كان هناك حوالي 40 التصنيفات في المجرة. الباحثون باستخدام مساعدي البحوث الجامعية لا يمكن أبدا أن تحمل هذا المستوى من التكرار، وبالتالي تحتاج إلى أن تكون أكثر من ذلك بكثير المعنية مع نوعية كل تصنيف على حدة. ما تفتقر إلى المتطوعين في مجال التدريب، وتتكون لمع التكرار.

حتى مع التصنيفات المتعددة في المجرة، ومع ذلك، والجمع بين مجموعة من التصنيفات المتطوعين لإنتاج تصنيف الإجماع هو صعب. بسبب تحديات مماثلة جدا تنشأ في معظم المشاريع حساب الإنسان، فإنه من المفيد أن نستعرض بإيجاز الخطوات الثلاث التي استخدم الباحثون حديقة حيوان جالاكسي لإنتاج التصنيفات إجماعهم. أولا، فإن الباحثين "تنظيف" البيانات عن طريق إزالة التصنيفات وهمية. على سبيل المثال، الأشخاص الذين صنفت مرارا وتكرارا نفس المجرة، وهو الأمر الذي يمكن أن يحدث لو كانوا يحاولون التلاعب في النتائج كان كل تصنيفاتها التخلص منها. إزالة هذا والتنظيف الأخرى المماثلة حوالي 4٪ من جميع التصنيفات.

ثانيا، بعد التنظيف، ويحتاج الباحثون إلى إزالة التحيز المنهجي في التصنيفات. من خلال سلسلة من الدراسات كشف التحيز جزءا لا يتجزأ من ضمن سبيل المثال، مشروع الأصلي، تظهر بعض المتطوعين المجرة في أحادية اللون بدلا من اللون واكتشف الباحثون عدة تحيزات منتظمة، مثل وجود تحيز منهجي لتصنيف المجرات بعيدا لولبية كما المجرات الإهليلجية (Bamford et al. 2009) . تعديل لهذه التحيزات منهجية أمر مهم للغاية لأنه في المتوسط العديد من المساهمات لا يزيل التحيز المنهجي. يزيل فقط خطأ عشوائي.

أخيرا، وبعد debiasing، يحتاج الباحثون إلى طريقة لدمج التصنيفات الفردية لإنتاج تصنيف الآراء. إن أبسط طريقة للجمع بين التصنيفات لكل مجرة يكون لاختيار التصنيف الأكثر شيوعا. ومع ذلك، فإن هذا النهج إعطاء كل متطوع وزنا متساويا، ويشتبه الباحثون أن بعض المتطوعين كانوا أفضل في تصنيف أكثر من غيرها. لذلك، طور الباحثون إجراء الترجيح تكرارية أكثر تعقيدا أن يحاول الكشف عن تلقائيا أفضل المصنفين ومنحهم المزيد من الوزن.

وهكذا، وبعد ثلاث خطوات عملية التنظيف، debiasing، والترجيح فريق البحث حديقة حيوان جالاكسي قد تحول 40 مليون التصنيفات المتطوعين إلى مجموعة من إجماع التصنيفات الشكلية. عندما تمت مقارنة هذه التصنيفات حديقة حيوان جالاكسي لثلاث محاولات على نطاق أصغر السابقة من قبل علماء الفلك المهنية، بما في ذلك تصنيف من قبل Schawinski التي ساعدت على إلهام حديقة حيوان جالاكسي، وكان هناك اتفاق قوي. وهكذا، فإن المتطوعين، في مجموع المباراتين، كانوا قادرين على تقديم تصنيفات عالية الجودة وعلى نطاق وأن الباحثين لا يمكن أن تتطابق مع (Lintott et al. 2008) . في الواقع، من خلال وجود التصنيفات الإنسان لمثل هذا العدد الكبير من المجرات، Schawinski، كان Lintott، وغيرها قادرة على أن تظهر أن٪ فقط حوالي 80 من المجرات تتبع اللوالب المتوقع نمط الأزرق ويليبتيكالس والحمراء العديد من الأوراق قد كتب حول هذا الاكتشاف (Fortson et al. 2011) .

بالنظر إلى هذه الخلفية، يمكننا أن نرى الآن كيف يلي حديقة حيوان جالاكسي انقسام تقديم طلب الجمع بين صفة، نفس الوصفة التي يتم استخدامها لمعظم المشاريع حساب الإنسان. أولا، يتم تقسيم مشكلة كبيرة إلى قطع. في هذه الحالة، يتم تقسيم المشكلة لتصنيف مليون مجرة إلى مليون المشاكل تصنيف مجرة واحدة. بعد ذلك، يتم تطبيق عملية لكل قطعة بشكل مستقل. في هذه الحالة، فإن المتطوعين تصنيف كل مجرة إما دوامة أو بيضاوي الشكل. وأخيرا، يتم الجمع بين النتائج للحصول على نتيجة توافق في الآراء. في هذه الحالة، شملت الخطوة الجمع بين التنظيف، debiasing، والترجيح لإنتاج تصنيف توافق في الآراء بشأن كل مجرة. على الرغم من أن معظم المشاريع تستخدم هذه الوصفة العامة، كل خطوة من الخطوات تحتاج إلى تخصيصها لتعالج مشكلة معينة. على سبيل المثال، في مشروع حساب البشري هو موضح أدناه، سيتم اتباع نفس الوصفة، إلا أن تطبيق والجمع بين الخطوات ستكون مختلفة تماما.

وبالنسبة لفريق حديقة حيوان جالاكسي، وكان هذا المشروع الأول مجرد بداية. بسرعة جدا أدركوا أنه على الرغم من أنهم كانوا قادرين على تصنيف ما يقرب من مليون المجرات، وهذا المقياس ليس كافيا للعمل وفقا لأحدث استطلاعات السماء الرقمية، التي يمكن أن تنتج صورا لنحو 10 بليون مجرة (Kuminski et al. 2014) . للتعامل مع زيادة 1٬000٬000-10000000000 واحد وهناك عامل من 10،000 غالاكسي حديقة حيوان يحتاج إلى توظيف ما يقرب من 10،000 مرات أكثر المشاركين. على الرغم من أن عدد من المتطوعين على شبكة الإنترنت بشكل كبير، ليس بلا حدود. لذلك، أدرك الباحثون أنه إذا أنهم ذاهبون للتعامل مع كميات متزايدة من البيانات، هناك حاجة لأكثر متدرجة، والنهج الجديد،.

لذلك، مندا بانيرجي التي تعمل مع كيفن Schawinski، كريس Lintott، وغيرها من أجهزة الكمبيوتر التدريس ابتداء فريق حديقة حيوان جالاكسي أعضاء لتصنيف المجرات. وبشكل أكثر تحديدا، وذلك باستخدام التصنيفات الإنسان التي أنشأتها حديقة حيوان جالاكسي Banerji et al. (2010) بناء نموذج تعلم الآلة التي يمكن التنبؤ تصنيف البشر من المجرة على أساس خصائص الصورة. إذا كان هذا نموذج التعلم آلة يمكن أن تتكاثر التصنيفات الإنسان مع دقة عالية، ثم يمكن أن تستخدم من قبل الباحثين حديقة حيوان جالاكسي لتصنيف عدد لا حصر له أساسا من المجرات.

جوهر النهج بانيرجي وزملاؤه "هو في الواقع مشابهة جدا لالتقنيات المستخدمة عادة في البحوث الاجتماعية، على الرغم من أن التشابه قد لا تكون واضحة للوهلة الأولى. أولا، تحويل بانيرجي وزملاؤه كل صورة إلى مجموعة من الميزات الرقمية التي تلخص انها الخصائص. على سبيل المثال، لصور المجرات يمكن أن يكون هناك ثلاث سمات: كمية من اللون الأزرق في الصورة، والتباين في سطوع بكسل، ونسبة بكسل غير البيض. اختيار الميزات الصحيحة هي جزء مهم من المشكلة، وأنها تتطلب عموما الخبرات تخضع منطقة. هذه الخطوة الأولى، وتسمى عادة وسمة والهندسة، والنتائج في مصفوفة البيانات مع صف واحد في الصورة ثم ثلاثة أعمدة واصفا تلك الصورة. ونظرا لمصفوفة البيانات والمخرجات المرجوة (على سبيل المثال، إذا كان تصنيفها الصورة من قبل الإنسان باعتبارها مجرة إهليلجية)، ويقدر الباحث معالم مثال نموذج لالإحصائي، ما يشبه الانحدار التي اللوجستي يتنبأ تصنيف البشر بناء على ملامح الصورة. وأخيرا، يستخدم الباحث المعلمات في هذا النموذج الإحصائي لإنتاج التصنيفات المقدرة للمجرات جديدة (الشكل 5.4). التفكير في التناظرية الاجتماعية، تخيل أن لديك معلومات ديموغرافية عن مليون طالب، وأنت تعرف ما إذا كانت تخرج من الكلية أم لا. هل يمكن أن تناسب الانحدار اللوجستي لهذه البيانات، وبعد ذلك يمكن استخدام المعلمات النموذج الناتج التنبؤ ما إذا كان الطلاب الجدد سوف تخرج من الكلية. في تعلم الآلة، والأمثلة وصفت ذلك باستخدام نهج لخلق نموذج الإحصائية التي يمكن بعد ذلك تسمية جديد بيانات يسمى أشرف التعلم (Hastie, Tibshirani, and Friedman 2009) .

الشكل 5.4: وصف مبسط لكيفية بانيرجي وآخرون. (2010) استخدام التصنيفات حديقة حيوان جالاكسي لتدريب نموذج التعلم آلة للقيام تصنيف المجرة. تم تحويل الصور من المجرات في مصفوفة من الميزات. في هذا المثال المبسط هناك ثلاث سمات (كمية من اللون الأزرق في الصورة، والتباين في سطوع بكسل، ونسبة بكسل غير البيض). ثم، لمجموعة فرعية من الصور، وتستخدم التسميات حديقة حيوان جالاكسي لتدريب نموذج التعلم الآلي. وأخيرا، يتم استخدام آلة التعلم لتقدير التصنيفات للمجرات المتبقية. وأنا أسمي هذا النوع من المشاريع الجيل الثاني من مشروع الحاسوبية البشري، لأنه بدلا من وجود البشر يحل المشكلة، لديهم البشر بناء على مجموعة البيانات التي يمكن استخدامها لتدريب الكمبيوتر لحل المشكلة. وميزة هذا النهج بمساعدة الحاسوب هو أنه يتيح لك التعامل مع كميات لا حصر لها أساسا من البيانات باستخدام سوى كمية محدودة من الجهد البشري.

الشكل 5.4: وصف مبسط لكيفية Banerji et al. (2010) استخدام التصنيفات حديقة حيوان جالاكسي لتدريب نموذج التعلم آلة للقيام تصنيف المجرة. تم تحويل الصور من المجرات في مصفوفة من الميزات. في هذا المثال المبسط هناك ثلاث سمات (كمية من اللون الأزرق في الصورة، والتباين في سطوع بكسل، ونسبة بكسل غير البيض). ثم، لمجموعة فرعية من الصور، وتستخدم التسميات حديقة حيوان جالاكسي لتدريب نموذج التعلم الآلي. وأخيرا، يتم استخدام آلة التعلم لتقدير التصنيفات للمجرات المتبقية. وأنا أسمي هذا النوع من المشاريع الجيل الثاني من مشروع الحاسوبية البشري، لأنه بدلا من وجود البشر يحل المشكلة، لديهم البشر بناء على مجموعة البيانات التي يمكن استخدامها لتدريب الكمبيوتر لحل المشكلة. وميزة هذا النهج بمساعدة الحاسوب هو أنه يتيح لك التعامل مع كميات لا حصر لها أساسا من البيانات باستخدام سوى كمية محدودة من الجهد البشري.

الميزات في Banerji et al. (2010) آلة نموذج التعلم كانت أكثر تعقيدا من تلك التي في بلدي لعبة سبيل المثال، على سبيل المثال، وقالت انها تستخدم ميزات مثل "دي Vaucouleurs تناسب نسبة المحورية" -و كان نموذجها لا الانحدار اللوجستي، كانت شبكة عصبية اصطناعية. باستخدام ملامحها، نموذج لها، والإجماع التصنيفات حديقة حيوان جالاكسي، وكانت قادرة على خلق الأوزان على كل ميزة، ومن ثم استخدام هذه الأوزان لبناء توقعات حول تصنيف المجرات. على سبيل المثال، وجد تحليل لها أن الصور مع منخفضة "دي Vaucouleurs تناسب نسبة المحورية" كانوا أكثر عرضة لتكون المجرات الحلزونية. ونظرا لهذه الأوزان، وكانت قادرة على التنبؤ تصنيف البشر من المجرة بدرجة معقولة من الدقة.

عمل Banerji et al. (2010) تحولت حديقة حيوان جالاكسي إلى ما يمكن أن أسميه الجيل الثاني من نظام حساب البشري. أفضل طريقة للتفكير في هذه الأنظمة الجيل الثاني هو أنه بدلا من وجود البشر يحل المشكلة، لديهم البشر بناء على مجموعة البيانات التي يمكن استخدامها لتدريب الكمبيوتر لحل المشكلة. كمية البيانات اللازمة لتدريب الكمبيوتر يمكن أن تكون كبيرة لدرجة أنه يتطلب تعاون كتلة البشري إلى خلق. في حالة حديقة حيوان جالاكسي، والشبكات العصبية التي يستخدمها Banerji et al. (2010) مطلوب عدد كبير جدا من الأمثلة وصفت الإنسان من أجل بناء النموذج الذي كان قادرا على إعادة إنتاج موثوق تصنيف البشري.

وميزة هذا النهج بمساعدة الحاسوب هو أنه يتيح لك التعامل مع كميات لا حصر لها أساسا من البيانات باستخدام سوى كمية محدودة من الجهد البشري. على سبيل المثال، الباحث مليون المجرات تصنف الإنسان يمكن بناء نموذج تنبؤي التي يمكن استخدامها لتصنيف مليار أو حتى تريليون المجرات. وإذا كانت هناك أعداد هائلة من المجرات، ثم هذا النوع من هجين بين الإنسان والحاسوب هو حقا الحل الوحيد الممكن. هذا التوسع لا حصر لها ليست مجانية، ولكن. بناء نموذج تعلم الآلة التي يمكن أن تتكاثر التصنيفات الإنسان بشكل صحيح هو في حد ذاته مشكلة صعبة، ولكن لحسن الحظ هناك بالفعل الكتب الممتازة مخصصة لهذا الموضوع (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

يظهر حديقة حيوان جالاكسي تطور العديد من المشاريع حساب الإنسان. أولا، يحاول الباحث المشروع بنفسها أو مع فريق صغير من مساعدي البحوث (على سبيل المثال، جهد تصنيف الأولي Schawinski ل). إذا لم يتم تحجيم هذا النهج بشكل جيد، يمكن للباحث الانتقال إلى مشروع حساب البشري حيث يساهم العديد من الناس التصنيفات. ولكن، لحجم معين من البيانات والجهد البشري النقي لن يكون كافيا. عند هذه النقطة، يحتاج الباحثون إلى بناء أنظمة الجيل الثاني، حيث يتم استخدام التصنيفات البشرية لتدريب نموذج تعلم الآلة التي يمكن بعد ذلك تطبيقها على كميات غير محدودة تقريبا من البيانات.