5.2.1 ग्यालेक्सी चिडियाघर

यो अनुवाद एक कम्प्यूटर द्वारा सिर्जना गरिएको थियो। ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

5.2.1 ग्यालेक्सी चिडियाघर

ग्यालेक्सी चिडियाघर एक लाख आकाशगंगाओं वर्गीकरण गर्न धेरै गैर-विशेषज्ञ स्वयंसेवक प्रयासलाई जोडती।

ग्यालेक्सी चिडियाघर, Schawinski आकाशगंगाओं रुचि थियो लडका 2007 एकदम बिट सरलीकृत मा केविन Schawinski, विश्वविद्यालय अक्सफोर्ड को मा खगोल विज्ञान मा एक स्नातक विद्यार्थी द्वारा सामना समस्या बाहिर भयो, र आकाशगंगाओं द्वारा वर्गीकृत गर्न सकिन्छ आफ्नो आकृति-अण्डाकार वा सर्पिल-र आफ्नो रंग-नीलो वा रातो द्वारा। समय मा, खगोलविदहरु बीचमा पारंपरिक बुद्धि सर्पिल आकाशगंगाओं, जस्तै हाम्रो आकाशगङ्गा, रंग (संकेत युवा) मा नीलो थिए भन्ने थियो र (बुढेसकालमा संकेत) भनेर अण्डाकार आकाशगंगाओं रंग रातो थियो। Schawinski यो पारंपरिक बुद्धि doubted। उहाँले यो ढाँचा सामान्य साँचो हुन सक्छ जबकि, त्यहाँ शायद अपवाद एक sizable नम्बर थिए, र भन्ने आशङ्का यी असामान्य आकाशगंगाओं-को फिट भएन कि व्यक्तिहरूलाई धेरै अध्ययन गरेर अपेक्षित ढाँचा-उहाँले प्रक्रियाको बारेमा कुरा सिक्न सक्छ जो मार्फत आकाशगंगाओं गठन।

तसर्थ, morphologically वर्गीकृत आकाशगंगाओं एक ठूलो सेट के Schawinski पारंपरिक बुद्धि उल्टिनु गर्न आवश्यक थियो; कि, या त सर्पिल वा अण्डाकार रूपमा वर्गीकृत गरिएको थियो आकाशगंगाओं छ। समस्या तथापि, वर्गीकरण लागि विद्यमान एल्गोरिथमिक विधिहरू वैज्ञानिक अनुसन्धान को लागि प्रयोग गर्न अझै पर्याप्त राम्रो नभएका थियो; अर्को शब्दमा, वर्गीकृत आकाशगंगाओं, त्यतिबेला थियो कम्प्युटर लागि गाह्रो थियो कि एक समस्या। तसर्थ, आवश्यक थियो के मानव वर्गीकृत आकाशगंगाओं एक ठूलो संख्या थियो। Schawinski एक स्नातक विद्यार्थीको उत्साह यो वर्गीकरण समस्या undertook। सात, 12 घण्टे दिन को एक म्याराथन सत्र मा, त्यो 50,000 आकाशगंगाओं वर्गीकरण गर्न सक्षम थियो। जबकि 50,000 आकाशगंगाओं धेरै जस्तै लाग्न सक्छ, यो Sloan डिजिटल स्काई सर्वेक्षण मा फोटो खिंचवाने गरिएको थियो कि लगभग एक लाख आकाशगंगाओं बारेमा मात्र 5% वास्तवमा छ। Schawinski उहाँले एक थप मापनयोग्य दृष्टिकोण आवश्यकता महसुस गरे।

खुसीको कुरा, त्यो वर्गीकृत आकाशगंगाओं कार्य खगोल विज्ञान मा उन्नत प्रशिक्षण आवश्यकता छैन बाहिर जान्छ; तपाईं राम्रो चाँडै यो गर्न कसैले सिकाउन सक्छन्। अर्को शब्दमा, आकाशगंगाओं वर्गीकृत कम्प्युटर लागि गाह्रो थियो कि एक कार्य हो तापनि, यो राम्रो मानिसहरूलाई लागि सजिलो भएको थियो। त्यसैले, अक्सफोर्ड, Schawinski र सँगी astronomer क्रिस Lintott मा एक पब मा बसेर स्वयंसेवकहरु आकाशगंगाओं तस्बिरहरू वर्गीकरण थियो जहाँ एक वेबसाइट माथि सपना देख्यो। केही महिनापछि, ग्यालेक्सी चिडियाघर जन्म भएको थियो।

आकाशगंगा चिडियाघर वेबसाइट मा स्वयंसेवकहरु प्रशिक्षण को केही मिनेट undergo थियो; उदाहरणका लागि, एक सर्पिल र अण्डाकार ग्यालेक्सी (चित्रा 5.2) भिन्नता सिक्ने। यो प्रशिक्षण पछि स्वयंसेवक ज्ञात संग एक अपेक्षाकृत सजिलो क्विज-सही वर्गीकृत 11 15 को आकाशगंगाओं पारित थियो वर्गीकरण-र त्यसपछि स्वयंसेवक एक सरल वेब-आधारित इन्टरफेस (चित्रा 5.3) मार्फत अज्ञात आकाशगंगाओं वास्तविक वर्गीकरण सुरु हुनेछ। स्वयंसेवक देखि astronomer गर्न संक्रमण 10 भन्दा कम मिनेटमा ठाउँ लिन थियो र मात्र अवरोधहरू, एक सरल क्विज को सबै भन्दा कम पारित आवश्यक छ।

चित्रा 5.2: सर्पिल र अण्डाकार: को आकाशगंगाओं दुई मुख्य प्रकार को उदाहरण। आकाशगंगा चिडियाघर परियोजना 900000 तस्बिरहरू भन्दा बढी विभाग गर्न 1,00,000 भन्दा बढी स्वयंसेवकहरु प्रयोग। स्रोत: www.galaxyzoo.org ।

चित्रा 5.3: कहाँ मतदाता एकल छवि वर्गीकरण गर्न आग्रह गरेका थिए इनपुट स्क्रिन। स्रोत: www.galaxyzoo.org ।

ग्यालेक्सी चिडियाघर परियोजना एक समाचार लेखमा विशेष पछि, र लगभग छ महिनापछि मा परियोजना 1,00,000 भन्दा बढी नागरिक वैज्ञानिक, तिनीहरूले कार्य आनन्द उठाए र तिनीहरूले अग्रिम खगोल विज्ञान मदत गर्न चाहनुहुन्थ्यो किनभने भाग मानिसहरू समावेश गयो यसको प्रारम्भिक स्वयंसेवकहरु आकर्षित। सँगै, यी 1,00,000 स्वयंसेवकहरु सहभागी एक अपेक्षाकृत साना, कोर समूह देखि आ वर्गीकरण को बहुमत संग, 40 लाख भन्दा बढी वर्गीकरण को कुल योगदान (Lintott et al. 2008) ।

अनुभव भर्ती स्नातक अनुसन्धान सहायक भएका अनुसन्धानकर्ताहरूले तुरुन्तै डेटा गुणस्तर बारे संदेह हुन सक्छ। यो शंका उचित छैन, ग्यालेक्सी चिडियाघर गर्दा स्वयंसेवक योगदान सही, साफ छन् debiased, र थपिन, तिनीहरूले उच्च गुणस्तरीय परिणाम उत्पादन गर्न सक्छन् भनेर देखाउँछ (Lintott et al. 2008) । व्यावसायिक डाटा सिर्जना गर्न भीड रही एउटा महत्त्वपूर्ण चाल अतिरेक छ; त्यो छ, भएको त्यही कार्य विभिन्न मानिसहरूले प्रदर्शन। ग्यालेक्सी चिडियाघर मा, त्यहाँ प्रति ग्यालेक्सी 40 वर्गीकरण थिए; स्नातक अनुसन्धान सहायक प्रयोग अतिरेक को यो स्तर खर्च कहिल्यै सकिएन र यसैले अनुसन्धानकर्ताहरूले प्रत्येक व्यक्ति वर्गीकरण गुणस्तर धेरै बढी चिन्तित हुन आवश्यक छ। के स्वयंसेवक प्रशिक्षण मा अभाव, तिनीहरूले अतिरेक संग अप गरे।

पनि प्रति ग्यालेक्सी धेरै वर्गीकरण संग तथापि, उत्पादन गर्न स्वयंसेवक वर्गीकरण को सेट संयोजन एक सहमति वर्गीकरण मुश्किल छ। धेरै समान चुनौतीहरू भन्दा मानव गणना परियोजनामा उत्पन्न किनभने, यो छोटकरीमा ग्यालेक्सी चिडियाघर अनुसन्धानकर्ताहरूले आफ्नो सहमति वर्गीकरण उत्पादन गर्न प्रयोग गर्ने तीन कदम समीक्षा गर्न उपयोगी छ। पहिलो, शोधकर्ताओं bogus वर्गीकरण उखेलेर डाटा "साफ"। उदाहरणका लागि, बारम्बार एउटै तिनीहरूले हेरफेर गर्न प्रयास गरेका थिए भने हुन भनेर ग्यालेक्सी-केही वर्गीकृत मानिसहरू आफ्नो सबै वर्गीकरण वेवास्ता परिणाम-थियो। यो र अन्य यस्तै सफाई सबै वर्गीकरण को लगभग 4% हटाइयो।

दोस्रो, सफाई पछि, शोधकर्ताओं वर्गीकरण मा व्यवस्थित पक्षपात हटाउन आवश्यक छ। मूल परियोजना-उदाहरणको लागि भित्र सम्मिलित पूर्वाग्रह पत्ता लगाउने अध्ययन, को सट्टा मोनोक्रोमसमावेशगर्दछ मा ग्यालेक्सी केही स्वयंसेवकहरु देखाउने एक श्रृंखला मार्फत रंग-शोधकर्ताओं यस्तो अण्डाकार आकाशगंगाओं रूपमा टाढा सर्पिल आकाशगंगाओं वर्गीकरण गर्न एक व्यवस्थित पूर्वाग्रह रूपमा धेरै व्यवस्थित पक्षपात, पत्ता (Bamford et al. 2009) किनभने धेरै योगदान averaging व्यवस्थित पूर्वाग्रह हटाउन गर्दैन यी व्यवस्थित पक्षपात लागि समायोजन अत्यन्तै महत्त्वपूर्ण छ; यो केवल अनियमित त्रुटि हटाउँदछ।

अन्तमा, debiasing पछि, शोधकर्ताओं एक सहमति वर्गीकरण उत्पादन गर्न व्यक्तिगत वर्गीकरण संयोजन गर्न एक विधि आवश्यक। प्रत्येक ग्यालेक्सी लागि वर्गीकरण संयोजन गर्ने सरल तरिका सबै भन्दा साधारण वर्गीकरण चयन गर्न हुनेछ। तर, यो दृष्टिकोण प्रत्येक स्वयंसेवक बराबर वजन दिन हुनेछ, र अनुसन्धानकर्ताहरूले केही स्वयंसेवकहरु अरूलाई भन्दा वर्गीकरण मा राम्रो थिए आशङ्का। तसर्थ, अनुसन्धानकर्ताहरूले एक जटिल iterative भार प्रक्रिया स्वतः सबै भन्दा राम्रो classifiers पत्ता लगाउन र तिनीहरूलाई थप वजन दिन प्रयास गर्ने विकास गरे।

तसर्थ, तीन चरण प्रक्रिया-सफाई, debiasing, र भार-को ग्यालेक्सी चिडियाघर अनुसन्धान टोली पछि सहमति morphological वर्गीकरण एक सेट मा 40 लाख स्वयंसेवक वर्गीकरण परिवर्तित थियो। यी ग्यालेक्सी चिडियाघर वर्गीकरण व्यावसायिक खगोलविदहरु द्वारा तीन अघिल्लो सानो-मात्रा प्रयासहरू, ग्यालेक्सी चिडियाघर प्रेरित गर्न मदत भनेर Schawinski गरेर वर्गीकरण सहित तुलना थिए, बलियो सम्झौता भयो। तसर्थ, स्वयंसेवक, समग्र, उच्च गुणवत्ता वर्गीकरण प्रदान गर्न सक्षम थिए र अनुसन्धानकर्ताहरूले मेल खाँदैन सक्ने मात्रा मा (Lintott et al. 2008) । वास्तवमा, आकाशगंगाओं यस्तो ठूलो संख्या लागि मानव वर्गीकरण गरेर, Schawinski, Lintott, र अरूलाई आकाशगंगाओं बारेमा मात्र 80% बारेमा लिखित गरिएको छ अपेक्षित ढाँचा-नीलो spirals र रातो ellipticals-र पत्र पालन देखाउन सके यो खोज (Fortson et al. 2011)

यो पृष्ठभूमिमा दिइएको, हामी अब ग्यालेक्सी चिडियाघर कसरी निम्नानुसार हेर्न सक्नुहुन्छ विभाजित-लागू-संयोजन नुस्खा, एउटै नुस्खा भन्दा मानव गणना परियोजनाका लागि प्रयोग गरिन्छ। पहिलो, एक ठूलो समस्या chunks विभाजित गरिएको छ। यस अवस्थामा, एक लाख आकाशगंगाओं वर्गीकृत को समस्या एक ग्यालेक्सी वर्गीकृत एक लाख समस्या विभाजित गरिएको छ। अर्को, एउटा सञ्चालनको स्वतन्त्र प्रत्येक बाक्लो टुक्रा लागू गरिएको छ। यस अवस्थामा, एक स्वयंसेवक या त सर्पिल वा अण्डाकार रूपमा प्रत्येक ग्यालेक्सी वर्गीकरण हुनेछ। अन्तमा, परिणाम एक सहमति परिणाम उत्पादन गर्न संयुक्त छन्। यो अवस्थामा, संयोजन कदम सफाई, debiasing, र भार प्रत्येक ग्यालेक्सी लागि एक सहमति वर्गीकरण उत्पादन गर्न समावेश। तापनि सबै भन्दा परियोजनाहरू यस सामान्य नुस्खा प्रयोग, कदम को प्रत्येक विशिष्ट समस्या सम्बोधन भइरहेको अनुकूलित गर्न आवश्यक छ। उदाहरणका लागि, तल वर्णन मानव गणना परियोजना मा, एउटै नुस्खा पछि गरिनेछ, तर लागू र संयोजन कदम एकदम फरक हुनेछ।

आकाशगंगा चिडियाघर टोली लागि, यो पहिलो परियोजना बस शुरुवात थियो। तुरुन्तै तिनीहरूले तापनि तिनीहरूले एक लाख आकाशगंगाओं नजिक वर्गीकरण गर्न सके भनेर बुझे, यो मात्रा छैन नयाँ डिजिटल आकाश सर्वेक्षण, 10 अर्ब आकाशगंगाओं तस्बिरहरू उत्पादन सक्छ जो काम गर्न पर्याप्त छ (Kuminski et al. 2014) । बाट 1 लाख 10 वृद्धि ह्यान्डल गर्न अर्ब-एक 10,000-ग्यालेक्सी चिडियाघर को कारक लगभग 10,000 पटक थप सहभागी रंगरुट गर्न आवश्यक हुनेछ। इन्टरनेटमा स्वयंसेवकहरु को संख्या ठूलो छ तापनि, यो अनन्त छ। तसर्थ, अनुसन्धानकर्ताहरूले बुझे कि यदि उनि एक नयाँ, अझ मापनयोग्य, दृष्टिकोण आवश्यक थियो डाटा, को बढ्दै कहिल्यै मात्रा ह्यान्डल गर्न जाँदैछन्।

तसर्थ, मंदा Banerji-काम आकाशगंगाओं वर्गीकरण गर्न केविन Schawinski, क्रिस Lintott र ग्यालेक्सी चिडियाघर टोली-सुरु शिक्षा कम्प्युटर को अन्य सदस्यहरु संग। थप विशेष, ग्यालेक्सी चिडियाघर, द्वारा सिर्जना मानव वर्गीकरण प्रयोग Banerji et al. (2010) मूर्तिको विशेषताहरु आधारित ग्यालेक्सी को मानव वर्गीकरण भविष्यवाणी सक्ने एक मिसिन सिक्ने मोडेल बनाए। यो मेसिन शिक्षा मोडेल उच्च सटीकता संग मानव वर्गीकरण उर्तानु गर्न सक्छ भने, त्यसपछि आकाशगंगाओं एक अनिवार्य अनन्त नम्बर वर्गीकरण गर्न ग्यालेक्सी चिडियाघर अनुसन्धानकर्ताहरूले गरेर प्रयोग गर्न सकिएन।

Banerji र सहयोगिहरु 'दृष्टिकोण को कोर हुनत कि समानता पहिलो नजर मा स्पष्ट हुन सक्छ, धेरै प्रविधी सामान्यतः सामाजिक अनुसन्धान मा प्रयोग गर्न समान वास्तवमा छ। पहिलो, Banerji र सहयोगिहरु यो गुण छ सारांशमा भन्ने संख्यात्मक सुविधाहरू एक सेट मा प्रत्येक छवि परिवर्तित। छविमा नीलो को राशि, पिक्सल को चमक मा विचरण र गैर-सेतो पिक्सेल को अनुपात: उदाहरणका लागि, आकाशगंगाओं तस्बिर तीन सुविधाहरू हुन सक्छ। सही सुविधाहरू को चयन समस्या को एक महत्वपूर्ण भाग हो, र यो साधारण विषय-क्षेत्र विशेषज्ञता आवश्यक छ। यो पहिलो चरण, सामान्यतः सुविधा ईन्जिनियरिङ् भनिन्छ, प्रति छवि एउटा पङ्क्ति र त्यसपछि तीन भनेर छवि वर्णन स्तम्भहरू संग एक डाटा म्याट्रिक्स मा परिणाम। एक रसद प्रतिगमनमा-आधारित मानव वर्गीकरण भविष्यवाणी जस्तै डाटा म्याट्रिक्स र इच्छित उत्पादन (जस्तै, छवि एक अण्डाकार ग्यालेक्सी रूपमा मानव द्वारा वर्गीकृत थियो कि), को शोधकर्ता एक तथ्याङ्क मोडेल-उदाहरणको लागि को मापदण्डहरु अनुमान, केही दिइएको मूर्तिको सुविधाहरुको। अन्तमा, शोधकर्ता नयाँ आकाशगंगाओं अनुमानित वर्गीकरण (चित्रा 5.4) उत्पादन गर्न यो तथ्याङ्क मोडेल मा मापदण्डहरु प्रयोग गर्दछ। सामाजिक अनुरूप विचार गर्न, तपाईं एक लाख विद्यार्थी बारे डेमोग्राफिक जानकारी थियो कि कल्पना र तपाईंलाई थाहा तिनीहरूले कलेज बाट वा स्नातक कि। तपाईंले यो डाटा एक रसद प्रतिगमनमा फिट सक्छ, र त तपाईं नयाँ विद्यार्थी कलेज देखि स्नातक जाँदैछन् कि भविष्यवाणी गर्न परिणामस्वरूप मोडेल मापदण्डहरु प्रयोग गर्न सक्छ। मेसिन शिक्षा, यस दृष्टिकोण-प्रयोग लेबल उदाहरण त नयाँ लेबल गर्न सक्छन् भन्ने एक तथ्याङ्क मोडेल बनाउन डाटा-छ सिक्ने निरीक्षण भनिन्छ (Hastie, Tibshirani, and Friedman 2009) ।

चित्रा 5.4: कसरी Banerji एट अल को सरलीकृत विवरण। (2010) ग्यालेक्सी वर्गीकरण गर्न एक मिसिन सिक्ने मोडेल तालिम ग्यालेक्सी चिडियाघर वर्गीकरण गरिन्छ। आकाशगंगाओं तस्बिरहरू सुविधाहरू एक म्याट्रिक्स मा परिवर्तित थिए। यो सरल उदाहरण तीन विशेषताहरु (छविमा नीलो को राशि, पिक्सल को चमक मा विचरण र गैर-सेतो पिक्सेल को अनुपात) छन्। त्यसपछि, तस्बिरहरू उपसमूह लागि, ग्यालेक्सी चिडियाघर लेबल एक मिसिन सिक्ने मोडेल प्रशिक्षण प्रयोग गरिन्छ। अन्तमा, मेशिन शिक्षाका बाँकी आकाशगंगाओं लागि वर्गीकरण अनुमान गर्न प्रयोग गरिएको छ। म परियोजना यस प्रकारको कल दोस्रो-पुस्ता मानव कम्प्यूटेशनल परियोजना किनभने, झेलिरहेका मानिसहरूलाई समस्या समाधान भन्दा, तिनीहरूले मानिसहरूलाई समस्या समाधान गर्न एक कम्प्युटर तालिम गर्न प्रयोग गर्न सकिन्छ भनेर डेटासेटको निर्माण छ। यो कम्प्युटर-सहायता दृष्टिकोण को फाइदा यो तपाईं मानव प्रयास मात्र सीमित रकम प्रयोग गरी डाटा को अनिवार्य असीमित मात्रा ह्यान्डल गर्न सक्षम छ।

चित्रा 5.4: कसरी सरलीकृत विवरण Banerji et al. (2010) ग्यालेक्सी वर्गीकरण गर्न एक मिसिन सिक्ने मोडेल तालिम ग्यालेक्सी चिडियाघर वर्गीकरण गरिन्छ। आकाशगंगाओं तस्बिरहरू सुविधाहरू एक म्याट्रिक्स मा परिवर्तित थिए। यो सरल उदाहरण तीन विशेषताहरु (छविमा नीलो को राशि, पिक्सल को चमक मा विचरण र गैर-सेतो पिक्सेल को अनुपात) छन्। त्यसपछि, तस्बिरहरू उपसमूह लागि, ग्यालेक्सी चिडियाघर लेबल एक मिसिन सिक्ने मोडेल प्रशिक्षण प्रयोग गरिन्छ। अन्तमा, मेशिन शिक्षाका बाँकी आकाशगंगाओं लागि वर्गीकरण अनुमान गर्न प्रयोग गरिएको छ। म परियोजना यस प्रकारको कल दोस्रो-पुस्ता मानव कम्प्यूटेशनल परियोजना किनभने, झेलिरहेका मानिसहरूलाई समस्या समाधान भन्दा, तिनीहरूले मानिसहरूलाई समस्या समाधान गर्न एक कम्प्युटर तालिम गर्न प्रयोग गर्न सकिन्छ भनेर डेटासेटको निर्माण छ। यो कम्प्युटर-सहायता दृष्टिकोण को फाइदा यो तपाईं मानव प्रयास मात्र सीमित रकम प्रयोग गरी डाटा को अनिवार्य असीमित मात्रा ह्यान्डल गर्न सक्षम छ।

मा सुविधाहरू Banerji et al. (2010) मिसिन सिक्ने मोडेल उदाहरण-उदाहरणको लागि, त्यो सुविधाहरू जस्तै प्रयोग मेरो खेलौना ती भन्दा बढी जटिल थिए "डे Vaucouleurs axial अनुपात फिट" -and उनको मोडेल रसद प्रतिगमनमा थिएन, यो एक कृत्रिम तन्त्रिका सञ्जाल थियो। उनको सुविधाहरू, उनको मोडेल, र सहमति ग्यालेक्सी चिडियाघर वर्गीकरण प्रयोग, त्यो प्रत्येक सुविधा वजन सिर्जना, र त्यसपछि गर्न आकाशगंगाओं वर्गीकरण बारे भविष्यवाणी गर्न यी वजन प्रयोग गर्न सक्षम थियो। उदाहरणका लागि, उनको विश्लेषण संग कम "Vaucouleurs axial अनुपात फिट डे" तस्बिरहरू सर्पिल आकाशगंगाओं हुने बढी सम्भावना थिए फेला परेन। यी वजन दिएको, त्यो व्यावहारिक शुद्धता संग एक ग्यालेक्सी को मानव वर्गीकरण भविष्यवाणी गर्न सक्षम थियो।

काम Banerji et al. (2010) म दोस्रो-पुस्ता मानव गणना सिस्टम कल हुने मा ग्यालेक्सी चिडियाघर गरियो। यी दोस्रो पुस्ता प्रणाली सोच्न सबैभन्दा राम्रो तरिका भएको मानिसहरूलाई समस्या समाधान भन्दा, तिनीहरूले मानिसहरूलाई समस्या समाधान गर्न एक कम्प्युटर तालिम गर्न प्रयोग गर्न सकिन्छ भनेर डेटासेटको निर्माण छ भन्ने छ। कम्प्युटर तालिम आवश्यक डाटा को मात्रा यसलाई सिर्जना गर्न मानव ठूलो सहयोग आवश्यक त ठूलो हुन सक्छ। ग्यालेक्सी चिडियाघर, प्रयोग तन्त्रिका सञ्जाल को मामला मा Banerji et al. (2010) मजबूती मानव वर्गीकरण उर्तानु गर्न सक्षम थियो कि एक मोडेल निर्माण गर्न मानव-लेबल उदाहरण को एक धेरै ठूलो संख्या आवश्यक छ।

यो कम्प्युटर-सहायता दृष्टिकोण को फाइदा यो तपाईं मानव प्रयास मात्र सीमित रकम प्रयोग गरी डाटा को अनिवार्य असीमित मात्रा ह्यान्डल गर्न सक्षम छ। उदाहरणका लागि, एक लाख मानव वर्गीकृत आकाशगंगाओं संग एक शोधकर्ता त्यसपछि एक अर्ब वा एक खरब आकाशगंगाओं वर्गीकरण गर्न प्रयोग गर्न सकिन्छ भनेर एक भविष्य मोडेल निर्माण गर्न सक्छन्। यदि आकाशगंगाओं भारी संख्या हो, त्यसपछि मानव-कम्प्युटर संकर यस प्रकारको साँच्चै मात्र सम्भव समाधान छ। यो अनन्त scalability तर, मुक्त छैन। नै एक कठिन समस्या छ सही मानव वर्गीकरण उर्तानु गर्न सक्ने एक मिसिन सिक्ने मोडेल निर्माण, तर भाग्यवस यस विषय समर्पित उत्कृष्ट पुस्तकहरू पहिले नै (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) ।

ग्यालेक्सी चिडियाघर मानव गणना परियोजनाहरूको विकास देखाउँछ। पहिलो, एक शोधकर्ता परियोजना प्रयास गरेर आफु वा अनुसन्धान सहायक एउटा सानो टोली (जस्तै, Schawinski सुरुमा वर्गीकरण प्रयास) संग। यो दृष्टिकोण राम्रो मात्रा गर्दैन भने, शोधकर्ता मानव गणना परियोजना जहाँ धेरै मान्छे वर्गीकरण योगदान गर्न सक्छ। तर, डाटा को एक निश्चित मात्रा लागि, शुद्ध मानव प्रयास पर्याप्त छैन। त्यस बिन्दु मा, अनुसन्धानकर्ताहरूले दोस्रो पुस्ता जहाँ मानव वर्गीकरण त्यसपछि डाटा को वस्तुतः असीमित मात्रा लागू गर्न सकिन्छ कि एक मिसिन सिक्ने मोडेल प्रशिक्षण प्रयोग गरिन्छ प्रणाली निर्माण गर्न आवश्यक छ।