5.2.1 ગેલેક્સી ઝૂ

આ અનુવાદ કમ્પ્યુટર દ્વારા બનાવવામાં આવી હતી. ×

5.2.1 ગેલેક્સી ઝૂ

ગેલેક્સી ઝૂએ અસંખ્ય બિન-નિષ્ણાત સ્વયંસેવકોના પ્રયત્નોને એક મિલિયન તારાવિશ્વોનું વર્ગીકરણ કર્યું.

ગેલેક્સી ઝૂ 2007 માં ઓક્સફર્ડ યુનિવર્સિટીમાં ખગોળશાસ્ત્રમાં ગ્રેજ્યુએટ વિદ્યાર્થી કેવિન સ્કવિન્સ્કીના પડકારની સમસ્યામાં વધારો થયો હતો. ખૂબ જ સરળતામાં, સ્કેવિન્સ્કી તારાવિશ્વોમાં રસ ધરાવતી હતી અને તારાવિશ્વોને તેમના મોર્ફોલોજી-અંડાકાર અથવા સર્પાકાર દ્વારા વર્ગીકૃત કરી શકાય છે - અને તેમના રંગ-વાદળી અથવા લાલ દ્વારા તે સમયે, ખગોળશાસ્ત્રીઓમાં પરંપરાગત શાણપણ એ હતું કે સર્પાકાર તારાવિશ્વો, જેમ કે અમારું આકાશગંગા, વાદળી રંગ (યુવા સૂચવે છે) અને અંડાકાર તારાવિશ્વો લાલ હતા (વૃદ્ધાવસ્થા દર્શાવે છે). સ્કોવિન્સ્કીએ આ પરંપરાગત શાણપણ પર શંકા વ્યક્ત કરી હતી. તેમને શંકા છે કે જ્યારે આ પધ્ધતિ સામાન્ય રીતે સાચી હોઇ શકે છે, ત્યાં કદાચ અપવાદરૂપ સંખ્યાબંધ સંખ્યા હતી, અને તે ઘણી બધી અસામાન્ય તારાવિશ્વોનો અભ્યાસ કરીને-જે અપેક્ષિત પેટર્નમાં ફિટ ન હતો-તે પ્રક્રિયા વિશે કંઈક શીખી શકે છે તારાવિશ્વોની રચના

આમ, પરંપરાગત શાણપણને ઉથલાવી પાડવા માટે સ્કાવિન્સ્સ્કીને શું કરવાની જરૂર હતી તે મોર્ફોલોજિકલ ક્લાસીંગ તારાવિશ્વોનો મોટો સમૂહ હતો; એટલે કે, તારાવિશ્વો કે જેને સર્પાકાર અથવા અંડાકાર તરીકે વર્ગીકૃત કરવામાં આવ્યાં હતાં સમસ્યા એ હતી કે, વર્ગીકરણ માટેની હાલની એલ્ગોરિધમિક પદ્ધતિ વૈજ્ઞાનિક સંશોધન માટે ઉપયોગમાં લેવા માટે પૂરતા પ્રમાણમાં સારા ન હતા; બીજા શબ્દોમાં કહીએ તો, તારાવિશ્વો વર્ગીકરણ તે સમયે, કમ્પ્યુટર્સ માટે મુશ્કેલ હતું તે સમસ્યા હતી. તેથી, માનવ- વર્ગ આધારિત તારાવિશ્વોની મોટી સંખ્યા હતી તે જરૂરી હતી. ગ્રેજ્યુએટ સ્ટુડન્ટના ઉત્સાહ સાથે સ્કોવિન્સ્કીએ આ વર્ગીકરણની સમસ્યા હાથ ધરી હતી. સાત 12-કલાકના મેરેથોન સત્રમાં, તેમણે 50,000 તારાવિશ્વોનું વર્ગીકરણ કરી શક્યું હતું. જ્યારે 50,000 તારાવિશ્વો ઘણો અવાજ કરી શકે છે, વાસ્તવમાં સ્લોગન ડિજિટલ સ્કાય સર્વેમાં ફોટોગ્રાફ કરવામાં આવેલી આશરે એક મિલિયન તારાવિશ્વોની આશરે 5% છે. સ્કોવિન્સ્કીને સમજાયું કે તેને વધુ સ્કેલેબલ અભિગમની જરૂર છે

સદનસીબે, તે તારણ છે કે વર્ગીકરણ તારાવિશ્વો કાર્ય ખગોળશાસ્ત્ર અદ્યતન તાલીમ જરૂર નથી; તમે કોઈને તે ખૂબ ઝડપથી કરવા માટે શીખવી શકે છે. અન્ય શબ્દોમાં, છતાં પણ તારાવિશ્વો વર્ગીકરણ છે કે જે કાર્ય કમ્પ્યુટર્સ માટે હાર્ડ હતી, તે મનુષ્ય માટે ખૂબ સરળ હતો. તેથી, જ્યારે ઓક્સફર્ડ, Schawinski અને સાથી ખગોળશાસ્ત્રી ક્રિસ લિન્ટોટ્ટ એક પબ બેસીને જ્યાં એક વેબસાઇટ સ્વયંસેવકો તારાવિશ્વો છબીઓ વર્ગીકૃત કરશે સપનું. થોડા મહિના પછી, ગેલેક્સી ઝૂ થયો હતો.

ગેલેક્સી ઝૂ વેબસાઇટ પર, સ્વયંસેવકો થોડી મિનિટો તાલીમ પસાર કરશે; દાખલા તરીકે, સર્પાકાર અને લંબગોળ ગેલેક્સી (આકૃતિ 5.2) વચ્ચેનો તફાવત શીખવું. આ તાલીમ પછી, દરેક સ્વયંસેવકને પ્રમાણમાં સરળ ક્વિઝ-યોગ્ય રીતે વર્ગીકૃત કરાયેલ 11 માંથી 15 તારાવિશ્વોને જાણીતા વર્ગીકરણ સાથે પસાર કરવાની જરૂર હતી-અને ત્યારબાદ સરળ વેબ-આધારિત ઇન્ટરફેસ (આકૃતિ 5.3) દ્વારા અજ્ઞાત તારાવિશ્વોની વાસ્તવિક વર્ગીકરણ શરૂ કરશે. સ્વયંસેવકથી લઈને ખગોળશાસ્ત્રી સુધીનું સંક્રમણ 10 મિનિટથી ઓછા સમયમાં થવું જોઈએ અને માત્ર અવરોધોનો સૌથી નીચો પસાર કરવો પડશે, એક સરળ ક્વિઝ.

આકૃતિ 5.2: બે મુખ્ય પ્રકારનાં તારાવિશ્વોના ઉદાહરણો: સર્પાકાર અને અંડાકાર ગેલેક્સી પ્રાણીસંગ્રહાલય પ્રોજેક્ટમાં 1,00,000 કરતાં વધુ છબીઓને વર્ગીકૃત કરવા માટે 100,000 થી વધુ સ્વયંસેવકોનો ઉપયોગ થયો. Http://www.GalaxyZoo.org અને Sloan ડિજિટલ સ્કાય સર્વે તરફથી પરવાનગી દ્વારા પુનઃઉત્પાદન.

આકૃતિ 5.3: ઇનપુટ સ્ક્રીન જ્યાં સ્વયંસેવકોને સિંગલ ઇમેજનું વર્ગીકરણ કરવાનું કહેવામાં આવ્યું હતું. સ્લોઅન ડિજિટલ સ્કાય સર્વેની છબી પર આધારિત ક્રિસ લિનટૉટની પરવાનગી દ્વારા પુનઃઉત્પાદન કર્યું.

આકૃતિ 5.3: ઇનપુટ સ્ક્રીન જ્યાં સ્વયંસેવકોને સિંગલ ઇમેજનું વર્ગીકરણ કરવાનું કહેવામાં આવ્યું હતું. સ્લોઅન ડિજિટલ સ્કાય સર્વેની છબીના આધારે ક્રિસ લિન્ટોટની પરવાનગી દ્વારા પુનઃઉત્પાદન કર્યું.

આ પ્રોજેક્ટને એક લેખમાં દર્શાવવામાં આવ્યા બાદ ગેલેક્સી ઝૂએ તેના પ્રારંભિક સ્વયંસેવકોને આકર્ષ્યા હતા અને આશરે છ મહિનામાં આ પ્રોજેક્ટમાં 100,000 થી વધુ નાગરિક વૈજ્ઞાનિકોનો સમાવેશ કરવામાં આવ્યો હતો, જે લોકો ભાગ લેતા હતા કારણ કે તેઓ આ કાર્યનો આનંદ માણે છે અને તેઓ ખગોળવિદ્યાને આગળ વધારવામાં મદદ કરવા માગે છે. એક સાથે, આ 100,000 સ્વયંસેવકોએ 40 મિલિયનથી વધુ વર્ગીકરણમાં ફાળો આપ્યો હતો, મોટા ભાગની વર્ગીકરણ સહભાગીઓના નાના જૂથ (Lintott et al. 2008) માંથી આવતા હતા.

અંડરગ્રેજ્યુએટ રિસર્ચ સહાયકોને ભાડે લેતા અનુભવ ધરાવતા સંશોધકો તરત જ ડેટા ગુણવત્તા અંગે શંકાસ્પદ હોઇ શકે છે. જ્યારે આ નાસ્તિકતા વાજબી છે, ગેલેક્સી ઝૂ બતાવે છે કે જ્યારે સ્વયંસેવક યોગદાન યોગ્ય રીતે સાફ કરવામાં આવે છે, ડેબાઇઝ્ડ અને એકત્રિત કરવામાં આવે છે, ત્યારે તેઓ ઉચ્ચ ગુણવત્તાવાળા પરિણામો (Lintott et al. 2008) . ભીડને વ્યવસાયિક ગુણવત્તાના ડેટા બનાવવા માટે એક મહત્વપૂર્ણ યુક્તિ રીડન્ડન્સી છે , એટલે કે ઘણા લોકો દ્વારા કરવામાં આવતી સમાન કાર્ય છે. ગેલેક્સી પ્રાણીસંગ્રહાલયમાં ગેલેક્સી દીઠ આશરે 40 વર્ગીકરણો હતા; અંડરગ્રેજ્યુએટ રિસર્ચ સહાયકોનો ઉપયોગ કરનારા સંશોધકોએ આ સ્તરનું રિડન્ડન્સી ન હોવાનું કહી શકે છે અને તેથી દરેક વ્યક્તિગત વર્ગીકરણની ગુણવત્તાની સાથે વધુ સંબંધિત હોવા જરૂરી છે. સ્વયંસેવકોને તાલીમમાં અભાવ હતો, તેઓ નિરંકુશતા સાથે જોડાયા હતા

આકાશગંગા દીઠ બહુવિધ વર્ગીકરણો સાથે પણ, સર્વસંમતિનું વર્ગીકરણ કરવા સ્વયંસેવક વર્ગીકરણના સમૂહને મુશ્કેલ હતું. મોટાભાગના માનવ ગણતરી પ્રોજેક્ટ્સમાં ખૂબ જ પડકારો સર્જાય છે, કારણ કે ગેલેક્સી ઝૂના સંશોધકોએ તેમના સર્વસંમત વર્ગીકરણનું ઉત્પાદન કરવા માટેના ત્રણ પગલાઓનું ટૂંકમાં પુનરાવર્તન કરવું ઉપયોગી છે. પ્રથમ, સંશોધકોએ બનાવટી વર્ગીકરણોને દૂર કરીને ડેટાને સાફ કર્યા છે. ઉદાહરણ તરીકે, જે લોકો વારંવાર સમાન આકાશગંગાનું વર્ગીકરણ કરે છે - જો તેઓ પરિણામોને ચાલાકી કરવાનો પ્રયાસ કરતા હોય તો શું થશે - તેમની તમામ વર્ગીકરણો છોડવામાં આવ્યાં હતાં. આ અને અન્ય સમાન સફાઈ તમામ વર્ગીકરણના લગભગ 4% દૂર કરે છે.

બીજું, સફાઈ પછી, સંશોધકોએ વર્ગીકરણમાં વ્યવસ્થિત પૂર્વગ્રહ દૂર કરવાની જરૂર હતી. મૂળ પ્રોજેક્ટમાં જડિત પૂર્વગ્રહ શોધના અભ્યાસો દ્વારા - ઉદાહરણ તરીકે, કેટલાક સ્વયંસેવકોને રંગની જગ્યાએ મોનોક્રોમમાં આકાશગંગા બતાવી રહ્યું છે - સંશોધકોએ કેટલાક અનુકૂલનશીલ પૂર્વગ્રહ શોધ્યા છે, જેમ કે અવકાશી તારાવિશ્વો (Bamford et al. 2009) . આ વ્યવસ્થિત પક્ષપાત માટે એડજસ્ટ કરવું અત્યંત અગત્યનું છે કારણ કે રીડન્ડન્સી આપમેળે વ્યવસ્થિત પૂર્વગ્રહ દૂર કરતું નથી; તે ફક્ત રેન્ડમ ભૂલને દૂર કરવામાં સહાય કરે છે

છેલ્લે, ડિબગીંગ પછી, સંશોધકોએ સંમતિ વર્ગીકરણનું નિર્માણ કરવા માટે વ્યક્તિગત વર્ગીકરણને એકત્રીકરણ કરવાની પદ્ધતિની જરૂર હતી. દરેક ગેલેક્સી માટે વર્ગીકરણોને ભેળવવાનો સૌથી સરળ માર્ગ સૌથી સામાન્ય વર્ગીકરણ પસંદ કરવાનું હશે. જો કે, આ અભિગમ દરેક સ્વયંસેવકને સમાન વજન આપતો હોત, અને સંશોધકોએ શંકા કરી હતી કે કેટલાક સ્વયંસેવકો અન્ય કરતાં વર્ગીકરણમાં વધુ સારા હતા. એના પરિણામ રૂપે, સંશોધકોએ વધુ જટિલ પુનરાવર્તનશીલ વજનની પ્રક્રિયા વિકસાવી છે જે શ્રેષ્ઠ ક્લાસિફિયર્સને શોધવાનો પ્રયાસ કરે છે અને તેમને વધુ વજન આપે છે.

આમ, ત્રણ પગલાની પ્રક્રિયા પછી- સફાઈ, ડેબિસિંગ અને વેઇટિંગ-ગેલેક્સી ઝૂ રિસર્ચ ટીમે 40 મિલિયન સ્વંયસેવક વર્ગીકરણોને સંમતિ રૂઢિચુસ્ત વર્ગીકરણોના સમૂહમાં રૂપાંતરિત કર્યા હતા. જ્યારે આ ગેલેક્સી પ્રાણીસંગ્રહાલયના વર્ગીકરણને વ્યાવસાયિક ખગોળશાસ્ત્રીઓ દ્વારા કરવામાં આવેલા ત્રણ અગાઉના નાના પાયે પ્રયત્નોની તુલના કરવામાં આવી હતી, જેમાં સ્કોવિન્સ્કી દ્વારા વર્ગીકરણનો સમાવેશ થતો હતો જેણે ગેલેક્સી ઝૂને પ્રેરણા આપવા માટે મદદ કરી હતી, ત્યાં મજબૂત કરાર હતો. આ રીતે, સ્વયંસેવકો, એકંદરે, ઉચ્ચ ગુણવત્તાવાળા વર્ગીકરણ અને એવા સ્કેલ પર સક્ષમ હતા કે જે સંશોધકો મેળ ખાતા નથી (Lintott et al. 2008) . હકીકતમાં, આવા વિશાળ સંખ્યામાં તારાવિશ્વો માટે માનવ વર્ગીકરણ કરીને, સ્કોવિન્સ્કી, લિન્ટોટ અને અન્ય લોકો બતાવી શક્યા હતા કે ફક્ત આશરે 80% તારાવિશ્વો અપેક્ષિત પેટર્ન-વાદળી સ્પિલલ્સ અને લાલ ellipticals- અને અસંખ્ય કાગળોને અનુસરવામાં આવે છે. આ શોધ (Fortson et al. 2011) .

આ પૃષ્ઠભૂમિને જોતાં, હવે તમે જોઈ શકો છો કે ગેલેક્સી ઝૂ સ્પ્લિટ-એપ્લીકેશન-ગઠ્ઠાઇની રેસિપીને અનુસરે છે, તે જ રેસીપી જેનો ઉપયોગ મોટા ભાગના માનવ ગણતરી પ્રોજેક્ટ માટે થાય છે. પ્રથમ, મોટી સમસ્યા હિસ્સામાં વિભાજિત થાય છે . આ કિસ્સામાં, એક લાખ તારાવિશ્વોનું વર્ગીકરણ કરવાની સમસ્યા એક આકાશગંગાના વર્ગીકરણની એક મિલિયન સમસ્યાઓમાં વહેંચવામાં આવી છે. આગળ, સ્વતંત્ર રીતે દરેક ભાગ પર ઓપરેશન લાગુ પાડવામાં આવે છે. આ કિસ્સામાં, સ્વયંસેવકોએ દરેક ગેલેક્સીને સર્પિલ અથવા અંડાકાર તરીકે વર્ગીકૃત કરી. છેલ્લે, પરિણામો સર્વસંમતિ પરિણામ પેદા કરવા માટે જોડવામાં આવે છે આ કિસ્સામાં, સંયુક્ત રીતે દરેક ગેલેક્સી માટે સર્વસંમતિનું વર્ગીકરણ કરવા માટે સફાઈ, ડેબિસિંગ અને ભારણનો સમાવેશ થાય છે. મોટાભાગનાં પ્રોજેક્ટ્સ આ સામાન્ય રેસીપીનો ઉપયોગ કરે છે, તેમ છતાં, દરેક પગલાને સંબોધવામાં ચોક્કસ સમસ્યા માટે કસ્ટમાઇઝ્ડ કરવાની જરૂર છે. ઉદાહરણ તરીકે, નીચે વર્ણવેલા માનવ ગણતરી પ્રોજેક્ટમાં, તે જ રેસીપીની અનુસરવામાં આવશે, પરંતુ અરજી કરવી અને ભેગા કરવાનું એકદમ અલગ હશે.

ગેલેક્સી ઝૂ ટીમ માટે, આ પહેલો પ્રોજેક્ટ ફક્ત શરૂઆતની હતી. ખૂબ જ ઝડપથી તે સમજાયું કે ભલે તે લગભગ એક લાખ તારાવિશ્વોનું વર્ગીકરણ કરી શકતા ન હતા, આ માપ નવા ડિજિટલ આકાશ સર્વેક્ષણો સાથે કામ કરવા માટે પૂરતું નથી, જે લગભગ 10 અબજ તારાવિશ્વો (Kuminski et al. 2014) . 10 લાખથી 10 લાખ સુધીનો વધારો કરવા - ગેલેક્સી ઝૂને આશરે 10,000 ગણો વધારે સહભાગીઓની ભરતી કરવાની જરૂર છે. તેમ છતાં ઇન્ટરનેટ પર સ્વયંસેવકોની સંખ્યા મોટી છે, તે અનંત નથી તેથી, સંશોધકોને સમજાયું કે જો તેઓ સતત વધતી જતી માહિતીને નિયંત્રિત કરવા જઈ રહ્યાં છે, તો એક નવું, વધુ સ્કેલેબલ, અભિગમની જરૂર હતી.

તેથી, મંડાન બેનરજી - સ્કોવિન્સ્કી, લિન્ટોટ અને ગેલેક્સી ઝૂ ટીમ (2010) ના અન્ય સભ્યો સાથે કામ કરતા - તારાવિશ્વોને વર્ગીકૃત કરવા માટે કમ્પ્યુટર્સ શીખવાનું શરૂ કર્યું. વધુ સ્પષ્ટપણે, ગેલેક્સી ઝૂ દ્વારા માનવ વર્ગીકરણના ઉપયોગથી, બેનરજીએ એક મશીન શિક્ષણ મોડેલ બનાવ્યું હતું જે છબીની લાક્ષણિકતાઓને આધારે ગેલેક્સીના માનવીય વર્ગીકરણની આગાહી કરી શકે છે. જો આ મોડેલ ઊંચી સચોટતાની સાથે માનવ વર્ગીકરણનું પ્રજનન કરી શકે છે, તો તે ગેલેક્સી ઝૂના સંશોધકો દ્વારા અનંત સંખ્યાના તારાવિશ્વોનું વર્ગીકરણ કરવા માટે ઉપયોગ કરી શકે છે.

બૅનેરજી અને સહકર્મીઓના અભિગમનો મુખ્યત્વે વાસ્તવમાં સામાજીક સંશોધનમાં ઉપયોગમાં લેવામાં આવતી તકનીકની સમાન છે, જો કે સમાનતા પ્રથમ નજરમાં સ્પષ્ટ ન પણ હોઇ શકે. પ્રથમ, બૅનેરજી અને તેના સાથીદારોએ પ્રત્યેક છબીને સંખ્યાત્મક સુવિધાઓના સેટમાં રૂપાંતરિત કરી કે જે તેની મિલકતોનો સારાંશ આપે છે. ઉદાહરણ તરીકે, તારાવિશ્વોની છબીઓ માટે, ત્રણ લક્ષણો હોઈ શકે છે: છબીમાં વાદળી જથ્થો, પિક્સેલ્સની તેજસ્વીતામાં તફાવત, અને બિન-સફેદ પિક્સેલ્સનું પ્રમાણ. યોગ્ય લક્ષણોની પસંદગી સમસ્યાનો એક મહત્વપૂર્ણ ભાગ છે, અને તેને સામાન્ય રીતે વિષય-ક્ષેત્રની કુશળતા જરૂરી છે. આ પ્રથમ પગલું, સામાન્ય રીતે ફીચર એન્જિનિયરીંગ તરીકે ઓળખાય છે, એક છબી દીઠ એક પંક્તિ સાથે ડેટા મેટ્રિક્સ અને પછી તે છબીનું વર્ણન કરતી ત્રણ કૉલમ દર્શાવે છે. ડેટાનું મેટ્રિક્સ અને ઇચ્છિત આઉટપુટ (દા.ત., જો કોઈ છબી લંબગોળ આકાશગંગા તરીકે માનવ દ્વારા વર્ગીકૃત કરવામાં આવી છે) આપેલ છે, સંશોધક આંકડાકીય અથવા મશીન શિક્ષણ મોડેલ બનાવે છે- ઉદાહરણ તરીકે, લોજિસ્ટિક રીગ્રેસન-જે લક્ષણો પર આધારિત માનવીય વર્ગીકરણની આગાહી કરે છે છબી છેલ્લે, સંશોધક નવી તારાવિશ્વોની અંદાજિત વર્ગીકરણ (આકૃતિ 5.4) માટે આ આંકડાકીય નમૂનામાં પરિમાણોનો ઉપયોગ કરે છે. મશીન શિક્ષણમાં, લેબલવાળા ઉદાહરણોનો ઉપયોગ કરીને આ અભિગમનો ઉપયોગ મોડેલ બનાવવા માટે થઈ શકે છે જે પછી નવા ડેટાને લેબલ કરી શકે છે- જેને નિરીક્ષણ કરેલ શિક્ષણ કહેવામાં આવે છે.

આકૃતિ 5.4: બૅનરજી એટ અલનું સરળ વર્ણન. (2010) આકાશગંગા વર્ગીકરણ કરવા માટે મશીન શિક્ષણ મોડેલને તાલીમ આપવા માટે ગેલેક્સી ઝૂ વર્ગીકરણનો ઉપયોગ કરે છે. તારાવિશ્વોની છબીઓ લક્ષણોના મેટ્રિક્સમાં રૂપાંતરિત કરવામાં આવી હતી. આ સરળ ઉદાહરણમાં, ત્યાં ત્રણ લક્ષણો છે (છબીમાં વાદળી જથ્થો, પિક્સેલ્સની તેજસ્વીતામાં તફાવત, અને નોનવિથ પિક્સેલના પ્રમાણ). પછી, છબીઓના સબસેટ માટે, ગેલેક્સી ઝૂ લેબલોનો ઉપયોગ મશીન શિક્ષણ મોડેલને તાલીમ આપવા માટે કરવામાં આવે છે. છેલ્લે, મશીન શિક્ષણનો ઉપયોગ બાકીની તારાવિશ્વો માટે વર્ગીકરણનો અંદાજ કાઢવા માટે થાય છે. હું તેને કોમ્પ્યુટર-સહાયિત માનવ ગણના પ્રોજેક્ટ તરીકે બોલાવે છે કારણ કે, મનુષ્યો સમસ્યા હલ કરવાને બદલે, તે માનવો બનાવે છે ડેટાસેટ બનાવવું, જે સમસ્યાને ઉકેલવા માટે કમ્પ્યુટરને તાલીમ આપવા માટે વાપરી શકાય છે. આ કોમ્પ્યુટર-સહાયિત માનવ ગણતરી પદ્ધતિનો ફાયદો એ છે કે તે માત્ર માનવીય પ્રયત્નોના મર્યાદિત જથ્થાનો ઉપયોગ કરીને અનિવાર્યપણે અનંત માત્રાને નિયંત્રિત કરવા માટે સક્ષમ કરે છે. સ્લૉન ડિજિટલ સ્કાય સર્વે પાસેથી પરવાનગી દ્વારા પુનઃઉત્પાદિત તારાવિશ્વોની છબીઓ.

આકૃતિ 5.4: Banerji et al. (2010) સરળ વર્ણન Banerji et al. (2010) આકાશગંગા વર્ગીકરણ કરવા માટે મશીન શિક્ષણ મોડેલને તાલીમ આપવા માટે ગેલેક્સી ઝૂ વર્ગીકરણનો ઉપયોગ કરે છે. તારાવિશ્વોની છબીઓ લક્ષણોના મેટ્રિક્સમાં રૂપાંતરિત કરવામાં આવી હતી. આ સરળ ઉદાહરણમાં, ત્યાં ત્રણ લક્ષણો છે (છબીમાં વાદળી જથ્થો, પિક્સેલ્સની તેજસ્વીતામાં તફાવત, અને નોનવિથ પિક્સેલના પ્રમાણ). પછી, છબીઓના સબસેટ માટે, ગેલેક્સી ઝૂ લેબલોનો ઉપયોગ મશીન શિક્ષણ મોડેલને તાલીમ આપવા માટે કરવામાં આવે છે. છેલ્લે, મશીન શિક્ષણનો ઉપયોગ બાકીની તારાવિશ્વો માટે વર્ગીકરણનો અંદાજ કાઢવા માટે થાય છે. હું તેને કોમ્પ્યુટર-સહાયિત માનવ ગણના પ્રોજેક્ટ તરીકે બોલાવે છે કારણ કે, મનુષ્યો સમસ્યા હલ કરવાને બદલે, તે માનવો બનાવે છે ડેટાસેટ બનાવવું, જે સમસ્યાને ઉકેલવા માટે કમ્પ્યુટરને તાલીમ આપવા માટે વાપરી શકાય છે. આ કોમ્પ્યુટર-સહાયિત માનવ ગણતરી પદ્ધતિનો ફાયદો એ છે કે તે માત્ર માનવીય પ્રયત્નોના મર્યાદિત જથ્થાનો ઉપયોગ કરીને અનિવાર્યપણે અનંત માત્રાને નિયંત્રિત કરવા માટે સક્ષમ કરે છે. સ્લૉન ડિજિટલ સ્કાય સર્વે પાસેથી પરવાનગી દ્વારા પુનઃઉત્પાદિત તારાવિશ્વોની છબીઓ.

બૅનરજી અને સહકાર્યકરોની મશીન લર્નિંગ મોડેલની વિશેષતા મારા રમકડાના ઉદાહરણો કરતાં વધુ જટિલ હતી- ઉદાહરણ તરીકે, તેણીએ "ડી વોકૌલેઅર્સ ફીટ એસીઅલ રેશિયો" જેવી સુવિધાઓનો ઉપયોગ કર્યો હતો- અને તેના મોડલ લોજીકલ રીગ્રેસન ન હતા, તે એક કૃત્રિમ ન્યુરલ નેટવર્ક હતું ગેલેક્સી ઝૂના વર્ગીકરણની તેના લક્ષણો, તેના મોડેલ અને સર્વસંમતિનો ઉપયોગ કરીને, તે દરેક લક્ષણ પર વજન બનાવવા સક્ષમ હતી, અને પછી આ વજનનો ઉપયોગ તારાવિશ્વોના વર્ગીકરણ વિશેની આગાહીઓ કરવા માટે કર્યો હતો. ઉદાહરણ તરીકે, તેના વિશ્લેષણમાં જાણવા મળ્યું છે કે "દે વકૌલેયર્સ ફિટ એક્સિયલ રેશિયો" ધરાવતી છબીઓ સર્પાકાર તારાવિશ્વો બની શકે તેવી શક્યતા છે. આ વજનને જોતાં, તે આગાહી કરી શકતી હતી કે એક સચોટ ચોકસાઈ સાથે એક તારામંડળના માનવ વર્ગીકરણ.

બૅનરજી અને સહકાર્યકરોનું કાર્ય, કમ્પ્યુટર-સહાયિત માનવ ગણતરી પદ્ધતિને હું શું કહીશ, તેમાંથી ગેલેક્સી ઝૂને ચાલુ કર્યું. આ હાઇબ્રિડ સિસ્ટમો વિશે વિચારવાનો શ્રેષ્ઠ રસ્તો એ છે કે મનુષ્યો સમસ્યા હલ કરવાને બદલે, તેઓ માનવો બનાવે છે ડેટાસેટ બનાવવું કે જે સમસ્યાને ઉકેલવા માટે કમ્પ્યુટરને તાલીમ આપવા માટે વાપરી શકાય. કેટલીકવાર, સમસ્યાને ઉકેલવા માટે કમ્પ્યુટરને તાલીમ આપવી એ ઘણાં બધાં ઉદાહરણોની જરૂર છે, અને પર્યાપ્ત સંખ્યાના ઉદાહરણોનું નિર્માણ કરવાની એકમાત્ર રીત સામૂહિક સહયોગ છે. આ કોમ્પ્યુટર-આસિસ્ટેડ અભિગમનો ફાયદો એ છે કે તે માત્ર માનવીય પ્રયાસોના મર્યાદિત જથ્થાનો ઉપયોગ કરીને અનિવાર્યપણે અસંખ્ય ડેટાને નિયંત્રિત કરવામાં તમને સક્ષમ કરે છે. દાખલા તરીકે, એક લાખ માનવ વર્ગીકરણ કરેલી તારાવિશ્વો સાથેના સંશોધક એક અનુમાનિત મોડેલ બનાવી શકે છે જેનો ઉપયોગ પછી એક અબજ અથવા તો ટ્રિલિયન તારાવિશ્વોનું વર્ગીકરણ કરવા માટે થઈ શકે છે. જો વિશાળ સંખ્યામાં તારાવિશ્વો હોય તો, આ પ્રકારની માનવ-કમ્પ્યુટર સંકર ખરેખર એક માત્ર શક્ય ઉકેલ છે. આ અનંત માપનીયતા મફત નથી, તેમછતાં પણ. એક મશીન શિક્ષણ મોડેલ બનાવવું કે જે માનવ વર્ગીકરણનું યોગ્ય રીતે પ્રજનન કરી શકે છે તે પોતે જ મુશ્કેલ સમસ્યા છે, પરંતુ સદભાગ્યે ત્યાં પહેલાથી જ આ વિષય (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) સમર્પિત ઉત્તમ પુસ્તકો છે.

ગેલેક્સી ઝૂ કેટલા માનવ ગણતરી પ્રોજેક્ટ્સનું નિર્માણ કરે છે તેનું સારું ઉદાહરણ છે. પ્રથમ, સંશોધક પોતાની જાતને અથવા સંશોધન મદદનીશોની એક નાની ટીમ (દા.ત., સ્કોનસ્કીના પ્રારંભિક વર્ગીકરણ પ્રયાસ) દ્વારા આ પ્રોજેક્ટનો પ્રયાસ કરે છે. જો આ અભિગમ સારી રીતે માપવામાં આવતો નથી, સંશોધક ઘણા સહભાગીઓ સાથે માનવ ગણતરી પ્રોજેક્ટમાં જઈ શકે છે. પરંતુ, અમુક ચોક્કસ માહિતી માટે, શુદ્ધ મનુષ્ય પ્રયત્નો પૂરતા રહેશે નહીં. તે સમયે, સંશોધકોએ કોમ્પ્યુટર-સહાયિત માનવ ગણતરી સિસ્ટમનું નિર્માણ કરવાની જરૂર છે જેમાં માનવ વર્ગીકરણનો ઉપયોગ મશીન શિક્ષણ મોડેલને તાલીમ માટે કરવામાં આવે છે જે પછી વર્ચ્યુઅલ રીતે અમર્યાદિત માત્રામાં ડેટા પર લાગુ કરી શકાય છે.