5.2.1 ഗാലക്സി മൃഗശാല

ഈ പരിഭാഷയെ ഒരു കമ്പ്യൂട്ടർ സൃഷ്ടിച്ചത്. ×

5.2.1 ഗാലക്സി മൃഗശാല

ദശലക്ഷം താരാപഥങ്ങളെ തരംതിരിക്കാനായി പല വിദഗ്ധ സന്നദ്ധപ്രവർത്തകരുടേയും ശ്രമം ഗാലക്സി മൃഗശാലയുമായി ചേർന്നു.

2007 ൽ ഓക്സ്ഫോർഡ് യൂണിവേഴ്സിറ്റിയിലെ ജ്യോതിശാസ്ത്രത്തിൽ ബിരുദ വിദ്യാർത്ഥിയായ കെവിൻ ഷാവിൻസ്കി നേരിടുന്ന ഒരു പ്രശ്നമാണ് ഗാലക്സി സൂ. വളരെയധികം ലളിതമായി, ഷാവെൻസ്കി ഗാലക്സികളിലാണ് താൽപര്യം പ്രകടമാക്കിയത്, ഗാലക്സികൾ അവയുടെ രൂപവൽക്കരണം, ദീർഘവൃത്താകാരം അല്ലെങ്കിൽ സർപ്പിളവ് അവരുടെ നിറം നീല അല്ലെങ്കിൽ ചുവപ്പ് കൊണ്ട്. അക്കാലത്ത് ജ്യോതിശാസ്ത്രജ്ഞരുടെ പരമ്പരാഗതമായ ജ്ഞാനം ഞങ്ങളുടെ ക്ഷീരപഥം പോലെ നീല നിറത്തിലും (യുവാക്കൾ സൂചിപ്പിക്കുന്നു), ദീർഘവൃത്താകാര താരാപഥങ്ങൾ ചുവപ്പ് ആയിരുന്നു (ജാതീയത) സൂചിപ്പിച്ചിരുന്നു. ഈ പരമ്പരാഗത ജ്ഞാനത്തെ ഷാവാനിസ്കി സംശയിച്ചു. ഈ പാറ്റേൺ പൊതുവിൽ സത്യമായിരിക്കുമെന്ന കാര്യത്തിൽ അദ്ദേഹം സംശയിച്ചിരുന്നു. ഒരുപക്ഷേ അസാധാരണമായ ഒരു തരം ഗാലക്സികൾ ഉണ്ടായിരുന്നുവെന്നും, ഈ അസാധാരണ താരാപംക്തികളെക്കുറിച്ച് പഠിക്കുന്നതിലൂടെ-പ്രതീക്ഷിച്ച പാറ്റേൺ അനുസരിക്കാത്തവ-ഒരു പ്രക്രിയയിലൂടെ ഗാലക്സികൾ രൂപപ്പെട്ടു.

അങ്ങനെ, പരമ്പരാഗത ജ്ഞാനത്തെ മറികടക്കാൻ ഷൗവിൻസ്കി ആവശ്യമായിരുന്നത്, ഒരു കൂട്ടം പതാകയടിത്തപെട്ട താരാപഥങ്ങളായിരുന്നു; അതായത്, സർപ്പിളമോ അല്ലെങ്കിൽ ദീർഘവൃത്തമോ വർഗ്ഗീകരിച്ചിട്ടുള്ള ഗാലക്സികൾ. എന്നാൽ, ശാസ്ത്രീയ ഗവേഷണത്തിന് നിലവിലെ ആൽഗോരിതിമിക് സമ്പ്രദായങ്ങൾ കൂടുതൽ ഉപയോഗിച്ചിട്ടില്ലെന്നതാണ് പ്രശ്നം. മറ്റു വാക്കുകളിൽ പറഞ്ഞാൽ, കമ്പ്യൂട്ടറുകൾക്ക് പ്രയാസമുള്ള ഒരു പ്രശ്നം ഗാലക്സികളുടെ വർഗ്ഗീകരണം ആയിരുന്നു. അതിനാൽ മനുഷ്യവികസന ഗാലക്സികളുടെ ഒരു വലിയ എണ്ണം ആവശ്യമായിരുന്നു. സ്ക്വാൻസ്കിക് ഈ ക്ലാസിക്കേഷൻ പ്രശ്നത്തെ ഒരു ഗ്രാജ്വേറ്റ് വിദ്യാർത്ഥിയുടെ ആവേശത്തോടെയാണ് ഏൽപ്പിച്ചത്. ഏഴ് 12 മണിക്കൂർ ദൈർഘ്യമുള്ള ഒരു മാരത്തൺ സെഷനുകളിൽ 50,000 താരാപഥങ്ങളെ തരംതിരിക്കാനും കഴിഞ്ഞു. 50,000 ഗാലക്സികൾ ഒരുപാട് ശബ്ദം പുറപ്പെടുവിക്കാനിടയുണ്ട്, സ്ലോലോ ഡിജിറ്റൽ സ്കൈ സർവേയിൽ പകർത്തിയ ഒരു ദശലക്ഷം താരാപഥങ്ങളുടെ ഏകദേശം 5% മാത്രമേ അത്. സ്കേയ്ൻസ്കിക്ക് കൂടുതൽ മെച്ചപ്പെട്ട സമീപനമാണുള്ളതെന്ന് തിരിച്ചറിഞ്ഞു.

ഭാഗ്യവശാൽ, അതു താരാപഥങ്ങൾ വർഗീകരിക്കാൻ കടമ ജ്യോതിശാസ്ത്രം വിപുലമായ പരിശീലനം ആവശ്യമില്ല മാറുകയാണെങ്കിൽ; നിങ്ങൾ പ്രെറ്റി വേഗത്തിൽ ചെയ്യാൻ ആരെങ്കിലും പഠിപ്പിക്കാൻ കഴിയും. മറ്റു വാക്കുകളിൽ, വർഗീകരിക്കാൻ താരാപഥങ്ങൾ കമ്പ്യൂട്ടറുകൾക്ക് ഹാർഡ് എന്ന് ഒരു ടാസ്ക് പോലും അത് മനുഷ്യർക്ക് പ്രെറ്റി എളുപ്പമായി. അതുകൊണ്ട്, ഓക്സ്ഫോർഡ്, Schawinski സഹ ജ്യോതിശാസ്ത്രജ്ഞനായ ക്രിസ് Lintott ഒരു പബ്ബിൽ ഇരിക്കുന്ന സമയത്ത് സന്നദ്ധപ്രവർത്തകർ താരാപഥങ്ങളുടെ ചിത്രങ്ങൾ തരംതിരിക്കാനുള്ള എവിടെ ഒരു വെബ്സൈറ്റ് അപ് സ്വപ്നം. ഏതാനും മാസങ്ങൾക്കു ശേഷം, ഗാലക്സി മൃഗശാല ജനിച്ചു.

ഗാലക്സി മൃഗശാല വെബ്സൈറ്റിൽ, സന്നദ്ധപ്രവർത്തകർ ഏതാനും മിനിറ്റുകൾക്കുള്ള പരിശീലനം നേടുമായിരുന്നു. ഉദാഹരണത്തിന്, സർപ്പിള-ദീർഘവൃത്ത ഗാലക്സികളുടെ വ്യത്യാസം മനസ്സിലാക്കുക (ചിത്രം 5.2). ഈ പരിശ്രമത്തിനു ശേഷം, ഓരോ സന്നദ്ധപ്രവർത്തകനും അറിയപ്പെടുന്ന വർഗ്ഗീകരണങ്ങളുള്ള 11 ഗാലക്സികളിൽ 11-ഉം തരംതിരിച്ചുള്ള ലളിതമായ ക്വിക്ക്-അയയ്ക്കാൻ സാധിച്ചു. അതും അജ്ഞാതമായ ഗാലക്സികളുടെ യഥാർത്ഥ വർഗ്ഗീകരണം ലളിതമായ വെബ്-അധിഷ്ഠിത ഇന്റർഫേസിലൂടെ (ചിത്രം 5.3) ആരംഭിക്കും. സന്നദ്ധപ്രവർത്തകൻ മുതൽ ജ്യോതിശാസ്ത്രജ്ഞർ വരെയുള്ള പരിവർത്തനത്തിന് 10 മിനിറ്റിൽ കുറവ് മാത്രമേ എടുക്കൂ. ഏറ്റവും ചെറിയ ബുദ്ധിമുട്ടുകളുള്ള, ഒരു ലളിതമായ ക്വിസ് മാത്രമാണ് വേണ്ടത്.

ചിത്രം 5.2: രണ്ട് പ്രധാന തരം താരാപഥങ്ങളുടെ ഉദാഹരണങ്ങൾ: സർപ്പിളവും ദീർഘവൃത്താകൃതിയും. 900,000-ലധികം ചിത്രങ്ങൾ വർഗ്ഗീകരിക്കാൻ ഗാലക്സി സൂ പദ്ധതിയിൽ 100,000-ലധികം സന്നദ്ധപ്രവർത്തകർ ഉണ്ടായിരുന്നു. നിന്ന് അനുമതിയോടെ പുനർനിർമ്മിച്ചു http://www.GalaxyZoo.org ആൻഡ് Sloan ഡിജിറ്റൽ സ്കൈ സർവേ .

ചിത്രം 5.3: ഒരൊറ്റ ഇമേജ് വർഗീകരിക്കാൻ സന്നദ്ധപ്രവർത്തകർ ആവശ്യപ്പെട്ട രീതിയിലുള്ള ഇൻപുട്ട് സ്ക്രീൻ. സ്ലോൺ ഡിജിറ്റൽ സ്കൈ സർവേയിൽ നിന്നും ഒരു ചിത്രത്തെ അടിസ്ഥാനമാക്കി ക്രിസ് ലിന്റോട്ട് അനുമതി നൽകിയത് പുനർനിർമ്മിച്ചു.

ഗാലക്സി സൂ ജുഡീഷ്യൽ സന്നദ്ധപ്രവർത്തനം ആരംഭിച്ചതിനു ശേഷം ആദ്യകാല പ്രവർത്തകരെ ആകർഷിച്ചു. ഏതാണ്ട് ആറ് മാസംകൊണ്ട് 100,000 പൗരൻമാരായ ശാസ്ത്രജ്ഞരെ പങ്കെടുപ്പിക്കാൻ ഈ പദ്ധതിക്ക് കഴിഞ്ഞിട്ടുണ്ട്. കാരണം അവർ ജോലിയിൽ പങ്കെടുത്തു, അവർ ജ്യോതിശാസ്ത്രത്തെ മുന്നോട്ടുകൊണ്ടുപോകാൻ സഹായിച്ചു. ഈ 100,000 സ്വമേധാ പ്രവർത്തകർ മൊത്തം 40 ദശലക്ഷം വർഗചാത്രങ്ങളിലൂടെ സംഭാവന ചെയ്തു. താരതമ്യേന ചെറിയ, കോർ ഗ്രൂപ്പിന്റെ പങ്കാളികളിൽ (Lintott et al. 2008) വരുന്ന ഭൂരിഭാഗം വർഗ്ഗങ്ങളും.

ബിരുദാനന്തര റിസർച്ച് അസിസ്റ്റന്റുമാരെ നിയമിക്കുന്ന പരിചയമുള്ളവർ ഗവേഷകർക്ക് പെട്ടെന്ന് ഗുണകരമാകും. ഈ സംശയ നിഗമനം ശരിയാണെങ്കിൽ, ഗാലിയം മൃഗശാല സ്വമേധയാ ഉള്ള സംഭാവനകൾ കൃത്യമായി ചെയ്യുമ്പോൾ, അവ നീക്കം ചെയ്യപ്പെടുന്നതും, മരവിപ്പിച്ചതും, കൂട്ടിച്ചേർത്തതും ഉയർന്ന ഗുണനിലവാരമുള്ള ഫലങ്ങൾ (Lintott et al. 2008) സൃഷ്ടിക്കാൻ കഴിയുമെന്ന് കാണിക്കുന്നു. പ്രൊഫഷണൽ നിലവാരമുള്ള ഡാറ്റാ സൃഷ്ടിക്കാൻ ജനക്കൂട്ടത്തെ ആകർഷിക്കുന്നതിനുള്ള ഒരു പ്രധാന ലക്ഷ്യം ആവർത്തനമാണ് , അതായത്, വ്യത്യസ്ത ആളുകളുടെ ഒരേ ജോലി തന്നെ. ഗാലക്സി മൃഗശാലയിൽ ഒരു ഗാലക്സിയിൽ 40 വർഗ്ഗങ്ങളുണ്ട്; ബിരുദാനന്തര റിസർച്ച് അസിസ്റ്റൻറുകൾ ഉപയോഗിക്കുന്ന ഗവേഷകർ ഈ തരത്തിലുള്ള ആവർത്തനത്തെ ഒരിക്കലും പ്രാപ്തരാക്കിയിരിക്കില്ല, അതുകൊണ്ട് ഓരോ വ്യക്തിഗത വർഗ്ഗീകരണത്തിന്റെ ഗുണനിലവാരത്തിലും കൂടുതൽ ശ്രദ്ധിക്കേണ്ടതുണ്ട്. പരിശീലനത്തിൽ വോളണ്ടിയർമാർ എന്തൊക്കെയാണ് ചെയ്തിട്ടുള്ളത്, അവർക്ക് ആവർത്തനവിരസതയുണ്ടായിരുന്നു.

എന്നിരുന്നാലും ഒരു ഗാലക്സിയിൽ ഒന്നിലധികം വർഗീകരണങ്ങളുണ്ടെങ്കിലും, സ്വമേധയാ ഉള്ള വർഗ്ഗീകരണങ്ങളെ കൂട്ടിയോജിപ്പിച്ച് ഒരു സമവായമുണ്ടാക്കി തരംതിരിക്കലാണ്. ഭൂരിഭാഗം മാനുഷിക കംപ്യൂട്ടിങ് പ്രോജക്ടുകളിൽ സമാനമായ വെല്ലുവിളികൾ ഉണ്ടാകുന്നതിനാൽ, ഗാലക്സി മൃഗശാലയിലെ ഗവേഷകർ അവരുടെ ഏകീകൃത തരംതിരിവ് നിർവ്വഹിച്ച മൂന്നു ഘട്ടങ്ങൾ ഹ്രസ്വമായി പരിശോധിക്കേണ്ടത് സഹായകമാണ്. ആദ്യം, ഗവേഷകർ വ്യാജ തരംതിരിവ് നീക്കം ചെയ്തുകൊണ്ട് ഡാറ്റ "വൃത്തിയാക്കി". ഉദാഹരണത്തിന്, ഒരേ ഗാലക്സിയെ ആവർത്തിച്ച് തരംതിരിച്ചിരുന്നവർ-അവരുടെ ഫലങ്ങളെ കൃത്രിമമായി നിർവ്വചിക്കാൻ ശ്രമിക്കുന്ന ഒരു സംഭവം-അവരുടെ എല്ലാ വർഗ്ഗീകരണങ്ങളും ഉപേക്ഷിച്ചു. ഇത് സമാനമായ മറ്റ് ക്ലീൻ നീക്കംചെയ്യൽ എല്ലാ വർഗീകരണങ്ങളിലും 4% എടുത്തു കളഞ്ഞു.

രണ്ടാമതായി, വൃത്തിയാക്കിയ ശേഷം, ഗവേഷകർ വ്യത്യാസങ്ങളിലുള്ള വ്യവസ്ഥിതിയുടെ വ്യത്യാസം നീക്കം ചെയ്യേണ്ടതുണ്ട്. ഒറിജിനൽ പ്രോജക്റ്റിൽ ഉൾക്കൊള്ളുന്ന ഒരു ബയസ് ഡിറ്റക്ഷൻ അധ്യയനത്തിലൂടെ, ഉദാഹരണമായി, ചില സ്വമേധയാവൊഴികൾ ഗാലക്സികളിലെ വർണത്തിന് പകരം-മോട്ടോർറോമിലെ ഗാലക്സിയിൽ ഗവേഷകരെ കാണിക്കുന്നു- ദീർഘവൃത്താകൃതിയിലുള്ള ഗാലക്സികളെ എലിപ്റ്റിക്കൽ ഗാലക്സികൾ (Bamford et al. 2009) . ഈ വ്യവസ്ഥാപരമായ പക്ഷപാതങ്ങൾക്ക് വേണ്ടിയുള്ള ക്രമപ്പെടുത്തൽ വളരെ പ്രധാനമാണ്, കാരണം ആവർത്തന സ്വഭാവം സ്വയമേ വ്യവസ്ഥാപിത ബയസ് നീക്കം ചെയ്യുന്നില്ല; ഇത് മാത്രമേ ക്രമരഹിത പിശക് ഒഴിവാക്കാൻ സഹായിക്കുകയുള്ളൂ.

ഒടുവിൽ, കടന്നുകയറിയശേഷം, ഗവേഷകരുടെ അഭിപ്രായപ്രകാരം ഏകീകൃത വർഗീകരണം സംയോജിപ്പിക്കാൻ ഒരു സമ്പ്രദായ തരംതിരിക്കൽ ആവശ്യമാണ്. ഓരോ ഗാലക്സിയിലേയും വർഗ്ഗങ്ങൾ സംയോജിപ്പിക്കാൻ ഏറ്റവും ലളിതമായ മാർഗ്ഗം ഏറ്റവും സാധാരണമായ വർഗ്ഗീകരണം തിരഞ്ഞെടുക്കുന്നതായിരുന്നു. എന്നിരുന്നാലും, ഈ സമീപനം ഓരോ വോളന്റിയർക്കും തുല്യ അളവുകൾ നൽകുമായിരുന്നു, ചില സ്വമേധയാവന്മാർ മറ്റുള്ളവരെക്കാൾ വർഗീകരണത്തിൽ കൂടുതൽ മെച്ചപ്പെട്ടവരാണെന്ന് സംശയിക്കപ്പെട്ടിരുന്നു. അതിനാൽ, ഗവേഷകർ കൂടുതൽ സങ്കീർണ്ണമായ റിലേറ്റീവ് വെയ്റ്ററിംഗ് പ്രക്രിയ വികസിപ്പിച്ചെടുത്തു, അത് മികച്ച ക്ലാസഫയറുകൾ കണ്ടുപിടിക്കാൻ ശ്രമിക്കുകയും അവർക്ക് കൂടുതൽ ഭാരം നൽകുകയും ചെയ്തു.

അങ്ങനെ, മൂന്ന്-ഘട്ട പ്രോസസ്സ്-ക്ലീനിംഗ്, ഡെബിയനിങ്ങ്, വെയ്റ്ററിംഗ്-ഗാലക്സി സൂ ഗവേഷണ സംഘം 40 ദശലക്ഷം സന്നദ്ധപ്രവർത്തകർ വർഗ്ഗീകരിച്ചിട്ടുണ്ട്. ഗാലക്സി മൃഗശാലയ്ക്ക് പ്രചോദനമേകാൻ സഹായിച്ച ഷോജിൻസ്കിയുടെ വർഗീകരണം ഉൾപ്പെടെയുള്ള പ്രൊഫഷണൽ ജ്യോതിശാസ്ത്രജ്ഞരുടെ മൂന്ന് ചെറിയ ചെറിയ ശ്രമങ്ങളുമായി ഈ ഗാലക്സി മൃഗശാലകൾ താരതമ്യപ്പെടുത്തുമ്പോൾ ശക്തമായ കരാർ ഉണ്ടായിരുന്നു. അങ്ങനെ, വളണ്ടിയർമാർക്ക് ഉയർന്ന നിലവാരത്തിലുള്ള വർഗ്ഗീകരണങ്ങൾ നൽകാൻ സാധിച്ചു. ഗവേഷകർക്ക് പൊരുത്തപ്പെടാത്ത ഒരു പരിധി വരെ (Lintott et al. 2008) . വാസ്തവത്തിൽ, ഇത്തരം താരാപഥങ്ങളായ ഷാവെൻസ്കി, ലിനൊറ്റോറ്റ് തുടങ്ങി മറ്റുള്ളവർക്കു വേണ്ടി മനുഷ്യവത്കരിക്കപ്പെട്ടതിന്റെ ഫലമായി 80% താരാപഥങ്ങൾ മാത്രമാണ് പ്രതീക്ഷിച്ച മാതൃക പിന്തുടർന്ന് - നീലകലകൾ, ചുവന്ന ദീർഘവൃത്തങ്ങൾ - അങ്ങനെ അനവധി പേപ്പറുകൾ ഈ കണ്ടെത്തൽ (Fortson et al. 2011) .

ഈ പശ്ചാത്തലത്തിൽ, ഇപ്പോൾ തന്നെ ഗാലക്സി സൂ, സ്പ്ലിറ്റ്-ആപ്ലിക്കേഷൻ-സംയോജിത പാചകക്കുറിപ്പ് പിന്തുടരുന്നതെങ്ങനെ എന്ന് നിങ്ങൾക്ക് കാണാൻ കഴിയും, മിക്ക മനുഷ്യകുല കണക്ഷനുകൾക്കായി ഉപയോഗിക്കുന്ന അതേ പാചകക്കുറിപ്പും. ഒന്നാമതായി, ഒരു വലിയ പ്രശ്നം കഷണങ്ങളായി വിഭജിക്കപ്പെട്ടിരിക്കുന്നു . ഈ സാഹചര്യത്തിൽ ഒരു ദശലക്ഷം താരാപംക്തികളെ തരംതിരിക്കാനുള്ള പ്രശ്നം ഒരു ഗാലക്സിയെ തരം തിരിക്കുന്നതിന്റെ പത്ത് ദശലക്ഷം പ്രശ്നങ്ങളായിരുന്നു. അടുത്തതായി, ഓരോ ഓപ്പററ്റിലും സ്വതന്ത്രമായി ഒരു ഓപ്പറേഷൻ പ്രയോഗിക്കുന്നു . ഈ ഗാലക്സികൾ ഓരോ ഗാലക്സിയേയും സർപ്പിളമോ ദീർഘവൃത്തമോ ആയി വർത്തിക്കുന്നു. ഒടുവിൽ, ഫലങ്ങൾ ഒരു സമവായം ഫലം പ്രദാനം ചെയ്യുന്നു. ഈ ഗാലക്സിക്കലിനു യോജിക്കുന്ന ഒരു വർഗ്ഗീകരണ വ്യവസ്ഥിതി നിർമ്മിക്കാനായി ക്ലീനിംഗ്, ഡെബിസിങ്, വെയ്റ്റിങ് എന്നിവ കൂട്ടിച്ചേർത്തു. മിക്ക പ്രോജക്ടുകളും ഈ പൊതു പാചകക്കുറിപ്പുകൾ ഉപയോഗിക്കുന്നെങ്കിലും, ഓരോ പ്രശ്നവും നേരിടേണ്ടി വരുന്ന പ്രത്യേക പ്രശ്നത്തിന് കസ്റ്റമൈസ് ചെയ്യേണ്ടതാണ്. ഉദാഹരണത്തിന്, താഴെ വിവരിച്ചിട്ടുള്ള മാനുഷിക കംപ്യൂട്ടിംഗ് പ്രൊജക്റ്റിൽ, അതേ പാചകക്കുറിപ്പ് പിന്തുടരും, എന്നാൽ അപേക്ഷകൾ ചേർക്കുകയും സംയോജിത നടപടികൾ തികച്ചും വ്യത്യസ്തമായിരിക്കും.

ഗാലക്സി മൃഗശാലയിൽ, ഈ ആദ്യ പദ്ധതി ഒരു തുടക്കം മാത്രമായിരുന്നു. ദശലക്ഷം ഗാലക്സികളിലേക്ക് തരംതിരിക്കാനാവാത്തതാണെങ്കിലും, പുതിയ ഡിജിറ്റൽ ആകാശ നിരീക്ഷണങ്ങളുമായി പ്രവർത്തിക്കാൻ ഈ സ്കെയിൽ മതിയായില്ല, അത് 10 ബില്ല്യൺ താരാപഥങ്ങളുടെ (Kuminski et al. 2014) ഇമേജുകൾ നിർമ്മിക്കും. 1 മില്യൺ മുതൽ 10 ബില്ല്യൻ വരെ വർദ്ധനവ് നേരിടുന്നതിന് 10,000-ഗ്യാലക്സി മൃഗശാലയിൽ 10,000 പേരെ കൂടുതൽ റിക്രൂട്ട് ചെയ്യേണ്ടി വരും. ഇന്റർനെറ്റിലെ സന്നദ്ധസേവകരുടെ എണ്ണം വളരെ വലുതാണെങ്കിലും, അത് അനന്തമല്ല. അതിനാൽ, വളരെയേറെ അളവിലുള്ള ഡാറ്റ കൈകാര്യം ചെയ്യാൻ പോകുകയാണെന്ന് ഗവേഷകർ മനസ്സിലാക്കി, പുതിയ, കൂടുതൽ വിപുലീകരിക്കാൻ കഴിയുന്ന സമീപനം ആവശ്യമായിരുന്നു.

ഗ്യാലക്സി സൂ ടീം (2010) ഷാവായ്സ്കി, ലിനാറ്റ് എന്നിവരോടൊപ്പം പ്രവർത്തിച്ച മാൻഡ ബാനർജിയാണ് ഗാലക്സികളെ തരംതിരിക്കാനായി കമ്പ്യൂട്ടറുകൾ പഠിപ്പിച്ചത്. കൂടുതൽ വ്യക്തമായി, ഗാലക്സി മൃഗശാല സൃഷ്ടിച്ച മനുഷ്യവിദഗ്ധരീതി ഉപയോഗിച്ച്, ബാനർജി ഒരു മെഷീൻ പഠന മാതൃക നിർമ്മിച്ചു, അത് ഇമേജിന്റെ സ്വഭാവസവിശേഷതകളുടെ അടിസ്ഥാനത്തിൽ ഒരു താരാപഥത്തിന്റെ മനുഷ്യവൽക്കരണത്തെ പ്രവചിക്കുന്നു. ഈ മാതൃക മാനുഷികവൽക്കരണങ്ങളെ ഉയർന്ന കൃത്യതയോടെ പുനർനിർമ്മിക്കുകയാണെങ്കിൽ, ഗാലക്സി മൃഗശാലയിലെ ഗവേഷകർ ഗണ്യമായി അനന്തതയിലെ താരാപഥങ്ങളെ തരം തിരിക്കാം.

ബാനർജിയുടെ സഹപ്രവർത്തകരുടെ സമീപനം സോഷ്യൽ ഗവേഷണത്തിൽ പൊതുവായി ഉപയോഗിക്കുന്ന സാങ്കേതികതകളോട് സാമ്യമുള്ളതാണ്, എന്നിരുന്നാലും ആ സാദൃശ്യങ്ങൾ ഒറ്റനോട്ടത്തിൽ സ്പഷ്ടമായേക്കില്ല. ഒന്നാമത്, ബാനർജിയും സഹപ്രവർത്തകരും അതിന്റെ പ്രതിരൂപങ്ങളെ സംഗ്രഹിച്ച നൂറുകണക്കിന് സവിശേഷതകളാക്കി മാറ്റി . ഉദാഹരണത്തിന്, ഗാലക്സികളുടെ ചിത്രങ്ങൾക്കായി, മൂന്ന് സവിശേഷതകൾ ഉണ്ടാവാം: ചിത്രത്തിൽ നീല നിറം, പിക്സലുകളുടെ തിളക്കത്തിൽ വ്യത്യാസം കൂടാതെ വെളുപ്പ് ഇതര പിക്സലുകൾ അനുപാതം. പ്രശ്നത്തിന്റെ ഒരു പ്രധാന ഭാഗമാണ് ശരിയായ ഫീച്ചറുകളുടെ തിരഞ്ഞെടുപ്പ്. ഇത് സാധാരണയായി വിഷയം-വിശിഷ്ട വൈദഗ്ദ്ധ്യം ആവശ്യമാണ്. ഈ ആദ്യ ചുവട്, സാധാരണയായി ഫീച്ചർ എൻജിനീയറിങ്ങ് എന്ന് വിളിക്കുന്നു, ഒരു ചിത്രത്തിൽ ഒരു വരിയും തുടർന്ന് ചിത്രത്തെ വിവരിക്കുന്ന മൂന്ന് നിരകളും ഉപയോഗിച്ച് ഡാറ്റ മാട്രിക്സിൽ ഫലമുണ്ടാകും. ഡാറ്റ മെട്രിക്സും ആവശ്യമുള്ള ഉൽപന്നവും (ഉദാഹരണമായി, ഒരു എലിപ്റ്റിക്കൽ ഗാലക്സി എന്ന പേരിൽ മനുഷ്യനെ തരം തിരിച്ചിട്ടുണ്ടോ), ഗവേഷകൻ ഒരു സ്റ്റാറ്റിസ്റ്റിക്കൽ അല്ലെങ്കിൽ മെഷീൻ ലേണിംഗ് മോഡൽ ഉണ്ടാക്കുന്നു-ഉദാഹരണത്തിന്, ലോജിസ്റ്റിക് റിഗ്രഷൻ-അതു സവിശേഷതകളെ അടിസ്ഥാനമാക്കി മനുഷ്യ വർഗ്ഗീകരണം മുൻകൂട്ടി ചെയ്യുന്നു ചിത്രം. അവസാനമായി, പുതിയ ഗാലക്സികളുടെ കണക്കാക്കിയ വർഗ്ഗീകരണങ്ങൾ ഹാജരാക്കാനായി ഈ സ്റ്റാറ്റിസ്റ്റിക്കൽ മാതൃകയിൽ ഗവേഷകകർ ഉപയോഗിക്കുന്നു (ചിത്രം 5.4). മെഷീൻ ലേണിംഗ്സിൽ, പുതിയ സമീപനത്തെ ലേബൽ ചെയ്യാൻ കഴിയുന്ന ഒരു മാതൃക സൃഷ്ടിക്കുന്നതിനുള്ള ഈ സമീപനം ഉപയോഗിച്ചുകൊണ്ടുള്ള ലേബൽ ഉദാഹരണങ്ങൾ സൂപ്പർവൈസുചെയ്ത പഠനം എന്നാണ് വിളിക്കുന്നത്.

ചിത്രം 5.4: ബാനെർജി എങ്ങിനെ അൽപം ലഘൂകരിച്ച വിവരണം. (2010) ഗാലക്സി വർഗ്ഗീകരണ മോഡൽ പരിശീലനത്തിനായി ഗാലക്സി മൃഗശാല മാതൃക ഉപയോഗിക്കുന്നതായിരുന്നു. ഗാലക്സികളുടെ ചിത്രങ്ങൾ ഒരു മാട്രിക്സ് സവിശേഷതകളിൽ രൂപാന്തരപ്പെടുത്തി. ഈ ലളിതമായ ഉദാഹരണത്തിൽ, മൂന്ന് സവിശേഷതകളുണ്ട് (ചിത്രത്തിലെ നീല നിറം, പിക്സലുകളുടെ തിളക്കത്തിൽ വ്യത്യാസവും nonwhite പിക്സലുകളുടെ അനുപാണവും). പിന്നെ, ചിത്രങ്ങളുടെ ഒരു ഉപസെറ്റിന് വേണ്ടി, ഒരു ഗണിത സൂചി ലേബലുകൾ ഒരു മെഷീൻ പഠന മാതൃക പരിശീലിപ്പിക്കാൻ ഉപയോഗിക്കുന്നു. അവസാനമായി, ശേഷിക്കുന്ന ഗാലക്സികളുടെ വർഗീകരിക്കൽ കണക്കാക്കാൻ യന്ത്രം പഠിക്കുന്നു. മനുഷ്യർ ഒരു പ്രശ്നം പരിഹരിക്കുന്നതിനേക്കാൾ കമ്പ്യൂട്ടർ സഹായത്തോടെയുള്ള മാനുഷിക കംപ്യൂട്ടിംഗ് പ്രോജക്ടാണ് ഞാൻ ഇത് വിളിച്ചത്, അത് പ്രശ്നം പരിഹരിക്കാൻ ഒരു കമ്പ്യൂട്ടറിനെ പരിശീലിപ്പിക്കാൻ ഉപയോഗിക്കാവുന്ന ഒരു ഡാറ്റാസെറ്റിറ്റിയെ മനുഷ്യർ നിർമിച്ചിട്ടുണ്ട്. ഈ കമ്പ്യൂട്ടർ സഹായത്തോടെയുള്ള കമ്പ്യൂട്ടേഷണൽ കമ്പ്യൂട്ടിംഗ് സംവിധാനത്തിന്റെ പ്രയോജനം ഒരു പരിമിതമായ മാനുഷിക പരിശ്രമത്തിൽമാത്രമേ അത്യന്താപേക്ഷിതമായ അളവിലുള്ള ഡാറ്റ കൈകാര്യം ചെയ്യാൻ പ്രാപ്തമാക്കുന്നത് എന്നതാണ്. സ്ലോൺ ഡിജിറ്റൽ സ്കൈ സർവേയിൽ നിന്ന് അനുമതിയുളള ഗാലക്സികളുടെ ചിത്രങ്ങൾ പുനർനിർമ്മിച്ചിട്ടുണ്ട്.

ചിത്രം 5.4: ബാനെർജി എങ്ങിനെ Banerji et al. (2010) ലഘൂകരിച്ച വിവരണം Banerji et al. (2010) ഗാലക്സി വർഗ്ഗീകരണ മോഡൽ പരിശീലനത്തിനായി ഗാലക്സി മൃഗശാല മാതൃക ഉപയോഗിക്കുന്നതായിരുന്നു. ഗാലക്സികളുടെ ചിത്രങ്ങൾ ഒരു മാട്രിക്സ് സവിശേഷതകളിൽ രൂപാന്തരപ്പെടുത്തി. ഈ ലളിതമായ ഉദാഹരണത്തിൽ, മൂന്ന് സവിശേഷതകളുണ്ട് (ചിത്രത്തിലെ നീല നിറം, പിക്സലുകളുടെ തിളക്കത്തിൽ വ്യത്യാസവും nonwhite പിക്സലുകളുടെ അനുപാണവും). പിന്നെ, ചിത്രങ്ങളുടെ ഒരു ഉപസെറ്റിന് വേണ്ടി, ഒരു ഗണിത സൂചി ലേബലുകൾ ഒരു മെഷീൻ പഠന മാതൃക പരിശീലിപ്പിക്കാൻ ഉപയോഗിക്കുന്നു. അവസാനമായി, ശേഷിക്കുന്ന ഗാലക്സികളുടെ വർഗീകരിക്കൽ കണക്കാക്കാൻ യന്ത്രം പഠിക്കുന്നു. മനുഷ്യർ ഒരു പ്രശ്നം പരിഹരിക്കുന്നതിനേക്കാൾ കമ്പ്യൂട്ടർ സഹായത്തോടെയുള്ള മാനുഷിക കംപ്യൂട്ടിംഗ് പ്രോജക്ടാണ് ഞാൻ ഇത് വിളിച്ചത്, അത് പ്രശ്നം പരിഹരിക്കാൻ ഒരു കമ്പ്യൂട്ടറിനെ പരിശീലിപ്പിക്കാൻ ഉപയോഗിക്കാവുന്ന ഒരു ഡാറ്റാസെറ്റിറ്റിയെ മനുഷ്യർ നിർമിച്ചിട്ടുണ്ട്. ഈ കമ്പ്യൂട്ടർ സഹായത്തോടെയുള്ള കമ്പ്യൂട്ടേഷണൽ കമ്പ്യൂട്ടിംഗ് സംവിധാനത്തിന്റെ പ്രയോജനം ഒരു പരിമിതമായ മാനുഷിക പരിശ്രമത്തിൽമാത്രമേ അത്യന്താപേക്ഷിതമായ അളവിലുള്ള ഡാറ്റ കൈകാര്യം ചെയ്യാൻ പ്രാപ്തമാക്കുന്നത് എന്നതാണ്. സ്ലോൺ ഡിജിറ്റൽ സ്കൈ സർവേയിൽ നിന്ന് അനുമതിയുളള ഗാലക്സികളുടെ ചിത്രങ്ങൾ പുനർനിർമ്മിച്ചിട്ടുണ്ട്.

ബാനർജിയുടെയും സഹപ്രവർത്തകരുടെയും മെഷീൻ പഠന മാതൃകയിലെ സവിശേഷതകൾ വളരെ സങ്കീർണ്ണമായിരുന്നു, ഉദാഹരണത്തിന്, "ഡി വൗക്കുലേഴ്സ് ഫിറ്റ് ആക്സസിഷൻ അനുപാതം" പോലെയുള്ള ഫീച്ചറുകൾ അവൾ ഉപയോഗിച്ചു. കൂടാതെ അവളുടെ മോഡൽ ലോജിസ്റ്റിക് റിഗ്രഷൻ അല്ല, അത് ഒരു കൃത്രിമ ന്യൂറൽ നെറ്റ്വർക്ക് ആയിരുന്നു. ഗാലക്സി മൃഗശാലയുടെ സവിശേഷതകളും അവയുടെ സവിശേഷതകളും ഗാലക്സികളുടെ വർഗ്ഗീകരണത്തെക്കുറിച്ചുള്ള പ്രവചനങ്ങൾ നടത്താൻ ഈ ഭാരം ഉപയോഗിച്ചു. ഉദാഹരണത്തിന്, "ഡീ വൈകുലെഴ്സ് ഫിറ്റ് ആക്സസി റേഷ്യോ" ഉള്ള ചിത്രങ്ങൾ സർപ്പിളഗാലക്സികളാകാൻ സാധ്യതയുണ്ടെന്ന് അവളുടെ വിശകലനം കണ്ടെത്തി. ഈ ഭാരം കണക്കാക്കിയാൽ, ഗാലക്സിയുടെ മാനുഷിക വർഗ്ഗീകരണം ന്യായമായ കൃത്യതയോടെ മുൻകൂട്ടി പ്രവചിക്കാൻ അവൾക്കു കഴിഞ്ഞു.

ബാനർജിയുടെയും സഹപ്രവർത്തകരുടെയും പ്രവർത്തനം ഗാലക്സി സൂ എന്ന ഒരു കമ്പ്യൂട്ടർ സഹായത്തോടെയുള്ള കമ്പ്യൂട്ടർ കംപ്യൂട്ടിംഗ് സംവിധാനത്തെ ഞാൻ വിളിച്ചിരുന്നു. ഈ സങ്കര സംവിധാനങ്ങളെക്കുറിച്ച് ചിന്തിക്കാനുള്ള ഏറ്റവും നല്ല മാർഗം, മനുഷ്യർ ഒരു പ്രശ്നം പരിഹരിക്കുന്നതിനേക്കാളുപരി, പ്രശ്നം പരിഹരിക്കാൻ ഒരു കമ്പ്യൂട്ടറിനെ പരിശീലിപ്പിക്കാൻ ഉപയോഗിക്കാവുന്ന ഒരു ഡാറ്റാസെറ്റിറ്റിയെ മനുഷ്യർ നിർമിച്ചിട്ടുണ്ട്. ചിലപ്പോൾ, പ്രശ്നം പരിഹരിക്കാൻ ഒരു കമ്പ്യൂട്ടറിനെ പരിശീലിപ്പിക്കുന്നതിന് ധാരാളം ഉദാഹരണങ്ങൾ ആവശ്യമുണ്ട്, മാത്രമല്ല വേണ്ടത്ര ഉദാഹരണങ്ങൾ നിർമിക്കുന്നതിനുള്ള ഏക മാർഗം ഒരു ബഹുജന സഹകരണമാണ്. ഈ കമ്പ്യൂട്ടർ സഹായത്തോടെയുള്ള സമീപനത്തിന്റെ പ്രയോജനം ഒരു പരിമിതമായ മാനുഷിക പരിശ്രമത്തിൽമാത്രമേ അത്യന്താപേക്ഷിതമായ അളവിലുള്ള ഡാറ്റ കൈകാര്യം ചെയ്യാൻ പ്രാപ്തമാക്കുന്നത് എന്നതാണ്. ഉദാഹരണമായി, ദശലക്ഷക്കണക്കിന് താരാപഥങ്ങളുള്ള ഒരു ഗവേഷകനാണ് ഒരു നൂറ്റമ്പതോളം ഗാലക്സികളേയും ഒരു ട്രില്ല്യൺ ഗാലക്സിയേയും തരംതിരിക്കാനായി ഉപയോഗിക്കാവുന്ന പ്രവചനാത്മകമായ മാതൃക നിർമ്മിക്കുന്നത്. ധാരാളം ഗാലക്സികൾ ഉണ്ടെങ്കിൽ, ഇത്തരം തരത്തിലുള്ള മനുഷ്യ-കമ്പ്യൂട്ടർ ഹൈബ്രിഡ് ഒന്നു മാത്രമേ സാധ്യമാകൂ. ഈ അനന്തമായ സ്കേലബിളിറ്റി സ്വതന്ത്രമല്ല. മാനുഷികവൽക്കരണത്തെ ശരിയായി പുനർനിർമ്മിക്കുന്ന ഒരു യന്ത്രം പഠന മാതൃക നിർമ്മിക്കുന്നത് ഒരു കഠിനമായ പ്രശ്നമാണ്, പക്ഷേ ഈ വിഷയത്തിൽ സമർപ്പിക്കപ്പെട്ടിട്ടുള്ള മികച്ച പുസ്തകങ്ങൾ ഇപ്പോൾ ഉണ്ട് (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

ഗാലക്സി മൃഗശാല മനുഷ്യ മാനുഷികവികസന പ്രോജക്ടുകൾക്ക് ഒരു നല്ല ഉദാഹരണമാണ്. ഒന്നാമത്തേത്, ഒരു ഗവേഷകൻ സ്വയം അല്ലെങ്കിൽ സ്വയംസഹായ റിസർച്ച് അസിസ്റ്റന്റുമായോ (ഉദാഹരണം, ഷാവെൻകിസ്കിന്റെ പ്രാരംഭ തരംതിരിവുള്ള പരിശ്രമങ്ങൾ) പദ്ധതിയിലൂടെ ശ്രമിക്കുന്നു. ഈ സമീപനം നന്നായി പരക്കുന്നില്ലെങ്കിൽ, ഗവേഷകന് പല പങ്കാളികളുമായി ഒരു മാനുഷിക കംപ്യൂട്ടിങ്ങ് പദ്ധതിയിലേക്ക് നീങ്ങാൻ കഴിയും. എന്നാൽ, ഒരു നിശ്ചിത അളവിലുള്ള ഡാറ്റയ്ക്കായി, നിർമല മാനുഷികശ്രമം മതിയാകില്ല. ആ ഘട്ടത്തിൽ ഗവേഷകർക്ക് കമ്പ്യൂട്ടർ സഹായത്തോടെയുള്ള കമ്പ്യൂട്ടേഷണൽ കംപ്യൂട്ടിംഗ് സംവിധാനം നിർമ്മിക്കേണ്ടതുണ്ട്. അതിൽ മെഷീൻ ക്ലാസിക്കേഷനുകൾ ഒരു യന്ത്ര പഠന മാതൃകയിൽ പരിശീലനം നടത്തുന്നു.