5.2.1 గాలక్సీ జూ

గెలాక్సీ జూ ఒక మిలియన్ గెలాక్సీలను వర్గీకరించడానికి చాలామంది నిపుణులైన వాలంటీర్ల ప్రయత్నాలను కలిపింది.

2007 లో ఆక్స్ఫర్డ్ విశ్వవిద్యాలయంలో ఖగోళ శాస్త్రంలో గ్రాడ్యుయేట్ విద్యార్ధి కెవిన్ షావిన్స్కి ఎదుర్కొన్న సమస్యను గెలాక్సీ జూ అభివృద్ధి చేసింది. కొంచెం సరళీకృతం చేయడంతో, షావింస్కి గెలాక్సీలపట్ల ఆసక్తి కలిగి ఉన్నాడు, గెలాక్సీల వారి స్వరూప శాస్త్రం-దీర్ఘవృత్తాకార లేదా మురి, మరియు వారి రంగు నీలం లేదా ఎరుపు ద్వారా. ఆ సమయంలో, ఖగోళ శాస్త్రజ్ఞులలో సాంప్రదాయక జ్ఞానం, మా పాలపుంతలాంటి మాల్కీ వే రంగులో నీలం రంగు (యువతను సూచిస్తుంది) మరియు దీర్ఘవృత్తాకార గెలాక్సీలు ఎర్రగా ఉన్నాయి (వృద్ధాప్యాన్ని సూచిస్తాయి). ఈ సాంప్రదాయ జ్ఞానాన్ని షావింస్కి అనుమానించాడు. ఈ నమూనా సాధారణమైనప్పటికీ, అసాధారణమైన సంఖ్యలో మినహాయింపులు ఉన్నాయి, మరియు ఈ అసాధారణ గెలాక్సీల గురించి అధ్యయనం చేయడం ద్వారా-ఊహించిన నమూనాకు తగినట్లుగా లేని-అతను ప్రక్రియ ద్వారా ఏదో నేర్చుకోగలడని అతను అనుమానించాడు గెలాక్సీలు ఏర్పడ్డాయి.

సాంప్రదాయిక వివేకాన్ని అణిచివేసేందుకు స్నావిన్స్కి అవసరమయ్యేది ఏమిటంటే మెర్ఫోలాజికల్గా వర్గీకరించబడిన గెలాక్సీల యొక్క పెద్ద సెట్; అనగా గెలాక్సీలు మురికిగా లేదా దీర్ఘవృత్తాకారంగా వర్గీకరించబడ్డాయి. అయితే సమస్య, వర్గీకరణకు ఇప్పటికే ఉన్న అల్గోరిథమిక్ పద్ధతులు శాస్త్రీయ పరిశోధన కోసం ఉపయోగించాల్సినంత ఇంకా మంచివి కావు; ఇతర మాటలలో, వర్గీకరించే గెలాక్సీలు ఆ సమయంలో, కంప్యూటర్లకు కష్టంగా ఉండే సమస్య. అందువలన, మానవ- వర్గీకరించబడిన గెలాక్సీల సంఖ్య ఎంత అవసరమో. స్నావిన్స్కి ఈ వర్గీకరణ సమస్యను గ్రాడ్యుయేట్ విద్యార్ధి యొక్క ఉత్సాహంతో చేపట్టింది. ఏడు 12-గంటలున్న ఒక మారథాన్ సెషన్లో, అతను 50,000 గెలాక్సీలను వర్గీకరించాడు. 50,000 గెలాక్సీలు చాలా లాగా ఉండవచ్చు, ఇది స్లోన్ డిజిటల్ స్కై సర్వేలో దాదాపుగా ఒక మిలియన్ గెలాక్సీలలో సుమారు 5% మాత్రమే ఉంది. స్క్వాన్స్కికి మరింత కొలవగల విధానం అవసరమని గ్రహించాడు.

అదృష్టవశాత్తూ, అది వర్గీకరించడం గెలాక్సీల పని ఖగోళశాస్త్రంలో ఆధునిక శిక్షణ అవసరం లేదు అని అవుతుంది; మీరు అందంగా త్వరగా దీన్ని ఎవరైనా బోధించడానికి. ఇతర మాటలలో, అయినప్పటికీ గెలాక్సీల వర్గీకరించడం కంప్యూటర్లకు కష్టం ఒక పని, అది మానవులకు అందంగా సులభం. కాబట్టి, ఆక్స్ఫర్డ్, Schawinski తోటి ఖగోళ శాస్త్రవేత్త క్రిస్ Lintott ఒక పబ్ లో కూర్చొని ఉండగా స్వచ్ఛందంగా గెలాక్సీల చిత్రాలు క్లాసిఫై పేరు ఒక వెబ్సైట్ అప్ కలలు కన్నారు. కొన్ని నెలల తరువాత, గెలాక్సీ జూ జన్మించాడు.

గెలాక్సీ జంతుప్రదర్శనశాలలో, వాలంటీర్లు కొన్ని నిమిషాలు శిక్షణ పొందుతారు; ఉదాహరణకు, మురి మరియు దీర్ఘవృత్తాకార గెలాక్సీల మధ్య వ్యత్యాసం నేర్చుకోవడం (సంఖ్య 5.2). ఈ శిక్షణ తరువాత, ప్రతి స్వచ్చందకుడు సులభంగా తెలిసిన క్విజ్-సరిగ్గా తెలిసిన 15 రకాల గెలాక్సీలను వర్గీకరించడంతో పాటుగా వర్గీకృత వర్గీకరణలతో-మరియు సాధారణ వెబ్-ఆధారిత ఇంటర్ఫేస్ (ఫిగర్ 5.3) ద్వారా తెలియని గెలాక్సీల వాస్తవిక వర్గీకరణను ప్రారంభిస్తుంది. స్వచ్చంద నుండి ఖగోళ శాస్త్రవేత్తకి పరివర్తన 10 నిమిషాల కంటే తక్కువ సమయంలో జరుగుతుంది మరియు కేవలం అత్యల్ప హర్డిల్స్, ఒక సాధారణ క్విజ్ని పాస్ చేయవలసి ఉంటుంది.

మూర్తి 5.2: రెండు ప్రధాన రకాల గెలాక్సీల ఉదాహరణలు: మురి మరియు దీర్ఘవృత్తాకారం. గెలాక్సీ జంతుప్రదర్శన ప్రాజెక్ట్ 900,000 కంటే ఎక్కువ చిత్రాలను వర్గీకరించడానికి 100,000 కన్నా ఎక్కువ వాలంటీర్లను ఉపయోగించింది. Http://www.GalaxyZoo.org మరియు స్లోన్ డిజిటల్ స్కై సర్వే నుండి అనుమతి ద్వారా పునరుత్పత్తి.

మూర్తి 5.2: రెండు ప్రధాన రకాల గెలాక్సీల ఉదాహరణలు: మురి మరియు దీర్ఘవృత్తాకారం. గెలాక్సీ జంతుప్రదర్శన ప్రాజెక్ట్ 900,000 కంటే ఎక్కువ చిత్రాలను వర్గీకరించడానికి 100,000 కన్నా ఎక్కువ వాలంటీర్లను ఉపయోగించింది. Http://www.GalaxyZoo.org మరియు స్లోన్ డిజిటల్ స్కై సర్వే నుండి అనుమతి ద్వారా పునరుత్పత్తి.

మూర్తి 5.3: ఒక స్వతంత్ర చిత్రం వర్గీకరించడానికి వాలంటీర్లు అడిగిన ఇన్పుట్ స్క్రీన్. స్లోన్ డిజిటల్ స్కై సర్వే నుండి ఒక చిత్రం ఆధారంగా క్రిస్ లింటోట్ నుండి అనుమతి ద్వారా పునరుత్పత్తి.

మూర్తి 5.3: ఒక స్వతంత్ర చిత్రం వర్గీకరించడానికి వాలంటీర్లు అడిగిన ఇన్పుట్ స్క్రీన్. స్లోన్ డిజిటల్ స్కై సర్వే నుండి ఒక చిత్రం ఆధారంగా క్రిస్ లింటోట్ నుండి అనుమతి ద్వారా పునరుత్పత్తి.

ఈ ప్రణాళికను వార్తల కథనంలో ప్రదర్శించిన తర్వాత గాలక్సీ జూ తన ప్రారంభ వాలంటీర్లను ఆకర్షించింది, మరియు సుమారు ఆరునెలల్లో ఈ ప్రాజెక్ట్ 100,000 కంటే ఎక్కువ మంది పౌరులకు చెందిన శాస్త్రవేత్తలను కలిగి ఉంది, వారు పాల్గొన్న వ్యక్తులు తమ పనిని ఆనందించారు మరియు వారు ఖగోళ శాస్త్రాన్ని ముందుకు నడిపించాలని కోరుకున్నారు. ఈ 100,000 స్వచ్ఛంద సేవకులు మొత్తం 40 మిలియన్లకు పైగా వర్గీకరణలకు దోహదపడ్డారు, చాలా తక్కువ వర్గీకరణలు పాల్గొన్నవారిలో చాలా మంది (Lintott et al. 2008) .

అండర్గ్రాడ్యుయేట్ రీసెర్చ్ అసిస్టెంట్లను నియామకం చేసే అనుభవం కలిగిన పరిశోధకులు వెంటనే డేటా నాణ్యతను గురించి అనుమానించవచ్చు. ఈ సంశయవాదం సహేతుకమైనది అయినప్పటికీ, స్వచ్చంద రచనలు సరిగ్గా శుభ్రం, debiased, మరియు సమగ్రమైనవి అయినప్పుడు, వారు అధిక-నాణ్యత ఫలితాలను ఉత్పత్తి చేస్తారని గెలాక్సీ జూ చూపిస్తుంది (Lintott et al. 2008) . ప్రొఫెషనల్-నాణ్యత డేటాను సృష్టించడానికి ప్రేక్షకులను ఆకర్షించడానికి ఒక ముఖ్యమైన ట్రిక్ రిడన్డెన్సీ , అనగా పలువురు వేర్వేరు వ్యక్తులచే నిర్వహించిన అదే పనిని కలిగి ఉంది. గెలాక్సీ జంతుప్రదర్శనశాలలో, గాలక్సీకి 40 వర్గీకరణలు ఉన్నాయి; అండర్గ్రాడ్యుయేట్ రీసెర్చ్ అసిస్టెంట్లను ఉపయోగించే పరిశోధకులు ఈ స్థాయి తగ్గింపును ఎప్పటికీ కొనుగోలు చేయలేరు మరియు అందువల్ల ప్రతి వర్గీకరణ యొక్క నాణ్యతతో మరింత ఎక్కువ శ్రద్ధ కలిగి ఉండాలి. వాలంటీర్లు శిక్షణలో లేనివారు, వారు రిడెండెన్సీతో కలిసి ఉన్నారు.

ఏది ఏమయినప్పటికీ గెలాక్సీకి పలు వర్గీకరణలు ఉన్నప్పటికీ, ఏకాభిప్రాయ వర్గీకరణను రూపొందించడానికి స్వచ్ఛంద వర్గీకరణల సమూహాన్ని కలపడం తంత్రమైనది. చాలామంది మానవ గణన పథకాలలో ఇదే విధమైన సవాళ్లు తలెత్తుతాయి, గెలాక్సీ జూ పరిశోధకులు వారి ఏకాభిప్రాయం వర్గీకరణను రూపొందించే మూడు దశలను క్లుప్తంగా సమీక్షించటానికి సహాయపడుతుంది. మొదట, పరిశోధకులు బూటకపు వర్గీకరణలను తొలగించడం ద్వారా డేటాను "శుభ్రం చేశారు." ఉదాహరణకు, ఒకే రకమైన గెలాక్సీని పదేపదే వర్గీకరించిన వ్యక్తులు-వారి ఫలితాలు వర్గీకరించడానికి ప్రయత్నిస్తున్నట్లయితే- వారి అన్ని వర్గీకరణలు విస్మరించబడ్డాయి. ఈ మరియు ఇతర పోలి క్లీనింగ్ అన్ని వర్గీకరణల గురించి 4% తొలగించబడింది.

రెండవది, శుద్ధి చేసిన తరువాత, పరిశోధకులు వర్గీకరణలో క్రమబద్ధమైన పక్షపాతాలను తొలగించాల్సిన అవసరం ఉంది. అసలు ప్రాజెక్ట్లో పొందుపర్చిన బయాస్ డిటెక్షన్ స్టడీస్ వరుస ద్వారా, ఉదాహరణకి, కొంతమంది స్వయంసేవకులు రంగుకు బదులుగా బదులుగా మోనోక్రోమ్ను చూపించేవారు- పరిశోధకులు అనేక వ్యవస్థాగత పక్షవాతాన్ని కనుగొన్నారు, దీర్ఘకాలిక సర్పిలాకార గెలాక్సీలను వర్గీకృత గెలాక్సీలుగా వర్గీకరించడానికి క్రమబద్ధమైన పక్షపాతము వంటివి ఉన్నాయి (Bamford et al. 2009) . పునరుత్పత్తి స్వయంచాలకంగా వ్యవస్థాగత పక్షపాతతను తొలగించదు ఎందుకంటే ఈ వ్యవస్థాత్మక పక్షాలకు సర్దుబాటు చాలా ముఖ్యం; ఇది యాదృచ్ఛిక దోషాన్ని తొలగిస్తుంది.

చివరగా, debiasing తర్వాత, పరిశోధకులు ఒక ఏకాభిప్రాయం వర్గీకరణ ఉత్పత్తి వ్యక్తిగత వర్గీకరణలు కలపడానికి ఒక పద్ధతి అవసరం. ప్రతి గెలాక్సీ కోసం వర్గీకరణలను కలపడానికి సరళమైన మార్గం అత్యంత సాధారణ వర్గీకరణను ఎంచుకోవడానికి ఉండేది. అయితే, ఈ విధానం ప్రతి స్వచ్ఛందకు సమాన బరువును కలిగి ఉంటుంది మరియు కొంతమంది వాలంటీర్లు ఇతరుల కంటే వర్గీకరణలో మంచివారని పరిశోధకులు అనుమానించారు. అందువల్ల, పరిశోధకులు మరింత క్లిష్టతరమైన పునరుత్పాదక వ్యాయామ విధానాన్ని అభివృద్ధి చేశారు, ఇది ఉత్తమ కాలిఫ్రేయెర్లను గుర్తించడానికి మరియు వాటిని మరింత బరువును అందించడానికి ప్రయత్నించింది.

తద్వారా, మూడు-దశల ప్రక్రియ-శుభ్రపరిచే, debiasing మరియు బరువు ఆధారంగా గెలాక్సీ జూ పరిశోధన బృందం 40 మిలియన్ స్వచ్ఛంద వర్గీకరణలను ఏకాభిప్రాయ స్వరూప వర్గీకరణల రూపంలోకి మార్చింది. ఈ గెలాక్సీ జూ వర్గీకరణలు ప్రొఫెసర్ ఖగోళ శాస్త్రవేత్తలచే మూడు మునుపటి చిన్న తరహా ప్రయత్నాలతో పోల్చబడినప్పుడు, గెలాక్సీ జంతుప్రదర్శనశాలకు ప్రేరేపించటానికి సహాయపడే షావింస్కి వర్గీకరణ, బలమైన ఒప్పందం ఉంది. అందుచే, వాలంటీర్లు, మొత్తంలో, అధిక-నాణ్యత వర్గీకరణలను అందించగలిగారు మరియు పరిశోధకులు (Lintott et al. 2008) స్థాయిలో ఉన్నాయి. వాస్తవానికి, గాలక్సీల వంటి భారీ సంఖ్యలో గెలాక్సీల కోసం మానవ వర్గీకరణలు, షావింస్కి, లిన్త్ట్ మరియు ఇతరులు సుమారు 80% గెలాక్సీలు ఊహించిన నమూనాను నీలం వృత్తాలు మరియు ఎరుపు దీర్ఘవృత్తాలు-మరియు అనేక పత్రాలు ఈ ఆవిష్కరణ (Fortson et al. 2011) .

ఈ నేపధ్యంలో, మీరు ఇప్పుడు గెలాక్సీ జూ స్ప్లిట్-దరఖాస్తు మిళితం రెసిపీను ఎలా అనుసరిస్తుందో చూడవచ్చు, ఇది చాలా మానవ గణన ప్రాజెక్టులకు ఉపయోగించిన అదే వంటకం. మొదటిది, పెద్ద సమస్య భాగాలుగా విభజించబడింది . ఈ సందర్భంలో, ఒక మిలియన్ గెలాక్సీల వర్గీకరణ సమస్య ఒక గెలాక్సీని వర్గీకరించే మిలియన్ సమస్యగా విభజించబడింది. తరువాత, ప్రతి ఆపరేషన్కు స్వతంత్రంగా ఒక ఆపరేషన్ వర్తించబడుతుంది . ఈ సందర్భంలో, స్వతంత్రులు ప్రతి గెలాక్సీని మురి లేదా దీర్ఘవృత్తాకారంగా వర్గీకరించారు. చివరగా, ఫలితాలు ఏకాభిప్రాయం ఫలితాన్ని కలిపేందుకు కలుపుతారు . ఈ సందర్భంలో, ప్రతి గెలాక్సీ కోసం ఒక ఏకాభిప్రాయం వర్గీకరణను రూపొందించడానికి, మిళిత దశలో క్లీనింగ్, డెబియాజింగ్ మరియు వెయిటింగ్ ఉన్నాయి. చాలా ప్రాజెక్టులు ఈ సాధారణ రెసిపీని ఉపయోగిస్తున్నప్పటికీ, ప్రతీ సమస్య ఏమిటంటే ప్రస్తావించిన నిర్దిష్ట సమస్యకు అనుకూలీకరించబడాలి. ఉదాహరణకు, క్రింద వివరించిన మానవ గణన ప్రాజెక్ట్లో, అదే వంటకం అనుసరించబడుతుంది, కానీ దరఖాస్తు మరియు దశలను మిళితం చాలా భిన్నంగా ఉంటుంది.

గెలాక్సీ జూ జట్టు కోసం, ఈ మొదటి ప్రాజెక్ట్ ప్రారంభం మాత్రమే. దాదాపుగా ఒక మిలియన్ గెలాక్సీలకి వర్గీకరించగలిగినప్పటికీ, ఈ కొలమానం 10 బిలియన్ గెలాక్సీల (Kuminski et al. 2014) యొక్క చిత్రాలను ఉత్పత్తి చేసే నూతన డిజిటల్ ఆకాశ అధ్యయనాలతో పని చేయడానికి సరిపోదు. 1 మిలియన్ నుండి 10 బిలియన్ల పెరుగుదలను నిర్వహించడానికి 10,000-గాలక్సీ జంతుప్రదర్శనశాలను సుమారు 10,000 మంది పాల్గొనేవారిని నియమించవలసి ఉంటుంది. ఇంటర్నెట్లో స్వచ్ఛంద సేవకుల సంఖ్య పెద్దది అయినప్పటికీ, ఇది అనంతం కాదు. అందువల్ల, పరిశోధకులు వారు ఎప్పుడూ పెరుగుతున్న మొత్తం డేటాను నిర్వహించబోతున్నారని గ్రహించినట్లయితే, ఒక కొత్త, మరింత కొలవదగిన విధానం అవసరమైంది.

అందువల్ల, మాడ బెనర్జీ-షావాన్స్కి, లిన్తోట్ మరియు గెలాక్సీ జూ బృందం (2010) లోని ఇతర సభ్యులు - గెలాక్సీల వర్గీకరణకు కంప్యూటర్స్ బోధించాడు. మరింత ప్రత్యేకంగా, గెలాక్సీ జూ సృష్టించిన మానవ వర్గీకరణలను ఉపయోగించి, బెనర్జీ ఒక యంత్ర అభ్యాస మోడల్ను నిర్మించాడు, ఇది చిత్రాల లక్షణాల ఆధారంగా ఒక గెలాక్సీ మానవ వర్గీకరణను అంచనా వేయగలదు. ఈ నమూనా మానవ వర్గీకరణలను అధిక ఖచ్చితత్వంతో పునరుత్పత్తి చేయగలిగితే, గెలాక్సీ జంతుప్రదర్శనశాల ద్వారా ఇది గణనీయమైన సంఖ్యలో గెలాక్సీలని వర్గీకరించడానికి ఉపయోగించబడుతుంది.

బెనర్జీ మరియు సహోద్యోగుల యొక్క ప్రధాన విధానం సాంఘిక పరిశోధనలో సాధారణంగా ఉపయోగించే సాంకేతికతలకు చాలా పోలి ఉంటుంది, అయినప్పటికీ ఆ సారూప్యత మొదటి చూపులో స్పష్టంగా ఉండకపోవచ్చు. మొదట, బెనర్జీ మరియు సహచరులు ప్రతి చిత్రాలను దాని లక్షణాలను సంగ్రహించిన సంఖ్యాత్మక లక్షణాల సమితిలోకి మార్చారు. ఉదాహరణకు, గెలాక్సీల యొక్క చిత్రాల కోసం, మూడు లక్షణాలు ఉండవచ్చు: చిత్రంలో నీలం మొత్తం, పిక్సెల్ల యొక్క ప్రకాశంలో వ్యత్యాసం మరియు తెలుపు-కాని పిక్సెల్ల యొక్క నిష్పత్తి. సరైన లక్షణాల ఎంపిక అనేది సమస్య యొక్క ఒక ముఖ్యమైన భాగం, మరియు ఇది సాధారణంగా విషయాంతర నైపుణ్యం అవసరం. ఈ మొదటి అడుగు, సాధారణంగా ఫీచర్ ఇంజనీరింగ్ అని పిలుస్తారు, ఒక డేటా మాత్రికలో ఒక వరుసలో ఒక వరుసలో మరియు ఆ చిత్రం గురించి వివరించే మూడు నిలువు వరుసలలో ఫలితాలు ఉంటాయి. డేటా మ్యాట్రిక్స్ మరియు అవసరమైన అవుట్పుట్ (ఉదా. చిత్రం ఎలిప్టికాటిక్ గెలాక్సీగా ఒక మనిషి వర్గీకరించబడిందో), పరిశోధకుడు ఒక గణాంక లేదా యంత్ర అభ్యాస నమూనాను సృష్టించాడు-ఉదాహరణకు, లాజిస్టిక్ రిగ్రెషన్- లక్షణాల ఆధారంగా మానవ వర్గీకరణను అంచనా వేస్తుంది చిత్రం. చివరగా, పరిశోధకుడు ఈ గణాంక నమూనాలో నూతన గెలాక్సీల యొక్క అంచనా వర్గీకరణలను (ఫిగర్ 5.4) అంచనా వేయడానికి ఉపయోగిస్తారు. యంత్ర అభ్యాసలో, కొత్త పద్ధతిని ముద్రించే ఒక నమూనాను రూపొందించడానికి ఈ విధానం ఉపయోగించి లేబుల్ చేయబడిన ఉదాహరణలను పర్యవేక్షించే అభ్యాసం అని పిలుస్తారు.

మూర్తి 5.4: బనేర్జీ ఎట్ అల్ ఎలా యొక్క సరళీకృత వివరణ. (2010) గెలాక్సీ వర్గీకరణ చేయడానికి యంత్ర అభ్యాస మోడల్కు శిక్షణ ఇవ్వడానికి గెలాక్సీ జూ వర్గీకరణలను ఉపయోగించారు. గెలాక్సీల యొక్క చిత్రాలు లక్షణాల మాత్రికలో మార్చబడ్డాయి. ఈ సరళమైన ఉదాహరణలో, మూడు లక్షణాలు (చిత్రంలో నీలం పరిమాణం, పిక్సెల్ల యొక్క ప్రకాశంలో వ్యత్యాసం మరియు nonwhite పిక్సెల్ల నిష్పత్తి) ఉన్నాయి. అప్పుడు, చిత్రాలు యొక్క ఉపసమితి కోసం, గెలాక్సీ జూ లేబుల్స్ ఒక యంత్ర అభ్యాస మోడల్ శిక్షణ కోసం ఉపయోగిస్తారు. అంతిమంగా, మిగిలిన గెలాక్సీల కోసం వర్గీకరణలను అంచనా వేయడానికి యంత్ర అభ్యాసను ఉపయోగిస్తారు. మానవుడు ఒక సమస్యను పరిష్కరించుకోవడమే కాకుండా, సమస్యను పరిష్కరించడానికి ఒక కంప్యూటర్కు శిక్షణనివ్వడానికి ఉపయోగించే ఒక డేటాసెట్ను మానవులు నిర్మించారు, ఎందుకంటే నేను దీనిని కంప్యూటర్-సహాయక మానవ గణన ప్రాజెక్ట్ అని పిలుస్తున్నాను. ఈ కంప్యూటర్ సహాయంతో ఉన్న మానవ గణన వ్యవస్థ యొక్క ప్రయోజనం ఏమిటంటే, పరిమితమైన మానవ కృషిని మాత్రమే ఉపయోగించి అనంతమైన మొత్తం డేటాను నిర్వహించడానికి ఇది మిమ్మల్ని అనుమతిస్తుంది. స్లోన్ డిజిటల్ స్కై సర్వే నుండి అనుమతి ద్వారా పునరుత్పత్తి గెలాక్సీల చిత్రాలు.

మూర్తి 5.4: Banerji et al. (2010) ఎలా యొక్క సరళీకృత వివరణ Banerji et al. (2010) గెలాక్సీ వర్గీకరణ చేయడానికి యంత్ర అభ్యాస మోడల్కు శిక్షణ ఇవ్వడానికి గెలాక్సీ జూ వర్గీకరణలను ఉపయోగించారు. గెలాక్సీల యొక్క చిత్రాలు లక్షణాల మాత్రికలో మార్చబడ్డాయి. ఈ సరళమైన ఉదాహరణలో, మూడు లక్షణాలు (చిత్రంలో నీలం పరిమాణం, పిక్సెల్ల యొక్క ప్రకాశంలో వ్యత్యాసం మరియు nonwhite పిక్సెల్ల నిష్పత్తి) ఉన్నాయి. అప్పుడు, చిత్రాలు యొక్క ఉపసమితి కోసం, గెలాక్సీ జూ లేబుల్స్ ఒక యంత్ర అభ్యాస మోడల్ శిక్షణ కోసం ఉపయోగిస్తారు. అంతిమంగా, మిగిలిన గెలాక్సీల కోసం వర్గీకరణలను అంచనా వేయడానికి యంత్ర అభ్యాసను ఉపయోగిస్తారు. మానవుడు ఒక సమస్యను పరిష్కరించుకోవడమే కాకుండా, సమస్యను పరిష్కరించడానికి ఒక కంప్యూటర్కు శిక్షణనివ్వడానికి ఉపయోగించే ఒక డేటాసెట్ను మానవులు నిర్మించారు, ఎందుకంటే నేను దీనిని కంప్యూటర్-సహాయక మానవ గణన ప్రాజెక్ట్ అని పిలుస్తున్నాను. ఈ కంప్యూటర్ సహాయంతో ఉన్న మానవ గణన వ్యవస్థ యొక్క ప్రయోజనం ఏమిటంటే, పరిమితమైన మానవ కృషిని మాత్రమే ఉపయోగించి అనంతమైన మొత్తం డేటాను నిర్వహించడానికి ఇది మిమ్మల్ని అనుమతిస్తుంది. స్లోన్ డిజిటల్ స్కై సర్వే నుండి అనుమతి ద్వారా పునరుత్పత్తి గెలాక్సీల చిత్రాలు.

బెనర్జీ మరియు సహోద్యోగుల యంత్ర అభ్యాస మోడల్ లో నా బొమ్మ ఉదాహరణలో ఉన్న వాటి కంటే క్లిష్టమైనవి. ఉదాహరణకు, ఆమె "డి వాకులేయర్స్ ఫిట్ అక్షరేఖ నిష్పత్తి" వంటి లక్షణాలను ఉపయోగించింది మరియు ఆమె నమూనా లాజిస్టిక్ రిగ్రెషన్ కాదు, అది ఒక కృత్రిమ నాడీ నెట్వర్క్. ఆమె లక్షణాలను, ఆమె నమూనాను, మరియు ఏకాభిప్రాయ గెలాక్సీ జూ వర్గీకరణలను ఉపయోగించి, ఆమె ప్రతి లక్షణంలో బరువులు సృష్టించగలిగింది, ఆపై గెలాక్సీల వర్గీకరణ గురించి అంచనాలను తయారు చేయడానికి ఈ బరువులు ఉపయోగిస్తాయి. ఉదాహరణకు, ఆమె విశ్లేషణ తక్కువ "డి Vaucouleurs ఫిట్ అక్షసంబంధ నిష్పత్తి" తో చిత్రాలు మురి గెలాక్సీలు ఎక్కువగా ఉన్నాయి కనుగొన్నారు. ఈ బరువులతో, ఆమె గెలాక్సీ యొక్క మానవ వర్గీకరణను ఖచ్చితమైన ఖచ్చితత్వాన్ని అంచనా వేయగలిగారు.

బెనర్జీ మరియు సహోద్యోగుల పని గెలాక్సీ జంతుప్రదర్శనశాలను కంప్యూటర్ సహాయంతో ఉన్న మానవ గణన వ్యవస్థగా పిలుస్తాను . ఈ హైబ్రిడ్ వ్యవస్థల గురించి ఆలోచించడానికి ఉత్తమ మార్గం ఏమిటంటే, మానవులు సమస్యను పరిష్కరించుకుంటూ కాకుండా, సమస్యను పరిష్కరించడానికి ఒక కంప్యూటర్కు శిక్షణ ఇవ్వడానికి ఉపయోగించే ఒక డేటాసెట్ను మానవులు కలిగి ఉంటారు. కొన్ని సమయాల్లో, సమస్యను పరిష్కరించడానికి కంప్యూటర్ను శిక్షణ ఇవ్వడం ఉదాహరణలు చాలా అవసరం కావచ్చు, మరియు తగినంత సంఖ్యలో ఉదాహరణలను రూపొందించడానికి ఏకైక మార్గం సామూహిక సహకారం. ఈ కంప్యూటర్ సహాయంతో ఉన్న విధానం యొక్క ప్రయోజనం ఏమిటంటే, మానవ పరిమితి యొక్క పరిమిత మొత్తంను మాత్రమే ఉపయోగించి అనంతమైన మొత్తం డేటాను నిర్వహించడానికి ఇది మిమ్మల్ని అనుమతిస్తుంది. ఉదాహరణకు, ఒక మిలియన్ మానవ వర్గీకృత గెలాక్సీలతో పరిశోధకుడు ఒక బిలియన్ లేదా ఒక ట్రిలియన్ గెలాక్సీలను వర్గీకరించడానికి ఉపయోగించే ఒక ఊహాజనిత నమూనాను నిర్మించవచ్చు. గెలాక్సీల అపారమైన సంఖ్యలు ఉంటే, ఈ రకమైన మానవ-కంప్యూటర్ హైబ్రిడ్ నిజంగా సాధ్యమయ్యే ఏకైక పరిష్కారం. అయితే అనంతమైన వ్యాప్తిని ఉచితం కాదు. మానవ వర్గీకరణలను సరిగ్గా పునరుత్పత్తి చేయగల యంత్ర అభ్యాస నమూనాను నిర్మించడం కూడా ఒక కష్టమైన సమస్యగానే ఉంది, కానీ అదృష్టవశాత్తూ ఇప్పటికే ఈ అంశానికి అంకితభావంతో ఉన్న అద్భుతమైన పుస్తకాలు ఉన్నాయి (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

గెలాక్సీ జంతుప్రదర్శనశాల ఎన్ని మానవ గణన ప్రాజెక్టులు రూపొందించాయనేది మంచి ఉదాహరణ. మొదట, ఒక పరిశోధకుడు తనను తాను ప్రయత్నిస్తాడు లేదా ఒక చిన్న బృంద పరిశోధనా సహాయకులను (ఉదా., Schawinski యొక్క ప్రారంభ వర్గీకరణ ప్రయత్నం) ప్రయత్నిస్తాడు. ఈ విధానం బాగా సరిగ్గా లేనట్లయితే, పరిశోధకులు అనేకమంది పాల్గొనే వ్యక్తులతో ఒక మానవ గణన ప్రాజెక్ట్కు మారవచ్చు. కానీ, డేటా యొక్క ఒక నిర్దిష్ట పరిమాణం కోసం, స్వచ్ఛమైన మానవ కృషి తగినంతగా ఉండదు. ఆ సమయంలో, పరిశోధకులు కంప్యూటరు సహాయక మానవ గణన వ్యవస్థను నిర్మించవలసి ఉంటుంది, దీనిలో యంత్రం అభ్యాస మోడల్కు శిక్షణ ఇవ్వడానికి మానవ వర్గీకరణలను ఉపయోగించడం జరిగింది, దీని వలన వాస్తవంగా అపరిమిత మొత్తంలో డేటా వర్తించవచ్చు.