5.2.1 Galaxy ژوبڼ

ګلیګی زو د څو غیر غیر متخصص رضاکارانو هڅو سره یو میلیون ګلاسونه طبقه بندی کول.

ګلیګی زو د 2007 کال په اکسفورډ کې د اکسفورډ په پوهنتون کې د ستورپوهنې یو کینیډ شیوینسکي سره مخ شو. د هغې ساده کول، شااوینسکی د ګالسایانو په مینځ کې مینه درلوده، او کاليزونه د دوی د مورفولوژي - نایجریا یا سرپل لخوا طبقه بندی کیدی شي. د هغوی رنګ - آسماني یا سور. په وخت کې، د ستورپوهانو په منځ کې روایتی پوه دا و چې سرکش آسمانونو، لکه زموږ د ګرمې لارې په څیر رنګ کې و. (ځوانانو ته اشاره کوله) او د کڅوړو سترګو سره سرخ (د زوړ عمر ښودنه) وه. شوالکيکي دا روايتي پوهې شک ونيوه. هغه شک درلود چې دا ډول ډوله بڼه په عمومي توګه سمه ده، شاید ممکن د استثنا یو شمیر شمیرې وي، او د دغو غیر معمولي کالوکسانو مطالعې کولو سره - هغه هغه چې د متوقع نمونې سره سمون نه لري - هغه کولی شي د پروسې په اړه څه شی زده کړي. کیکشاف جوړ شوی.

په دې توګه، د کومې دودیزې پوهې د پورته کولو لپاره سکویسکي څه ویلو ته اړتیا درلوده د مورفولوژيک ډوله محاکمې لویه برخه وه؛ دا هغه آسمانیان دي چې د سرپل یا اډالیکي په توګه طبقه بندي شوي. په هرصورت، ستونزه دا وه چې د طبقه بندي لپاره موجوده الګوریتمیک طریقې لاهم دومره ښه ندي چې د علمي څیړنې لپاره کارول کیږي؛ په بل عبارت، د سپوږمۍ درجه بندي کول، په هغه وخت کې، هغه ستونزې چې د کمپیوټر لپاره ستونزمن وې. له همدې کبله، د اړتیا وړ اړتیاوې د انسانانو کلکه لویه کڅوړه وه. سکویسکي د دې درجه بندي ستونزې د فارغ شوي زده کونکي د لیوالتیا سره مخ کړي. د اووم 12 ساعته ورځو په میراتن سیشن کې، هغه کولی شي د 50،000 کتارونو درجه بندي کړي. پداسې حال کې چې 50،000 ګاکسایان کیدای شي ډیر څه په زړه پورې وي، دا په حقیقت کې یوازې د یو ملیون ګلاسي ګانو څخه نږدې 5٪ دي چې د Sloan ډیجیټل اسکوا سروې کې عکس اخیستی دی. شوویسکي پوهیده چې هغه د سوریه وړ کړنالرې ته اړتیا لري.

له نیکه مرغه، دا سينمايي چې د ډلبندۍ کهکشانونو دنده په نجوم د پرمختللو روزنو ته اړتيا نه لري؛ تاسو کولی شئ چا دا ښایسته په چټکۍ سره وکړو درس ورکړي. په بل عبارت، که څه هم کهکشانونو د ډلبندۍ يوه دنده ده، چې سخت لپاره د کمپيوټر و وي، د هغې ښایسته د انسانانو لپاره اسانه وه. نو، په داسې حال کې په اکسفورډ، Schawinski او هېوادوالو ستورپوه کریس Lintott يو Pub ناست يوه ويب پاڼه کې چې رضاکاران به د کهکشانونو انځورونه طبقه تخيل. څو میاشتې وروسته، Galaxy ژوبڼ کې وزږید.

د ګلیګی زو ویب پاڼې کې، رضاکاران به د څو دقیقو روزنې څخه فارغ شي؛ د مثال په توګه، د سرپل او انډولیکل ګلیګاین ترمنځ توپیر زده کړئ) 5.2 شمیره (. د دې روزنې وروسته، هر داوطلب باید د نسبتا اسانه پوښتنو سره سم د 15 کتګوریو 11 ډلبندۍ په نښه کړو طبقه بندي کړئ - او بیا به د ناڅاپي ګاکساییو اصلي درجه بندي پیل کړي د ساده ویب پر بنسټ (انټرنېټ 5.3). د رضاکارانه ستور ماینورټر لیږد به د 10 دقیقې څخه په کم وخت کې ترسره شي او یوازې یوازې د ټیټ خنډونو، ساده پوښتنو ته اړتیا لري.

شکل 5.2 شکل: د جنازهایانو د دوو اصلي ډولونو مثالونه: سرپل او انډول. د ګلیګی زو پروژه د 100،000 ډیری رضاکارانو څخه د 900،000 څخه زیات انځورونه ډلبندوی. د http://www.GalaxyZoo.org او د Sloan ډیجیټل اسکائی سروې څخه د اجازې بیاکتنه.

شکل 5.2 شکل: د جنازهایانو د دوو اصلي ډولونو مثالونه: سرپل او انډول. د ګلیګی زو پروژه د 100،000 ډیری رضاکارانو څخه د 900،000 څخه زیات انځورونه ډلبندوی. د http://www.GalaxyZoo.org او د Sloan ډیجیټل اسکائی سروې څخه د اجازې بیاکتنه.

شکل 5.3: د انټرنېټ سکرین چیرته چې رضاکارانو ته د یو واحد انځور درجه بندي کولو غوښتنه شوې. د Sloan ډیجیټل اسکائی سروی څخه د انځور پر اساس د کریس لیټوتوت څخه د اجازې بیاکتنه.

شکل 5.3: د انټرنېټ سکرین چیرته چې رضاکارانو ته د یو واحد انځور درجه بندي کولو غوښتنه شوې. د Sloan ډیجیټل اسکائی سروی څخه د انځور پر اساس د کریس لیټوتوت څخه د اجازې بیاکتنه.

ګلیګی زو د پروژې لومړنۍ رضاکاران جذب کړي وروسته له دې چې د یوې مقالې مقاله کې ښودل شوې وه، او د شپږو میاشتو په موده کې دا پروژه د 100،000 څخه ډیر وګړي د ساینسي پوهانو، هغه خلکو سره چې په دې برخه کې یې برخه اخیستې وه پکې برخه اخستې وه او دوی د ستورپوهنې په پرمختګ کې مرسته کوله. یوځای یوځای، دا 100،000 رضاکارانو د 40 میلیونو ډلبندیو څخه ډیری برخه اخیستې، د ډلبندۍ ډیری برخه یې د نسبتا کوچنۍ، د ګډون کوونکو اصلي ګروپ (Lintott et al. 2008) .

هغه څیړونکي چې د لیسانس فارغانو د تحقیق معاونین ګمارل تجربه لري شاید د معلوماتو کیفیت په اړه شکمن وي. پداسې حال کې چې دا شک لرونکی دی، ګلیګی زو دا څرګندوي چې کله رضاکارانه مرستې په سمه توګه پاکې، منحل شوي، او جمع شوي، دوی کولی شي د لوړ کیفیت پایلې تولید کړي (Lintott et al. 2008) . د مسلکي کیفیت ډاټا د جوړولو لپاره د خلکو د ترلاسه کولو لپاره یو مهم چلښت بې ځایه دی ، دا د ډیری مختلفو خلکو لخوا ورته کار ترسره کول دي. په ګیلیکیک زو کې، د هرکشاف په اړه شاوخوا 40 طبقه بندي شتون درلود؛ څیړونکي د لیسانس محاسبې معاونې کاروونکي کاروي هیڅ کله هم د بې ځایه کیدو کچه نه لري او له همدې کبله اړینه ده چې د هر طبقه بندی کیفیت سره ډیر اندیښمن وي. هغه څه چې رضاکاران په روزنه کې نه لري، دوی د بې ځایه کیدو لپاره چمتو کړي.

حتی د هر ګلیګی د ډیری ډلبندیو سره سره، د موافقت طبقه بندي کولو لپاره داوطلبانه طبقه بندی مقررول ستونزمن وو. ځکه چې ډیری ورته ننګونې د ډیرو انساني پیژندنو په پروژو کې رامینځته کیږي، دا په لنډه توګه د دریو مرحلو بیاکتنه کوي چې ګلیګی ژوبو څیړونکو د خپلو موافقو درجه بندي کولو لپاره کارولې. لومړی، څیړونکي د "بوګوس ډلبندیو" لیرې کولو له مخې "پاک" معلومات پاک کړل. د مثال په توګه، هغه خلک چې په عین وخت کې ورته ورته ګاکاین طبقه بندی کوي - هغه څه چې کیدی شي که دوی هڅه وکړي چې پایلې وکتل شي - ټول د دوی ټولګیشنونه بې برخې شوي. دا او نور ورته پاکوالی د ټولو ډلبندیو 4٪ لرې کړ.

دوهم، د پاکولو وروسته، څیړونکي اړین دي چې په ډلبندیو کې سیستماتیک اړخونه لیرې کړي. د اصلي پروژي په ترڅ کې د تعصب د موندلو مطالعې د سلسلو له لارې د بیلګې په توګه، ځینې رضاکاران د رنگ په ځای په مونوکروم کې ګالیکی ښکارندوی کوي - څیړونکي ډیری سیسټمیکې اړخونه موندلي، لکه سیسټمیک تعصب کشفوي چې د سرپل سپوږمکۍ څخه د نري رنځونو په توګه طبقه بندي کړي (Bamford et al. 2009) . د دې سیسټمیک اړخونو تعدیل خورا مهم دی ځکه چې بې ځایه کیدنه په اتوماتيک ډول د سیستماتیک تعصب مخه نیسي؛ دا یوازې د ناسم غلطۍ له منځه وړلو کې مرسته کوي.

په پایله کې، له مینځلو وروسته، څیړونکو یو میتود ته اړتیا درلوده چې د انفرادي طبقاتو سره یوځای کولو لپاره د موافقې درجه بندي کولو لپاره جوړه کړي. د هرکشاف لپاره د ګډ طبقاتو ساده کول به تر ټولو عام ډلبندۍ غوره کړي. په هرصورت، دا تګلاره به هره داوطلب مساوي وزن ورکړي، او څیړونکي شکمن کړي چې ځینې رضاکاران د نورو په پرتله طبقه بندي کې ښه دي. له دې امله، څیړونکو د پیچلي تغیراتو یو ډیر پیچلي پروسيجر رامینځته کړ چې هڅه یې کوله ترټولو غوره طبقه بندی کشف کړي او دوی نور وزن ورکړي.

په دې توګه، د ګیلیکو زو تحقیقاتي ټیم د درې ګامونو پروسې، پاکولو، ضایع کولو او وزن کولو وروسته 40 میلیونه رضاکار طبقه بندي د مورفولوژیکي طبقه بندیونو په یوځای کولو کې بدل کړ. کله چې دا ګلیګی زو درجه بندي د مسلکي ستورپوهانو لخوا د درې پخوانیو هڅو سره پرتله کیده، په شمول د سکینسککي طبقه بندی په شمول چې د ګیلیکې زو د جذبولو کې مرسته کېده، یو پیاوړې موافقه وه. په همدې توګه، رضاکاران، په مجموع کې، د وړ کیفیت درجه بندي کولو وړتیا درلوده او په پیمانه یې محققین نشي کولی (Lintott et al. 2008) . په واقعیت کې، دومره لویو زلزلو لپاره د بشري طبقه بندي کولو له مخې، شاواینسکی، لیټوتوت او نور د دې توان درلوده چې وښیي چې د ګلاسیا تقریبا 80٪ د متوقع نمونې تعقیبوي - نیلي سپیالونه او سره سرخ رپوټونه - او ډیری پاڼې یې په اړه لیکلي دي دا کشف (Fortson et al. 2011) .

د دې پس منظر په پام کې نیولو سره، تاسو کولی شئ وګورئ چې ګلیګی زو د تقلید-درخواست-ګډولو ترکیب تعقیبوي، ورته ورته ترکیب چې د ډیرو انساني احتمالي پروژو لپاره کارول کیږي. لومړی، یوه لویه ستونزه په ټوټو کې ویشل شوې ده. په دې حالت کې، د یو میلیون ګلاسونو د ډلبندۍ ستونزه د یو ګلیګی ټولګۍ د یو میلیون ستونځو سره ویشل شوې وه. بلکه، په هرې برخې کې عملیات تطبیق کیږي . په دې حالت کې، رضاکارانو هر ګالیکی د سیرال یا اډالیکي په توګه طبقه بندي کړه. بالاخره، پایلې د ګډې پایلې تولید لپاره ګډې شوې. په دې حالت کې، د ګډولو ګام په هر ګلیګی کې د موافقې درجه بندي تولید لپاره پاکول، منحل کول، او وزن کول شامل وو. که څه هم ډیری پروژې دا عمومي نسخه کاروي، هر ګام باید مشخصې ستونزې ته ځواب ووايي. د بیلګې په توګه، لاندې تشریح شوي د بشري میتود پروژه کې، ورته ورته لارښوونه به تعقیب شي، مګر د پلي کولو او ګامونو مرحله به خورا توپیر ولري.

د ګلیګی زو ټیم لپاره، دا لومړی پروژه یوازې پیل وو. ډیر ژر دوی پوهیدل چې که څه هم دوی کولی شي نږدې یو ملیون ګلاسيکونو ته طبقه بندي کړي، دا اندازه د نوي ډیجیټل آسمان سروې سره کار کولو لپاره کافي نه ده، چې کولی شي د 10 ملیارده ګالسیو انځورونه (Kuminski et al. 2014) تولید کړي. د یو ملیون څخه تر 10 ملیاردو زیاتوالی - د 10،000-ګیلیکی زو فکتور باید اړینه ده چې نږدې 10000 ځلې نور ګډون کونکي استخدام کړي. که څه هم په انټرنیټ کې د رضاکارانو شمیر لوی دی، دا لامحدود نه دی. له همدې امله، څیړونکي پدې پوه شول چې که دوی د ډیرو معلوماتو ډیروالی اداره کړي، نو یو نوی، حتی د توغندی وړ وي، الره ورته اړتیا وه.

له همدې امله، منډن بنرجی - د شاوینکی، لیټوتټ او د ګلیګی زو ټیم نورو غړو سره کار کول (2010) - د کالوګیانو طبقه بندی کولو لپاره تدریس کمپیوټرونه پیل کړل. په خاصه توګه، د ګیلیکیک زو لخوا رامینځته شوي بشري طبقاتو کارولو سره، بنرجی د ماشین زده کړه یوه ماډل جوړه کړه چې د انځورونو ځانګړتیاو پر بنسټ د ګاکسیک د انسان طبقه بندي اټکل کولی شي. که دا ماډل کولی شي د انسانیت ډلبندۍ د لوړې سمتیا سره بیا تولید کړي، نو دا د ګیلیکی زو څیړونکو لخوا کارول کیدی شي ترڅو د بالاخره یو لامحدود تعداد ډلبندۍ کړي.

د بنرجي او د همکارانو تګلاره اصلي واقعیا ده چې تخنیکونو کې عموما په ټولنیز څیړنه کې کارول کیږي، که څه هم ورته ورته والی په لومړي نظر کې واضح نه وي. لومړی، بنرجی او همکارانو هر انځور د شمیرو ځانګړتیاوو ته یو ځای بدل کړ چې د هغې ملکیت لنډیز کړی. د مثال په توګه، د پراخوکسانو انځورونو لپاره، کېدای شي درې ځانګړتیاوې وي: د نیل رنګ اندازه په عکس کې، د پکسل په روښانتیا کې توپیر، او د غیر سپینو پکسلونو تناسب. د سم ځانګړتیاوو ټاکنه د ستونزې یوه مهمه برخه ده، او دا په عمومی توګه د موضوع ساحه لرونکو مهارتونو ته اړتیا لري. دا لومړی ګام چې په عمومي توګه د انجینیرۍ په نامه یادېږي، د معلوماتو میٹرکس کې پایلې د هر قطار لپاره په یوه قطار او بیا وروسته درې پوټونه چې دا انځور بیانوي. د ارقامو او د مطلوب محصول په پام کې نیولو سره (د بیلګې په توګه، آیا دا انځور د انسان له خوا د انډولیکل ګلیګی په بڼه طبقه بندي شوی)، څیړونکی د احصایوي یا ماشین زده کړې ماډل رامینځته کوي - د بیلګې په توګه، لوژستیکی ثبت - چې د ځانګړتیاو پراساس د انسان طبقه بندی وړاندیز کوي د انځور انځور. په پای کې، محقق پدې شمول د ماډل ماډلونه کاروي تر څو د نوي کیلوکسونو اټکل شوي درجه بندي تولید کړي) شکل 5.4 (. په ماشین زده کړه، دا طریقه - د لیبل بیلګې بیلګې په کارولو سره یوه نمونه جوړه کړي چې بیا کولی شي نوي ډاټا لیبل کړي - د نظارت شوي زده کړې په نامه یادېږي.

شکل 5.4: د بنرجی او ال. (2010) د ګالیکی طبقه کولو لپاره د ګیلیکو زو درجه بندي کولو لپاره د ماینسي زده کړې ماډل روزل. د ګلاسيانو انځورونه د ځانګړتياو په يوه جدول کې بدل شوي. په ساده ساده مثال کې، درې ځانګړتیاوې شتون لري (د انځور اندازه په نیټه کې، د پکسل په روښانتیا کې توپیر، او د نوبت لرونکي پکسل تناسب). بیا، د انځورونو د یوې برخې لپاره، د ماشین زده کړې ماډل روزلو لپاره د ګلیګا ژوب لیبلونه کارول کیږي. په پاى کې، د ماشين زده کړه د پاتې آسمانونو لپاره د طبقاتو اټکل کولو لپاره کارول کيږي. زه دا د کمپیوټر لخوا مرسته شوی بشري سایټ پروژې ته بلنه ورکوم ځکه چې انسان د ستونزې حل کولو په ځای، دا یو داسې ډاټا لري چې د ستونزې حل کولو لپاره د کمپیوټر روزلو لپاره کارول کیدی شي. د دې کمپیوټر ګټه - د بشري سایټ سره مرسته شوي سیستم دا دی چې دا تاسو ته د دې توان ورکوي چې یوازې د لامحدود مقدارونو بشري کارولو په کارولو سره د لاتینې ډیټا ډاټا سمبال کړي. د سلوان ډیجیټل اسکائی سروی څخه د لیکسونو انځورونه بیا تولید شوي.

شکل 5.4: د Banerji et al. (2010) د ګالیکی طبقه کولو لپاره د ګیلیکو زو درجه بندي کولو لپاره د ماینسي زده کړې ماډل روزل. د ګلاسيانو انځورونه د ځانګړتياو په يوه جدول کې بدل شوي. په ساده ساده مثال کې، درې ځانګړتیاوې شتون لري (د انځور اندازه په نیټه کې، د پکسل په روښانتیا کې توپیر، او د نوبت لرونکي پکسل تناسب). بیا، د انځورونو د یوې برخې لپاره، د ماشین زده کړې ماډل روزلو لپاره د ګلیګا ژوب لیبلونه کارول کیږي. په پاى کې، د ماشين زده کړه د پاتې آسمانونو لپاره د طبقاتو اټکل کولو لپاره کارول کيږي. زه دا د کمپیوټر لخوا مرسته شوی بشري سایټ پروژې ته بلنه ورکوم ځکه چې انسان د ستونزې حل کولو په ځای، دا یو داسې ډاټا لري چې د ستونزې حل کولو لپاره د کمپیوټر روزلو لپاره کارول کیدی شي. د دې کمپیوټر ګټه - د بشري سایټ سره مرسته شوي سیستم دا دی چې دا تاسو ته د دې توان ورکوي چې یوازې د لامحدود مقدارونو بشري کارولو په کارولو سره د لاتینې ډیټا ډاټا سمبال کړي. د سلوان ډیجیټل اسکائی سروی څخه د لیکسونو انځورونه بیا تولید شوي.

د بنرجی او د همکارانو د ماشین زده کړې نمونې کې ځانګړتیا زما د ټیلفوني بیلګې په پرتله خورا پیچلې وې - د بیلګې په توګه، هغې د "د ویکلورز فوټ محوری تناسب" لکه د وی ماډل لوژستیک تاکید نه و، لکه دا مصنوعي نیورین شبکه وه. د هغې ځانګړتیاوې، د هغې موډل، او د موافقې ګلیګی زو درجه بندي کول، هغه کولی شي په هر ډول کې وزن پیدا کړي، او بیا د ګلاسایسي طبقو طبقه بندی په اړه وړاندیزونه کولو لپاره دا وزنونه کاروي. د بیلګې په توګه، د هغې تحلیل موندلي چې د ټيټ "دي ویکلورز فوټ محلي تناسب" انځورونه احتمال لري د سرکش ګالسونو څخه. د دغو وزنونو په پام کې نیولو سره، هغې کولی شو د یوه ګاکسیکي انسانیت طبقه بندي د مناسب صداقت سره وړاندیز کړو.

د بنرجي او همکارانو کار د ګلیګی زو بدل کړ چې هغه به زه د کمپیوټر په مرسته د بشري سیسټم سیسټم ته وایم. د دې حفظ الصحې سیسټمونو په اړه فکر کولو غوره لاره دا ده چې د انسان ستونزې حل کړي، دوی انسانان داسې ډاټا لري چې د ستونزې حل کولو لپاره د کمپیوټر د روزنې لپاره کارول کیدی شي. ځینې ​​وختونه، د ستونزې حل کولو لپاره کمپیوټر روزنه کولی شي ډیری مثالونو ته اړتیا ولري، او د کافي شمیر مثالونو تولید لپاره یوازینۍ لار د ډله ییزو همکاریو یوه برخه ده. د دې کمپیوټر لخوا مرسته شوي مرسته دا ده چې دا تاسو ته توان ورکوي چې په بنسټیز ډول د انډول ډیټا ډاټا سره یواځې د یوې قطعې بشري هڅې په کارولو سره اداره کړي. د مثال په توګه، یو څیړونکی چې د یو میلیون انسانانو طبقه بندي کالوکسانو سره کولی شي یو وړاندیزونکي ماډل رامینځته کړي چې بیا وروسته د یو ملیارده یا حتی یو ټریلیون کالوکسونو طبقه بندی کولو لپاره کارول کیدی شي. که چیرې د سترګو شمیره زیاته وي نو بیا د انسان کمپیوټر کمپیوټر دا ډول حل لاره ده. په داسې حال کې چې دا لاتین سکیلالي وړیا وړیا نه ده. د ماشین زده کړې ماډل رامینځته کول چې کولی شي په سمه توګه د انسان طبقاتو بیاکتنه کول پخپله ستونزمن ستونزه وي، مګر خوشبخته د دې موضوع لپاره وقف شوي (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) کتابونه شتون لري (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

ګلیګی زو یو ښه انځور دی چې د انسان د شمیرې څومره پروژې پراختیا ومومي. لومړی، یو محقق د ځان لخوا یا د تحقیق معاونینو د کوچنیو ټیم سره) پروژه، د مثال په توګه، د Schawinski لومړنۍ درجه بندي هڅه (هڅه کوي. که چیرې دا تګالره په ښه توګه اندازه ونه کړي، څیړونکی کولی شي د ډیرو ګډون کونکو سره د انساني شمولیت پروژې ته حرکت وکړي. مګر، د یوې مشخصې ډاټا لپاره، د خالص انساني هڅې هڅې به کافی نه وي. په دې وخت کې، څیړونکي باید د کمپیوټر په مرسته د بشري سیسټم سیسټم رامینځته کړي چې په هغه کې انساني طبقه بندي د ماشین زده کړې نمونې روزلو لپاره کارول کیږي چې بیا به د معلوماتو له لامحدود معلوماتو سره تطبیق شي.