5.2.1 Galaxy Zoo

ეს თარგმანი შეიქმნა კომპიუტერი. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

5.2.1 Galaxy Zoo

Galaxy Zoo აერთიანებს ძალისხმევით ბევრი არასამთავრობო ექსპერტი მოხალისეები დაალაგეთ მილიონი galaxies.

Galaxy Zoo გაიზარდა გარეთ პრობლემის Kevin Schawinski, კურსდამთავრებული ასტრონომიის უნივერსიტეტის ოქსფორდის 2007 გამარტივება საკმაოდ მწირი, Schawinski იყო დაინტერესებული galaxies, და გალაქტიკები შეიძლება კლასიფიცირდება მათი მორფოლოგია-ელიფსური ან სპირალური და მათი ფერი-ლურჯი ან წითელი. ამავე დროს, ჩვეულებრივი სიბრძნე ასტრონომები იყო, რომ სპირალური გალაქტიკები, ისევე როგორც ჩვენი ირმის ნახტომი, იყო ლურჯი ფერის (მიუთითებს ახალგაზრდული) და რომ ელიფსური გალაქტიკები წითელი ფერის (მიუთითებს სიბერის). Schawinski ეჭვობს, ეს ჩვეულებრივი სიბრძნე. იგი ეჭვმიტანილია, რომ სანამ ეს ნიმუში შეიძლება იყოს ჭეშმარიტი ზოგადად, არ იყო, ალბათ, საკმაოდ დიდი რაოდენობის გამონაკლისი, და რომ შესწავლის უამრავი ამ უჩვეულო გალაქტიკა-პირობა, რომ არ შეესაბამება მოსალოდნელ ნიმუში მან ისწავლოს რაღაც პროცესის შესახებ, რომლის მეშვეობითაც galaxies ჩამოყალიბდა.

ასე რომ, რა Schawinski საჭირო იმისათვის, რომ დაამარცხო ჩვეულებრივი სიბრძნე იყო დიდი ნაკრები მორფოლოგიურად საიდუმლო galaxies; რომ არის, გალაქტიკები, რომ უკვე კლასიფიცირებულია spiral ან ელიფსური. პრობლემა ის იყო, რომ არსებული ალგორითმული მეთოდები კლასიფიკაცია ჯერ კიდევ არ იყო საკმარისი, რომ გამოიყენება სამეცნიერო კვლევა; სხვა სიტყვებით, გასაიდუმლოების galaxies იყო, იმ დროს, პრობლემა, რომ რთული იყო კომპიუტერი. ამიტომ, რა საჭირო იყო დიდი რაოდენობის ადამიანის კლასიფიცირდება galaxies. Schawinski იკისრა ამ კლასიფიკაციით პრობლემა ენთუზიაზმით კურსდამთავრებული. მარათონი სხდომაზე შვიდი, დღეში 12 საათი, მან შეძლო დაალაგეთ 50,000 galaxies. მიუხედავად იმისა, რომ 50,000 galaxies შეიძლება ჟღერს, როგორც ბევრი, ეს არის რეალურად მხოლოდ 5% თითქმის ერთი მილიონი galaxies, რომ უკვე გადაიღო Sloan Digital Sky კვლევა. Schawinski მიხვდა, რომ საჭიროა მეტი scalable მიდგომა.

საბედნიეროდ, გამოდის, რომ ამოცანა გასაიდუმლოების galaxies არ საჭიროებს წინასწარი მომზადება ასტრონომია; შეგიძლიათ ასწავლიან ვინმე ამას საკმაოდ სწრაფად. სხვა სიტყვებით, მიუხედავად იმისა, რომ გასაიდუმლოების galaxies არის ამოცანა, რომ რთული იყო კომპიუტერი, ეს იყო საკმაოდ მარტივია ადამიანები. ასე რომ, ხოლო იჯდა pub Oxford, Schawinski და თანამემამულე ასტრონომი Chris Lintott ოცნებობდა ნახვა, სადაც მოხალისეები იქნებოდა დაალაგეთ გამოსახულებები galaxies. რამდენიმე თვის შემდეგ, Galaxy Zoo დაიბადა.

ამავე Galaxy Zoo ნახვა, მოხალისეები გაივლიან რამდენიმე წუთის სწავლება; მაგალითად, სწავლის განსხვავება spiral და ბილიკები galaxy (ცხრილი 5.2). მას შემდეგ, რაც ამ სასწავლო, მოხალისეები ჰქონდა გავლა შედარებით ადვილია ინტელექტუალური სწორად გასაიდუმლოების 11 15 galaxies ცნობილი კლასიფიკაციით და შემდეგ მოხალისე დაიწყება რეალური კლასიფიკაცია უცნობი გალაქტიკებს მეშვეობით მარტივი ვებ დაფუძნებული ინტერფეისი (ნახაზი 5.3). გადასვლას მოხალისე ასტრონომი მოხდებოდა 10 წუთზე ნაკლები და მხოლოდ საჭირო გავლის დაბალი hurdles, მარტივი ვიქტორინა.

ცხრილი 5.2: მაგალითები ორი ძირითადი ტიპის გალაქტიკების: spiral და ბილიკები. The Galaxy Zoo პროექტის გამოიყენება მეტი 100,000 მოხალისეები კატეგორია ზე მეტი 900,000 images. წყარო: www.galaxyzoo.org .

ცხრილი 5.3: Input ეკრანზე, სადაც ამომრჩეველთა სთხოვეს დაალაგეთ ერთ იმიჯი. წყარო: www.galaxyzoo.org .

Galaxy Zoo მიიპყრო მისი თავდაპირველი მოხალისეები შემდეგ პროექტი გამორჩეულ სტატია, და დაახლოებით ექვსი თვის განმავლობაში პროექტის გაიზარდა ჩართვას მეტი 100,000 მოქალაქე მეცნიერები, რომლებიც მონაწილეობდნენ, რადგან ისინი სარგებლობდა ამოცანა და უნდოდათ დაეხმარონ ასტრონომია. ერთად, ამ 100,000 მოხალისეები წვლილი სულ მეტი 40 მილიონი კლასიფიკაციით, რომლის უმრავლესობა კლასიფიკაციათა მოდის შედარებით მცირე, ძირითადი ჯგუფის მონაწილეები (Lintott et al. 2008) .

მკვლევარებმა, რომლებსაც აქვთ გამოცდილება აყვანის ბაკალავრიატის კვლევის თანაშემწეები შეიძლება დაუყოვნებლივ უნდა სკეპტიკურად მონაცემთა ხარისხის. მიუხედავად იმისა, რომ ეს სკეპტიციზმი არის გონივრული, Galaxy Zoo გვიჩვენებს, რომ როდესაც მოხალისე წვლილი სწორად გაიწმინდა, debiased და ერთიანი, მათ შეუძლიათ აწარმოოს მაღალი ხარისხის შედეგები (Lintott et al. 2008) . მნიშვნელოვანი ავტორია მიღების გულშემატკივარი შექმნათ პროფესიონალური ხარისხის მონაცემები redundancy; რომ არის, რომელმაც იგივე ამოცანა შესრულებული სხვადასხვა ხალხს. In Galaxy Zoo, იყო დაახლოებით 40 კლასიფიკაციით პოსტი galaxy; მკვლევარები გამოყენებით ბაკალავრიატის კვლევის თანაშემწეები ვერასოდეს ახერხებს ამ დონის redundancy და, შესაბამისად, უნდა იყოს ბევრად უფრო აღელვებს ხარისხის თითოეული კლასიფიკაციით. რა მოხალისეები აკლდა ტრენინგი, მათ შედგება ერთად redundancy.

კიდევ მრავალი კლასიფიკაციით პოსტი galaxy, თუმცა, რომელიც აერთიანებს კომპლექტი მოხალისე კლასიფიკაციით წარმოების კონსენსუსის კლასიფიკაციით არის სახიფათო. იმის გამო, რომ ძალიან ჰგავს გამოწვევები წარმოიქმნება ყველაზე ადამიანური გამოთვლითი პროექტები, ეს არის გამოსადეგი მოკლედ მიმოვიხილოთ სამი ნაბიჯი, რომ Galaxy Zoo მკვლევარებმა გამოიყენეს აწარმოოს მათი კონსენსუსი კლასიფიკაციით. პირველი, მკვლევარები "გაიწმინდა" მონაცემები მოხსნის ყალბი კლასიფიკაციით. მაგალითად, ადამიანი, რომელმაც არაერთხელ კლასიფიცირდება იგივე galaxy-რაღაც რომ მოხდება, თუ ისინი მანიპულირებას ცდილობს შედეგებზე ჰქონდა ყველა მათი კლასიფიკაციით განადგურდეს. ამ და სხვა მსგავსი დასუფთავების ამოღებულია დაახლოებით 4% ყველა კლასიფიკაციით.

მეორე, შემდეგ გაწმენდა, მკვლევარები საჭირო ამოიღონ სისტემური მიკერძოებულობა კლასიფიკაციით. მთელი რიგი კომპენსაცია გამოვლენის კვლევების ჩანერგილი ფარგლებში ორიგინალური პროექტი, მაგალითად, აჩვენებს ზოგიერთი მოხალისეები გალაქტიკაში მონოქრომული ნაცვლად ფერადი მკვლევარებმა აღმოაჩინეს რამდენიმე სისტემური მიმართულებისა, როგორიცაა სისტემური კომპენსაცია დაალაგეთ შორს სპირალური გალაქტიკა როგორც ელიფსური გალაქტიკები (Bamford et al. 2009) . მომართვა ამ სისტემურ მიმართულებისა ძალიან მნიშვნელოვანია, რადგან საშუალოდ ბევრი წვლილი არ ამოიღონ სისტემური კომპენსაცია; ეს მხოლოდ შლის შემთხვევითი შეცდომა.

საბოლოოდ, მას შემდეგ debiasing, მკვლევართა საჭირო მეთოდი გაერთიანდება ინდივიდუალური კლასიფიკაციით წარმოების კონსენსუსის კლასიფიკაციით. უმარტივესი გზა გაერთიანდება კლასიფიკაციით თითოეული galaxy იქნება არჩევანის ყველაზე გავრცელებული კლასიფიკაცია. თუმცა, ეს მიდგომა საშუალებას მისცემს თითოეული მოხალისე თანაბარი წონა და მკვლევარები ეჭვი, რომ ზოგიერთი მოხალისეები უკეთ კლასიფიკაციით, ვიდრე სხვები. აქედან გამომდინარე, მკვლევარებმა უფრო რთული განმეორებითი აწონვა პროცედურა, რომელიც ცდილობს ავტომატურად აღმოაჩინოს საუკეთესო კლასიფიკატორების და მათ მეტი წონა.

ამდენად, მას შემდეგ, რაც სამი ნაბიჯი პროცესი გაწმენდა, debiasing და წონის-the Galaxy Zoo კვლევის ჯგუფის მოაქცია 40 მილიონი მოხალისე კლასიფიკაციით შევიდა რიგი კონსენსუსის მორფოლოგიური კლასიფიკაცია. როდესაც ეს Galaxy Zoo კლასიფიკაციით შედარებით წინა სამი მცირე მასშტაბის მცდელობა პროფესიული ასტრონომები, მათ შორის კლასიფიკაცია Schawinski რომ დაეხმარა გააჩინოს Galaxy Zoo, იყო ძლიერი შეთანხმებას. ამდენად, მოხალისეები, საერთო, შეძლეს მაღალი ხარისხის კლასიფიკაციით და მასშტაბის, რომ მკვლევარები ვერ ემთხვევა (Lintott et al. 2008) . ფაქტობრივად, მიერ, რომელსაც ადამიანის კლასიფიკაციით, ასეთი დიდი რაოდენობით galaxies, Schawinski, Lintott, და სხვები შეძლეს აჩვენებს, რომ მხოლოდ 80% galaxies დაიცვას მოსალოდნელი ნიმუში ლურჯი სპირალებს და წითელი ელიფსური და მრავალი ნაშრომი დაიწერა ეს აღმოჩენა (Fortson et al. 2011) .

ამ ყველაფრის გათვალისწინებით, ჩვენ ახლა ვხედავთ, თუ Galaxy Zoo შემდეგნაირად გაყოფილი ვრცელდება-გაერთიანდება რეცეპტი, იგივე რეცეპტი, რომელიც გამოიყენება უმეტეს ადამიანის გამოთვლითი პროექტები. პირველ რიგში, დიდი პრობლემა გაიყო მოცულობით. ამ შემთხვევაში, პრობლემა გასაიდუმლოების მილიონი galaxies გაიყო მილიონი პრობლემები გასაიდუმლოების ერთ გალაქტიკაში. შემდეგი, ოპერაცია მიმართა თითოეული ბლოკი დამოუკიდებლად. ამ შემთხვევაში, მოხალისე იქნებოდა დაალაგეთ თითოეულ გალაქტიკაში, როგორც არც სპირალი ან ელიფსური. და ბოლოს, შედეგების კომბინირებული წარმოება კონსენსუსის შედეგი. ამ შემთხვევაში, დააკავშიროთ ნაბიჯი შედის გაწმენდა, debiasing და წონის წარმოების კონსენსუსის კლასიფიკაციით თითოეულ გალაქტიკაში. მიუხედავად იმისა, რომ საუკეთესო პროექტების გამოიყენოს ეს ზოგადი რეცეპტი, თითოეული ნაბიჯები უნდა მორგებულია კონკრეტული პრობლემა გვარდება. მაგალითად, ადამიანის გამოთვლები პროექტის აღწერილია ქვემოთ, იგივე რეცეპტი მოჰყვება, მაგრამ ვრცელდება და აერთიანებს ნაბიჯები იქნება სრულიად განსხვავებული.

იყიდება Galaxy Zoo გუნდი, ეს პირველი პროექტი იყო მხოლოდ დასაწყისია. ძალიან სწრაფად მიხვდნენ, რომ მიუხედავად იმისა, რომ მათ შეძლეს დაალაგეთ ახლოს მილიონი galaxies, ამ მასშტაბის არ არის საკმარისი მუშაობა ახალი ციფრული sky კვლევები, რომელიც შეიძლება აწარმოოს images დაახლოებით 10 მილიარდი გალაქტიკაა (Kuminski et al. 2014) . გაუმკლავდეს ზრდა 1 მლნ 10 მლრდ-ფაქტორი 10,000 Galaxy Zoo უნდა გადაბირების დაახლოებით 10,000 ჯერ მეტი მონაწილე. მიუხედავად იმისა, რომ დიდი რაოდენობით მოხალისე ინტერნეტში არის დიდი, რომ ეს არ არის უსასრულო. აქედან გამომდინარე, მკვლევართა მიხვდა, რომ თუ ისინი აპირებენ გაუმკლავდეს ოდესმე მზარდი რაოდენობით მონაცემები, ახალი, კიდევ უფრო scalable, მიდგომაა საჭირო.

აქედან გამომდინარე, Manda Banerji სამუშაო კევინ Schawinski, კრის Lintott და სხვა წევრები Galaxy Zoo გუნდი დაწყებული სწავლების კომპიუტერები დაალაგეთ galaxies. უფრო კონკრეტულად, გამოყენებით ადამიანის კლასიფიკაციით ქმნის Galaxy Zoo, Banerji et al. (2010) ააშენა მანქანა სწავლის მოდელი, რომელიც შეიძლება პროგნოზირება ადამიანის კლასიფიკაცია galaxy საფუძველზე მახასიათებლები იმიჯი. თუ ეს მანქანა სწავლის მოდელი შეიძლება აღვადგინოთ ადამიანის კლასიფიკაციით მაღალი სიზუსტით, მაშინ იგი შეიძლება გამოყენებული იქნას Galaxy Zoo მკვლევარები დაალაგეთ არსებითად უსასრულო რაოდენობის galaxies.

ძირითადი Banerji და კოლეგების მიდგომა რეალურად საკმაოდ მსგავსია ტექნიკა გამოიყენება სოციალური კვლევის, მიუხედავად იმისა, რომ მსგავსება შეიძლება არ იყოს ნათელი ერთი შეხედვით. პირველი, Banerji და კოლეგებს მოაქცია თითოეული სურათი შევიდა რიგი რიცხვითი თვისებები, რომ შევაჯამოთ ეს თვისებები. მაგალითად, გამოსახულებები galaxies არ შეიძლება იყოს სამი თვისებები: თანხის ლურჯი იმიჯი, ეწინააღმდეგება სიკაშკაშე pixels, და წილი არასამთავრობო თეთრი პიქსელი. შერჩევა სწორი თვისებები არის მნიშვნელოვანი ნაწილი პრობლემა, და ეს ზოგადად მოითხოვს დარგობრივი სფეროს ექსპერტიზა. ეს პირველი ნაბიჯი, საყოველთაოდ მოუწოდა ფუნქცია საინჟინრო, შედეგების მონაცემთა მატრიცის ერთი რიგის ერთ იმიჯი და შემდეგ სამი სვეტით აღწერილია, რომ იმიჯი. იმის გათვალისწინებით, რომ მონაცემების მატრიცა და სასურველი გამომავალი (მაგალითად, თუ გამოსახულება კლასიფიცირდება ადამიანის, როგორც ელიფსური გალაქტიკა), მკვლევარი აფასებს პარამეტრების სტატისტიკური მოდელი, მაგალითად, რაღაც ლოგისტიკური რეგრესია, რომ პროგნოზით ადამიანის კლასიფიკაციის საფუძველზე თვისებები იმიჯი. და ბოლოს, მკვლევარი იყენებს პარამეტრების სტატისტიკური მოდელი წარმოების სავარაუდო კლასიფიკაციით ახალი გალაქტიკა (5.4). ვფიქრობ, რომ სოციალური ანალოგი, წარმოიდგინეთ, რომ თქვენ ჰქონდა დემოგრაფიული ინფორმაციას მილიონი სტუდენტები, და თქვენ იცით, თუ არა ისინი დაამთავრა კოლეჯი თუ არა. თქვენ ვერ ჯდება ლოგისტიკური რეგრესია ამ მონაცემების მიხედვით, და მაშინ შეიძლება გამოიყენოს შედეგად მოდელი პარამეტრების პროგნოზირება თუ არა ახალი სტუდენტები ვაპირებთ დაამთავრეს კოლეჯი. მანქანა სწავლის, ეს მიდგომა გამოყენებით შეაფასა ნიმუში შექმნა სტატისტიკური მოდელი, რომელიც შეიძლება შემდეგ წარწერა new მონაცემთა ეწოდება ზედამხედველობას სწავლის (Hastie, Tibshirani, and Friedman 2009) .

5.4: გამარტივებული აღწერა, თუ როგორ Banerji et al. (2010) გამოყენებული Galaxy Zoo კლასიფიკაციით მოამზადებენ მანქანა სწავლის მოდელის ამის galaxy კლასიფიკაციით. სხვადასხვა გალაქტიკები მოაქცია მატრიცის ფუნქციები. ამ გამარტივებული მაგალითად არსებობს სამი თვისებები (თანხის ლურჯი იმიჯი, ეწინააღმდეგება სიკაშკაშე pixels, და წილი არასამთავრობო თეთრი პიქსელი). მაშინ, სუბსეტ სურათები, Galaxy Zoo ეტიკეტები გამოიყენება მოამზადებენ მანქანა სწავლის მოდელი. და ბოლოს, მანქანა სწავლის გამოიყენება, რათა დადგინდეს კლასიფიციას დარჩენილი galaxies. მოვუწოდებ ამ სახის პროექტი მეორე თაობის ადამიანის კომპიუტერული პროექტი, რადგან, ვიდრე ადამიანები გადაჭრას პრობლემა, მათ აქვთ ადამიანები აშენება ნაკრებს, რომელიც შეიძლება გამოყენებულ მოამზადებენ კომპიუტერული პრობლემის მოგვარება. უპირატესობა ამ კომპიუტერის დახმარებით მიდგომა არის, რომ ის საშუალებას გაძლევთ გაუმკლავდეს არსებითად უსასრულო რაოდენობით მონაცემების გამოყენებით მხოლოდ სასრული რაოდენობით ადამიანის ძალისხმევა.

ფუნქციების Banerji et al. (2010) მანქანა სწავლის მოდელი იყო, უფრო რთული, ვიდრე ჩემი სათამაშო მაგალითად, მაგალითად, იგი გამოიყენება თვისებები, როგორიცაა "de Vaucouleurs ჯდება ღერძულ რაციონი" და მისი მოდელი არ იყო ლოგისტიკური რეგრესია, რომ ეს იყო ხელოვნური ნეირონული ქსელი. გამოყენება მისი თვისებები, მისი მოდელი და კონსენსუსის Galaxy Zoo კლასიფიკაციით, მან შეძლო შექმნა წონით თითოეული ფუნქცია და შემდეგ გამოიყენოს ეს Weights, რათა წინასწარმეტყველება კლასიფიკაცია გალაქტიკა. მაგალითად, მისი ანალიზი აღმოჩნდა, რომ სურათების დაბალი "de Vaucouleurs ჯდება ღერძულ რაციონი" უფრო სავარაუდოა, რომ იყოს სპირალური გალაქტიკა. იმის გათვალისწინებით, ეს წონა, მან შეძლო პროგნოზირება ადამიანის კლასიფიკაცია galaxy გონივრული სიზუსტით.

მუშაობა Banerji et al. (2010) აღმოჩნდა Galaxy Zoo შევიდა, მე ვიტყოდი, მეორე თაობის ადამიანის გამოთვლითი სისტემა. საუკეთესო გზა, რათა ვიფიქროთ, რომ ეს მეორე თაობის სისტემების, რომ ვიდრე მქონე ადამიანები გადაჭრას პრობლემა, მათ აქვთ ადამიანები აშენება ნაკრებს, რომელიც შეიძლება გამოყენებულ მოამზადებენ კომპიუტერული პრობლემის მოგვარება. თანხის მონაცემები საჭიროა მომზადება კომპიუტერი შეიძლება იყოს იმდენად დიდი, რომ ის მოითხოვს ადამიანის მასობრივი თანამშრომლობით, რათა შეიქმნას. იმ შემთხვევაში, Galaxy Zoo, ნერვული ქსელების მიერ გამოყენებული Banerji et al. (2010) საჭირო ძალიან დიდი რაოდენობით ადამიანის შეაფასა მაგალითები, რათა ავაშენოთ მოდელი, რომელიც შეძლო საიმედოდ აღვადგინოთ ადამიანის კლასიფიკაციით.

უპირატესობა ამ კომპიუტერის დახმარებით მიდგომა არის, რომ ის საშუალებას გაძლევთ გაუმკლავდეს არსებითად უსასრულო რაოდენობით მონაცემების გამოყენებით მხოლოდ სასრული რაოდენობით ადამიანის ძალისხმევა. მაგალითად, მკვლევარი მილიონი ადამიანის კლასიფიცირდება galaxies შეძლოთ პროგნოზირების მოდელის, რომელიც შეიძლება იქნას გამოყენებული დაალაგეთ მილიარდი ან თუნდაც ტრილიონი galaxies. თუ არსებობს უზარმაზარი რაოდენობით galaxies, მაშინ ამ სახის ადამიანის კომპიუტერული ჰიბრიდული მართლაც ერთადერთი შესაძლო გზაა. ამ უსასრულო scalability უფასო არ არის, თუმცა. მშენებლობის მანქანა სწავლის მოდელი, რომელიც სწორად რეპროდუცირება ადამიანის კლასიფიკაციით თავისთავად რთული პრობლემა, მაგრამ, საბედნიეროდ, უკვე არსებობს შესანიშნავი წიგნი ეძღვნება ამ თემას (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo გვიჩვენებს ევოლუცია ადამიანის გამოთვლითი პროექტები. პირველი, მკვლევარი ცდილობს პროექტის თავად ან პატარა გუნდი კვლევის თანაშემწეები (მაგალითად, Schawinski თავდაპირველი კლასიფიკაცია ძალისხმევა). თუ ეს მიდგომა არ გავაფართოვოთ, მკვლევარი შეგიძლიათ გადაადგილება, რათა ადამიანის გამოთვლები პროექტი, სადაც ბევრი ადამიანი შეუწყობს კლასიფიკაციით. თუმცა, გარკვეული მოცულობის მონაცემები, სუფთა ადამიანის ძალისხმევა არ იქნება საკმარისი. ამ დროს, მკვლევართა უნდა ავაშენოთ მეორე თაობის სისტემები, სადაც ადამიანის კლასიფიკაციით გამოიყენება მოამზადებენ მანქანა სწავლის მოდელი, რომელიც შეიძლება იქნას გამოყენებული პრაქტიკულად შეუზღუდავი რაოდენობით მონაცემები.