5.2.1 Galaxy Zoo

Galaxy Zoo, bir milyon gökadayı təsnif etmək üçün bir çox qeyri-ixtisas könüllülərinin səylərini birləşdirdi.

Galaxy Zoo, 2007-ci ildə Oxford Universitetində Astronomiya məzunu olan Kevin Schawinski'nin qarşılaşdığı bir problemdən böyüdü. Schawinski gökadalar ilə maraqlandı və gökadalar morfoloji-elliptik və ya spiral və rəngli-mavi və ya qırmızıya görə. O dövrdə astronomlar arasındakı ənənəvi müdriklik bizim Samanyolu kimi spiral gökadalar rəngli (gəncləri göstərən), elliptik gökadalar isə qırmızı (yaşı göstərən) idi. Schawinski bu şərəfli hikmətə şübhə etdi. Bu nümunənin ümumiyyətlə doğru olmasına baxmayaraq, ehtimal olunan çox sayda istisnalar var idi və bu qeyri-adi gökadaların bir çoxunu - gözlənilən modelə uyğun olmayan şeyləri öyrənməklə - bu proseslə bağlı bir şey öyrənə bilərdi. Gökadalar meydana gəldi.

Beləliklə, Schawinski ənənəvi hikməti ləğv etmək üçün lazım olan morfoloji cəhətdən gizli qalaktikaların böyük bir hissəsidir; yəni spiral və ya eliptik olaraq təsnif edilmiş galaktikalardır. Bununla yanaşı problem, təsnifat üçün mövcud alqoritmik metodlar elmi tədqiqatlar üçün istifadə olunmaq üçün kifayət qədər yaxşı deyil idi; başqa sözlə, gökadaların təsnifatı o zaman kompüterlər üçün çətin olan bir problem idi. Buna görə, lazım olan çox sayda insan təsnif edilmiş gökadalar idi. Schawinski, bu təsnifat problemini lisenziya tələbəsi coşğusu ilə üstələdi. Yeddi 12 saatlıq bir marafon sessiyasında, o, 50.000 qalaktikanı təsnif edə bildi. 50.000 qalaktikanın bir çoxu kimi səslənə biləcəyi halda, Sloan Digital Sky Survey'də şəkli çəkilən təxminən bir milyon qalaktikanın təxminən 5% -ni təşkil edir. Schawinski daha geniş ölçülü bir yanaşma lazım olduğunu anladı.

Xoşbəxtlikdən, bu təsnif Gökadalar vəzifəsi astronomiya qabaqcıl təlim tələb etmir çıxır; Siz olduqca tez bunu kimsə öyrətmək olar. Gökadalar təsnifatı kompüterlər üçün çətin olan bir məsələ olsa, başqa sözlə, o, insanlar üçün olduqca asan idi. Belə ki, Oxford, Schawinski və tabeçilikdə astronom Chris Lintott bir pub oturarkən könüllü Gökadalar images təsnif ki, bir haqqinda arzusunda. Bir neçə ay sonra, Galaxy Zoo anadan olub.

Galaxy Zoo saytında, könüllülər bir neçə dəqiqə təlim keçəcək; məsələn, bir spiral və eliptik galaksin arasındakı fərqləri öyrənir (şəkil 5.2). Bu təlimdən sonra hər bir könüllü müəyyən bir təsnifatı olan 15 galaktikanın 11-dən düzgün təsnifatlandırılmasını nisbətən asan viktorina keçirməyə məcbur oldular və sonra qeyri-adi gökadaların real sadələşdirilməsinə basit bir web-based interfeys (rəqəm 5.3) vasitəsilə başlayacaqdı. Könüllüdən astronomiyaya keçmək 10 dəqiqədən az müddətdə baş verəcək və ən azı ən az maneələrdən, sadə bir viktoradan keçməyi tələb etməlidir.

Şəkil 5.2: Gökadaların iki əsas növü nümunələri: spiral və eliptik. Galaxy Zoo layihəsi 900,000-dən çox təsnifat təsvir etmək üçün 100.000-dən çox könüllü istifadə etmişdir. Http://www.GalaxyZoo.org və Sloan Digital Sky Survey-in icazəsi ilə çıxarılmışdır.

Şəkil 5.2: Gökadaların iki əsas növü nümunələri: spiral və eliptik. Galaxy Zoo layihəsi 900,000-dən çox təsnifat təsvir etmək üçün 100.000-dən çox könüllü istifadə etmişdir. Http://www.GalaxyZoo.orgSloan Digital Sky Survey-in icazəsi ilə çıxarılmışdır.

Şəkil 5.3: Könüllülərin vahid bir təsvirin təsnif edilməsi tələb olunduğu giriş ekranı. Sloan Digital Sky Survey'ten bir şəkil əsasında Chris Lintott'un icazəsi ilə çıxarıldı.

Şəkil 5.3: Könüllülərin vahid bir təsvirin təsnif edilməsi tələb olunduğu giriş ekranı. Sloan Digital Sky Survey'ten bir şəkil əsasında Chris Lintott'un icazəsi ilə çıxarıldı.

Layihə bir məqalədə nümayiş etdirildikdən sonra Galaxy Zoo ilkin könüllülərini cəlb etdi və təxminən altı ay ərzində layihə 100.000-dən çox vətəndaş elm adamını cəlb etdi ki, onlar tapşırıqdan məmnun qaldıqları üçün astronomiyanı inkişaf etdirmək istəyirdilər. Birlikdə, bu 100.000 könüllü, nisbətən kiçik, əsas iştirakçı qrupdan gələn təsnifatların əksəriyyəti ilə (Lintott et al. 2008) 40 milyondan çox təsnifat (Lintott et al. 2008) .

Təcrübəli bakalavr tədqiqat köməkçiləri işə götürən təcrübəli mütəxəssislər dərhal məlumat keyfiyyətinə şübhə ilə yanaşırlar. Bu şübhə məqbul olsa da, Galaxy Zoo könüllü töhfələr düzgün təmizləndikcə, borclu və birləşdikdə yüksək keyfiyyətli nəticələr əldə edə biləcəyini göstərir (Lintott et al. 2008) . Professional keyfiyyətli data yaratmaq izdiham almaq üçün mühüm oyun çox müxtəlif insanlar tərəfindən həyata eyni vəzifəni olan var ixtisar edir. Galaxy Zoo-da galaxy başına təxminən 40 təsnifat var idi; bakalavr tədqiqat köməkçiləri istifadə edən tədqiqatçılar bu səviyyənin artımını heç vaxt ödəyə bilməzlər və buna görə də hər bir fərdi təsnifatın keyfiyyətinə daha çox diqqət yetirməlidirlər. Könüllülükdə təlimdən məhrum olmadıqca, onlar artıqlıqla hazırlanmışdılar.

Ancaq galaksiya başına bir çox təsnifatla belə, konsensus təsnifatını yaratmaq üçün könüllü təsnifatların birləşməsini çətinləşdirdi. Ən çox insan hesablama layihələrində çox bənzər problemlər yarandığından, Galaxy Zoo tədqiqatçılarının konsensus təsnifatlarını hazırlamaq üçün istifadə etdikləri üç addımı qısaca nəzərdən keçirmək faydalıdır. Birincisi, tədqiqatçılar saxta təsnifatları aradan qaldıraraq məlumatları "təmizlədi". Məsələn, eyni galaksiyanı bir neçə dəfə təsnif edən insanlar - nəticələrini manipulyasiya etmək istəyərkən baş verə biləcək bir şey bütün təsnifatlarını atdılar. Bu və digər oxşar təmizləmə bütün təsnifatların təxminən 4% -i qaldırdı.

İkincisi, təmizləndikdən sonra tədqiqatçılar təsnifatda sistemli yanlışlığı aradan qaldırmağa ehtiyac duydular. Məsələn, orijinal layihə daxilində bir sıra qərəzsiz tədqiqat işləri aparmaqla, bəzi könüllüləri göstərmək üçün rəng əvəzinə monoxromda olan galaxy - tədqiqatçılar elliptik galaktikalar kimi uzaqlaşan spiral galaktikaları təsnif etmək üçün sistematik yanlışlıq kimi bir sıra sistematik yanaşmalar aşkar etdilər (Bamford et al. 2009) . Sistematik yanlışlıqların tənzimlənməsi çox vacibdir, çünki artıqlıq sistematik yanlışlığı avtomatik olaraq aradan qaldırmaz; yalnız təsadüfi səhvləri aradan qaldırmağa kömək edir.

Nəhayət, debiasingdən sonra tədqiqatçılar konsensus təsnifatını yaratmaq üçün fərdi təsnifatları birləşdirmək üçün bir üsula ehtiyac duydular. Hər galaksi üçün təsnifatların birləşdirilməsinin ən sadə yolu ən ümumi təsnifatı seçmək olardı. Ancaq bu yanaşma hər bir könüllünün bərabər ağırlığını verərdi və tədqiqatçılar bəzi könüllülərin təsnifatda daha yaxşı olduğuna şübhələndilər. Buna görə, tədqiqatçılar ən yaxşı təsnifatçıları aşkar etməyə və onlara daha çox ağırlıq verməyə çalışdıqları daha mürəkkəb yineleyici ağırlaşdırma prosedurunu hazırlamışlar.

Beləliklə, üç addımlı bir proses-təmizləmə, boşaltma və ağırlıqdan sonra - Galaxy Zoo tədqiqat qrupu 40 milyon könüllü təsnifatı konsensus morfoloji təsnifatlarına çevirmişdir. Bu Galaxy Zoo təsnifatı Galaxy Zoo ilham ilham kömək edən Schawinski tərəfindən təsnif daxil olmaqla, professional astronomlar tərəfindən əvvəlki kiçik miqyaslı üç cəhdləri ilə müqayisə edildikdə, güclü razılıq oldu. Beləliklə, könüllülər, ümumi olaraq, yüksək səviyyəli təsnifatların və tədqiqatçıların uyğunlaşa bilmədiyi miqyasda təmin edə bilirdilər (Lintott et al. 2008) . Əslində, çox sayda gökadalar üçün Schawinski, Lintott və başqaları üçün insan təsnifatlarına malik olmağına görə galaktikaların təxminən 80% -i gözlənilən naxışlı mavi spiral və qırmızı elliptiklərə əməl etdiyini və çoxsaylı sənədlərin bu kəşf (Fortson et al. 2011) .

Bu fonda nəzərə alsaq, indi Galaxy Zoo split tətbiq-birləşmənin reseptini, bir çox insan hesablama layihəsi üçün istifadə olunan eyni reseptin necə izləndiyini görə bilərsiniz. Birincisi, böyük bir problem chunks parçalanması olunur. Bu vəziyyətdə bir milyon qalaktikanın təsnif edilməsi problemi bir galaktikanın təsnifləşdirilməsi ilə bağlı bir milyon problemə bölünmüşdür. Bundan sonra, hər bir yığına müstəqil bir əməliyyat tətbiq edilir . Bu halda, könüllülər hər galaksiyanı spiral və ya eliptik kimi təsnif etmişdir. Nəhayət, nəticələr konsensus nəticə əldə etmək üçün birləşdirilir . Bu vəziyyətdə, birləşmə addımı hər bir galaksinin konsensus təsnifatını çıxarmaq üçün təmizlənmə, boşaltma və ağırlaşdırma daxildir. Çox layihələr bu ümumi reseptdən istifadə etməsinə baxmayaraq, hər bir addımın həll olunduğu xüsusi problemə uyğunlaşdırılmalıdır. Məsələn, aşağıda təsvir edilən insan hesablama layihəsində, eyni resept təqib olunacaq, lakin tətbiq olunan və birləşdirən addımlar tamamilə fərqli olacaqdır.

Galaxy Zoo komandası üçün bu ilk layihə yalnız bir başlanğıc idi. Çox tez onlar bir milyona yaxın gökadalara təsnif edə bilsələr də, bu miqyasda təxminən 10 milyard qalaktikanın təsvirinə səbəb olan daha yeni digital sayğac tədqiqatları ilə işləmək üçün kifayət deyildir (Kuminski et al. 2014) . 1 milyondan 10 milyard dollara qədər artım aparmaq üçün 10.000 Galaxy Zoo faktoru təxminən 10.000 dəfə iştirakçıları işə götürməlidir. İnternetdə könüllülərin sayı böyük olsa da, bu, sonsuz deyil. Buna görə də, tədqiqatçılar ki, onlar artan məlumat miqdarlarını idarə etmək niyyətində olduqları halda, yeni, daha geniş ölçekli bir yanaşma lazım idi.

Buna görə, Manda Banerji - Schawinski, Lintott və Galaxy Zoo komandasının digər üzvləri (2010) ilə işləyən - gökadələri təsnif etmək üçün kompüterlərin tədrisinə başlamışdır. Daha konkret olaraq, Galaxy Zoo tərəfindən yaradılan insan təsnifatlarından istifadə edərək, Banerji imicin xüsusiyyətlərinə əsaslanan bir galaktikanın insan təsnifatını proqnozlaşdıra bilən bir maşın öyrənmə modelini qurdu. Bu model insan təsnifatlarını yüksək dəqiqliklə əks etdirə bilərsə, Galaxy Zoo tədqiqatçıları tərəfindən əsl sonsuz sayıda gökadalar təsnif etmək üçün istifadə edilə bilər.

Banerji və həmkarlarının yanaşmasının əsası, həqiqətən, ictimai araşdırmada istifadə edilən texnikaya çox oxşardır, baxmayaraq ki, bu oxşarlıq ilk baxışdan aydın ola bilməz. Birincisi, Banerji və həmkarları hər bir imicini xüsusiyyətlərini özündə əks etdirən bir sıra rəqəmsal xüsusiyyətlərə çevirmişlər. Məsələn, gökadalar şəkilləri üçün üç xüsusiyyət ola bilər: görüntüdə mavi miqdar, piksel parlaqlığında variance və qeyri-ağ piksel nisbəti. Doğru xüsusiyyətlərin seçilməsi problemin vacib bir hissəsidir və ümumiyyətlə mövzu sahəsi təcrübəsini tələb edir. Bu ilk addım, adətən xüsusiyyət mühəndisliyi , hər bir şəkil üçün bir sıra bir məlumat matrisi və sonra təsvir edən üç sütunla nəticələnir. Data matrisi və istənilən çıxışı nəzərə alaraq (məsələn, təsvir bir eliptik galaksiya kimi bir insan tərəfindən təsnif edilib-edilməmişdir), tədqiqatçı statistika və ya maşın öyrənmə modelini yaradır - məsələn, logistik regressiya - xüsusiyyətlərə əsaslanan insan təsnifatını nəzərdə tutur şəkilin. Nəhayət, tədqiqatçı yeni gökadaların təxmin edilən təsnifatlarını çıxarmaq üçün bu statistika modelindəki parametrləri istifadə edir (şəkil 5.4). Makina öyrənməsində, bu yanaşma-istifadə edərək, yeni məlumatları etiketlendirebilecek bir model yaratmaq üçün etiketlenmiş nümunələrə nəzarət olunan öyrənmə deyilir.

Şəkil 5.4: Banerji və digərlərinin necə sadələşdirilmiş təsviri. (2010) Galaxy Zoo təsnifatlarını galaxy təsnifatını etmək üçün bir maşın öyrənmə modelini hazırlamaq üçün istifadə etdi. Gökadalar şəkilləri xüsusiyyətlərin bir matrisinə çevrildi. Bu sadələşdirilmiş misalda üç xüsusiyyət var (şəkildə mavi miqdar, piksel parlaqlığında dəyişiklik və qeyri-piksel piksel nisbəti). Sonra şəkillərin bir alt hissəsi üçün Galaxy Zoo etiketləri bir maşın öyrənmə modelini hazırlamaq üçün istifadə olunur. Nəhayət, maşın öyrənmə qalan qalaktikaların təsnifatlarını qiymətləndirmək üçün istifadə olunur. Mən bunu bir kompüter dəstəkli insan hesablama layihəsi deyirəm, çünki insanlar bir problemi həll etmir, insanları problemi həll etmək üçün bir kompüter hazırlamaq üçün istifadə edilə bilən bir verilənlər bazası qururlar. Bu kompüter yardımı olan insan hesablama sisteminin üstünlüyü, son dərəcə sonsuz miqdarda insan səyini istifadə edərək, sonsuz miqdarda məlumatların idarə edilməsinə imkan verir. Sloan Digital Sky Survey izni ilə əks etdirilən gökadalar şəkilləri.

Şəkil 5.4: Banerji et al. (2010) necə sadələşdirilmiş təsviri Banerji et al. (2010) Galaxy Zoo təsnifatlarını galaxy təsnifatını etmək üçün bir maşın öyrənmə modelini hazırlamaq üçün istifadə etdi. Gökadalar şəkilləri xüsusiyyətlərin bir matrisinə çevrildi. Bu sadələşdirilmiş misalda üç xüsusiyyət var (şəkildə mavi miqdar, piksel parlaqlığında dəyişiklik və qeyri-piksel piksel nisbəti). Sonra şəkillərin bir alt hissəsi üçün Galaxy Zoo etiketləri bir maşın öyrənmə modelini hazırlamaq üçün istifadə olunur. Nəhayət, maşın öyrənmə qalan qalaktikaların təsnifatlarını qiymətləndirmək üçün istifadə olunur. Mən bunu bir kompüter dəstəkli insan hesablama layihəsi deyirəm, çünki insanlar bir problemi həll etmir, insanları problemi həll etmək üçün bir kompüter hazırlamaq üçün istifadə edilə bilən bir verilənlər bazası qururlar. Bu kompüter yardımı olan insan hesablama sisteminin üstünlüyü, son dərəcə sonsuz miqdarda insan səyini istifadə edərək, sonsuz miqdarda məlumatların idarə edilməsinə imkan verir. Sloan Digital Sky Survey izni ilə əks etdirilən gökadalar şəkilləri.

Banerji və iş yoldaşlarının maşın öyrənmə modelindəki xüsusiyyətlər oyuncaq nümunələrimdən daha mürəkkəb idi - məsələn, "de Vaucouleurs fit axial nisbəti" kimi xüsusiyyətləri istifadə etdi və onun modeli lojistik regresiya deyildi, bu, süni neyron şəbəkə idi. Onun funksiyalarını, modelini və konsensus Galaxy Zoo təsnifatlarını istifadə edərək, hər bir xüsusiyyət üzərində çəkilər yarada və sonra bu ağırlıqları gökadaların təsnifatı ilə bağlı proqnozlar etmək üçün istifadə edə bildi. Məsələn, onun analizi aşağı "de Vaucouleurs axial nisbəti uyğun" şəkillər spiral gökadalar daha çox olacağını aşkar etdi. Bu ağırlıqları nəzərə alaraq, bir galaksiyanın insan təsnifatını makul dəqiqlik ilə proqnozlaşdırdı.

Banerji və iş yoldaşları Galaxy Zoo -nu kompüter dəstəkli insan hesablama sistemi adlandıracağam . Bu hibrid sistemlər haqqında düşünmək üçün ən yaxşı yoldur ki, insanların bir problemi həll etməməsi deyil, onlar problemi həll etmək üçün kompüter hazırlamaq üçün istifadə edilə biləcək bir dataset qururlar. Bəzən problemi həll etmək üçün bir kompüter hazırlamaq çox nümunələr tələb edə bilər və kifayət qədər nümunə istehsal etmək üçün yeganə yol kütləvi əməkdaşlıqdır. Bu kompüter dəstəkli yanaşmanın üstünlüyü ondan ibarətdir ki, son dərəcə sonsuz miqdarda insan səyindən istifadə edərək, sonsuz miqdarda məlumatlarınızı idarə etməyə imkan verir. Məsələn, bir milyon insan təsnifatı gökadaları olan bir tədqiqatçı bir milyard və ya hətta bir trilyon qalaktikanı təsnif etmək üçün istifadə edilə biləcək bir proqnozlaşdırıcı model qura bilər. Çox sayda gökadalar varsa, bu cür insan-kompüter hibridi həqiqətən mümkün olan bir həlldir. Bununla belə, bu sonsuz ölçeklenebilirlik pulsuz deyil. İnsan təsnifatlarını doğru şəkildə əks etdirə bilən bir maşın öyrənmə modelinin yaradılması özü çətin bir problemdir, lakin xoşbəxtlikdən bu mövzuya həsr olunmuş əla kitablar var (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo, insan hesablama layihələrinin necə inkişaf etdiyinin yaxşı bir nümunəsidir. Birincisi, tədqiqatçı özünü və ya kiçik bir tədqiqat köməkçiləri (məsələn, Schawinski'nin ilk təsnifat səyi) ilə layihəni həyata keçirir. Bu yanaşma yaxşı ölçülmürsə, tədqiqatçı bir çox iştirakçı ilə bir insan hesablama layihəsinə keçə bilər. Lakin müəyyən bir məlumat həcmi üçün təmiz insan səyi kifayət deyil. Bu nöqtədə tədqiqatçılar, insan təsnifatlarının bir faktiki olaraq limitsiz miqdarda məlumatlara tətbiq oluna biləcək bir maşın öyrənmə modelini hazırlamaq üçün istifadə edildiyi kompüter dəstəkli bir insan hesablama sistemi qurmalıdırlar.