5.2.1 Galaxy Zoo

Galaxy Zoo łączy wysiłki wielu ochotników spoza ekspertów klasyfikują milionów galaktyk.

Galaxy Zoo wyrosła z problemem Kevin Schawinski, absolwent astronomii na Uniwersytecie w Oksfordzie w 2007 roku Uproszczenie sporo, Schawinski był zainteresowany w galaktykach i galaktyk mogą być klasyfikowane według ich morfologii-eliptyczne lub spiralnie i przez ich kolor-niebieski lub czerwony. W tym czasie powszechne przekonanie wśród astronomów było to, że galaktyki spiralne, podobnie jak nasza Droga Mleczna, były w kolorze niebieskim (wskazując młodzieży) oraz, że galaktyki eliptyczne są w kolorze czerwonym (wskazując starość). Schawinski wątpił tej obiegowej. Podejrzewał, że choć ten wzór może być prawdą w ogóle nie było spora spora wyjątków i że badając losy tych niezwykłych galaktyk-tych, które nie mieszczą się oczekiwany wzorca mógł dowiedzieć się czegoś na temat procesu, przez który tworzą galaktyki.

Tak więc, co Schawinski potrzebne w celu obalenia obiegowej był duży zestaw morfologicznie sklasyfikowanych galaktyk; czyli galaktyk, które zostały sklasyfikowane jako albo spirali lub eliptyczny. Problemem jest jednak to, że istniejące metody algorytmiczne klasyfikacji nie były jeszcze wystarczająco dobry, aby być wykorzystywane do badań naukowych; Innymi słowy, klasyfikowanie galaktyk była w tym czasie, to problem, który trudno było komputerów. W związku z tym, co było potrzebne było wiele ludzkich sklasyfikowanych galaktyk. Schawinski podjął ten problem klasyfikacyjny z entuzjazmem absolwent. W sesji maratonu siedmiu dni, 12 godziny, był w stanie sklasyfikować 50.000 galaktyk. Podczas 50.000 galaktyk może się wydawać dużo, to jest rzeczywiście tylko około 5% z prawie miliona galaktyk, które zostały sfotografowane w Sloan Digital Sky Survey. Schawinski sobie sprawę, że potrzebuje bardziej skalowalne podejście.

Na szczęście okazuje się, że zadanie klasyfikowania galaktyk nie wymaga zaawansowanego szkolenia w astronomii; można nauczyć kogoś kto zrobi to dość szybko. Innymi słowy, chociaż klasyfikowania galaktyk jest zadaniem, które trudno było komputerów, to było dość łatwe dla ludzi. Tak więc, siedząc w pubie w Oxford, Schawinski i towarzysz astronoma Chris Lintott wymyślił stronę internetową, gdzie wolontariusze będą klasyfikacji obrazów galaktyk. Kilka miesięcy później, Galaxy Zoo urodził.

Na stronie Galaxy Zoo, ochotnicy ulegnie kilka minut szkolenia; na przykład, nauka różnicę między spiralą i galaktyki eliptycznej (rysunek 5.2). Po tym szkoleniu ochotnicy musieli przejść stosunkowo proste quizu-poprawnie klasyfikując 11 z 15 galaktyk ze znanymi klasyfikacji, a następnie ochotnik zaczną prawdziwą klasyfikację nieznanych galaktyk za pomocą prostego interfejsu internetowego (rysunek 5.3). Przejście od wolontariusza do astronoma odbędzie się w czasie krótszym niż 10 minut i wymaga jedynie przechodząc najniższa przeszkód, prosty quiz.

Rysunek 5.2: Przykłady dwóch głównych typów galaktyk spiralnych i eliptycznych. W ramach projektu Galaxy Zoo używany ponad 100.000 wolontariuszy kategorii więcej niż 900.000 zdjęć. Źródło: www.galaxyzoo.org.

Rysunek 5.2: Przykłady dwóch głównych typów galaktyk spiralnych i eliptycznych. W ramach projektu Galaxy Zoo używany ponad 100.000 wolontariuszy kategorii więcej niż 900.000 zdjęć. Źródło: www.galaxyzoo.org .

Rysunek 5.3: Ekran wejściowy, gdzie wyborcy zadano sklasyfikować pojedynczy obraz. Źródło: www.galaxyzoo.org.

Rysunek 5.3: Ekran wejściowy, gdzie wyborcy zadano sklasyfikować pojedynczy obraz. Źródło: www.galaxyzoo.org .

Galaxy Zoo przyciąga do jego początkowych ochotników po projekt był opisywany w artykule news, a po około sześciu miesiącach projekt wzrosła do obejmować więcej niż 100.000 naukowców obywatela, ludzi, którzy uczestniczyli, bo cieszył się zadania i chcieli pomóc wyprzedzeniem astronomii. Razem te 100.000 wolontariuszy przyczyniły się w sumie ponad 40 milionów klasyfikacji, przy czym większość z klasyfikacjami pochodzących ze stosunkowo niewielkiej, podstawowej grupy uczestników (Lintott et al. 2008) .

Naukowcy, którzy mają doświadczenie licencjackich zatrudniania asystentów badawczych może być natychmiast sceptycznie jakości danych. Podczas gdy ten sceptycyzm jest rozsądne, Galaxy Zoo pokazuje, że kiedy składki wolontariuszy są prawidłowo czyszczone, debiased i zagregowane, mogą przynieść rezultaty wysokiej jakości (Lintott et al. 2008) . Ważnym trick coraz tłum do tworzenia profesjonalnej jakości jest redundancja danych; to znaczy, że to samo zadanie wykonywane przez wielu ludzi. W Galaxy Zoo, było około 40 klasyfikacje na galaktykę; Naukowcy za pomocą licencjackich asystentów badawczych nie może sobie pozwolić na ten poziom redundancji i dlatego muszą być znacznie bardziej związane z jakością każdej klasyfikacji indywidualnej. Co brakowało ochotników w treningu, ale nadrabiał z redundancją.

Nawet z wielu klasyfikacjach na galaktyki, jednak łącząc zestaw klasyfikacji ochotnicy do klasyfikacji konsensus jest trudne. Ponieważ pojawiają się bardzo podobne wyzwania w większości projektów obliczeniowych człowieka, warto pokrótce trzy kroki, które naukowcy Galaxy Zoo używane do produkcji ich klasyfikacje konsensusu. Po pierwsze, naukowcy "oczyszczone" dane usuwając fałszywe klasyfikacje. Na przykład ludzie, którzy wielokrotnie sklasyfikowane ten sam galaxy-coś, co by było, gdyby starali się manipulować wynikami, miał wszystkie ich klasyfikacje wyrzucić. Te i inne podobne czyszczenia usuwa około 4% wszystkich klasyfikacjach.

Po drugie, po oczyszczeniu, naukowcy potrzebne do usunięcia powtarzających się odchyleń w klasyfikacji. Poprzez serię badań wykrywających bias osadzonych w pierwotnym przykład z projektem w przypadku osób wykazujących ochotników galaktyka monochromatycznych zamiast koloru-naukowcy odkryli kilka systematycznych uprzedzeń, takich jak systematyczne odchylenia klasyfikowania galaktyk daleko spiralnej galaktyki eliptyczne (Bamford et al. 2009) . Regulowanie tych systematycznych uprzedzeń jest niezwykle ważne, ponieważ uśrednianie wielu składki nie usuwa błędu systematycznego; usuwa jedynie błąd losowy.

W końcu, po debiasing naukowcy potrzebne metodę łączenia poszczególnych klasyfikacji do uzyskania klasyfikacji konsensusu. Najprostszy sposób na połączenie klasyfikacje dla każdej galaktyce byłoby wybrać najbardziej wspólną klasyfikację. Jednak takie podejście dałoby Każdy ochotnik jednakową wagę, a naukowcy podejrzewali, że niektórzy ochotnicy byli lepsi w klasyfikacji niż inni. Dlatego naukowcy opracowali bardziej złożoną procedurę iteracyjną ważenia, które próbuje automatycznie wykryć najlepsze klasyfikatorów i nadać im większą wagę.

Tak więc, po trzech etap procesu czyszczenia, debiasing i ważącego-zespołu badawczego Galaxy Zoo przeszedł 40 milionów wolontariuszy klasyfikacje do zestawu konsensusu klasyfikacji morfologicznych. Kiedy te klasyfikacje Galaxy Zoo zostały porównane do trzech poprzednich próbach na mniejszą skalę przez zawodowych astronomów, w tym klasyfikację według Schawinski który pomógł zainspirować Galaxy Zoo, było silne porozumienie. W ten sposób wolontariusze, łącznie, były w stanie dostarczyć wysokiej jakości klasyfikacji i na skalę, że naukowcy nie mogli dopasować (Lintott et al. 2008) . W rzeczywistości, poprzez ludzkie klasyfikacje dla tak dużej liczby galaktyk, Schawinski, Lintott i inni byli w stanie wykazać, że tylko około 80% galaktyk postępuj oczekiwanych spirale wzór-niebieskie i czerwone eliptyczne-i liczne dokumenty zostały napisane na temat odkrycie (Fortson et al. 2011) .

Biorąc pod uwagę to tło, teraz możemy zobaczyć, jak Galaxy Zoo następujący podział ubiegać-łączą przepis, ten sam przepis, który jest używany do większości projektów obliczeniowych człowieka. Po pierwsze, dużym problemem jest podzielony na kawałki. W tym przypadku problem klasyfikowania milion galaktyk jest podzielony na milion problemów klasyfikacji jedną galaktykę. Następnie operację stosuje się do każdego fragmentu niezależnie. W tym przypadku, wolontariusz będzie sklasyfikować każdą galaktykę jako albo spirali lub eliptyczny. Wyniki są połączone na końcu do wytworzenia efektu konsensusu. W tym przypadku, etap łączenia obejmuje czyszczenie, debiasing i wagę do produkowania klasyfikacji konsensusu dla każdej galaktyce. Mimo, że większość projektów wykorzystuje ten ogólny przepis, każdy z etapów musi dostosować się do specyficznych problemów w trakcie rozwiązywania. Na przykład, w ramach projektu obliczeń ludzkiej opisane poniżej tej samej receptury nastąpi, ale stosuje się i łączą etapy będą całkiem różne.

Dla zespołu Galaxy Zoo, ten pierwszy projekt był dopiero początek. Bardzo szybko zdali sobie sprawę, że nawet jeśli byli w stanie sklasyfikować blisko milion galaktyk, skala ta nie jest wystarczająca do pracy z nowszymi badaniami Digital Sky, które mogłyby wytwarzać obrazy z około 10 miliardów galaktyk (Kuminski et al. 2014) . Aby obsłużyć wzrost z 1 mln do 10 mld czynnikiem 10000 Galaxy Zoo musiałaby zatrudnić około 10.000 razy więcej uczestników. Chociaż liczba ochotników w Internecie jest duże, że nie jest nieskończony. Dlatego naukowcy sobie sprawę, że jeśli mają zamiar obsługiwać coraz większe ilości danych, nowy, jeszcze bardziej skalowalne podejście jest potrzebne.

Dlatego Manda Banerji pracujących z Kevinem Schawinski, Chris Lintott i innych członków zespołu, począwszy od komputerów dydaktycznych Galaxy Zoo klasyfikowania galaktyk. Dokładniej, stosując ludzkie klasyfikacji utworzone przez Galaxy Zoo Banerji et al. (2010) zbudował model uczenia maszynowego, który mógł przewidzieć klasyfikacji ludzkiego galaktyki na podstawie cech obrazu. Jeśli ten model uczenia maszyna może odwzorować ludzkie klasyfikacje z dużą dokładnością, to może być wykorzystywane przez badaczy Galaxy Zoo klasyfikować zasadniczo nieskończoną liczbę galaktyk.

Istotą podejścia Banerji i współpracownicy "jest rzeczywiście bardzo podobny do technik powszechnie stosowanych w badaniach społecznych, mimo że podobieństwo może nie być oczywiste na pierwszy rzut oka. Po pierwsze, Banerji i współpracownicy zamienione każdy obraz na zestaw funkcji liczbowych, które podsumowują to właściwości. Na przykład, dla obrazów galaktyk mogą istnieć trzy cechy: ilość błękitu w obrazie wariancji w jasności pikseli, a odsetek nie-białych pikseli. Dobór odpowiednich cech jest ważną częścią problemu, a to zwykle wymaga wiedzy przedmiot kierunkowy. Ten pierwszy krok, powszechnie nazywane inżynierii cechą, skutkuje macierzy danych z jednym rzędem na obrazie, a następnie trzech kolumnach opisujących ten obraz. Biorąc pod uwagę macierz danych i żądanej mocy (na przykład, czy obraz został sklasyfikowany przez człowieka jako galaktyki eliptycznej), badacz dokonuje oszacowania parametrów statystycznych przykład modelowego Bo coś takiego logistycznej regresji, która przewiduje klasyfikację ludzkiego w oparciu od cech obrazu. Wreszcie, badacz korzysta z parametrów w tym modelu statystycznego do produkcji szacowany klasyfikacje nowych galaktyk (rysunek 5.4). Aby myśleć o analogu społecznej, wyobraź sobie, że masz dane demograficzne o milion uczniów, a wiesz, czy ukończył college, czy nie. Można dopasować regresji logistycznej do tych danych, a następnie można użyć wynikające z parametrów modelu przewidzieć, czy nowi studenci będą ukończyć studia. W uczenia maszynowego, podejście wykorzystujące znakowane przykłady stworzyć model statystyczny, który może następnie oznakowania nowe dane, nazywa uczenie nadzorowane (Hastie, Tibshirani, and Friedman 2009) .

Rysunek 5.4: Uproszczony opis sposobu Banerji et al. (2010), stosowane klasyfikacje Galaktycznego Zoo trenować model uczenia maszynowego zrobić klasyfikacji galaktyk. Obrazy galaktyk przekształcono w matrycy funkcji. W tym uproszczonym przykładzie istnieją trzy cechy (ilość błękitu w obrazie wariancji w jasności pikseli, a odsetek nie-białych pikseli). Następnie dla podzbioru obrazów, etykiety Galaxy Zoo służą do trenowania modelu uczenia maszynowego. Wreszcie, uczenie maszynowe służy do oszacowania klasyfikacje dla pozostałych galaktyk. Ja nazywam tego rodzaju projektem drugiej generacji projektu ludzka obliczeniowa, bo ludzie zamiast rozwiązać problem, ludzie mają zbudować zbiór danych, które mogą być używane do szkolenia komputera, aby rozwiązać problem. Zaletą tej metody wspomaganego komputerowo jest to, że pozwala obsługiwać w zasadzie nieskończone ilości danych przy użyciu tylko skończoną ilość ludzkiego wysiłku.

Rysunek 5.4: Uproszczony opis sposobu Banerji et al. (2010) stosowane klasyfikacje Galaktycznego Zoo trenować model uczenia maszynowego zrobić klasyfikacji galaktyk. Obrazy galaktyk przekształcono w matrycy funkcji. W tym uproszczonym przykładzie istnieją trzy cechy (ilość błękitu w obrazie wariancji w jasności pikseli, a odsetek nie-białych pikseli). Następnie dla podzbioru obrazów, etykiety Galaxy Zoo służą do trenowania modelu uczenia maszynowego. Wreszcie, uczenie maszynowe służy do oszacowania klasyfikacje dla pozostałych galaktyk. Ja nazywam tego rodzaju projektem drugiej generacji projektu ludzka obliczeniowa, bo ludzie zamiast rozwiązać problem, ludzie mają zbudować zbiór danych, które mogą być używane do szkolenia komputera, aby rozwiązać problem. Zaletą tej metody wspomaganego komputerowo jest to, że pozwala obsługiwać w zasadzie nieskończone ilości danych przy użyciu tylko skończoną ilość ludzkiego wysiłku.

Funkcje w Banerji et al. (2010) Maszyna modelu uczenia się są bardziej skomplikowane niż w moim przykładem zabawki, na przykład, używała funkcje, takie jak "de Vaucouleurs pasuje stosunek osiowy" -i jej modelu regresji logistycznej nie było, była to sztuczna sieć neuronowa. Korzystanie z jej możliwości, jej model i konsensusu Galaxy Zoo klasyfikacje, była w stanie stworzyć obciążniki na każdej funkcji, a następnie wykorzystać te ciężary, aby prognoz dotyczących klasyfikacji galaktyk. Na przykład, jej analizy okazało się, że obrazy o niskim "de Vaucouleurs pasuje stosunek osiowy" były bardziej narażone na galaktyki spiralne. Biorąc pod uwagę te ciężary, była w stanie przewidzieć klasyfikacji ludzkiego galaktyki z należytą dokładnością.

Prace Banerji et al. (2010) zwrócił Galaxy Zoo w to, co nazwałbym drugiej generacji systemu ludzka obliczeń. Najlepszym sposobem, aby myśleć o tych systemów drugiej generacji jest to, że ludzie zamiast rozwiązać problem, ludzie mają zbudować zbiór danych, które mogą być używane do szkolenia komputera, aby rozwiązać problem. Ilość danych potrzebnych do pociągu komputer może być tak duża, że ​​wymaga ludzkiej masy współpracę do tworzenia. W przypadku Galaxy Zoo, sieci neuronowych wykorzystywanych przez Banerji et al. (2010) niezbędna jest bardzo duża liczba przykładów oznaczone przez człowieka, w celu stworzenia modelu, który był w stanie wiarygodnie odtworzenia klasyfikacji ludzkiego.

Zaletą tej metody wspomaganego komputerowo jest to, że pozwala obsługiwać w zasadzie nieskończone ilości danych przy użyciu tylko skończoną ilość ludzkiego wysiłku. Na przykład, badacz z milionem ludzi sklasyfikowanych galaktyk może zbudować modelu prognostycznego, które mogą być następnie wykorzystane do sklasyfikowania miliard albo nawet bilionów galaktyk. Jeżeli istnieje ogromna liczba galaktykach, wówczas tego rodzaju człowieka z komputerem hybrydy jest naprawdę jedynym możliwym rozwiązaniem. Ta nieskończona skalowalność nie jest za darmo, jednak. Budowanie modelu uczenia maszynowego, które mogą prawidłowo reprodukować ludzkie klasyfikacje sama jest trudnym problemem, ale na szczęście istnieją już doskonałych książek poświęconych temu tematowi (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo przedstawia ewolucję wielu projektów obliczeniowych człowieka. Po pierwsze, badacz próbuje projekt sama lub z małym zespołem asystentów badawczych (np początkowy wysiłek klasyfikacji Schawinski'S). Jeśli takie podejście nie skaluje się dobrze, badacz może przenieść się do ludzkiego projektu obliczeniowego, gdzie wielu ludzi przyczynić klasyfikacji. Ale dla pewnej ilości danych, czysty ludzki wysiłek nie wystarczy. W tym momencie, naukowcy potrzebują do budowy systemów drugiej generacji, gdzie ludzkie klasyfikacje są używane do szkolenia model uczenia maszynowego, które mogą być następnie stosowane do praktycznie nieograniczonej ilości danych.