5.2.1 Galaxy Zoo

Galaktyczne Zoo łączy wysiłki wielu nie-eksperckich ochotników, aby sklasyfikować milion galaktyk.

Galaktyczne zoo wyrosło z problemu, przed którym stanął Kevin Schawiński, absolwent astronomii na Uniwersytecie Oksfordzkim w 2007 roku. Upraszczając całkiem sporo, Schawiński był zainteresowany galaktykami, a galaktyki można sklasyfikować według ich morfologii - eliptyczne lub spiralne. przez ich kolor - niebieski lub czerwony. W tym czasie konwencjonalna mądrość astronomów była taka, że ​​galaktyki spiralne, takie jak nasza Droga Mleczna, miały kolor niebieski (co oznacza młodość), a galaktyki eliptyczne były czerwone (co wskazuje na starość). Schawiński wątpił w tę konwencjonalną mądrość. Podejrzewał, że chociaż ten wzorzec może być w ogóle prawdziwy, istnieje prawdopodobnie spora liczba wyjątków, a studiując wiele niezwykłych galaktyk - tych, które nie pasują do oczekiwanego wzoru - mógłby dowiedzieć się czegoś o procesie, przez który powstały galaktyki.

Tym, czego Schawiński potrzebował, aby obalić konwencjonalną mądrość, był duży zbiór morfologicznie sklasyfikowanych galaktyk; to znaczy galaktyki sklasyfikowane jako spiralne lub eliptyczne. Problem polegał jednak na tym, że istniejące algorytmiczne metody klasyfikacji nie były jeszcze wystarczająco dobre, by można je było wykorzystać do badań naukowych; innymi słowy, klasyfikowanie galaktyk było w tamtym czasie problemem trudnym dla komputerów. Dlatego potrzebna była duża liczba galaktyk klasyfikujących człowieka . Schawiński podjął się tego problemu klasyfikacji z entuzjazmem absolwenta. Podczas maratonu w ciągu siedmiu 12-godzinnych dni był w stanie sklasyfikować 50 000 galaktyk. Podczas gdy 50 000 galaktyk może wydawać się dużo, w rzeczywistości jest to tylko około 5% z prawie miliona galaktyk, które sfotografowano w Sloan Digital Sky Survey. Schawinski zdał sobie sprawę, że potrzebuje bardziej skalowalnego podejścia.

Na szczęście okazuje się, że zadanie klasyfikowania galaktyk nie wymaga zaawansowanego szkolenia w astronomii; można nauczyć kogoś kto zrobi to dość szybko. Innymi słowy, chociaż klasyfikowania galaktyk jest zadaniem, które trudno było komputerów, to było dość łatwe dla ludzi. Tak więc, siedząc w pubie w Oxford, Schawinski i towarzysz astronoma Chris Lintott wymyślił stronę internetową, gdzie wolontariusze będą klasyfikacji obrazów galaktyk. Kilka miesięcy później, Galaxy Zoo urodził.

Na stronie internetowej Galaktycznego Zoo wolontariusze przeszliby kilka minut szkolenia; na przykład poznanie różnicy między galaktyką spiralną i eliptyczną (rysunek 5.2). Po tym szkoleniu każdy z ochotników musiał przejść względnie łatwy quiz - poprawnie klasyfikując 11 z 15 galaktyk ze znanymi klasyfikacjami - a następnie zacząłby prawdziwą klasyfikację nieznanych galaktyk za pomocą prostego interfejsu internetowego (rysunek 5.3). Przejście od wolontariusza do astronoma miało miejsce w czasie krótszym niż 10 minut i wymagało jedynie przejścia przez najniższy z przeszkód, prosty quiz.

Rysunek 5.2: Przykłady dwóch głównych typów galaktyk: spiralnych i eliptycznych. W projekcie Galaxy Zoo wykorzystano ponad 100 000 wolontariuszy, aby skategoryzować ponad 900 000 zdjęć. Reprodukcja za zgodą http://www.GalaxyZoo.org i Sloan Digital Sky Survey.

Rysunek 5.2: Przykłady dwóch głównych typów galaktyk: spiralnych i eliptycznych. W projekcie Galaxy Zoo wykorzystano ponad 100 000 wolontariuszy, aby skategoryzować ponad 900 000 zdjęć. Reprodukcja za zgodą http://www.GalaxyZoo.org i Sloan Digital Sky Survey .

Rysunek 5.3: Ekran wprowadzania, w którym wolontariusze zostali poproszeni o zakwalifikowanie jednego obrazu. Reprodukcja za zgodą Chrisa Lintotta na podstawie obrazu z Sloan Digital Sky Survey.

Rysunek 5.3: Ekran wprowadzania, w którym wolontariusze zostali poproszeni o zakwalifikowanie jednego obrazu. Reprodukcja za zgodą Chrisa Lintotta na podstawie obrazu z Sloan Digital Sky Survey .

Galaktyczne zoo przyciągnęło początkowych wolontariuszy po tym, jak projekt został zaprezentowany w artykule informacyjnym, a po około sześciu miesiącach projekt wzrósł do zaangażowania ponad 100 000 naukowców obywatelskich, ludzi, którzy wzięli udział, ponieważ cieszyli się z tego zadania i chcieli pomóc w postępie astronomii. Razem te 100 000 ochotników zgłosiło łącznie ponad 40 milionów klasyfikacji, przy czym większość klasyfikacji pochodzi od stosunkowo niewielkiej, podstawowej grupy uczestników (Lintott et al. 2008) .

Badacze, którzy mają doświadczenie w zatrudnianiu licencjackich asystentów badawczych, mogą od razu sceptycznie podchodzić do jakości danych. Chociaż ten sceptycyzm jest rozsądny, Galaxy Zoo pokazuje, że kiedy wkłady ochotników są prawidłowo oczyszczone, nieobciążone i zagregowane, mogą wytworzyć wyniki wysokiej jakości (Lintott et al. 2008) . Ważną sztuczką dla uzyskania tłumu do tworzenia profesjonalnych danych jest nadmiarowość , czyli wykonywanie tego samego zadania przez wiele różnych osób. W Galaxy Zoo było około 40 klasyfikacji na galaktykę; badacze korzystający z asystentów doktoranckich nigdy nie mogliby pozwolić sobie na taki poziom redukcji, a zatem musieliby być bardziej zainteresowani jakością każdej indywidualnej klasyfikacji. Czego zabrakło ochotnikom na treningach, nadrobili z nadmiarowości.

Nawet przy wielu klasyfikacjach na galaktykę łączenie zestawu klasyfikacji ochotników w celu uzyskania klasyfikacji konsensusowej było trudne. Ponieważ w większości ludzkich projektów obliczeniowych pojawiają się bardzo podobne wyzwania, warto krótko przejrzeć trzy kroki, które badacze Galaktycznego Zoo wykorzystali do stworzenia swoich konsensusowych klasyfikacji. Po pierwsze, naukowcy "wyczyścili" dane, usuwając fałszywe klasyfikacje. Na przykład ludzie, którzy wielokrotnie zaklasyfikowali tę samą galaktykę - coś, co mogłoby się zdarzyć, gdyby próbowali manipulować wynikami - odrzucili wszystkie swoje klasyfikacje. To i inne podobne czyszczenie usunęło około 4% wszystkich klasyfikacji.

Po drugie, po oczyszczeniu naukowcy musieli usunąć systematyczne odchylenia w klasyfikacji. Poprzez serię badań wykrywających obciążenie wstępne osadzonych w oryginalnym projekcie - na przykład pokazując niektórym ochotnikom galaktykę w trybie monochromatycznym zamiast kolorowym - naukowcy odkryli szereg systematycznych odchyleń, takich jak systematyczne odchylenie w celu klasyfikacji odległych galaktyk spiralnych jako eliptycznych galaktyk (Bamford et al. 2009) . Dostosowanie się do tych systematycznych odchyleń jest niezwykle ważne, ponieważ redundancja nie powoduje automatycznego usunięcia systematycznych uprzedzeń; pomaga tylko usunąć losowy błąd.

Wreszcie, po uwolnieniu, naukowcy potrzebowali metody łączenia poszczególnych klasyfikacji w celu uzyskania konsensusowej klasyfikacji. Najprostszym sposobem na połączenie klasyfikacji dla każdej galaktyki byłoby wybranie najbardziej powszechnej klasyfikacji. Jednak takie podejście dałoby każdemu z ochotników równą wagę, a naukowcy podejrzewali, że niektórzy wolontariusze byli lepsi w klasyfikacji niż inni. Dlatego naukowcy opracowali bardziej złożoną iteracyjną procedurę ważenia, która miała na celu wykrycie najlepszych klasyfikatorów i nadanie im większej wagi.

Tak więc, po trzyetapowym oczyszczeniu, rozproszeniu i obciążeniu - zespół badawczy Galaktycznego Zoo zamienił 40 milionów klasyfikacji ochotników w zestaw zgodnych klasyfikacji morfologicznych. Kiedy porównano te klasyfikacje Galaktycznego Zoo z trzema wcześniejszymi próbami mniejszych skal przez zawodowych astronomów, w tym klasyfikacją Schawińskiego, która pomogła zainspirować Galaxy Zoo, doszło do silnej zgody. W związku z tym wolontariusze, łącznie, byli w stanie zapewnić wysokiej jakości klasyfikacje i na taką skalę, że badacze nie mogli się z nimi równać (Lintott et al. 2008) . W rzeczywistości, dzięki ludzkim klasyfikacjom dla tak dużej liczby galaktyk, Schawinski, Lintott i inni byli w stanie pokazać, że tylko około 80% galaktyk podąża za oczekiwanym wzorem - niebieskie spirale i czerwone eliptyczne - i wiele artykułów zostało napisanych o to odkrycie (Fortson et al. 2011) .

Biorąc pod uwagę to tło, możesz teraz zobaczyć, w jaki sposób Galaxy Zoo postępuje zgodnie z receptą split-apply-combine, tym samym receptem, który jest stosowany w większości ludzkich projektów obliczeniowych. Po pierwsze, duży problem dzieli się na części. W tym przypadku problem klasyfikacji milionów galaktyk został podzielony na miliony problemów klasyfikacji jednej galaktyki. Następnie operacja jest stosowana do każdego fragmentu niezależnie. W tym przypadku wolontariusze sklasyfikowali każdą galaktykę jako spiralną lub eliptyczną. Na koniec wyniki połączono, aby uzyskać wynik konsensusu. W tym przypadku etap łączenia obejmował oczyszczanie, uwalnianie i ważenie w celu uzyskania klasyfikacji konsensusowej dla każdej galaktyki. Mimo że większość projektów korzysta z tego ogólnego przepisu, każdy krok musi zostać dostosowany do konkretnego problemu, który jest rozwiązywany. Na przykład w przedstawionym poniżej projekcie obliczeń dla ludzi ten sam przepis zostanie zastosowany, ale kroki zastosowania i łączenia będą zupełnie inne.

Dla zespołu Galaxy Zoo ten pierwszy projekt był dopiero początkiem. Bardzo szybko zdali sobie sprawę, że mimo iż są w stanie zaklasyfikować blisko miliona galaktyk, ta skala nie wystarcza do pracy z nowszymi cyfrowymi ankietami nieba, które mogą generować obrazy około 10 miliardów galaktyk (Kuminski et al. 2014) . Aby obsłużyć wzrost z 1 miliona do 10 miliardów - współczynnik 10 000-galaktycznego zoo musiałby rekrutować około 10 000 razy więcej uczestników. Mimo że liczba wolontariuszy w Internecie jest duża, nie jest nieskończona. W związku z tym naukowcy zdali sobie sprawę, że jeśli zamierzają poradzić sobie z coraz większą ilością danych, potrzebne jest nowe, jeszcze bardziej skalowalne podejście.

Dlatego Manda Banerji - współpracujący ze Schawinskim, Lintottem i innymi członkami zespołu Galaxy Zoo (2010) rozpoczął nauczanie komputerów klasyfikacji galaktyk. Bardziej szczegółowo, stosując ludzkie klasyfikacje stworzone przez Galaxy Zoo, Banerji zbudował model uczenia maszynowego, który mógł przewidzieć ludzką klasyfikację galaktyki w oparciu o charakterystykę obrazu. Gdyby ten model mógł reprodukować ludzkie klasyfikacje z dużą dokładnością, mógłby zostać wykorzystany przez badaczy z Galaxy Zoo do klasyfikacji zasadniczo nieskończonej liczby galaktyk.

Rdzeń podejścia Banerji'ego i współpracowników jest w zasadzie podobny do technik powszechnie stosowanych w badaniach społecznych, chociaż podobieństwo może na pierwszy rzut oka nie być jasne. Po pierwsze, Banerji i koledzy przekształcili każdy obraz w zestaw funkcji numerycznych, które podsumowały jego właściwości. Na przykład w przypadku obrazów galaktyk mogą występować trzy cechy: ilość niebieskiego na obrazie, zmienność jasności pikseli i proporcja innych niż białe pikseli. Wybór właściwych funkcji jest ważną częścią problemu i wymaga wiedzy eksperckiej. Ten pierwszy krok, nazywany potocznie inżynierią cech , tworzy macierz danych z jednym rzędem na obraz, a następnie trzema kolumnami opisującymi ten obraz. Biorąc pod uwagę matrycę danych i pożądany wynik (np. Czy obraz został sklasyfikowany przez człowieka jako galaktyka eliptyczna), badacz tworzy statystyczny model uczenia maszynowego - na przykład regresję logistyczną - który przewiduje klasyfikację człowieka w oparciu o cechy obrazu. Na koniec badacz wykorzystuje parametry w tym modelu statystycznym, aby uzyskać szacunkowe klasyfikacje nowych galaktyk (rysunek 5.4). W uczeniu maszynowym takie podejście - za pomocą etykietowanych przykładów w celu stworzenia modelu, który może następnie oznaczać nowe dane - nazywa się uczeniem się przez nadzorowanie .

Rysunek 5.4: Uproszczony opis sposobu, w jaki Banerji i in. (2010) wykorzystał klasyfikacje Galaxy Zoo do szkolenia modelu uczenia maszynowego do klasyfikacji galaktyk. Obrazy galaktyk zostały przekształcone w matrycę cech. W tym uproszczonym przykładzie są trzy funkcje (ilość niebieskiego na obrazie, wariancja jasności pikseli i proporcja nieczarnych pikseli). Następnie, dla podzbioru obrazów, etykiety Galaxy Zoo są wykorzystywane do szkolenia modelu uczenia maszynowego. Na koniec uczenie maszynowe służy do oceny klasyfikacji dla pozostałych galaktyk. Nazywam to wspomaganym komputerowo ludzkim projektem obliczeniowym, ponieważ ludzie zamiast rozwiązywać problem, budują zbiór danych, który można wykorzystać do szkolenia komputera w celu rozwiązania problemu. Zaletą tego systemu komputerowego wspomaganego komputerowo jest to, że umożliwia on obsługę zasadniczo nieskończonych ilości danych przy użyciu ograniczonej ilości ludzkiego wysiłku. Obrazy galaktyk reprodukowanych za zgodą Sloan Digital Sky Survey.

Rysunek 5.4: Uproszczony opis sposobu, w jaki Banerji et al. (2010) wykorzystał klasyfikacje Galaxy Zoo do szkolenia modelu uczenia maszynowego do klasyfikacji galaktyk. Obrazy galaktyk zostały przekształcone w matrycę cech. W tym uproszczonym przykładzie są trzy funkcje (ilość niebieskiego na obrazie, wariancja jasności pikseli i proporcja nieczarnych pikseli). Następnie, dla podzbioru obrazów, etykiety Galaxy Zoo są wykorzystywane do szkolenia modelu uczenia maszynowego. Na koniec uczenie maszynowe służy do oceny klasyfikacji dla pozostałych galaktyk. Nazywam to wspomaganym komputerowo ludzkim projektem obliczeniowym, ponieważ ludzie zamiast rozwiązywać problem, budują zbiór danych, który można wykorzystać do szkolenia komputera w celu rozwiązania problemu. Zaletą tego systemu komputerowego wspomaganego komputerowo jest to, że umożliwia on obsługę zasadniczo nieskończonych ilości danych przy użyciu ograniczonej ilości ludzkiego wysiłku. Obrazy galaktyk reprodukowanych za zgodą Sloan Digital Sky Survey .

Cechy modelu uczenia maszynowego Banerji'ego i kolegów były bardziej skomplikowane niż te w moim przykładzie zabawkowym - na przykład używała funkcji typu "de Vaucouleurs fit ratio axial" - a jej model nie był regresją logistyczną, była to sztuczna sieć neuronowa. Korzystając z jej funkcji, modelu i zgodnych klasyfikacji Galaxy Zoo, była w stanie stworzyć wagi dla każdej cechy, a następnie użyć tych wag, aby przewidzieć klasyfikację galaktyk. Na przykład, jej analiza wykazała, że ​​obrazy o niskim "Vaucouleurs pasują do proporcji osiowej" były bardziej prawdopodobne, że są galaktykami spiralnymi. Biorąc pod uwagę te ciężary, była w stanie przewidzieć ludzką klasyfikację galaktyki z odpowiednią dokładnością.

Praca Banerji'ego i współpracowników zmieniła Galaxy Zoo w coś, co nazwałbym komputerowym systemem obliczeniowym . Najlepszym sposobem myślenia o tych systemach hybrydowych jest to, że zamiast rozwiązywania problemów przez ludzi, ludzie budują zestaw danych, który można wykorzystać do szkolenia komputera w celu rozwiązania problemu. Czasami szkolenie komputera w celu rozwiązania problemu może wymagać wielu przykładów, a jedynym sposobem na stworzenie wystarczającej liczby przykładów jest masowa współpraca. Zaletą tego wspomaganego komputerowo podejścia jest to, że umożliwia on obsługę zasadniczo nieskończonych ilości danych przy użyciu ograniczonej ilości ludzkiego wysiłku. Na przykład badacz z milionem ludzkich sklasyfikowanych galaktyk może zbudować model predykcyjny, który następnie może zostać użyty do sklasyfikowania miliarda lub nawet bilionów galaktyk. Jeśli istnieje ogromna liczba galaktyk, to taka hybryda człowiek-komputer jest naprawdę jedynym możliwym rozwiązaniem. Ta nieskończona skalowalność nie jest jednak darmowa. Budowa modelu uczenia maszynowego, który potrafi poprawnie odtwarzać klasyfikacje ludzi, jest trudnym problemem, ale na szczęście istnieją już doskonałe książki poświęcone temu zagadnieniu (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaktyczne ZOO jest dobrą ilustracją ewolucji ludzkich projektów obliczeniowych. Po pierwsze, badaczka podejmuje próbę samodzielnie lub z małym zespołem asystentów badawczych (np. Początkowy wysiłek klasyfikacyjny Schawińskiego). Jeśli to podejście nie będzie skalowane, naukowiec może przejść do projektu obliczeń ludzkich z wieloma uczestnikami. Ale, dla pewnej ilości danych, czysty ludzki wysiłek nie wystarczy. W tym momencie naukowcy muszą zbudować wspomagany komputerowo ludzki system obliczeniowy, w którym klasyfikacje ludzkie są wykorzystywane do szkolenia modelu uczenia maszynowego, który można następnie zastosować do praktycznie nieograniczonej ilości danych.