5.2.1 Galaxy Zoo

Galaxy Zoo съчетава усилията на много неспециалисти доброволци да класифицират милион галактики.

Галакси зоопаркът е израснал от проблем, пред който е изправен Кевин Шавински, студент по астрономия в Оксфордския университет през 2007 година. Особено опростен, Шавински е заинтересован от галактики, а галактиките могат да бъдат класифицирани по морфологично-елиптична или спирала. с цвят сини или червени. По това време конвенционалната мъдрост сред астрономите беше, че спиралните галактики, като нашия Млечен път, са сини на цвят (показващи младост) и елиптичните галактики са червени (показващи старост). Шуински се съмняваше в тази конвенционална мъдрост. Той подозираше, че макар този образец да е вярно, вероятно имаше голям брой изключения и че чрез изучаването на много от тези необичайни галактики - тези, които не отговаряха на очаквания модел - той можеше да научи нещо за процеса, чрез който образуваха галактики.

По този начин, това, което Швански е необходимо, за да обърне конвенционалната мъдрост, е голям набор от морфологично класифицирани галактики; т.е. галактики, които са класифицирани като спирални или елиптични. Проблемът обаче е, че съществуващите алгоритмични методи за класификация все още не са достатъчно добри, за да бъдат използвани за научни изследвания; с други думи, класифицирането на галактиките по това време беше проблем, който беше труден за компютрите. Следователно, необходимо е голям брой човешки класифицирани галактики. Шуински пое този проблем с класирането с ентусиазма на завършил студент. В маратонова сесия от седем 12-часови дни той успя да класифицира 50 000 галактики. Докато 50 000 галактики могат да звучат като много, всъщност са само около 5% от почти един милион галактики, които са били фотографирани в проучването Sloan Digital Sky Survey. Шаунски осъзна, че се нуждае от по-гъвкав подход.

За щастие, се оказва, че задачата за класифициране на галактиките не изисква специализирано обучение в областта на астрономията; можете да научи някой, който да го направи доста бързо. С други думи, въпреки че класифицирането на галактиките е задача, която беше трудно за компютри, това е доста лесно за хората. Така че, докато седи в една кръчма в Оксфорд, Schawinski и колегите астроном Крис Линтът измислено уебсайт, където доброволци ще класифицират снимки на галактики. Няколко месеца по-късно, Galaxy Zoo е роден.

На уебсайта на Galaxy Zoo доброволците ще преминат няколко минути обучение; например, изучаване на разликата между спирала и елиптична галактика (фигура 5.2). След това обучение всеки доброволец трябваше да премине сравнително лесен тест, класифициращ правилно 11 от 15 галактики с известни класификации, и след това да започне истинска класификация на неизвестни галактики чрез обикновен уеб интерфейс (фигура 5.3). Преходът от доброволец към астроном ще се осъществи за по-малко от 10 минути и ще изисква преминаване само на най-ниските от препятствията - просто тест.

Фигура 5.2: Примери за двата основни типа галактики: спираловидни и елипсовидни. Проектът Galaxy Zoo използва повече от 100 000 доброволци, за да категоризира над 900 000 изображения. Възпроизведено с разрешение от http://www.GalaxyZoo.org и Sloan Digital Sky Survey.

Фигура 5.2: Примери за двата основни типа галактики: спираловидни и елипсовидни. Проектът Galaxy Zoo използва повече от 100 000 доброволци, за да категоризира над 900 000 изображения. Възпроизведено с разрешение от http://www.GalaxyZoo.org и Sloan Digital Sky Survey .

Фигура 5.3: Екран за въвеждане, при който доброволците бяха помолени да класифицират едно изображение. Възпроизведено с разрешение от Крис Линтот, базирано на изображение от проучването Sloan Digital Sky Survey.

Фигура 5.3: Екран за въвеждане, при който доброволците бяха помолени да класифицират едно изображение. Възпроизведено с разрешение от Крис Линтот, базирано на изображение от проучването Sloan Digital Sky Survey .

Galaxy Zoo привлече първоначалните си доброволци, след като проектът беше включен в новинарска статия, а за около шест месеца проектът включи повече от 100 000 граждани, които участваха, защото се радваха на тази задача и искаха да помогнат за напредъка в астрономията. Заедно тези 100 000 доброволци са допринесли за повече от 40 милиона класификации, като по-голямата част от класификациите идват от сравнително малка основна група участници (Lintott et al. 2008) .

Изследователите, които имат опит в назначаването на студенти по академични изследвания, могат незабавно да бъдат скептични относно качеството на данните. Макар този скептицизъм да е разумен, Galaxy Zoo показва, че когато доброволните вноски са правилно изчистени, дебитирани и агрегирани, те могат да произведат висококачествени резултати (Lintott et al. 2008) . Важен трик за получаване на тълпата за създаване на данни с професионално качество е съкращаването , т.е. същата задача, изпълнявана от много различни хора. В Galaxy Zoo имаше около 40 класификации на галактика; изследователите, използващи асистенти за научна степен "бакалавър", никога не биха могли да си позволят това ниво на съкращения и следователно трябва да бъдат много по-загрижени за качеството на всяка отделна класификация. Това, което доброволците липсваха в обучението, се справиха със съкращения.

Дори и при многобройни класификации на галактика обаче комбинирането на набор от класификации на доброволци за постигане на консенсусна класификация е трудно. Тъй като в повечето проекти за човешки изчисления възникват много подобни предизвикателства, е полезно да се прегледат накратко трите стъпки, които изследователите на Зоологическата градина на Галактиката използваха, за да произведат своите класификации за консенсус. Първо, изследователите "почистват" данните, като премахват фалшивите класификации. Например, хората, които многократно класифицирали същата галактика - нещо, което би се случило, ако се опитаха да манипулират резултатите - бяха изчезнали всички класификации. Това и друго подобно почистване премахна около 4% от всички класификации.

Второ, след почистване изследователите трябваше да премахнат систематичните отклонения в класификациите. Чрез серия от проучвания за откриване на пристрастия, вградени в оригиналния проект, например показване на някои доброволци на галактиката в монохромен цвят вместо цвят, изследователите откриха няколко системни отклонения, като систематично отклонение за класифициране на отдалечени спирални галактики като елиптични галактики (Bamford et al. 2009) . Коригирането на тези систематични отклонения е изключително важно, тъй като съкращенията не премахват автоматично систематичното отклонение; това само помага за премахване на произволна грешка.

И накрая, след отстраняване на грешки, изследователите се нуждаят от метод за комбиниране на отделните класификации, за да се постигне класификация по консенсус. Най-лесният начин да се съчетаят класификациите за всяка галактика би бил да се избере най-често срещаната класификация. Този подход обаче би дал на всеки доброволец еднаква тежест и изследователите подозираха, че някои доброволци са по-добре класифицирани от други. Поради това изследователите разработиха по-сложна итеративна процедура за претегляне, която се опита да открие най-добрите класификатори и да им даде по-голяма тежест.

По този начин, след триетапно почистване на процеса, отстраняване и претегляне, изследователският екип на Galaxy Zoo преобразува 40 милиона класификации на доброволеца в съвкупност от консенсусни морфологични класификации. Когато тези класификации на Galaxy Zoo бяха сравнени с три предишни по-малки мащабни опита от професионални астрономи, включително класификацията на Шавински, която помогна да се вдъхнови Galaxy Zoo, имаше силно съгласие. По този начин доброволците, като цяло, са в състояние да осигурят висококачествени класификации и в мащаб, който изследователите не могат да постигнат (Lintott et al. 2008) . Всъщност, чрез класифицирането на хора за толкова голям брой галактики, Шавински, Линтот и други са успели да покажат, че само около 80% от галактиките следват очакваните шарки - синьо спирали и червени елиптика - и многобройни статии са написани за това откритие (Fortson et al. 2011) .

Като се има предвид този фон, сега можете да видите как Galaxy Zoo следва рецептата за разделяне-прилагане-комбиниране, същата рецепта, която се използва за повечето човешки изчислителни проекти. Първо, голям проблем е разделен на парчета. В този случай проблемът за класифицирането на един милион галактики беше разделен на милион проблеми при класифицирането на една галактика. След това операцията се прилага за всеки блок независимо. В този случай доброволците класифицират всяка галактика като спирала или елиптична. И накрая, резултатите се комбинират, за да се постигне консенсусен резултат. В този случай комбинираната стъпка включваше почистването, отстраняването и претеглянето, за да се получи консенсусна класификация за всяка галактика. Въпреки че повечето проекти използват тази обща рецепта, всяка стъпка трябва да бъде съобразена с специфичния проблем, който се разглежда. Например, в описания по-долу проект за изчисляване на хора, същата рецепта ще бъде следвана, но приложените и комбинираните стъпки ще бъдат доста различни.

За екипа на зоологическата градина на Галакси този първи проект беше само началото. Много бързо осъзнаха, че въпреки че са успели да класифицират близо един милион галактики, тази скала не е достатъчна, за да работи с по-новите проучвания на дигиталните небе, които могат да генерират изображения от около 10 милиарда галактики (Kuminski et al. 2014) . За да се справи с увеличение от 1 милион до 10 милиарда - един фактор от 10 000-галактически зоопарк ще трябва да наеме около 10 000 пъти повече участници. Въпреки че броят на доброволците в интернет е голям, той не е безкраен. Ето защо изследователите осъзнаха, че ако се справят с все по-големи количества данни, е необходим нов, дори по-мащабируем подход.

Следователно, Manda Banerji, работеща със Шавински, Линтот и други членове на екипа на Zoo Galaxy (2010) започва да преподава компютри, за да класифицира галактиките. По-конкретно, използвайки човешките класификации, създадени от Galaxy Zoo, Banerji построи модел за машинно обучение, който може да предскаже човешката класификация на галактиката въз основа на характеристиките на изображението. Ако този модел би могъл да възпроизведе човешките класификации с висока точност, тогава той би могъл да бъде използван от изследователите на зоологическата градина на Галакси, за да класифицира по същество безкраен брой галактики.

Ядрото на подхода на Банерджи и колегите всъщност е доста подобно на техниките, които обикновено се използват в социалните изследвания, макар че приликата може да не е ясна на пръв поглед. Първо, Banerji и неговите колеги превръщат всяко изображение в набор от цифрови функции, които обобщават неговите свойства. Например, за изображения на галактики може да има три функции: количеството на синьото в изображението, вариацията в яркостта на пикселите и делът на небялите пиксели. Изборът на правилните функции е важна част от проблема и обикновено изисква експертиза на областта. Тази първа стъпка, обикновено наричана функция за инженеринг , води до матрица с данни с един ред на изображение, а след това три колони, описващи това изображение. Като се има предвид матрицата на данните и желаната продукция (напр. Дали изображението е класифицирано от човека като елиптична галактика), изследователят създава модел на статистическо или машинно обучение - например логистична регресия - която предвижда човешката класификация въз основа на характеристиките на изображението. Накрая, изследователят използва параметрите в този статистически модел, за да произведе прогнозни класификации на нови галактики (фигура 5.4). При машинното обучение този подход, използващ етикетирани примери, за да създаде модел, който може да етикетира нови данни, се нарича надзорно обучение .

Фигура 5.4: Опростено описание на начина, по който Banerji et al. (2010) използва класификациите на Galaxy Zoo за обучение на модел за машинно обучение за класификация на галактиките. Изображенията на галактиките бяха превърнати в матрица от свойства. В този опростен пример има три функции (количеството на синьото в изображението, вариацията в яркостта на пикселите и дела на небелите пиксели). След това за подмножество от изображения, етикетите на зоопарка на Galaxy се използват за обучение на модел за машинно обучение. Накрая, машинното обучение се използва за оценка на класификациите за останалите галактики. Аз наричам това компютърно подпомогнат човешки изчислителен проект, защото, вместо да се реши човек с проблем, хората изграждат набор от данни, които могат да бъдат използвани за обучение на компютър за решаване на проблема. Предимството на тази компютърно-подпомогната човешка изчислителна система е, че тя ви позволява да обработвате по същество безкрайни количества данни, използвайки само ограничен обем човешки усилия. Изображения на галактики, възпроизведени с разрешение от Sloan Digital Sky Survey.

Фигура 5.4: Опростено описание на начина, по който Banerji et al. (2010) използва класификациите на Galaxy Zoo за обучение на модел за машинно обучение за класификация на галактиките. Изображенията на галактиките бяха превърнати в матрица от свойства. В този опростен пример има три функции (количеството на синьото в изображението, вариацията в яркостта на пикселите и дела на небелите пиксели). След това за подмножество от изображения, етикетите на зоопарка на Galaxy се използват за обучение на модел за машинно обучение. Накрая, машинното обучение се използва за оценка на класификациите за останалите галактики. Аз наричам това компютърно подпомогнат човешки изчислителен проект, защото, вместо да се реши човек с проблем, хората изграждат набор от данни, които могат да бъдат използвани за обучение на компютър за решаване на проблема. Предимството на тази компютърно-подпомогната човешка изчислителна система е, че тя ви позволява да обработвате по същество безкрайни количества данни, използвайки само ограничен обем човешки усилия. Изображения на галактики, възпроизведени с разрешение от Sloan Digital Sky Survey .

Характеристиките в модела за машинно обучение на Banerji и колегите бяха по-сложни от тези в моя пример за играчка - например, тя използва функции като "de Vaucouleurs fit axial ratio" и нейният модел не е логистична регресия, а е изкуствена невронна мрежа. Използвайки нейните функции, модела и консенсуса на класификациите на Galaxy Zoo, тя успя да създаде тежести за всяка функция и след това да използва тези тегла, за да направи прогнози за класификацията на галактиките. Например, нейният анализ установи, че изображенията с ниско "de Vaucouleurs fit axial ratio" са по-вероятно да бъдат спираловидни галактики. Като се има предвид тези тегла, тя успя да предскаже човешката класификация на галактиката с разумна точност.

Работата на Banerji и колеги превърна галактическия зоопарк в това, което бих нарекъл компютъризирана система за човешки изчисления . Най-добрият начин да се мисли за тези хибридни системи е, че вместо да се реши човек с проблем, хората са изградили набор от данни, които могат да бъдат използвани за обучение на компютър за решаване на проблема. Понякога обучението на компютър за решаване на проблема може да изисква много примери и единственият начин да се създаде достатъчен брой примери е масовото сътрудничество. Предимството на този подход, подпомаган от компютър, е, че той ви позволява да се справите по същество с безкрайни количества данни, като използвате само ограничено количество човешки усилия. Например изследовател с милион човешки класифицирани галактики може да изгради предсказателен модел, който може да се използва за класифициране на милиард или дори трилион галактики. Ако има огромен брой галактики, тогава този вид човешки-компютърни хибриди е наистина единственото възможно решение. Тази безкрайна скалируемост обаче не е безплатна. Изграждането на модел за машинно обучение, който правилно може да възпроизведе класификациите на хората, е сериозен проблем, но за щастие вече има отлични книги, посветени на тази тема (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo е добра илюстрация за това колко човешки изчислителни проекти се развиват. На първо място, един изследовател се опитва да направи проекта сам или с малък екип от помощници за научни изследвания (напр. Първоначалното усилие за класификация на Шавински). Ако този подход не се измерва добре, изследователят може да се премести в проект за човешки изчисления с много участници. Но за определен обем данни чистото човешко усилие няма да бъде достатъчно. На този етап изследователите трябва да изградят изчислителна система за подпомагане на компютрите, при която класификациите на хората се използват за обучение на модел за машинно обучение, който след това може да се приложи към практически неограничени количества данни.