5.2.1 Galaxy Zoo

Галакси зоолошката заедница ги здружи напорите на многу нестручни волонтери за класификација на милион галаксии.

Галакси зоолошката градина произлезе од проблемот со кој се соочи Кевин Швински, дипломиран студент по астрономија на Универзитетот во Оксфорд во 2007 година. Поедноставно, Шивински беше заинтересиран за галаксиите, а галаксиите може да се класифицираат според нивната морфологија-елиптични или спирални и од нивната боја-сина или црвена боја. Во тоа време, конвенционалната мудрост меѓу астрономите била дека спиралните галаксии, како нашиот Млечен Пат, биле сини во боја (укажувајќи на младоста) и елиптичните галаксии биле црвени (што укажува на старост). Шуински се сомнева во оваа конвенционална мудрост. Тој се сомневал дека иако овој образец може да биде општ во целина, веројатно имало голем број исклучоци и дека со проучување на многу од овие необични галаксии - оние што не одговарале на очекуваниот модел - тој можел да научи нешто за процесот преку кој формирани галаксии.

Така, она што Шуински беше потребно за да се укине конвенционалната мудрост беше голем број на морфолошки класифицирани галаксии; што е, галаксии кои биле класифицирани како спирални или елиптични. Меѓутоа, проблемот беше што постоечките алгоритамски методи за класификација сеуште не беа доволно добри за да се користат за научни истражувања; со други зборови, класификацијата на галаксиите во тоа време беше проблем што им беше тешко на компјутерите. Затоа, она што беше потребно беше голем број на човечки класифицирани галаксии. Schawinski го презеде овој проблем класификација со ентузијазмот на дипломиран студент. Во маратонска сесија од седум 12-часовен дена, тој беше во можност да класифицира 50.000 галаксии. Додека 50.000 галаксии може да звучат како многу, тоа всушност е само околу 5% од речиси еден милион галаксии кои биле фотографирани во Sloan Digital Sky Survey. Шонински сфатил дека му треба повеќе скалабилен пристап.

За среќа, излегува дека задачата на класификација на галаксиите не бара напредна обука во астрономијата; може да се научи некој да го направи прилично брзо. Со други зборови, иако класификација на галаксиите е задача која е тешко за компјутери, тоа беше прилично лесно за луѓето. Така, додека седи во еден паб во Оксфорд, Schawinski и колеги астроном Крис Lintott измислено веб-сајт каде волонтери ќе се класифицираат слики на галаксиите. Неколку месеци подоцна, Галакси зоолошката градина се роди.

На веб-сајтот на Галакси зоолошката градина, волонтерите ќе поминат неколку минути на обука; на пример, да се научи разликата помеѓу спиралната и елиптичната галаксија (слика 5.2). По оваа обука, секој волонтер мораше да помине релативно лесен квиз - правилно класифицирајќи 11 од 15 галаксии со познати класификации - и потоа ќе започне вистинска класификација на непознати галаксии преку едноставен веб-базиран интерфејс (слика 5.3). Премин од волонтер до астроном ќе се одржи за помалку од 10 минути и само треба да помине најниската препрека, едноставен квиз.

Слика 5.2: Примери на двата главни типа на галаксии: спирални и елиптични. Проектот Галакси зоолошк користи повеќе од 100.000 волонтери за да категоризира повеќе од 900.000 слики. Репродуцирано со дозвола од http://www.GalaxyZoo.org и Sloan Digital Sky Survey.

Слика 5.2: Примери на двата главни типа на галаксии: спирални и елиптични. Проектот Галакси зоолошк користи повеќе од 100.000 волонтери за да категоризира повеќе од 900.000 слики. Репродуцирано со дозвола од http://www.GalaxyZoo.org и Sloan Digital Sky Survey .

Слика 5.3: Влезен екран каде што од волонтерите беше побарано да се класифицира една слика. Репродуцирано со дозвола од Крис Линтот врз основа на сликата од Sloan Digital Ankle Survey.

Слика 5.3: Влезен екран каде што од волонтерите беше побарано да се класифицира една слика. Репродуцирано со дозвола од Крис Линтот врз основа на сликата од Sloan Digital Ankle Survey .

Галакси зоолошката градина ги привлече првичните волонтери откако проектот беше објавен во весникот, а за околу шест месеци, проектот се зголеми за да вклучи повеќе од 100.000 граѓани научници, луѓе кои учествуваа бидејќи ја уживаа задачата и сакаа да помогнат во продлабочувањето на астрономијата. Заедно, овие 100.000 доброволци придонесоа вкупно повеќе од 40 милиони класификации, при што поголемиот дел од класификациите доаѓаат од релативно мала, основна група на учесници (Lintott et al. 2008) .

Истражувачите кои имаат искуство во ангажирањето на додипломски истражувачки асистенти може веднаш да бидат скептични во врска со квалитетот на податоците. Додека овој скептицизам е разумен, Галакси зоолошката градина покажува дека кога волонтерските придонеси се правилно исчистени, дебилизирани и агрегирани, тие можат да произведат квалитетни резултати (Lintott et al. 2008) . Важен трик за добивање на толпата да создаваат податоци за професионален квалитет е вишок , односно, да ја имаат истата задача што ја извршуваат многу различни луѓе. Во зоолошката градина на Галакси, имало околу 40 класификации по галаксија; истражувачите кои користат додипломски истражувачки асистенти никогаш не би можеле да си го дозволат ова ниво на вишок и затоа ќе треба да бидат многу повеќе загрижени за квалитетот на секоја поединечна класификација. Што им недостигаа волонтерите во обуката, тие се подготвуваа со вишок.

Дури и со повеќе класификации по галаксија, сепак, комбинирањето на сет од класи на волонтери за да се произведе консензуална класификација беше незгодно. Бидејќи многу слични предизвици се појавуваат во повеќето проекти за човечки пресметки, корисно е да ги разгледаме четирите чекори кои истражувачите на "Галакси зоолошката градина" ги користеле за да ги произведат нивните консензусни класификации. Прво, истражувачите ги "исчистат" податоците со отстранување на фалсификувани класификации. На пример, луѓето кои постојано ја класифицираа истата галаксија - нешто што ќе се случи ако се обиделе да ги манипулираат резултатите - ги уништиле сите нивни класификации. Ова и друго слично чистење ги отстрани околу 4% од сите класификации.

Второ, по чистењето, истражувачите требаше да отстранат систематски предрасуди во класификациите. Преку серија студии за детекција на пристрасност вградени во рамките на оригиналниот проект - на пример, покажувајќи некои волонтери галаксијата во монохроматски наместо боја - истражувачите откриле неколку систематски предрасуди, како што е систематско пристрасност за класификување на далечните спирални галаксии како елиптични галаксии (Bamford et al. 2009) . Прилагодувањето за овие систематски предрасуди е од исклучително значење бидејќи технолошки вишок автоматски не ја отстранува систематската пристрасност; тоа само помага да се отстрани случајна грешка.

Конечно, по дебилизирање, на истражувачите им беше потребен метод за комбинирање на поединечните класификации за да произведе консензуална класификација. Наједноставниот начин да се комбинираат класификациите за секоја галаксија би била да ја избере најчестата класификација. Сепак, овој пристап на секој волонтер ќе им даде еднаква тежина, а истражувачите се сомневаа дека некои волонтери беа подобри во класификацијата од другите. Затоа, истражувачите развиле посложена постапка на итеративна тежина која се обидела да ги открие најдобрите класификатори и да им даде поголема тежина.

Така, по три чекори за чистење на процесот, дебилизирање и тежина - истражувачкиот тим на Galaxy Zoo претвори 40 милиони класи на волонтери во збир на консензусни морфолошки класификации. Кога овие класификации на "Галакси зоолошките" беа споредени со три претходни помали обиди од страна на професионални астрономи, вклучувајќи ја и класификацијата на Schawinski која помогна да се инспирира Галакси зоолошката зона, имаше силен договор. Така, волонтерите, во агрегат, можеа да обезбедат висококвалитетни класификации и во обем што истражувачите не можеа да ги (Lintott et al. 2008) . Всушност, со човечки класификации за толку голем број галаксии, Швински, Линтот и други можеа да покажат дека само околу 80% од галаксиите ги следат очекуваните шема-сини спирали и црвени елипсовиди-и многубројни трудови се напишани за ова откритие (Fortson et al. 2011) .

Со оглед на оваа позадина, сега можете да видите како Галакси зоолошката градина го следи рецептот за сплит-примена, ист рецепт што се користи за повеќето човечки пресметки проекти. Прво, голем проблем е поделен на парчиња. Во овој случај, проблемот со класификацијата на еден милион галаксии беше поделен на еден милион проблеми во класификацијата на една галаксија. Потоа, операцијата се применува на секој дел независно. Во овој случај, волонтерите ја класифицираа секоја галаксија како спирала или елиптична. Конечно, резултатите се комбинираат за да произведат консензус резултат. Во овој случај, чекорот за комбинирање вклучуваше чистење, дебилизирање и пондерирање за да се добие консензуална класификација за секоја галаксија. Иако повеќето проекти го користат овој општ рецепт, секој чекор треба да биде прилагоден на конкретниот проблем што се решава. На пример, во проектот за човечки пресметки опишан подолу, истиот рецепт ќе се следи, но примените и комбинираните чекори ќе бидат сосема различни.

За екипата на Galaxy Zoo, овој прв проект беше само почеток. Многу брзо сфатија дека и покрај тоа што биле способни да класифицираат близу еден милион галаксии, оваа скала не е доволна за да работи со нови анкети за дигитално небо, што може да произведе слики од околу 10 милијарди галаксии (Kuminski et al. 2014) . За да се справи со зголемување од 1 милион на 10 милијарди - фактор од 10 000-Галакси зоолошка ќе треба да регрутира околу 10 000 пати повеќе учесници. Иако бројот на волонтери на Интернет е голем, тој не е бесконечен. Затоа, истражувачите сфатија дека, ако тие се справуваат со постојано растечки количини на податоци, потребен е нов, уште повеќе скалабилен пристап.

Затоа, Manda Banerji - работејќи со Schawinski, Lintott, и други членови на тимот на Галакси зоолошката градина (2010) започнаа да подучуваат компјутери за класификација на галаксиите. Поконкретно, користејќи ги човечките класификации создадени од Галакси зоолошката градина, Банерџи изгради модел за машинско учење кој може да ја предвиди човечката класификација на галаксијата врз основа на карактеристиките на сликата. Ако овој модел може да ги репродуцира хуманите класификации со висока точност, тогаш тоа би можело да се користи од истражувачите на Галакси зоолошката градина за да се класифицираат суштински бесконечен број галаксии.

Јадрото на пристапот на Банерџи и колегите е всушност прилично слично со техники што вообичаено се користат во општествените истражувања, иако таа сличност можеби не е јасна на прв поглед. Прво, Банерџи и неговите колеги ја претворија секоја слика во збир на нумерички карактеристики кои ги сумираат неговите својства. На пример, за слики од галаксии, може да има три карактеристики: количината на сина боја во сликата, варијансата на осветленоста на пикселите и процентот на не-бели пиксели. Изборот на точните карактеристики е важен дел од проблемот, и генерално бара експертиза за предметната област. Овој прв чекор, најчесто наречен функционален инженеринг , резултира со матрица за податоци со еден ред по слика, а потоа три колони кои ја опишуваат таа слика. Со оглед на матрицата на податоците и посакуваниот резултат (на пример, дали сликата е класифицирана од човекот како елиптична галаксија), истражувачот создава статистички или машински модел на учење - на пример, логистичка регресија - што ја предвидува човечката класификација базирана на карактеристиките на сликата. Конечно, истражувачот ги користи параметрите во овој статистички модел за да произведе проценети класификации на нови галаксии (слика 5.4). Во машинско учење, овој пристап со користење на етикетирани примери за создавање на модел кој потоа може да означува нови податоци - се нарекува надгледувано учење .

Слика 5.4: Поедноставен опис на тоа како Banerji et al. (2010) ги користеше класификациите на "Галакси зоолошката градина" за да го обучи моделот за учење на машини за класификација на галаксијата. Сликите на галаксиите беа претворени во матрица на карактеристики. Во овој поедноставен пример, постојат три карактеристики (количината на сина боја на сликата, варијансата на осветленоста на пикселите и процентот на бели бели пиксели). Потоа, за подмножество на сликите, етикети на Галакси зоолошките гранки се користат за да се обучи модел за учење на машини. Конечно, машинското учење се користи за проценка на класификациите за останатите галаксии. Ова го нарекувам компјутерски потпомогнат проект за човечки пресметки, бидејќи наместо луѓето да решаваат проблем, луѓето создаваат база на податоци што може да се користи за да се обучи компјутер за решавање на проблемот. Предноста на овој компјутерски потпомогнат човечки пресметковен систем е тоа што ви овозможува да се справите со суштински бесконечни количини на податоци користејќи само конечен износ на човечки напор. Слики од галаксии репродуцирани со дозвола од Sloan Digital Sky Survey.

Слика 5.4: Поедноставен опис на тоа како Banerji et al. (2010) користеше класификациите на "Галакси зоолошката градина" за да го обучи моделот за учење на машини за класификација на галаксијата. Сликите на галаксиите беа претворени во матрица на карактеристики. Во овој поедноставен пример, постојат три карактеристики (количината на сина боја на сликата, варијансата на осветленоста на пикселите и процентот на бели бели пиксели). Потоа, за подмножество на сликите, етикети на Галакси зоолошките гранки се користат за да се обучи модел за учење на машини. Конечно, машинското учење се користи за проценка на класификациите за останатите галаксии. Ова го нарекувам компјутерски потпомогнат проект за човечки пресметки, бидејќи наместо луѓето да решаваат проблем, луѓето создаваат база на податоци што може да се користи за да се обучи компјутер за решавање на проблемот. Предноста на овој компјутерски потпомогнат човечки пресметковен систем е тоа што ви овозможува да се справите со суштински бесконечни количини на податоци користејќи само конечен износ на човечки напор. Слики од галаксии репродуцирани со дозвола од Sloan Digital Sky Survey .

Карактеристиките во машинскиот модел на Банерџи и колегите беа покомплексни од оние во мојот пример за играчки - на пример, користеше функции како "de Vaucouleurs fit a axial ratio" - и нејзиниот модел не беше логистичка регресија, тоа беше вештачка нервна мрежа. Користејќи ги нејзините карактеристики, нејзиниот модел и консензус класификациите на Галакси зоолошката градина, таа успеа да создаде тегови за секоја одлика, а потоа ги искористи овие тежини за да направат предвидувања за класификацијата на галаксиите. На пример, нејзината анализа открила дека сликите со низок "de Vaucouleurs fit аксијален сооднос" се со поголема веројатност да бидат спирални галаксии. Со оглед на овие тежини, таа беше во можност да ја предвиди човечката класификација на галаксија со разумна точност.

Работата на Банерџи и колегите го претворија Галакси зоолошката градина во она што јас би го нарекол компјутерски потпомогнат човечки пресметковен систем . Најдобар начин да се размислува за овие хибридни системи е тоа што наместо луѓето да решат некој проблем, тие имаат луѓе да изградат база на податоци што може да се користат за да се обучи компјутер за да се реши проблемот. Понекогаш, обуката на компјутер за решавање на проблемот може да бара многу примери, а единствениот начин да се произведе доволен број примери е масовната соработка. Предноста на овој компјутерски потпомогнат пристап е тоа што ви овозможува да се справите со суштински бесконечни количини на податоци користејќи само ограничен број на човечки напори. На пример, истражувач со еден милион човечки класифицирани галаксии може да изгради предвидлив модел кој потоа може да се користи за да се класифицираат милијарди или дури трилиони галаксии. Ако има огромен број галаксии, тогаш овој вид хибрид на човечко-компјутер е навистина единственото можно решение. Оваа бесконечна приспособливост не е бесплатна, сепак. Градењето модел за машинско учење што правилно може да ги репродуцира човечките класификации е самиот проблем, но за среќа веќе има одлични книги посветени на оваа тема (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Галакси зоолошката градина е добра илустрација за тоа колку проекти за човечки пресметки се развиваат. Прво, истражувачот го обидува проектот самостојно или со мал тим на истражувачки асистенти (пр., Првичниот напор на Класификацијата на Швини). Ако овој пристап не е скалиран, истражувачот може да се пресели во проект за човечки пресметки со многу учесници. Но, за одреден обем на податоци, чистите човечки напори нема да бидат доволни. Во тој момент, истражувачите треба да изградат компјутерски потпомогнат човечки пресметковен систем во кој човечките класификации се користат за да се обучи модел за машинско учење, кој потоа може да се примени на практично неограничени количини на податоци.