5.2.1 Галаки Зоо

Галаки Зоо укључује напоре многих неекспертским волонтерима да се класификују милиона галаксија.

Галаки Зоо израсла из проблема са којима се суочавају Кевин Сцхавински, апсолвент астрономије на Универзитету у Оксфорду 2007. године поједностављење доста, Сцхавински била заинтересована за галаксијама, и галаксије може се класификовати по њиховом морфологија-елиптични или спирала-а по боји-плавој или црвеној. У то време, конвенционална мудрост међу астронома је да спиралне галаксије, као и наш Млечни Пут, били плаве боје (што указује младе) и да су галаксије биле црвене боје (указује на старост). Сцхавински оспорио ову конвенционалне мудрости. Он је осумњичен да је док је овај образац може бити истина уопште, постоји вероватно био знатан број изузетака, и то кроз проучавање доста ових необичних галаксија-оних који се не уклапа у очекиваном обрасцу-он могао да науче нешто о процесу кроз који галаксија формирана.

Тако, оно што Сцхавински потребно да би се преокрене конвенционалну мудрост је велики скуп морфолошки тајних галаксија; То је, галаксије које су класификовани као ни спирале или елиптични. Проблем је, међутим, био да постојећи алгоритамских метода за класификацију још нису довољно добри да се користи за научна истраживања; Другим речима, разврставање галаксије је, у том тренутку, проблем који је тешко за рачунаре. Према томе, оно што је потребно је велики број људских класификовани галаксија. Сцхавински предузела овај проблем класификације са ентузијазмом апсолвент. У маратонском седници седам, 12 сати дневно, био је у стању да класификује 50.000 галаксије. Док 50.000 галаксије може да звучи као много, то је заправо само око 5% од скоро милион галаксија које су сликали у оквиру Слоановог Дигитал Ски. Сцхавински схватио да му је потребан прилагодљивији приступ.

Срећом, испоставило се да је задатак који класификују галаксија не захтева усавршавање из астрономије; можете научити неког да то ради прилично брзо. Другим речима, иако класификацију галаксија је задатак који је било тешко за рачунаре, било је прилично лако за људе. Дакле, док је сједио у кафани у Оксфорду, Сцхавински и колега астроном Цхрис Линтотт сањао сајт где би волонтери класификује слике галаксија. Неколико месеци касније, Галаки Зоо рођен.

На сајту Галаки Зоо, волонтери ће проћи кроз неколико минута обуке; На пример, учење разлику између спирала и елиптичне галаксије (слика 5.2). Након овог тренинга, волонтери су морали да прођу релативно лако квиз-правилно класификацију 11 од 15 галаксије са познатим класификације-а онда је волонтер ће почети прави класификацију непознатих галаксија кроз једноставан веб интерфејса (слика 5.3). Прелаз од волонтера да астронома ће се одржати за мање од 10 минута и само је потребно доношење најнижа препрека, једноставног квизу.

Слика 5.2: Примери два главна типа галаксија: спирале и елиптични. Пројекат Галаки Зоо користи више од 100.000 волонтера у категоријама више од 900.000 фотографија. Извор: ввв.галакизоо.орг.

Слика 5.2: Примери два главна типа галаксија: спирале и елиптични. Пројекат Галаки Зоо користи више од 100.000 волонтера у категоријама више од 900.000 фотографија. Извор: ввв.галакизоо.орг .

Слика 5.3: Улаз екран где су гласачи тражено да класификују једну слику. Извор: ввв.галакизоо.орг.

Слика 5.3: Улаз екран где су гласачи тражено да класификују једну слику. Извор: ввв.галакизоо.орг .

Галаки Зоо привукла своје прве волонтере након пројекат је представљен у чланку вести, а за око шест месеци пројекат порастао да се укључе више од 100.000 грађана научника, људи који су учествовали јер су уживали задатак и желе да помогну унапред астрономију. Заједно, ови 100.000 добровољаца допринели укупно више од 40 милиона класификације, са већином класификација долазе из релативно мале, кључна група учесника (Lintott et al. 2008) .

Истраживачи који имају искуства ангажовања основне асистента може одмах да буде скептичан о квалитету података. Иако је овај скептицизам је разумно, Галаки Зоо показује да када се доприноси волонтера правилно очистити, дебиасед, и сакупљају, они могу произвести високо квалитетне резултате (Lintott et al. 2008) . Важан трик за добијање масу за стварање професионалног квалитета података је вишак радне снаге; то јест, пошто исти задатак обавља много различитих људи. У Галаки Зоо, било је око 40 класификације по галаксији; Истраживачи користе основних асистента никада не би могао приуштити овај ниво технолошког вишка и стога треба да буде много више баве квалитетом сваког појединачног класификације. Оно што волонтери нису имали у тренингу, они чине за са вишка запослених.

Чак и са вишеструким класификације по галаксији, међутим, комбинујући скуп добровољних класификација да би се произвео класификација консензус је лукав. Јер у већини обрачуна пројеката људских настају врло слични изазови, корисно је укратко размотрити три корака који су Галаки Зоо истраживачи користе за производњу своје консензус класификације. Прво, истраживачи су "чисти" податке тако што ћете уклонити лажних класификације. На пример, људи који више пута класификовани исто галаки-нешто што ће се догодити ако су покушавали да манипулише резултате, имали су све њихове класификације одбачена. Ова и друге сличне чишћење уклонити око 4% свих класификација.

Друго, након чишћења, истраживачи су потребни за уклањање системских пристрасности у класификацијама. Кроз низ студија за детекцију пристрасност уграђене у првобитном пројекту на пример, показују неке добровољце галаксија у црно-бело, уместо боје-Истраживачи су открили неколико системских предрасуде, као што је систематски пристрасност класификације далеко спиралне галаксије као галаксије (Bamford et al. 2009) . Подешавање за ове систематске пристрасности је изузетно важно, јер у просеку много доприносе не уклања систематски пристрасност; то само уклања случајна грешка.

Коначно, после дебиасинг, истраживачи су потребна метод да комбинује појединачне класификације за производњу класификацију консензус. Најједноставнији начин да се комбинује класификације за сваку галаксију би било да изабере најчешћи класификацију. Међутим, овај приступ би дати сваког волонтера једнаку тежину, а истраживачи су сумњали да су неки добровољци били бољи у класификацији од других. Због тога, истраживачи су развили сложенији итеративну поступак тежини, која покушава да аутоматски детектује најбоље класификаторе и дати им већу тежину.

Тако је, након три корака процеса чишћења, дебиасинг, а тежина-истраживачког тима Галаки Зоо су претворени 40 милиона волонтера класификације у низ консензус морфолошких класификације. Када су ови Галаки Зоо класификације у односу на претходна три мањим покушајима професионалних астронома, укључујући класификацију према Сцхавински који је помогао да инспиришу Галаки Зоо, било је јако договор. Тако, волонтери, у агрегату, били у стању да обезбеди висок квалитет класификације и на скали да истраживачи нису могли да одговара (Lintott et al. 2008) . У ствари, тако што људске класификације за тако велики број галаксија, Сцхавински, Линтотт, и други су били у стању да покаже да само око 80% од галаксија пратити очекиваном обрасцу-плаве спирале и црвене Елиптичне-и бројне радове је написано о ово откриће (Fortson et al. 2011) .

С обзиром на то позадина, сада можемо да видимо како Галаки Зоо прати сплит применити-комбинују рецепт, исти рецепт који се користи за већину обрачуна пројеката људских. Прво, велики проблем је подељен на комаде. У овом случају, проблем класификације милион галаксија је подељен у милион проблема класификације један галаксију. Следеће, операција се примењује на сваку цхунк самостално. У овом случају, волонтер би класификују свака галаксија као ни спирале или елиптични. Коначно, резултати се комбинују да произведе резултат консензус. У том случају, комбинују корак укључен за чишћење, дебиасинг, а тежина за производњу класификацију консензуса за сваки галаксије. Иако је већина пројеката користе овај општи рецепт, сваки од корака мора да прилагодити специфичан проблем се решава. На пример, у пројекту људског рачунања описан у наставку, исти рецепт ће се пратити, али важе и комбинују кораци ће бити сасвим другачија.

За Галаки Зоо тима, ово први пројекат је био само почетак. Врло брзо су схватили да иако су били у стању да класификују у близини милион галаксија, ово скала није довољно да ради са новијим истраживањима Дигитал Ски, што би могло да произведе слике од око 10 милијарди галаксија (Kuminski et al. 2014) . Да би управљали повећање од 1 милион до 10 милијарди фактор 10.000 Галаки Зоо би требало да регрутује око 10.000 пута више учесника. Иако је број волонтера на Интернету је велика, није бескрајна. Због тога, истраживачи су схватили да ако ће они носити стално растућих количина података, је потребна нова, још прилагодљив, приступ.

Стога, Манда Банерји-рад са Кевином Сцхавински, Цхрис Линтотт и других чланова Галаки Зоо тима покретање наставе рачунара за класификацију галаксије. Прецизније, користећи људске класификације створене Галаки Зоо, Banerji et al. (2010) модел учења машина која може да предвиди људску класификацију галаксије на основу карактеристика слике. Ако се овај модел учења машина може да репродукује људска класификације са високом прецизношћу, онда се може користити Галаки Зоо истраживача за класификацију суштински бесконачан број галаксија.

Језгро Банерјиа и колеге 'приступа је заправо прилично сличан технике обично користе у друштвена истраживања, иако се та сличност не може бити јасно на први поглед. Прво, Банерји и колеге претворена сваку слику у низ нумеричких карактеристика које сажимам је својства. На пример, за слике галаксија није могло бити три карактеристике: Износ плаве на слици, су разлике у осветљености пиксела, а проценат не-белих пиксела. Избор исправна функција је важан део проблема, а то обично захтева предмет-ареа стручност. Овај први корак, обично зове функција инжењеринг, резултати у матрици података са једним редом по слици и затим три колоне које описују ту слику. С обзиром на матрицу података и жељени излаз (нпр, да ли је слика класификовати по човека као елиптичне галаксије), истраживач процењује параметре статистичког модела на пример, нешто као логистичке регресије-то предвиђа људски класификацију засновану о карактеристикама слике. Коначно, истраживач користи параметре у овом статистичком моделу за производњу процењено класификације нових галаксија (слика 5.4). Да се ​​мисли о социјалном аналогног, замислите да сте имали демографске податке о милион ученика, а ви знате да ли су завршио факултет или не. Може да стане логистичку регресију на овим подацима, а онда можете да користите настале параметара модела предвидети да ли су нови ученици ће да дипломира на факултету. У машинског учења, овај приступ који користе означене примера за стварање статистички модел који онда може да означи нови подаци-зове се надзире учење (Hastie, Tibshirani, and Friedman 2009) .

Слика 5.4: Поједностављено опис како Банерји и др. (2010) користио Галаки Зоо класификације за обуку модел машине учења да раде галаки класификацију. Слике галаксија су претворени у матрици карактеристика. У овој поједностављеној пример, постоје три карактеристике (износ плаве у слици, су разлике у осветљености пиксела, а проценат не-белих пиксела). Онда, за подскуп снимака, на Галаки Зоо ознаке се користе за обуку модел учења машина. Коначно, учење машина се користи за процену класификације за преостале галаксија. Ја ово зовем врсту пројекта друга генерација људских рачунарске пројекат јер, уместо да људи реши проблем, они имају људи граде скуп података који се може користити за обуку рачунар да реши проблем. Предност оваквог приступа уз помоћ рачунара је у томе што омогућава да носити у суштини бескрајне количине података користећи само коначан износ људског напора.

Слика 5.4: Поједностављено опис како Banerji et al. (2010) Галаки Зоо класификације за обуку модел машине учења да раде галаки класификацију. Слике галаксија су претворени у матрици карактеристика. У овој поједностављеној пример, постоје три карактеристике (износ плаве у слици, су разлике у осветљености пиксела, а проценат не-белих пиксела). Онда, за подскуп снимака, на Галаки Зоо ознаке се користе за обуку модел учења машина. Коначно, учење машина се користи за процену класификације за преостале галаксија. Ја ово зовем врсту пројекта друга генерација људских рачунарске пројекат јер, уместо да људи реши проблем, они имају људи граде скуп података који се може користити за обуку рачунар да реши проблем. Предност оваквог приступа уз помоћ рачунара је у томе што омогућава да носити у суштини бескрајне количине података користећи само коначан износ људског напора.

Функције у Banerji et al. (2010) машине учење су сложенији од оних у мом играчка пример на пример, она користи функције као што су "од Вауцоулеурс фит аксијално однос" -а њен модел није био логистичка регресија, то је вештачка неуронска мрежа. Користећи своје функције, њен модел и консензуса Галаки Зоо класификације, она је у стању да створи тежине на сваку функцију, а затим користе ове тегове да предвиђања о класификацији галаксија. На пример, њена анализа је утврдио да слике са ниским "од Вауцоулеурс фит аксијално однос" су веће шансе да буду спиралне галаксије. Имајући у виду ове тежине, она је у стању да предвиди људску класификацију галаксије са разумном прецизношћу.

Рад Banerji et al. (2010) Галаки Зоо у оно што бих назвао друге генерације људски израчунавања систем. Најбољи начин да се мисли о овим друге генерације система је да уместо да људи реши проблем, они имају људи граде скуп података који се може користити за обуку рачунар да реши проблем. Количина података потребних за обуку рачунар може бити толико велики да захтева масовну сарадњу људски да створи. У случају Галаки Зоо, неуронске мреже које користе Banerji et al. (2010) је велики број примера људских-обележени како би се изградио модел који је био у стању да поуздано репродукује људски класификацију.

Предност оваквог приступа уз помоћ рачунара је у томе што омогућава да носити у суштини бескрајне количине података користећи само коначан износ људског напора. На пример, истраживач са милион људских класификовани галаксија може изградити интуитивни модел који се затим може користити за класификацију милијарди или чак трилион галаксије. Ако постоје огромне број галаксија, онда ова врста Хуман-Цомпутер хибрид је заиста једино могуће решење. Ово бесконачно скалабилност није слободан, међутим. Изградња модела машинског учења који тачно да репродукују људска класификације је сам по себи тежак проблем, али срећом већ има одличне књиге посвећене овој теми (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Галаки Зоо показује еволуцију многих израчунавања пројеката људских. Прво, истраживач покушава пројекат сама или са малим тимом стручних сарадника (нпр, Сцхавински првобитни класификација напор). Ако овај приступ не и размери, истраживач може да се креће у пројекат људског рачунања где многи људи доприносе класификације. Али, за одређени количине података, чисто људски напор неће бити довољно. У том тренутку, истраживачи морају да изграде системе друге генерације у којој су људска класификације користе за обуку модел учења машина која се могу применити на практично неограниченим количинама података.