5.2.1 Галаки Зоо

Галаки Зоо је комбиновао напоре многих невољних добровољаца да класификују милион галаксија.

Галаки Зоо је израсла из проблема са којим се суочава Кевин Сцхавински, дипломирани студент астрономије на Универзитету у Оксфорду 2007. године. Симплицирање прилично мало, Сцхавински је био заинтересован за галаксије, а галаксије се могу класификовати према њиховом морфолошком-елиптичном или спиралном и по бојама плаве или црвене боје. У то време, конвенционална мудрост међу астрономима била је да су спиралне галаксије, попут нашег Млечног пута, плаве боје (указујући на омладину) и елиптичне галаксије биле црвене (што показује старост). Сцхавински је сумњао у ову конвенционалну мудрост. Он је сумњао да, иако овај образац може бити истинит уопште, вероватно је био велики број изузетака, и да проучавањем пуно ових необичних галаксија - оних који нису одговарали очекиваном обрасцу - могао је сазнати нешто о процесу кроз који формиране галаксије.

Стога, оно што је Швински потребан да би преварио конвенционалну мудрост био је велики скуп морфолошки класификованих галаксија; то јест, галаксије које су класификоване као спиралне или елиптичне. Проблем је, међутим, био да постојеће алгоритамске методе за класификацију још нису довољно добре да се користе за научна истраживања; Другим ријечима, класификација галаксија је у то вријеме била проблем који је био тешко за рачунаре. Дакле, потребан је велики број хуманих класификованих галаксија. Сцхавински је овај проблем класификације преузео са ентузијазмом дипломираног студента. На маратонској седници од седам дванаестодневних дана, он је био у стању да класификује 50.000 галаксија. Док 50.000 галаксија можда звучи као пуно, заправо је само око 5% од скоро милион галаксија које су фотографисане у Слоан Дигитал Ски Сурвеиу. Сцхавински схвати да му је потребан скалабилнији приступ.

Срећом, испоставило се да је задатак који класификују галаксија не захтева усавршавање из астрономије; можете научити неког да то ради прилично брзо. Другим речима, иако класификацију галаксија је задатак који је било тешко за рачунаре, било је прилично лако за људе. Дакле, док је сједио у кафани у Оксфорду, Сцхавински и колега астроном Цхрис Линтотт сањао сајт где би волонтери класификује слике галаксија. Неколико месеци касније, Галаки Зоо рођен.

На сајту Галаки Зоо, волонтери би прошли неколико минута обуке; на пример, учење разлике између спиралне и елиптичне галаксије (слика 5.2). Након овог тренинга, сваки добровољац је морао да прође релативно једноставан квиз - исправно класификује 11 од 15 галаксија са познатим класификацијама - а затим ће почети стварну класификацију непознатих галаксија путем једноставног веб интерфејса (слика 5.3). Прелазак са волонтера на астронома би се одвијао за мање од 10 минута и требало би само да прође најниже препреке, једноставан квиз.

Слика 5.2: Примери два главна типа галаксија: спирална и елиптична. Пројекат Галаки Зоо је користио више од 100.000 добровољаца за категоризацију више од 900.000 слика. Репродуковано уз дозволу од хттп://ввв.ГалакиЗоо.орг и Слоан Дигитал Ски Сурвеи.

Слика 5.2: Примери два главна типа галаксија: спирална и елиптична. Пројекат Галаки Зоо је користио више од 100.000 добровољаца за категоризацију више од 900.000 слика. Репродуковано уз дозволу од хттп: //ввв.ГалакиЗоо.орг и Слоан Дигитал Ски Сурвеи .

Слика 5.3: Инпут екран где су добровољци затражили да класификују једну слику. Репродуковано уз дозволу Цхриса Линтота на основу слике из Слоан Дигитал Ски Сурвеи.

Слика 5.3: Инпут екран где су добровољци затражили да класификују једну слику. Репродуковано уз дозволу Цхриса Линтота на основу слике из Слоан Дигитал Ски Сурвеи .

Галаки Зоо је привукао своје иницијалне волонтере након што је пројекат објављен у новинском чланку, а за приближно шест месеци пројекат је укључивао више од 100.000 научника грађана, људи који су учествовали јер су уживали у задатку и жељели су помоћи унапређењу астрономије. Заједно, ових 100.000 добровољаца допринело је укупно више од 40 милиона класификација, при чему већина класификација долази из релативно мале, основне групе учесника (Lintott et al. 2008) .

Истраживачи који имају искуства запошљавања додипломских истраживача могу одмах бити скептични у погледу квалитета података. Иако је овај скептицизам разумно, Галаки Зоо показује да када се добровољни доприноси правилно очисте, дебилују и сабирају, они могу произвести квалитетне резултате (Lintott et al. 2008) . Важан трик за подизање гомиле за стварање података о професионалном квалитету је редундантност , односно, имају исти задатак који обављају различити људи. У галаксијском зоолошком врту било је око 40 класификација по галаксији; истраживачи који користе додипломске истраживачке асистенте никада не би могли приуштити овај ниво редундантности и стога би се требао много више бавити квалитетом сваке појединачне класификације. Оно што волонтери нису имали на обуци, они су се надокнадили са вишком.

Међутим, чак и са вишеструком класификацијом по галаксији, комбинујући низ класификација добровољаца како би се постигла консензусна класификација, било је тешко. Будући да се у већини пројеката људских рачунања појављују врло слични изазови, корисно је укратко прегледати три корака које су истраживачи Галаки Зоо-а користили да произведу своје консензусне класификације. Прво, истраживачи су "очистили" податке уклањањем лажних класификација. На пример, људи који су више пута класификовали исту галаксију - нешто што би се догодило ако би покушали да манипулишу резултатима - све своје класификације су одбачене. Ово и друго слично чишћење уклонило је око 4% свих класификација.

Друго, након чишћења, истраживачи су морали уклонити систематске пристрасности у класификацији. Кроз серију студија детекције пристрасности уграђених у оквиру првобитног пројекта - на пример, приказивање неких добровољаца галаксији монохромним умјесто боја - истраживачи су открили неколико систематских предрасуда, као што је систематска предрасуда за класификацију далеких спиралних галаксија као елиптичких галаксија (Bamford et al. 2009) . Прилагођавање ових систематских предрасуда је изузетно важно јер редунданција не уклања систематско пристрасност аутоматски; то само помаже у уклањању насумичне грешке.

На крају, након дебиирања, истраживачима је био потребан метода за комбиновање појединачних класификација како би се направила консензусна класификација. Најједноставнији начин комбиновања класификација за сваку галаксију би био да се изабере најчешћа класификација. Међутим, овакав приступ би сваком волонтеру давао једнаку тежину, а истраживачи су сумњали да су неки добровољци били бољи у класификацији него други. Због тога су истраживачи развили сложеније поступке итеративног пондера који су покушали да открију најбоље класификаторе и дају им већу тежину.

Тако је, након три чекова у процесу чишћења, дебиирања и пондера, истраживачки тим Галаки Зоо претворио је 40 милиона класификација добровољаца у сет консензусних морфолошких класификација. Када су ове класификације Галаки Зоо упоређене са три претходна покушаја мањег обима од стране професионалних астронома, укључујући и класификацију од стране Сцхавинског, која је помогла инспиришу Галаки Зоо, постојала је снажна сагласност. Стога, волонтери, у целини, били су у могућности пружити висококвалитетне класификације иу скали коју истраживачи нису могли подударати (Lintott et al. 2008) . Заправо, постојањем људских класификација за овако велики број галаксија, Сцхавински, Линтотт и други су могли показати да само око 80% галаксија прати очекиване шаблоне плаве боје и црвене елиптике - а бројни радови су написани о ово откриће (Fortson et al. 2011) .

С обзиром на ову позадину, сада можете да видите како Галаки Зоо прати рецепт који се односи на сплит-аппли-цомбине, исти рецепт који се користи за већину пројеката за рачунање људи. Прво, велики проблем се дели на делове. У овом случају, проблем класификације милион галаксија подељен је на милион проблема класификације једне галаксије. Даље, операција се примјењује на сваки дио независно. У овом случају, добровољци су класификовали сваку галаксију као спиралну или елиптичну. Коначно, резултати се комбинују како би се постигао резултат консензуса. У овом случају, комбиновани корак укључује чишћење, дебиасинг и тежину како би се произвео консензусна класификација за сваку галаксију. Иако већина пројеката користи овај општи рецепт, сваки корак треба прилагодити специфичном проблему који се решава. На пример, у пројекту људског израчунавања који је описан у наставку, следиће исти рецепт, али примењиви и комбиновани кораци ће бити сасвим различити.

За Галаки Зоо тим, овај први пројекат је био само почетак. Врло брзо су схватили да иако су успели да класификују близу милион галаксија, ова скала није довољна за рад са новијим анкетама о дигиталном небу, што може произвести слике од око 10 милијарди галаксија (Kuminski et al. 2014) . Да би се носио са повећањем од 1 милиона до 10 милијарди, фактор 10,000 Зоо галаксије би требао регрутовати отприлике 10 000 пута више учесника. Иако је број добровољаца на Интернету велики, то није бесконачно. Због тога су истраживачи схватили да ће, ако се баве питањем све већих количина података, потребан нови, још прилично скалабилан приступ.

Због тога, Манда Банерји-сарадња са Сцхавинским, Линтотт-ом и осталим члановима галеријског зоо тима (2010) покренула је компјутере за класификацију галаксија. Конкретније, користећи људске класификације које је створио Галаки Зоо, Банерји је направио модел за учење машина који би могао предвидјети људску класификацију галаксије засновану на карактеристикама слике. Ако би овај модел могао репродуковати људску класификацију са високом прецизношћу, онда би га истраживачи галактичког зоо-а могли користити да класификују у суштини бесконачан број галаксија.

Језгро приступа Банерји и колега је заправо прилично слично техникама које се обично користе у друштвеним истраживањима, иако то сличност можда није јасно на први поглед. Прво, Банерји и колеге претворили су сваку слику у низ нумеричких карактеристика које су резимирале његове особине. На пример, за слике галаксија, могу постојати три особине: висина плаве слике, варијансе осветљености пиксела и проценат небелих пиксела. Избор исправних функција је важан део проблема и обично захтева експертизу у предметној области. Овај први корак, обично назван функционални инжењеринг , резултира матрицом података са једним редом по слици, а затим три колоне које описују ту слику. С обзиром на матрицу података и жељени резултат (нпр. Да ли је слика класификовала од стране човека као елиптичке галаксије), истраживач креира статистички модел или модел за учење машина - на пример, логистичка регресија - која предвиђа људску класификацију засновану на карактеристикама слике. Коначно, истраживач користи параметре у овом статистичком моделу за производњу процењених класификација нових галаксија (слика 5.4). У машинском учењу, овај приступ - користећи означене примере за креирање модела који може онда означити нове податке - назива се надгледано учење .

Слика 5.4: Поједностављени опис начина на који Банерји и сар. (2010) је користио Галаки Зоо класификације како би обучио модел за учење машина за класификацију галаксије. Слике галаксија претворене су у матрицу карактеристика. У овом поједностављеном примеру постоје три функције (количина плаве слике, варијансе осветљености пиксела и проценат небелих пиксела). Затим, за подскуп слике, ознаке Галаки Зоо се користе за обуку модела за учење машина. Коначно, машинско учење користи се за процену класификација за преостале галаксије. Ја то зовем пројектом рачунарског хуманог рачунарства, јер људима, уместо да људи реше проблем, људи изграђују скуп података који се могу користити за обуку рачунара за решавање проблема. Предност овог компјутерског система људског рачунања је то што вам омогућава да у суштини поднесете бесконачне количине података користећи само ограничену количину људских напора. Слике галаксија репродуковане дозволом Слоан Дигитал Ски Сурвеи.

Слика 5.4: Поједностављени опис начина на који Banerji et al. (2010) користио Галаки Зоо класификације како би обучио модел за учење машина за класификацију галаксије. Слике галаксија претворене су у матрицу карактеристика. У овом поједностављеном примеру постоје три функције (количина плаве слике, варијансе осветљености пиксела и проценат небелих пиксела). Затим, за подскуп слике, ознаке Галаки Зоо се користе за обуку модела за учење машина. Коначно, машинско учење користи се за процену класификација за преостале галаксије. Ја то зовем пројектом рачунарског хуманог рачунарства, јер људима, уместо да људи реше проблем, људи изграђују скуп података који се могу користити за обуку рачунара за решавање проблема. Предност овог компјутерског система људског рачунања је то што вам омогућава да у суштини поднесете бесконачне количине података користећи само ограничену количину људских напора. Слике галаксија репродуковане дозволом Слоан Дигитал Ски Сурвеи .

Карактеристике у моделу аутоматског учења Банера и колега биле су сложеније од оних у мом играчком примјеру - на примјер, она је користила функције као што су "де Вауцоулеурс фит акиал ратио" - а њен модел није био логистичка регресија, већ је била вештачка неуронска мрежа. Користећи њене карактеристике, њен модел и консензус класификације Галаки Зоо, успјела је направити тежину за сваку особину, а затим користити те тежине како би направила предвиђања о класификацији галаксија. На пример, њена анализа показала је да су слике са ниским "де Вауцоулеурс фит аксијалним односом" вероватније спиралне галаксије. С обзиром на те тежине, она је била у стању да предвиди људску класификацију галаксије са разумном прецизношћу.

Рад Банераја и колега претворио је Галаки Зоо у оно што бих назвао рачунарским људским рачунарским системом . Најбољи начин да размишљате о овим хибридним системима је да уместо да људи реше проблем, они чине људе да изграде скуп података који се могу користити за обуку рачунара како би решили проблем. Понекад, обука рачунара за решавање проблема може захтевати много примера, а једини начин да се произведе довољан број примера јесте масовна сарадња. Предност овог приступа помоћу рачунара јесте да вам омогућава да у суштини сложите неограничене количине података користећи само ограничен број људских напора. На пример, истраживач са милион класификованих галаксија човјека може направити предиктивни модел који се онда може користити за класификацију милијарде или чак трилионске галаксије. Ако постоји огроман број галаксија, онда је овакав тип хибрида људског рачунара стварно једино могуће рјешење. Међутим, ова бесконачна скалабилност није бесплатна. Изградња модела машинског учења која може правилно репродуковати људске класификације је сама тежак проблем, али на срећу већ постоје одличне књиге посвећене овој теми (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Галаки Зоо је добра илустрација колико се пројеката људских рачунара развијају. Прво, истраживач покушава пројекат сама или са малим тимом истраживачких сарадника (нпр., Почетни напор Сцхвински-овог класификацијског напора). Ако овај приступ не скалира добро, истраживач може прећи на пројекат људског рачунања са многим учесницима. Али, за одређени обим података, чисти људски напор неће бити довољан. У том тренутку, истраживачима је потребно изградити компјутерски помоћни рачунарски систем у којем се користе људске класификације за обуку модела за учење машина, који се онда може примијенити на практично неограничене количине података.