5.2.1 Galaxy Zoo

Galaxy Zoo комбинација на напорите на многу не-експерт волонтери да се класифицираат милиони галаксии.

Galaxy Zoo произлезе од проблем со кои се соочуваат Кевин Schawinski, дипломиран студент по астрономија на Универзитетот во Оксфорд во 2007 година Поедноставување доста, Schawinski бил заинтересиран галаксии и галаксии можат да се класифицираат според нивната морфологија-елиптични или спирала и од страна на нивните боја сина или црвена. Во тоа време, конвенционалната мудрост меѓу астрономите беше дека спиралните галаксии, како и нашиот Млечен Пат, беа сина боја (што укажува на младите) и на тој елиптични галаксии се црвена боја (што укажува на старост). Schawinski сомнева овој конвенционалната мудрост. Дека се сомнева дека иако овој модел може да биде вистина, во принцип, постојат веројатно беа доста голем број на исклучоци, и дека со проучување на многу од овие необични галаксии-оние кои не се вклопуваат во очекува Моделирање и тој може да се научи нешто за процесот низ кој галаксии формирани.

Така, она што Schawinski потребни со цел да го скрши конвенционалната мудрост беше голем сет на морфолошки класифицирани галаксии; што е, галаксии кои се класифицира како спирала или елипсовидна. Проблемот, сепак, е дека постоечките алгоритамски методи за класификација сеуште не доволно добри за да се користи за научни истражувања; со други зборови, класифицирање галаксии беше, во тоа време, проблем со кој беше тешко за компјутери. Затоа, она што беше потребно беше голем број на човечки класифицирани галаксии. Schawinski презема оваа класификација проблем со ентузијазам на дипломиран студент. Во маратонската седница на седум, 12 часа на ден, тој беше во можност да се класифицираат 50.000 галаксии. Додека 50.000 галаксии може да звучи како многу, тоа е, всушност, само околу 5% од речиси еден милион галаксии кои биле фотографирани во Анкетата за Sloan Digital Sky. Schawinski сфатил дека е потребно повеќе скалабилни пристап.

За среќа, излегува дека задачата на класификација на галаксиите не бара напредна обука во астрономијата; може да се научи некој да го направи прилично брзо. Со други зборови, иако класификација на галаксиите е задача која е тешко за компјутери, тоа беше прилично лесно за луѓето. Така, додека седи во еден паб во Оксфорд, Schawinski и колеги астроном Крис Lintott измислено веб-сајт каде волонтери ќе се класифицираат слики на галаксиите. Неколку месеци подоцна, Галакси зоолошката градина се роди.

На веб-страницата на Galaxy Zoo, волонтери ќе се подложи на неколку минути од обука; на пример, учење на разликата помеѓу спирала и елиптична галаксија (Слика 5.2). По оваа обука, волонтерите мораше да помине релативно лесен квиз-точно класифицирајќи 11 од 15 галаксии со познати класификации, а потоа и на волонтерот ќе започне вистински класификација на галаксиите непознати преку едноставен веб-базиран интерфејс (Слика 5.3). Преминот од доброволец да астроном ќе се одржи во помалку од 10 минути и само бара поминување најниска пречки, едноставен квиз.

Слика 5.2: Примери на два главни видови на галаксии спирала и елипсовидна. Проектот Galaxy Zoo користи повеќе од 100.000 волонтери за категории повеќе од 900.000 слики. Извор: www.galaxyzoo.org.

Слика 5.2: Примери на два главни видови на галаксии спирала и елипсовидна. Проектот Galaxy Zoo користи повеќе од 100.000 волонтери за категории повеќе од 900.000 слики. Извор: www.galaxyzoo.org .

Слика 5.3: Влез екранот каде што гласачите беше побарано да се класифицираат една слика. Извор: www.galaxyzoo.org.

Слика 5.3: Влез екранот каде што гласачите беше побарано да се класифицираат една слика. Извор: www.galaxyzoo.org .

Galaxy Zoo привлече својата почетна волонтери по завршувањето на проектот беше опремен во една статија, а во околу шест месеци се зголеми на проектот да се вклучат повеќе од 100.000 граѓани научници, луѓе кои учествуваа бидејќи тие уживаа задачата и сакаа да му помогне во астрономијата. Заедно, овие 100.000 волонтери придонеле со вкупно повеќе од 40 милиони класификации, со мнозинство од класификациите кои доаѓаат од релативно мала, основни група на учесници (Lintott et al. 2008) .

Истражувачите кои имаат искуство вработување на додипломски истражувачки асистенти би можеле веднаш да се скептични во врска со квалитетот на податоците. Додека овој скептицизам е разумен, Galaxy Zoo покажува дека кога доброволните придонеси се правилно исчистени, debiased, и собрани, тие може да се произведуваат високо-квалитетни резултати (Lintott et al. 2008) . Важен трик за добивање на толпата, да се создадат професионални квалитет на податоците е технолошки вишок; што е, ја истата задача се врши од страна на многу различни луѓе. Зоолошката градина во Галакси, имало околу 40 класификации на галаксијата; Истражувачите со додипломски истражувачки асистенти никогаш не може да си дозволи ова ниво на технолошки вишок и затоа треба да биде многу повеќе се занимава со квалитетот на секоја поединечна класификација. Што волонтерите недостигаше во обука, тие се составен за со вишок.

Дури и со повеќе класификации на галаксијата, сепак, комбинирање на сет на волонтерски класификации за производство на класификација консензус е слабо. Бидејќи се јавуваат многу слични предизвици во повеќето проекти за човекови пресметка, тоа е корисно да се видат накратко три чекори што истражувачите Галакси зоолошка градина за да се прават консензус класификации. Прво, на истражувачите "чисти" на податоци со отстранување на лажни класификации. На пример, луѓето кои постојано се класифицираат иста галаксија нешто што ќе се случи ако тие се обидуваат да манипулираат со резултатите ги имаше сите нивните класификации отфрлени. Ова, како и други слични чистење отстранети околу 4% од сите класификации.

Второ, по чистење, истражувачите потребно да се отстрани систематски предрасуди во класификации. Преку серија на студии за откривање на пристрасност вградени во рамките на оригиналниот пример проектот за, покажува некои волонтери галаксијата во црно, наместо на боја истражувачите откриле неколку систематски предрасуди, како што систематски предрасуди да се класифицираат далеку спирални галаксии што се елиптични галаксии (Bamford et al. 2009) . Подесување за овие системски предрасуди е исклучително важно, бидејќи во просек многу придонеси не се отстрани систематска пристрасност; тој ги отстранува само случајна грешка.

Конечно, по debiasing, истражувачите потребни метод да се комбинираат индивидуални класификации за да се произведе класификација консензус. Наједноставниот начин да се комбинираат класификации за секоја галаксија ќе биде да изберете од најчестите класификација. Сепак, овој пристап ќе им даде на секој волонтер еднаква тежина, а истражувачите осомничени дека некои волонтери беа подобри во класификацијата од другите. Поради тоа, истражувачите развија посложена повторната постапка тежина која се обидува автоматски да открива најдобрите класификатори и да им даде повеќе тежина.

Така, по три чекор процес-чистење, debiasing и тежина-истражувачкиот тим Galaxy Zoo се конвертира 40 милиони волонтери класификации во собата на консензус морфолошката класификација. Кога овие Galaxy Zoo класификации и претходните три обиди од помал обем, од страна на професионални астрономи, вклучувајќи го и класификација по Schawinski кои помогнаа да се инспирираат Galaxy Zoo, имаше силен договор. Така, волонтери, во вкупен, беа во можност да обезбеди висок квалитет на класификациите и во размер дека истражувачите не би можеле да (Lintott et al. 2008) . Всушност, со тоа што човековите класификации за толку голем број на галаксии, Schawinski, Lintott, а другите беа во можност да се покаже дека само околу 80% од галаксии следат очекува шема-сина спирали и црвена елиптични-и бројни документи се напишани за ова откритие (Fortson et al. 2011) .

Со оглед на сето ова, ние сега може да се види како Galaxy Zoo следи Сплит аплицираат-комбинираат рецепт, истиот рецепт кој се користи за повеќето проекти за човекови пресметка. Прво, голем проблем е поделена на парчиња. Во овој случај, проблемот на класификација на еден милион галаксии е поделена на милион проблеми на класифицирање на една галаксија. Следно, операцијата е да се примени на секое парче независно. Во овој случај, волонтер ќе се класифицираат секоја галаксија или како спирала или елипсовидна. Конечно, резултатите се комбинираат за да произведат резултат на консензус. Во овој случај, чекор комбинатот вклучени чистење, debiasing и тежина за да се произведе класификација консензус за секоја галаксија. Иако повеќето проекти за користење на оваа општа рецепт, секој од чекорите треба да се прилагодени на специфичните проблеми се решаваат. На пример, во пресметка Проектот за човечкиот опишани подолу, истиот рецепт ќе се следи, но се применуваат и да ги комбинирате чекори ќе биде сосема поинаква.

За екипата на Galaxy Zoo, овој прв проект беше само почеток. Многу брзо се сфати дека иако тие беа во можност да се класифицираат во близина на еден милион галаксии, ова ниво не е доволно за да работат со понови истражувања дигитален небото, што може да произведе слики од околу 10 милијарди галаксии (Kuminski et al. 2014) . Да се ​​справи со зголемување 1.000.000-10000000000-фактор од 10.000 Galaxy Zoo ќе треба да се ангажираат околу 10.000 пати повеќе учесници. Иако бројот на волонтери на интернет е голем, тоа не е бесконечна. Поради тоа, истражувачите сфати дека ако тие се случува да се справи со се поголеми количини на податоци, е потребен нов, дури и повеќе скалабилни, пристап.

Затоа, Manda Банерџи-работа со Кевин Schawinski, Крис Lintott и други членови на Galaxy Zoo тим почнувајќи настава компјутери за класифицирање на галаксиите. Поконкретно, со користење на човечки класификации создадена од Galaxy Zoo, Banerji et al. (2010) изградена модел на машина за учење кои може да се предвиди човечкото класификација на галаксиите врз основа на карактеристики на сликата. Ако ова учење модел машина може да се репродуцираат на човечки класификации со висока точност, тогаш тоа може да се користи од страна на Galaxy Zoo истражувачите да се класифицираат во суштина бесконечен број на галаксии.

Јадрото на пристап Банерџи и неговите колеги "е всушност многу слични на техники кои вообичаено се користат во социјални истражувања, иако таквата сличност може да биде јасно на прв поглед. Прво, Банерџи и колеги конвертира секоја слика во собата на нумерички функции кои ги сумира тоа е својства. На пример, за слики на галаксиите може да има три карактеристики: волуменот на сината боја на сликата, варијансата во светлината на пиксели, а процентот на не-бели пиксели. Изборот на правилен карактеристики е важен дел од проблемот, а тоа обично бара предметната област на експертиза. Овој прв чекор, најчесто се нарекува функција инженеринг, резултира во една матрица на податоци со еден ред на сликата, а потоа три колони се опишува таа слика. Дадената матрица на податоци и посакуваниот излез (на пример, дали на сликата е класифициран од страна на човекот како елиптична галаксија), истражувачот проценува на параметрите на моделот, на пример статистички, нешто како логистичка регресија, кој предвидува на човековите класификација врз основа на карактеристиките на сликата. Конечно, истражувачот користи параметри во овој статистички модел за да се произведе проценета класификации на нови галаксии (Слика 5.4). Да се ​​мисли на социјални аналогни, замислете дека сте имале демографски информации околу еден милион студенти, и ќе се знае дали тие дипломира од колеџ или не. Вие би можеле да се вклопи со логистичка регресија на овие податоци, а потоа можете да го користите како резултат на модел параметри да се предвиди дали нови студенти ќе дипломираат од колеџ. Во машина за учење, овој пристап, со користење на ознака примери за да се создаде статистички модел кој потоа може да се означат нови податоци е наречен надгледувано учење (Hastie, Tibshirani, and Friedman 2009) .

Слика 5.4: поедноставен опис на тоа како Банерџи et al. (2010) кој се користи класификацијата Galaxy Zoo за обука модел на машина за учење да се направи класификација на галаксиите. Слики од галаксии се конвертира во матрица на функции. Во овој поедноставен пример, постојат три опции (волуменот на сината боја на сликата, варијансата во светлината на пиксели, а процентот на не-бели пиксели). Потоа, за дел од сликите, етикети Галакси зоолошката градина се користи за обука модел на машина за учење. Конечно, учење машина се користи за да се процени класификации за останатите галаксии. Јас ова го нарекуваат вид на проект за втората генерација на проектот човечки компјутерската бидејќи, наместо луѓето се реши еден проблем, тие имаат луѓето се изгради базата на која може да се користи за обука на компјутер за да го реши проблемот. Предноста на овој компјутер со помош на пристап е тоа што овозможува да се справи суштина бесконечна количина на податоци со користење само ограничен износ на човечки напор.

Слика 5.4: поедноставен опис на тоа како Banerji et al. (2010) се користи класификацијата Galaxy Zoo за обука модел на машина за учење да се направи класификација на галаксиите. Слики од галаксии се конвертира во матрица на функции. Во овој поедноставен пример, постојат три опции (волуменот на сината боја на сликата, варијансата во светлината на пиксели, а процентот на не-бели пиксели). Потоа, за дел од сликите, етикети Галакси зоолошката градина се користи за обука модел на машина за учење. Конечно, учење машина се користи за да се процени класификации за останатите галаксии. Јас ова го нарекуваат вид на проект за втората генерација на проектот човечки компјутерската бидејќи, наместо луѓето се реши еден проблем, тие имаат луѓето се изгради базата на која може да се користи за обука на компјутер за да го реши проблемот. Предноста на овој компјутер со помош на пристап е тоа што овозможува да се справи суштина бесконечна количина на податоци со користење само ограничен износ на човечки напор.

Карактеристики во Banerji et al. (2010) машина за учење модел се посложени отколку во мојата играчка пример, на пример, таа се користи за функции како "де Vaucouleurs одговара аксијален сооднос" -и нејзиниот модел не е логистичка регресија, тоа беше вештачки невронски мрежи. Користење на нејзините карактеристики, нејзиниот модел, и консензус Galaxy Zoo пласман, таа беше во можност да се создаде тежина на секоја функција, а потоа ги користат овие тежини за да се прават предвидувања за класификација на галаксиите. На пример, нејзината анализа покажа дека слики со ниска "де Vaucouleurs одговара аксијален сооднос" се со поголема веројатност да биде спирални галаксии. Со оглед на овие тегови, таа беше во можност да се предвиди човечкото класификација на галаксиите со разумна точност.

Работата на Banerji et al. (2010) покажа Galaxy Zoo во она што јас би го нарекол втора генерација на системот на човековите пресметка. Најдобар начин да се размислува за овие системи од втора генерација е дека наместо да луѓето се реши еден проблем, тие имаат луѓето се изгради базата на која може да се користи за обука на компјутер за да го реши проблемот. Износот на податоци потребни за обука на компјутерот може да биде толку голем што бара масовно соработка со луѓе да се создаде. Во случај на Galaxy Zoo, нервните мрежи кои се користат од страна на Banerji et al. (2010) се бара многу голем број на човековите-етикетирани примери со цел да се изгради модел кој беше во можност со сигурност да се репродуцираат на човековите класификација.

Предноста на овој компјутер со помош на пристап е тоа што овозможува да се справи суштина бесконечна количина на податоци со користење само ограничен износ на човечки напор. На пример, истражувач на милиони човечки класифицирани галаксии може да се изгради предвидливо модел кој потоа може да се користи за класифицирање на една милијарда, па дури и милијарди галаксии. Ако има огромен број на галаксии, тогаш овој вид на човек-компјутер хибрид е навистина единствено можно решение. Овој бескраен приспособливост не е бесплатно, сепак. Градењето модели на машина за учење кои правилно може да се репродуцираат на човечки класификации сам по себе е тежок проблем, но за среќа, веќе постојат одлични книги посветени на оваа тема (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo ја прикажува еволуцијата на многу проекти за човекови пресметка. Прво, истражувач обидите на проектот од страна на себе или со мал тим од стручни соработници (на пример, почетната класификација напор Schawinski е). Ако овој пристап не скала добро, истражувачот може да се движи на пресметување проектот човечки каде што многу луѓе се придонесе класификации. Но, за одредена количина на податоци, чисто човечки напор нема да биде доволно. Во тој момент, истражувачите треба да се изгради систем од втората генерација, каде што човековите класификации се користат за обука модел на машина за учење, кои потоа може да се примени практично неограничени количини на податоци.