5.2.1 Galaxy Zoo

Galaxy Zoo об'єднує зусилля багатьох добровольців недосвідчених класифікувати мільйонів галактик.

Галактичний зоопарк виріс з проблем, з якою стикаються Кевін Schawinski, аспірант астрономії в Оксфордському університеті в 2007 році Спрощуючи зовсім небагато, Schawinski був зацікавлений в галактиках і галактик можуть бути класифіковані за їх морфології-еліптичні або спірально-і їх колір-синій або червоний. У той час, звичайна мудрість серед астрономів в тому, що спіральні галактики, як наш Чумацький Шлях, були синього кольору (із зазначенням молоді) і що еліптичні галактики були червоного кольору (із зазначенням похилого віку). Schawinski сумнівався в цьому загальноприйнятій точці зору. Він підозрював, що в той час як ця модель може бути вірно в цілому, ймовірно, були значне число винятків, і що, вивчаючи безліч цих незвичайних галактик-ті, які не вписувалися очікуваний патерн-он міг дізнатися щось про процес, через який галактики утворюються.

Таким чином, те, що Schawinski необхідно для того, щоб перекинути загальноприйняту був великий набір морфологічно класифікованих галактик; тобто галактики, які були класифіковані як або спіралі або еліптичні. Проблема, однак, у тому, що існуючі алгоритмічні методи класифікації ще не були досить гарні, щоб бути використані для проведення наукових досліджень; Іншими словами, класифікуючи галактик, в той час, проблема, яку було важко для комп'ютерів. Тому то , що було необхідно , була велика кількість людських класифікуються галактик. Schawinski зробив цю проблему класифікації з ентузіазмом аспіранта. У марафонської сесії семи, 12-годинного робочого дня, він був в стані класифікувати 50000 галактик. У той час як 50000 галактик може звучати як багато, це насправді всього лише близько 5% з майже одного мільйона галактик, які були сфотографовані в Sky Survey Sloan Digital. Schawinski зрозумів, що йому потрібен більш масштабований підхід.

На щастя, виявилося, що завдання класифікаційних галактик не вимагає підвищення кваліфікації в області астрономії; ви можете навчити когось зробити це досить швидко. Іншими словами, не дивлячись на те, класифікації галактик є завданням, яке було важко для комп'ютерів, це було досить легко для людей. Отже, сидячи в барі в Оксфорді, Schawinski і малий астроном Кріс Lintott мріяв створити сайт, де волонтери будуть класифікувати зображення галактик. Через кілька місяців, Galaxy Zoo народився.

На сайті Galaxy Zoo, волонтери будуть проходити кілька хвилин навчання; наприклад, вивчаючи різницю між спіральними і еліптичної галактики (рис 5.2). Після цього тренінгу, добровольці повинні були пройти відносно легко вікторини правильно класифікуючи 11 з 15 галактик з відомими класифікаціями, а потім добровольцем почне реальну класифікацію невідомих галактик через простий веб-інтерфейс (Малюнок 5.3). Перехід від добровольця астроном буде проходити менш ніж за 10 хвилин, і потрібно тільки проходячи найнижчий з перешкод, за допомогою простого тесту.

Малюнок 5.2: Приклади двох основних типів галактик: спіральні і еліптичні. Проект Galaxy Zoo використовується понад 100000 добровольців категорій більш ніж 900000 зображень. Джерело: www.galaxyzoo.org.

Малюнок 5.2: Приклади двох основних типів галактик: спіральні і еліптичні. Проект Galaxy Zoo використовується понад 100000 добровольців категорій більш ніж 900000 зображень. Джерело: www.galaxyzoo.org .

Малюнок 5.3: Вхідний екран, на якому виборці просили класифікувати одне зображення. Джерело: www.galaxyzoo.org.

Малюнок 5.3: Вхідний екран, на якому виборці просили класифікувати одне зображення. Джерело: www.galaxyzoo.org .

Galaxy Zoo привернув своїх початкових добровольців після того, як проект був представлений в статті новин, і протягом шести місяців проект виріс залучити більше 100000 громадян вчених, люди, які брали участь, тому що вони користувалися завдання, і вони хотіли, щоб сприяти просуванню астрономії. Разом ці 100.000 добровольців , внесла в цілому більше 40 мільйонів класифікацій, з більшістю класифікацій , що надходять з відносно невеликою, основною групою учасників (Lintott et al. 2008) і (Lintott et al. 2008) .

Дослідники, які мають досвід найму старшокурсники наукових співробітників може негайно скептично ставитися до якості даних. У той час як цей скептицизм є розумним, Galaxy Zoo , показує , що , коли внесок добровольців правильно чистити, debiased і агрегуються, вони можуть виробляти високоякісні результати (Lintott et al. 2008) і (Lintott et al. 2008) . Важливий трюк для отримання натовпу , щоб створювати професійні дані якості є надмірність; Тобто, те ж завдання, що виконується багатьма різними людьми. У Galaxy Zoo, там було близько 40 класифікацій в галактиці; дослідники, які використовують старшокурсники асистентів ніколи не могли дозволити собі такий рівень надмірності і, отже, повинні бути набагато більше стурбовані якістю кожної окремої класифікації. Те, що добровольці не вистачало в процесі навчання, вони компенсували з надмірністю.

Навіть з декількома класифікаціями в галактиці, проте, поєднуючи набір добровольців класифікацій для отримання консенсусу класифікації складно. Через дуже схожі проблеми виникають в більшості проектів обчислень людини, корисно коротко розглянути три кроки, які дослідники Galaxy Zoo, використовувані для отримання їх класифікації на основі консенсусу. По-перше, дослідники "очистити" дані шляхом видалення фіктивних класифікації. Наприклад, люди, які неодноразово класифікуються однієї галактики-то, що сталося б, якби вони намагалися маніпулювати результатами, були всі їх класифікації відкидаються. Це та інші аналогічні очищення видаляється близько 4% від усіх класифікацій.

По-друге, після очищення, дослідники необхідно видалити систематичні помилки в класифікації. Через ряд досліджень по виявленню зміщення вбудованих в межах початкового проекту, наприклад, показуючи деякі добровольців галактика в монохромному замість кольору, дослідники виявили декілька систематичних помилок, таких як систематичне зміщення класифікації далеко спіральних галактик , як еліптичні галактики (Bamford et al. 2009) і (Bamford et al. 2009) . Налаштування цих систематичних помилок надзвичайно важливо, тому що в середньому багато вкладів не знімає систематичного зсуву; він видаляє тільки випадкову помилку.

Нарешті, після того, як усунення зміщення, дослідники потрібен спосіб, щоб об'єднати окремі класифікації для створення класифікації на основі консенсусу. Найпростіший спосіб об'єднати класифікації для кожної галактики було б вибрати найбільш поширену класифікацію. Проте, цей підхід дав би кожен доброволець рівну вагу, і дослідники підозрюють, що деякі добровольці були краще, ніж інші класифікації. Таким чином, дослідники розробили більш складну итерационную процедуру зважування, яка намагається автоматично визначати кращі класифікатори і дати їм більше ваги.

Таким чином, після того, як три стадії процесу чистки, усунення зміщення і ваговим-дослідницької команди Galaxy Zoo конвертували 40 мільйонів добровольців класифікації в набір консенсусних морфологічних класифікацій. Коли ці класифікації Galaxy Zoo були в порівнянні з трьома попередніми спробами меншого масштабу професійними астрономами, в тому числі класифікації по Schawinski, які допомогли надихнути Galaxy Zoo, було досягнуто широке згоду. Таким чином, добровольці, в сукупності, були в змозі забезпечити високу якість і класифікації в масштабі , що дослідники не могли відповідати (Lintott et al. 2008) і (Lintott et al. 2008) . Насправді, маючи людські класифікації для такого великого числа галактик, Schawinski, Lintott, і інші були в змозі показати, що тільки близько 80% галактик слідують передбачуваної схеми-блакитні спіралі і червоний еліпсів-і численних статей були написані про це відкриття (Fortson et al. 2011) і (Fortson et al. 2011) .

На цьому тлі, тепер ми можемо побачити, як Galaxy Zoo слід спліт-застосувати-поєднують рецепт, один і той же рецепт, який використовується для більшості проектів обчислень людини. По- перше, велика проблема розбивається на шматки. У цьому випадку завдання класифікації мільйона галактик розділяється на мільйон проблем класифікації однієї галактики. Далі, операція застосовується до кожної частини незалежно один від одного. В цьому випадку доброволець б класифікувати кожну галактику або як спіраль або еліптична. І, нарешті, результати об'єднуються для отримання результату на основі консенсусу. В цьому випадку етап скомбінувати включав в себе чистку, усунення зміщення, і зважування для отримання консенсусу класифікації для кожної галактики. Незважаючи на те, що більшість проектів використовують цей загальний рецепт, кожен з етапів потрібно налаштувати на конкретний вирішуваної проблеми. Наприклад, у проекті обчислення людини, описаному нижче, той же самий рецепт буде слідувати, але застосовувати і комбінують кроки будуть сильно відрізнятися.

Для команди Galaxy Zoo, цей перший проект був тільки початком. Дуже швидко вони зрозуміли , що навіть якщо б вони були в стані класифікувати близько мільйона галактик, цей масштаб не досить , щоб працювати з новими обстежень цифрового неба, які могли б виробляти зображення близько 10 мільярдів галактик (Kuminski et al. 2014) і (Kuminski et al. 2014) . Щоб впоратися зі збільшенням в порівнянні з 1 мільйона до 10 мільярдів фактор-10000 Galaxy Zoo потрібно набрати приблизно в 10000 разів більше учасників. Навіть незважаючи на те кількість добровольців в Інтернеті велика, то він не є нескінченним. Таким чином, дослідники зрозуміли, що якщо вони збираються обробляти постійно зростаючі обсяги даних, необхідний новий, ще більш масштабований підхід.

Тому Манда Банерджі-роботи з Kevin Schawinski, Кріс Lintott і інших членів команди Galaxy Zoo-починаючи навчальних комп'ютерів для класифікації галактик. Більш конкретно, використовуючи людські класифікації , створені Galaxy Zoo, Banerji et al. (2010) і Banerji et al. (2010) побудували модель машинного навчання , які могли б передбачити людську класифікацію галактик , засновану на характеристиках зображення. Якщо ця модель машинного навчання може відтворити людські класифікації з високим ступенем точності, то вона може бути використана дослідниками Galaxy Zoo класифікувати по суті нескінченне число галактик.

Ядро Банерджі і його колеги "підхід насправді дуже схожі на методи, використовувані в соціальних дослідженнях, хоча ця подібність може бути не ясно, на перший погляд. По- перше, Банерджі і його колеги перетворюють кожне зображення в набір числових функцій , які підсумовують його властивості. Наприклад, для зображень галактик могло бути три характеристики: кількість синього кольору в зображенні, дисперсія в яскравості пікселів, а частка небілих пікселів. Вибір правильних функцій є важливою частиною проблеми, і це як правило, вимагає предметно-галузі знань. Це перший крок, який зазвичай називають особливість інженерного, призводить до матриці даних по одному рядку на зображенні , а потім три стовпці , що описують цей образ. З огляду на матрицю даних і бажаний результат (наприклад, чи був оригінал класифікується людиною як еліптичної галактики), дослідник оцінює параметри статистичної моделі, наприклад, щось на зразок логістичної регресії, яка передбачає людську класифікацію, засновану про особливості зображення. Нарешті, дослідник використовує параметри в цій статистичної моделі для отримання розрахункових класифікації нових галактик (рис 5.4). Для того, щоб думати про соціальну аналога, уявіть собі, що ви мали демографічну інформацію близько мільйона студентів, і ви знаєте, закінчив вони з коледжу чи ні. Ви могли б відповідати логістичної регресії до цих даних, а потім ви можете використовувати отримані параметри моделі, щоб передбачити, чи буде нові студенти збираються закінчити коледж. У машинному навчанні, цей підхід, з використанням мічених прикладів , щоб створити статистичну модель , яка потім може маркувати нові дані, називається спостереженням навчання (Hastie, Tibshirani, and Friedman 2009) .

Малюнок 5.4: Спрощена опис того, як Банерджі і ін. (2010) використовували класифікацію Galaxy Zoo, щоб підготувати модель машинного навчання, щоб зробити класифікацію галактик. Зображення галактик були перетворені в матриці функцій. У цьому спрощеному прикладі є три функції (кількість синього кольору в зображенні, дисперсія в яскравості пікселів, а частка небілих пікселів). Тоді для підмножини зображень, етикетки Galaxy Zoo використовуються для навчання моделі машинного навчання. І, нарешті, навчання машини використовується для оцінки класифікації для інших галактик. Я називаю такий проект другого покоління людського обчислювальний проект, тому що, замість того, люди вирішують проблему, у них є люди побудувати набір даних, який може бути використаний для підготовки комп'ютера, щоб вирішити цю проблему. Перевага цього комп'ютерного підходу полягає в тому, що вона дозволяє обробляти по суті нескінченна кількість даних, використовуючи лише кінцеве кількість людських зусиль.

Малюнок 5.4: Спрощена опис того , як Banerji et al. (2010) і Banerji et al. (2010) використовували класифікацію Galaxy Zoo , щоб підготувати модель машинного навчання , щоб зробити класифікацію галактик. Зображення галактик були перетворені в матриці функцій. У цьому спрощеному прикладі є три функції (кількість синього кольору в зображенні, дисперсія в яскравості пікселів, а частка небілих пікселів). Тоді для підмножини зображень, етикетки Galaxy Zoo використовуються для навчання моделі машинного навчання. І, нарешті, навчання машини використовується для оцінки класифікації для інших галактик. Я називаю такий проект другого покоління людського обчислювальний проект, тому що, замість того, люди вирішують проблему, у них є люди побудувати набір даних, який може бути використаний для підготовки комп'ютера, щоб вирішити цю проблему. Перевага цього комп'ютерного підходу полягає в тому, що вона дозволяє обробляти по суті нескінченна кількість даних, використовуючи лише кінцеве кількість людських зусиль.

Особливості в Banerji et al. (2010) і Banerji et al. (2010) модель навчання машини були більш складними , ніж ті , в моїй іграшці приклад, наприклад, вона використовувала такі функції , як "де Вокулер підходять осьовий відношення" -І її модель не була логістичної регресії, це була штучна нейронна мережа. Використовуючи свої особливості, її модель, і консенсус Galaxy Zoo класифікації, вона була в змозі створити ваги на кожній функції, а потім використовувати ці ваги, щоб робити прогнози про класифікацію галактик. Наприклад, її аналіз показав, що зображення з низьким "Вокулер підходять осьовий відношення", швидше за все, будуть спіральні галактики. Беручи до уваги ці ваги, вона була в змозі передбачити людську класифікацію галактики з достатнім ступенем точності.

Робота Banerji et al. (2010) і Banerji et al. (2010) звернувся Galaxy Zoo в те , що я б назвав систему людського обчислення другого покоління. Кращий спосіб думати про ці системи другого покоління є те, що замість того, люди вирішують проблему, у них є люди побудувати набір даних, який може бути використаний для підготовки комп'ютера, щоб вирішити цю проблему. Обсяг даних, необхідних для підготовки комп'ютера може бути настільки велика, що вимагає співпраці масової людини для створення. У разі Galaxy Zoo, нейронних мереж , які використовуються Banerji et al. (2010) і Banerji et al. (2010) потрібно дуже велику кількість прикладів людських мічених для того , щоб побудувати модель , яка була в стані достовірно відтворити людську класифікацію.

Перевага цього комп'ютерного підходу полягає в тому, що вона дозволяє обробляти по суті нескінченна кількість даних, використовуючи лише кінцеве кількість людських зусиль. Наприклад, дослідник мільйона людських класифікуються галактик можна побудувати прогностичну модель, яка потім може бути використана для класифікації мільярд або навіть трильйонів галактик. Якщо є величезна кількість галактик, то такого роду людина-комп'ютер гібрид дійсно єдино можливим рішенням. Ця нескінченна масштабованість не є безкоштовним, проте. Побудова моделі навчання машини , який може правильно відтворювати людські класифікації саме по собі є важким завданням, але , до щастя , вже є прекрасні книги , присвячені цій темі (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) і (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo показує еволюцію багатьох проектів обчислень людини. По-перше, дослідник намагається проект самостійно або з невеликою групою наукових співробітників (наприклад, початкові зусилля класифікації Schawinski в). Якщо цей підхід не дуже добре масштабується, дослідник може перейти до людського проекту обчислення, де багато людей сприяють класифікації. Але для певного обсягу даних, чисто людських зусиль буде недостатньо. У цей момент, дослідники повинні будувати системи другого покоління, де людські класифікації використовуються для навчання моделі навчання машини, який потім може бути застосований до практично необмеженою кількістю даних.