5.2.1 Galaxy Zoo

Ez a fordítás által létrehozott egy számítógép. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

5.2.1 Galaxy Zoo

Galaxy Zoo egyesíti erőfeszítéseit számos laikus önkéntesek besorolásához millió galaxist.

Galaxy Zoo nőtt ki a probléma, amivel Kevin Schawinski, egy végzős hallgató a csillagászat, a University of Oxford 2007 Egyszerűbb egy kicsit, Schawinski érdekelt volt a galaxisok, galaxisok lehet besorolni morfológiai ellipszis alakú vagy spirál és színük kék, vagy piros. Abban az időben, a hagyományos bölcsesség a csillagászok az volt, hogy spirális galaxisok, mint a Tejút, voltak kék színű (jelezve a fiatalok), és hogy az elliptikus galaxisok vörös színű (jelezve öregségi). Schawinski kételkedett ebben a hagyományos bölcsesség. Sejtette, hogy bár ez a minta lehet általánosan igaz, ott valószínűleg egy jókora számos kivételt, és hogy a tanuló sok ilyen szokatlan galaxis-az is, hogy nem felel meg a várt mintával tudott tanulni valamit a folyamat, amelynek révén galaxisok képződik.

Tehát amit Schawinski szükség ahhoz, hogy felborulhat a hagyományos bölcsesség volt sok olyan morfológiailag minősített galaxisok; azaz, galaxisok soroltak volna, mint akár spirális vagy elliptikus. A probléma azonban az volt, hogy a meglévő algoritmikus módszerek osztályozása még nem elég jó, hogy használják a tudományos kutatás; más szóval, osztályozás galaxisok volt, abban az időben, a probléma, hogy nehéz volt a számítógépek. Ezért mi szükség volt a nagy számú emberi sorolt galaxisok. Schawinski vállalta ezt besorolás probléma a lelkesedés egy végzős diák. A maratoni hét, 12 órás nap, tudta osztályozni 50.000 galaxist. Míg 50000 galaxisok hangzik, mint egy csomó, ez valójában csak mintegy 5% -a majdnem egymillió galaxis, hogy már fényképezett a Sloan Digital Sky Survey. Schawinski rájött, hogy szüksége van egy skálázható megközelítés.

Szerencsére kiderült, hogy a feladat osztályozásának galaxisok nem igényel speciális képzést csillagászat; lehet tanítani valakit, hogy nem elég gyorsan. Más szóval, még ha osztályozására galaxisok olyan feladat, hogy nehéz volt a számítógépek, ez elég egyszerű az emberek számára. Így, miközben ül egy kocsmában Oxford, Schawinski és a többi csillagász Chris Lintott megálmodott egy weboldal, ahol az önkéntesek sorolnám képek a galaxisok. Néhány hónappal később, a Galaxy Zoo született.

A Galaxy Zoo weboldal, önkéntesek mennek keresztül néhány perc alatt a képzés; például tanulást a különbség a spirális és az elliptikus galaxis (5.2 ábra). A betanítás után az önkéntesek el kellett telnie egy viszonylag egyszerű kvíz-helyesen minősítette 11 15 galaxisok ismert osztályozási és aztán az önkéntes kezdenek valós besorolása ismeretlen galaxisok egy egyszerű webes felületen (5.3 ábra). Az átmenet önkéntes a csillagász kerül sor kevesebb, mint 10 perc alatt, és csak akkor szükséges halad a legkisebb akadály, egy egyszerű teszt.

5.2 ábra: Példák a két fő típusú galaxisok: spirál és elliptikus. A Galaxy Zoo projekt során több mint 100.000 önkéntesek kategória több mint 900.000 képek. Forrás: www.galaxyzoo.org .

5.3 ábra: Beviteli képernyőre, ahol a szavazók arra kérték, hogy osztályozzák egyetlen képet. Forrás: www.galaxyzoo.org .

Galaxy Zoo vonzotta a kezdeti önkéntesekben a projekt szerepelt egy hír, és körülbelül hat hónap a projekt nőtt másból, mint 100.000 állampolgár tudósok, akik részt vettek, mert élvezte a feladatot, és azt akarták, hogy segítsen előre csillagászat. Együttesen ezek 100.000 önkéntesek hozzájárult összesen több mint 40 millió osztályozás, a többség a besorolások érkező viszonylag kis, központi csoportjának résztvevői (Lintott et al. 2008) .

A kutatók, akik tapasztalattal felvételi egyetemi kutatási asszisztens lehet azonnal szkeptikusak adatok minőségét. Bár ez a szkepticizmus indokolt, Galaxy Zoo mutatja, hogy amikor az önkéntes hozzájárulások helyesen tisztítani, debiased, és összesítve, akkor kiváló minőségű eredményeket (Lintott et al. 2008) . Egy fontos trükk a szerzés a tömeg, hogy professzionális minőségű adatok redundancia; azaz, miután ugyanazt a feladatot végzi sok különböző ember. Galaxy Zoo, ott mintegy 40 besorolások per galaxis; használó kutatók egyetemi kutatási asszisztens soha nem engedheti meg magának ezt a redundancia szintje, és ezért kell sokkal inkább az, hogy a minőség az egyes besorolási. Mi az önkéntesek hiányzott képzés, tették fel a redundancia.

Még több osztályozási per galaxis azonban, amely egyesíti a készlet önkéntes besorolások, hogy készítsen egy konszenzus osztályozás trükkös. Mivel nagyon hasonló kihívások merülnek fel a legtöbb emberi számítás projektek, célszerű röviden áttekinteni a három lépést, hogy a Galaxy Zoo kutatók előállításához használt konszenzus besorolást. Először is, a kutatók "megtisztított" adatok eltávolításával hamis besorolást. Például, az emberek, akik többször is besorolt azonos galaxis valami fog történni, ha akarták manipulálni az eredményeket, már minden osztályozási dobni. Ez és más hasonló tisztító eltávolítjuk mintegy 4% -a az összes osztályozások.

Másodszor, a tisztítás után, a kutatók eltávolításához szükséges rendszerbeli eltérések a besorolást. Egy sor elfogultság kimutatására tanulmányok ágyazva az eredeti projekt például némi önkéntesek a galaxist monokróm helyett színes a kutatók felfedezték, számos rendszerbeli eltérések, például szisztematikus torzítás osztályozni messze spirálgalaxisok, mint az elliptikus galaxisok (Bamford et al. 2009) . Mindezen korrekciók rendszerbeli eltérések rendkívül fontos, mert átlagosan számos hozzájárulás nem távolítja el szisztematikus torzítás; ez csak eltávolítja a véletlen hiba.

Végül, miután debiasing, a kutatók szükség van egy módszer, hogy összekapcsolják az egyes besorolások, hogy készítsen egy konszenzus osztályozás. A legegyszerűbb módja annak, hogy összekapcsolják besorolások minden galaxis lenne kiválasztani a leggyakoribb besorolás. Ez a megközelítés azonban adna minden önkéntes egyenlő súlyt, és a kutatók gyanúja, hogy néhány önkéntes volt jobb osztályozás, mint mások. Ezért a kutatók kifejlesztettek egy összetettebb iteratív súlyozás eljárást, amely megpróbálja automatikusan felismeri a legjobb osztályozók és nekik nagyobb súlyt.

Így, miután egy három lépésből álló folyamat-tisztítás, debiasing és súlyozási a Galaxy Zoo kutatócsoport alakult át 40 millió önkéntes osztályozási egy sor konszenzus morfológiai osztályozás. Amikor ezek a Galaxy Zoo osztályozási összehasonlították a három korábbi, kisebb volumenű kísérleteit hivatásos csillagászok, köztük az osztályozást Schawinski amely segített inspirálja Galaxy Zoo, nem volt erős megállapodást. Így, az önkéntesek, összesítve pedig tudták, hogy magas színvonalú osztályozási és olyan mértékben, amely a kutatók nem tudtak lépést (Lintott et al. 2008) . Sőt, azáltal, hogy az emberi osztályozási ilyen nagy számú galaxis, Schawinski, Lintott és mások tudták mutatni, hogy csak mintegy 80% -a galaxisok kövesse a várt minta-kék spirál és vörös elliptikus-és több közleményben írtak ez a felfedezés (Fortson et al. 2011) .

Ennek tudatában, most már látom, hogy a Galaxy Zoo következik az osztott alkalmazni egyesíteni recept, azonos recept, hogy használják a legtöbb emberi számítás projektek. Először is, egy nagy probléma van osztva darabokban. Ebben az esetben a probléma a besorolására millió galaxis van felosztva millió problémák osztályozására egy galaxis. Ezután egy műveletet alkalmaznak minden egyes darab függetlenül. Ebben az esetben egy önkéntes sorolnám egyes galaxisok, mint akár spirális vagy elliptikus. Végül, az eredményeket kombináljuk, hogy készítsen egy konszenzus eredményt. Ebben az esetben a kombájn lépés tartalmazza a tisztítási, debiasing, és súlyozása, hogy készítsen egy konszenzus osztályozás minden galaxisban. Annak ellenére, hogy a legtöbb projekt ezzel az általános recept, minden egyes lépését kell szabott speciális probléma foglalkozik. Például, az emberi számítás projekt alábbiakban ismertetett, az azonos recept fogja követni, de a alkalmazni, és összekapcsolják lépéseket lesz egészen más.

A Galaxy Zoo csapat, ez az első projekt csak a kezdet volt. Nagyon gyorsan rájöttek, hogy bár képesek voltak osztályozni közel egymillió galaxis, ez a skála nem elég dolgozni újabb digitális ég felmérések, amelyek képeket hoznak mintegy 10 milliárd galaxis (Kuminski et al. 2014) . Kezelni a növekedés 1.000.000-10000000000-faktorral 10.000 Galaxy Zoo kellene toborozni körülbelül 10.000-szer több résztvevővel. Bár az önkéntesek száma az interneten nagy, akkor nem végtelen. Ezért a kutatók rájöttek, hogy ha lesz kezelni az egyre növekvő mennyiségű adat, egy új, még jobban méretezhető, megközelítésre van szükség.

Ezért Manda Banerji dolgozó Kevin Schawinski, Chris Lintott, és más tagjai a Galaxy Zoo csapat kezdő tanítás számítógépek galaxisokat osztályozni. Pontosabban, az emberi osztályozás által létrehozott Galaxy Zoo, Banerji et al. (2010) épített egy gépi tanulási modell, amely meg tudta jósolni az emberi besorolása a galaxis jellemzői alapján a kép. Ha ez a gépi tanulás a modell reprodukálni az emberi osztályozás nagy pontossággal, akkor lehetne használni a Galaxy Zoo kutatók minősítette lényegében végtelen számú galaxis.

A mag Banerji és munkatársai "megközelítés valójában nagyon hasonlít a technika általánosan használt társadalomkutatás, bár ez a hasonlóság nem lehet követni az első pillantásra. Először Banerji és munkatársai alakítjuk minden kép egy sor numerikus jellemzők, amelyek összefoglalják a tulajdonságait. Például a képek a galaxisok lehetne három jellemző: a kék mennyiségét a képen, a szórás a fényerőt a pixel, míg ez az arány a nem fehér pixel. A kiválasztás a megfelelő funkciók egy fontos része a problémának, és ez általában megköveteli tárgya terület szakértői. Ez az első lépés, gyakran nevezik a szolgáltatás műszaki, eredményez adat mátrix egy-egy sorban képet, majd három oszlop leírja ezt a képet. Figyelembe véve az adatok mátrix és a kívánt kimenetet (pl hogy a kép osztályozta ember, mint egy elliptikus galaxis), a kutató becslése szerint a paraméterek statisztikai modell például, olyasmi, mint egy logisztikus regresszió-, amely megjósolja a humán besorolás alapján a funkciók a képet. Végül a kutató használja a paramétereket ebben statisztikai modellt előállítani becsült besorolások az új galaxisok (5.4 ábra). Ha belegondolok, a szociális analóg, képzeljük el, hogy meg kellett demográfiai információkat egymillió diák, és tudják, hogy végzett a főiskolán, vagy sem. Azt is be tud illeszkedni a logisztikus regresszió az adatokhoz, és akkor lehet használni a kapott modell paramétereit megjósolni, hogy az új diákok mennek egyetemi diplomát. A gépi tanulás, ez a megközelítés, a jelzett példa, hogy egy statisztikai modell, amely lehet majd címkézze új adatokkal hívják felügyelt tanulás (Hastie, Tibshirani, and Friedman 2009) .

5.4 ábra: Egyszerűsített leírást, hogyan Banerji et al. (2010) használta a Galaxy Zoo besorolások a vonat egy gépi tanulási modell csinálni galaxis osztályozás. Képek a galaxisok tértek mátrix funkcióval. Ebben az egyszerűsített példa szerint három jellemzői (a kék mennyiségét a képen, a szórás a fényerőt a pixel, míg ez az arány a nem-fehér pixel). Aztán egy részhalmaza a képek, a Galaxy Zoo címkéket használnak, hogy a vonat egy gépi tanulási modell. Végül a gépi tanulás becslésére használják besorolások a fennmaradó galaxisok. Hívom ezt a fajta projekt második generációs emberi számítási projekt, mert ahelyett, hogy az emberek megoldani a problémát, hogy van az emberek építeni egy adatbázisba, hogy lehet használni, hogy a vonat a számítógépet, hogy megoldja a problémát. Ennek az az előnye, számítógéppel támogatott megközelítés, hogy ez lehetővé teszi, hogy kezelni lényegében végtelen mennyiségű adat segítségével csak véges mennyiségű emberi erőfeszítés.

A funkciók Banerji et al. (2010) gépi tanulási modell összetettebbek, mint az én játék példában-például, ő használt funkciók, mint a "de Vaucouleurs illik tengelyirányú arány" -és neki modell nem volt a logisztikus regresszió, ez egy mesterséges neurális hálózat. Használ neki vonásait, modell, és a konszenzus Galaxy Zoo besorolások, ő képes volt létrehozni súlyokat az egyes funkciók, majd ezeket a súlyokat, hogy előrejelzéseket a besorolás a galaxisok. Például, az ő elemzés megállapította, hogy a képek kis "de Vaucouleurs illik tengelyirányú arány" nagyobb valószínűséggel lesz spirális galaxis. Mivel ezeket a súlyokat, ő volt képes megjósolni az emberi besorolása egy galaxis elfogadható pontossággal.

A munka a Banerji et al. (2010) fordult Galaxy Zoo amit én neveznék második generációs emberi számítás rendszer. A legjobb módja annak, hogy gondolni ezeket a második generációs rendszerek, hogy ahelyett, emberek megoldani a problémát, hogy van az emberek építeni egy adatbázisba, hogy lehet használni, hogy a vonat a számítógépet, hogy megoldja a problémát. Az összeg a szükséges adatok a vonat a számítógép lehet olyan nagy, hogy megköveteli a humán tömeges együttműködést létrehozni. Abban az esetben, Galaxy Állatkert, a neurális hálózatok által használt Banerji et al. (2010) szükséges rendkívül nagy számú emberi jelölt példát, hogy építsenek egy modell, amely képes volt megbízhatóan reprodukálni az emberi besorolás.

Ennek az az előnye, számítógéppel támogatott megközelítés, hogy ez lehetővé teszi, hogy kezelni lényegében végtelen mennyiségű adat segítségével csak véges mennyiségű emberi erőfeszítés. Például egy kutató egy millió ember sorolt galaxis lehet építeni egy prediktív modell, amely alkalmas lehet arra, hogy osztályozza milliárd, vagy akár egy trillió galaxisok. Ha vannak hatalmas mennyiségű galaxisok, akkor ez a fajta ember-számítógép hibrid tényleg az egyetlen lehetséges megoldás. Ez a végtelen skálázhatóságot nem ingyenes, de. Épület egy gépi tanulási modell, amely képes reprodukálni helyesen az emberi osztályozási maga is nehéz probléma, de szerencsére már vannak kiváló könyvek szentelt ennek a témának (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo alakulását mutatja a sok emberi számítás projekteket. Először is, a kutató igyekszik a projekt maga, vagy egy kis csapat kutatási asszisztens (pl Schawinski eredeti besorolás erőfeszítés). Ha ez a megközelítés nem jól skálázható, a kutató tudja mozgatni egy emberi számítás projekt, ahol sokan hozzájárulnak besorolást. De egy bizonyos mennyiségű adat, tiszta emberi erőfeszítés nem lesz elég. Ezen a ponton a kutatók kell építeni a második generációs rendszerekben, ahol az emberi osztályozási használják a vonat egy gépi tanulási modell, amely akkor alkalmazható gyakorlatilag korlátlan mennyiségű adat.