5.2.1 Galaxy Zoo

Galaxy Zoo combină eforturile multor non-voluntari experți să clasifice un milion de galaxii.

Galaxy Zoo a crescut dintr-o problemă cu care se confruntă Kevin Schawinski, un student absolvent in astronomie la Universitatea din Oxford in 2007. Simplificând destul de un pic, Schawinski a fost interesat de galaxii, și galaxii pot fi clasificate în funcție de morfologia lor, eliptice sau în spirală și prin culoarea lor albastru sau roșu. La acea vreme, intelepciunea conventionala printre astronomii a fost ca galaxii spirala, cum ar fi Calea Lactee noastre, au fost de culoare albastră (de tineret indicând) și că galaxii eliptice erau de culoare roșie (care indică o vârstă înaintată). Schawinski dubii asupra acestei intelepciunea conventionala. El a suspectat că în timp ce acest model ar putea fi adevărat, în general, au existat, probabil, un număr considerabil de excepții, și că, prin studierea o mulțime de aceste galaxii-neobișnuite cele care nu se potrivea de așteptat model de-a putut afla ceva despre procesul prin care galaxii formate.

Astfel, ceea ce Schawinski necesar pentru a răsturna înțelepciunea convențională a fost un set mare de galaxii clasificate morfológicamente; adică, galaxii care au fost clasificate ca fiind fie în spirală sau eliptică. Problema, cu toate acestea, a fost că metodele algoritmice existente pentru clasificare nu au fost încă suficient de bun pentru a fi utilizate pentru cercetare științifică; cu alte cuvinte, galaxii de clasare, la acel moment, o problemă care a fost greu pentru calculatoare. Prin urmare, era nevoie de un număr mare de galaxii clasificate umane. Schawinski a întreprins această problemă de clasificare cu entuziasmul unui student absolvent. Într-o sesiune maraton de șapte, zile 12 ore, el a fost capabil să clasifice 50.000 de galaxii. În timp ce 50.000 de galaxii ar putea suna ca o mulțime, este de fapt doar aproximativ 5% din cele aproape un milion de galaxii care au fost fotografiate în Sky Survey Sloan Digital. Schawinski a dat seama că are nevoie de o abordare mai scalabilă.

Din fericire, se pare că sarcina de galaxii care clasifică nu necesită pregătire avansată în astronomie; te poate învăța pe cineva să o facă destul de repede. Cu alte cuvinte, chiar dacă clasificarea galaxii este o sarcină care a fost greu pentru calculatoare, a fost destul de ușor pentru oameni. Așa că, în timp ce stătea într-un pub din Oxford, Schawinski și colegi astronom Chris Lintott a visat un site web unde voluntarii s-ar clasifica imaginile de galaxii. Câteva luni mai târziu, Galaxy Zoo sa născut.

Pe site-ul Galaxy Zoo, voluntarii vor suferi câteva minute de formare; de exemplu, învățarea diferența dintre o spirală și galaxii eliptice (Figura 5.2). După această pregătire, voluntarii au trebuit să treacă un relativ ușor de test-corect clasificarea 11 din 15 galaxii cunoscute cu clasificări și apoi voluntar va începe clasificarea reală de galaxii necunoscute, printr-o simplă interfață bazată pe web (Figura 5.3). Tranziția de la voluntariat la astronom va avea loc în mai puțin de 10 minute și a necesitat doar trece cel mai mic de obstacole, un test simplu.

Figura 5.2: Exemple de cele două tipuri principale de galaxii: spirala si eliptice. Proiectul Galaxy Zoo folosit mai mult de 100.000 de voluntari la categorii mai mult de 900.000 de imagini. Sursa: www.galaxyzoo.org.

Figura 5.2: Exemple de cele două tipuri principale de galaxii: spirala si eliptice. Proiectul Galaxy Zoo folosit mai mult de 100.000 de voluntari la categorii mai mult de 900.000 de imagini. Sursa: www.galaxyzoo.org .

Figura 5.3: Ecran de intrare în cazul în care alegătorii au fost rugați să clasifice o singură imagine. Sursa: www.galaxyzoo.org.

Figura 5.3: Ecran de intrare în cazul în care alegătorii au fost rugați să clasifice o singură imagine. Sursa: www.galaxyzoo.org .

Galaxy Zoo a atras voluntari inițială după ce proiectul a fost prezentat într-un articol de știri, iar în aproximativ șase luni, proiectul a crescut pentru a implica mai mult de 100.000 de oameni de știință cetățeni, oameni care au participat, deoarece s-au bucurat sarcina și au vrut să ajute astronomiei în avans. Impreuna, aceste 100.000 de voluntari au contribuit un total de mai mult de 40 de milioane de clasificări, cu majoritatea clasificărilor care provin dintr - un grup relativ mic, nucleu al participanților (Lintott et al. 2008) .

Cercetătorii care au experiență angajarea de asistenți de cercetare universitare de licență ar putea fi imediat sceptic cu privire la calitatea datelor. In timp ce acest scepticism este rezonabil, Galaxy Zoo arată că , atunci când contribuțiile voluntare sunt curățate în mod corect, debiased și agregate, ele pot produce rezultate de înaltă calitate (Lintott et al. 2008) , (Lintott et al. 2008) . Un truc important pentru a obține mulțimea de a crea date de calitate profesională este redundanța; că este, având aceeași sarcină îndeplinită de către mai multe persoane diferite. Galaxy Zoo, au existat aproximativ 40 de clasificări pe galaxie; cercetători care utilizează asistenți de cercetare universitare de licență nu a putut permite acest nivel de concediere și, prin urmare, trebuie să fie mult mai preocupați de calitatea fiecărei clasificări individuale. Ceea ce voluntarii nu aveau în formare, au făcut pentru cu redundanță.

Chiar și cu mai multe clasificări pe galaxie, cu toate acestea, combinând setul de clasificări de voluntari pentru a produce o clasificare consens este complicat. Pentru că provocări foarte similare apar în cele mai multe proiecte de calcul uman, este util să revedem pe scurt cele trei etape pe care cercetatorii Galaxy Zoo folosite pentru a produce clasificările lor de consens. In primul rand, cercetatorii au "curățat" datele prin eliminarea clasificări fictive. De exemplu, persoanele care au clasificat în mod repetat aceeași galaxie-ceva ce s-ar întâmpla dacă ar fi încercat să manipuleze rezultatele-au avut toate clasificările lor aruncate. Acest lucru si alte produse de curățare similară a îndepărtat aproximativ 4% din toate clasificările.

În al doilea rând, după curățare, cercetatorii au nevoie pentru a elimina distorsiunile sistematice în clasificări. Printr - o serie de studii de detectare a partinire încorporate în original , exemplul de proiect pentru, care prezintă unele voluntari galaxie în alb - negru în loc de culoare-cercetatorii au descoperit mai multe distorsiunilor sistematice, cum ar fi o prejudecată sistematică de a clasifica galaxii departe in spirala ca galaxii eliptice (Bamford et al. 2009) , (Bamford et al. 2009) . Ajustarea pentru aceste prejudecăți sistematice este extrem de important, deoarece în medie multe contribuții nu elimină prejudecată sistematică; elimină doar eroarea aleatorie.

În cele din urmă, după debiasing, cercetatorii au nevoie de o metodă de a combina clasificările individuale pentru a produce o clasificare consens. Cel mai simplu mod de a combina clasificări pentru fiecare galaxie ar fi de a alege cea mai comună de clasificare. Cu toate acestea, această abordare ar da fiecare greutate egală voluntar, iar cercetatorii au suspectat ca unii voluntari au fost mai bune decât altele, la clasificare. Prin urmare, cercetatorii au dezvoltat o procedura mai complexa ponderare iterativ care încearcă să detecteze în mod automat cele mai bune clasificatorii și să le dea mai multă greutate.

Astfel, după o perioadă de trei etape de proces de curățare, debiasing, si cantarind-echipa de cercetare Galaxy Zoo a transformat 40 de milioane de clasificări de voluntari într-un set de consens clasificări morfologice. Atunci când aceste clasificări Galaxy Zoo au fost comparate cu cele trei încercări la scară mai mică anterioare de astronomi profesioniști, inclusiv clasificarea de către Schawinski care au inspirat Galaxy Zoo, a existat un acord puternic. Astfel, voluntarii, în total, au fost în măsură să ofere clasificări de înaltă calitate și la o scara care cercetatorii nu au putut potrivi (Lintott et al. 2008) . De fapt, prin care au clasificări umane pentru un astfel de număr mare de galaxii, Schawinski, Lintott și alții au putut să demonstreze că doar aproximativ 80% dintre galaxii urmează spirale așteptate-model albastru și eliptice-și roșii numeroase lucrări au fost scrise despre această descoperire (Fortson et al. 2011) , (Fortson et al. 2011) .

Având în vedere acest context, putem vedea acum cum urmează Galaxy Zoo split-aplica-combina reteta, aceeasi reteta, care este folosit pentru cele mai multe proiecte de calcul uman. În primul rând, o mare problemă este împărțită în bucăți. În acest caz, problema de a clasifica un milion de galaxii este împărțit într-un milion de probleme de clasificare o singură galaxie. În continuare, o operațiune se aplică pentru fiecare bucată în mod independent. În acest caz, un voluntar s-ar clasifica fiecare galaxie fie ca spirala sau eliptice. În cele din urmă, rezultatele sunt combinate pentru a produce un rezultat consens. În acest caz, etapa a combina inclus curățarea, debiasing, și coeficientul corector pentru a produce o clasificare de consens pentru fiecare galaxie. Chiar dacă cele mai multe proiecte folosesc această rețetă generală, fiecare dintre etapele trebuie să personalizate la problema specifică abordată. De exemplu, în proiectul de calcul uman descris mai jos, aceeași rețetă va fi urmat, dar se aplică și se combină etapele vor fi destul de diferite.

Pentru echipa Galaxy Zoo, acest prim proiect a fost doar începutul. Foarte repede au dat seama că , chiar dacă ei au putut să clasifice aproape de un milion de galaxii, aceasta scala nu este suficient pentru a lucra cu sondaje mai noi cer digitale, care ar putea produce imagini de la aproximativ 10 de miliarde de galaxii (Kuminski et al. 2014) . Să se ocupe de o creștere a 1-1000000-un factor de 10.000 de Galaxy Zoo ar trebui să recruteze aproximativ 10.000 de ori mai mulți participanți. Chiar dacă numărul de voluntari de pe Internet este mare, nu este infinit. Prin urmare, cercetatorii au dat seama că, în cazul în care urmează să se ocupe de cantități tot mai mare de date, este nevoie de o nouă chiar și mai scalabile, abordare,.

Prin urmare, Manda Banerji de lucru cu Kevin Schawinski, Chris Lintott, și alți membri ai Galaxy Zoo-echipa de pornire calculatoare de predare pentru a clasifica galaxii. Mai precis, folosind clasificările umane create de Galaxy Zoo, Banerji et al. (2010) a construit un model de învățare mașină care ar putea prezice clasificarea umană a unei galaxii bazată pe caracteristicile imaginii. În cazul în care acest model de învățare mașină ar putea reproduce clasificările umane cu o precizie ridicată, atunci acesta ar putea fi utilizat de către cercetătorii Galaxy Zoo pentru a clasifica un număr infinit de galaxii în esență.

Elementul central al abordării Banerji și colegii "este de fapt destul de similar cu tehnicile utilizate în mod obișnuit în cercetarea socială, cu toate că această similitudine s-ar putea să nu fie clar la prima vedere. În primul rând, Banerji și colegii transformat fiecare imagine într - un set de caracteristici numerice care să rezume proprietatile sale . De exemplu, pentru imagini de galaxii ar putea exista trei caracteristici: valoarea de albastru din imagine, variația luminozității pixelilor, iar proporția de pixeli non-albi. Selectarea caracteristicilor corecte este o parte importantă a problemei, și necesită, în general, expertiza obiectului domeniu. Acest prim pas, numit în mod obișnuit inginerie caracteristică, rezultă într - o matrice de date cu un rând pentru fiecare imagine și apoi trei coloane care descriu acea imagine. Având în matricea de date și ieșirea dorită (de exemplu, dacă imaginea a fost clasificată de către un om ca o galaxie eliptica), cercetătorul estimează parametrii unui model de exemplu statistic, ceva ca o regresie care logistica prezice clasificarea umană bazată privind caracteristicile imaginii. În cele din urmă, cercetătorul folosește parametrii din acest model statistic pentru a produce clasificări estimate ale noilor galaxii (Figura 5.4). Să se gândească la un analog sociale, imaginați-vă că ați avut informații demografice cu privire la un milion de studenți, și tu știi dacă au absolvit de la colegiu sau nu. Ai putea potrivi o regresie logistică la aceste date, iar apoi ai putea folosi parametrii de model rezultate pentru a prezice dacă elevii noi vor absolvi de la colegiu. În procesul de învățare mașină, această abordare folosind exemple etichetate pentru a crea un model statistic care poate eticheta apoi noile date se numește supravegheat de învățare (Hastie, Tibshirani, and Friedman 2009) .

Figura 5.4: Descrierea simplificată a modului în care Banerji și colab. (2010) a folosit clasificările Galaxy Zoo pentru a instrui un model de învățare mașină pentru a face clasificarea galaxiei. Imagini de galaxii au fost transformate într-o matrice de caracteristici. În acest exemplu simplificat, există trei caracteristici (cantitatea de albastru din imagine, variația luminozității pixelilor, iar proporția de pixeli non-alb). Apoi, pentru un subset al imaginilor, etichetele Galaxy Zoo sunt folosite pentru a instrui un model de mașină de învățare. În cele din urmă, învățarea mașină este utilizată pentru a estima clasificări pentru galaxii rămase. Eu numesc acest tip de proiect un proiect de calcul uman de a doua generație, deoarece, mai degrabă decât cu oamenii să rezolve o problemă, ei au oamenii construiesc un set de date care poate fi folosit pentru a instrui un calculator pentru a rezolva problema. Avantajul acestei abordări asistate de calculator este că vă permite să se ocupe de cantități, în esență, infinit de date, folosind doar o cantitate finită de efort uman.

Figura 5.4: Descrierea simplificată a modului în care Banerji et al. (2010) a folosit clasificările Galaxy Zoo pentru a instrui un model de învățare mașină pentru a face clasificarea galaxiei. Imagini de galaxii au fost transformate într-o matrice de caracteristici. În acest exemplu simplificat, există trei caracteristici (cantitatea de albastru din imagine, variația luminozității pixelilor, iar proporția de pixeli non-alb). Apoi, pentru un subset al imaginilor, etichetele Galaxy Zoo sunt folosite pentru a instrui un model de mașină de învățare. În cele din urmă, învățarea mașină este utilizată pentru a estima clasificări pentru galaxii rămase. Eu numesc acest tip de proiect un proiect de calcul uman de a doua generație, deoarece, mai degrabă decât cu oamenii să rezolve o problemă, ei au oamenii construiesc un set de date care poate fi folosit pentru a instrui un calculator pentru a rezolva problema. Avantajul acestei abordări asistate de calculator este că vă permite să se ocupe de cantități, în esență, infinit de date, folosind doar o cantitate finită de efort uman.

Caracteristicile în Banerji et al. (2010) model de învățare mașină au fost mai complexe decât cele din jucăria mea de exemplu, de exemplu, ea a folosit caracteristici cum ar fi "de Vaucouleurs se potrivesc raportului axial" -și modelul ei nu a fost de regresie logistică, era o rețea neuronală artificială. Cu ajutorul caracteristicilor sale, modelul ei, și consens clasificările Galaxy Zoo, ea a fost în măsură să creeze greutăți pe fiecare caracteristică, iar apoi utilizați aceste greutăți pentru a face predicții cu privire la clasificarea de galaxii. De exemplu, analiza sa constatat ca imaginile cu un nivel scăzut "de Vaucouleurs se potrivesc raportul axial" au fost mai susceptibile de a fi galaxii spirala. Având în vedere aceste greutăți, ea a fost în măsură să prezică clasificarea umană a unei galaxii cu o precizie rezonabilă.

Lucrarea lui Banerji et al. (2010) transformat Galaxy Zoo în ceea ce aș numi un sistem de calcul uman de a doua generație. Cel mai bun mod de a gândi despre aceste sisteme de a doua generație este că, mai degrabă decât cu oamenii să rezolve o problemă, ei au oamenii construiesc un set de date care poate fi folosit pentru a instrui un calculator pentru a rezolva problema. Cantitatea de date necesare pentru a instrui computerul poate fi atât de mare încât este nevoie de o colaborare în masă umană pentru a crea. În cazul Galaxy Zoo, retelele neuronale utilizate de Banerji et al. (2010) , este necesar un număr foarte mare de exemple etichetate uman în scopul de a construi un model care a fost capabil de a reproduce în mod credibil clasificarea umană.

Avantajul acestei abordări asistate de calculator este că vă permite să se ocupe de cantități, în esență, infinit de date, folosind doar o cantitate finită de efort uman. De exemplu, un cercetator cu un milion de galaxii clasificate umane poate construi un model predictiv, care poate fi apoi utilizată pentru a clasifica un miliard sau chiar un trilion de galaxii. În cazul în care există un număr enorm de galaxii, atunci acest tip de hibrid om-calculator este într-adevăr singura soluție posibilă. Acest lucru scalabilitate infinită nu este liber, cu toate acestea. Construirea unui model de învățare mașină care poate reproduce în mod corect clasificările umane este ea însăși o problemă grea, dar din fericire există deja cărți excelente dedicate acestui subiect (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) , (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo prezinta evolutia multor proiecte de calcul umane. În primul rând, un cercetător încearcă proiectul prin ea insasi sau cu o mică echipă de asistenți de cercetare (de exemplu, efortul de clasificare inițială a lui Schawinski). În cazul în care această abordare nu scară bine, cercetătorul poate trece la un proiect de calcul uman în cazul în care mai multe persoane contribuie clasificări. Dar, pentru un anumit volum de date, efort uman pur nu va fi de ajuns. La acel moment, cercetătorii au nevoie pentru a construi sisteme de a doua generație în cazul în care clasificările umane sunt folosite pentru a forma un model de mașină de învățare, care pot fi apoi aplicate la cantități practic nelimitat de date.