5.2.1 Galaxy Zoo

Galaxy Zoo kombinon përpjekjet e shumë vullnetarëve jo-ekspert për të klasifikuar një milion galaktika.

Galaxy Zoo u rrit nga një problem ballafaqohen nga Kevin Schawinski, një student i diplomuar në Astronomisë në Universitetin e Oksfordit në vitin 2007. Thjeshtimi mjaft, Schawinski ishte i interesuar në galaktikave, dhe galaktikat mund të klasifikohen sipas tyre morfologjia-eliptike ose spirale, dhe duke i tyre ngjyra-blu ose të kuqe. Në atë kohë, urtësi konvencionale në mesin e astronomëve ishte se galaktikat spirale, ashtu si Rrugën e Qumështit, ishin blu në ngjyrë (që tregon të rinjtë) dhe se galaktikat eliptike ishin të kuqe në ngjyra (duke treguar moshën e vjetër). Schawinski dyshim këtë urtësi konvencionale. Ai dyshohet se ndërsa ky model mund të jetë e vërtetë në përgjithësi, ka qenë ndoshta një numër i konsiderueshëm i përjashtime, dhe se duke studiuar shumë këtyre galaktikave-të pazakontë ato që nuk i përshtatet pritur model, ai mund të mësojnë diçka në lidhje me procesin përmes të cilit galaktikat formuar.

Kështu, ajo që Schawinski e nevojshme në mënyrë që të përmbysur urtësi konvencionale ishte një grup i madh i galaktikave morfologjikisht të klasifikuara; që është, galaktikat që ishin klasifikuar si ose spirale apo eliptike. Problemi, megjithatë, ishte se metodat algorithmic ekzistuese për klasifikimin ende nuk kanë qenë mjaft të mira për t'u përdorur për hulumtime shkencore; me fjalë të tjera, galaktikat klasifikimin ishte, në atë kohë, një problem që ishte e vështirë për kompjutera. Prandaj, ajo që ishte e nevojshme ishte një numër i madh i galaktikave të klasifikuara të njeriut. Schawinski ndërmori këtë problem e klasifikimit me entuziazmin e një student i diplomuar. Në një seancë maratonë prej shtatë ditësh, 12-orë, ai ishte në gjendje për të klasifikuar 50.000 galaktikat. Ndërsa 50.000 galaktikat mund të tingëllojë si një shumë, ajo është në fakt vetëm rreth 5% e pothuajse një milion galaktika të cilat ishin fotografuar në Hulumtimin e Sloan Digital Sky. Schawinski kuptoi se ai kishte nevojë për një qasje më të shkallëzuar.

Për fat të mirë, rezulton se detyra e galaktikave i klasifikuar nuk kërkon trajnime të avancuara në astronomi; ju mund të mësoni dikë të bëjë atë shumë shpejt. Me fjalë të tjera, edhe pse klasifikimin galaktika është një detyrë që ishte e vështirë për kompjutera, ajo ishte shumë e lehtë për njerëzit. Kështu, ndërsa ulur në një pijetore në Oksford, Schawinski dhe shokët astronomi Chris Lintott ëndërruar një faqe interneti ku vullnetarët do të klasifikojë imazhet e galaktikave. Disa muaj më vonë, Galaxy Zoo ka lindur.

Në faqen e internetit Galaxy kopshtin zoologjik, vullnetarët do të pësojë disa minuta të trajnimit; për shembull, të mësuar dallimin në mes të një spirale dhe galaktikë eliptike (Figura 5.2). Pas këtij trajnimi, vullnetarët është dashur të kalojë një relativisht e lehtë quiz-saktë e klasifikuar 11 e 15 galaktika me e njohur klasifikimeve-dhe pastaj vullnetare do të fillojë klasifikimin e vërtetë të galaktikave të panjohur përmes një web-bazuar ndërfaqe të thjeshtë (Figura 5.3). Kalimi nga vullnetar të astronomit do të bëhet në më pak se 10 minuta dhe vetëm e nevojshme kalimin më të ulët e me pengesa, një quiz të thjeshtë.

Figura 5.2: Shembuj të dy llojeve kryesore të galaktikave; spirale dhe eliptike. Projekti Galaxy Zoo përdoret më shumë se 100.000 vullnetarë të kategorive më shumë se 900.000 imazhe. Burimi: www.galaxyzoo.org.

Figura 5.2: Shembuj të dy llojeve kryesore të galaktikave; spirale dhe eliptike. Projekti Galaxy Zoo përdoret më shumë se 100.000 vullnetarë të kategorive më shumë se 900.000 imazhe. Burimi: www.galaxyzoo.org .

Figura 5.3: screen Input ku votuesit janë pyetur për të klasifikuar një imazh të vetëm. Burimi: www.galaxyzoo.org.

Figura 5.3: screen Input ku votuesit janë pyetur për të klasifikuar një imazh të vetëm. Burimi: www.galaxyzoo.org .

Galaxy Zoo tërhequr vullnetarët e saj fillestare, pasi projekti është paraqitur në një artikull të lajmeve, dhe në rreth gjashtë muaj projekti u rrit për të përfshirë më shumë se 100.000 shkencëtarë qytetarëve, njerëz që morën pjesë, sepse ata gëzuar detyrën dhe ata donin për të ndihmuar astronomi paraprakisht. Së bashku, këto 100,000 vullnetarë kanë kontribuar një total prej më shumë se 40 milionë klasifikimeve, me shumicën e klasifikimeve që vijnë nga një grup relativisht të vogël, thelbi i pjesëmarrësve (Lintott et al. 2008) .

Hulumtuesit të cilët kanë përvojë punësimin e asistentëve universitare kërkimore menjëherë mund të jetë skeptik në lidhje me cilësinë e të dhënave. Ndërsa ky skepticizëm është e arsyeshme, Galaxy Zoo tregon se kur kontributet vullnetare janë pastruar si duhet, debiased, dhe janë grumbulluar, ata mund të prodhojnë rezultate të cilësisë së lartë (Lintott et al. 2008) . Një mashtrim i rëndësishëm për marrjen e turmës për të krijuar të dhëna të cilësisë profesionale është tepricë; që është, ka të njëjtën detyrë e kryer nga shumë njerëz të ndryshëm. Në kopshtin zoologjik Galaxy, ka pasur rreth 40 klasifikimet per galaktikë; Hulumtuesit përdorur asistentë universitare kërkimore nuk mund të përballojë këtë nivel të tepricë dhe për këtë arsye duhet të jenë shumë më të shqetësuar me cilësinë e çdo klasifikimin individual. Çfarë vullnetarët mungonte në trajnim, kanë bërë për me tepricë.

Edhe me klasifikime të shumta për galaktikë, megjithatë, duke kombinuar sërë klasifikimeve vullnetare për të prodhuar një klasifikimi konsensusi është i ndërlikuar. Për shkak se sfida shumë të ngjashme lindin në shumicën e projekteve llogaritje e njeriut, është e dobishme të shqyrtojë shkurtimisht tre hapa që studiuesit Galaxy Zoo përdoren për të prodhuar klasifikimet e tyre konsensus. Së pari, studiuesit "pastruar" të dhënat duke hequr klasifikimet fals. Për shembull, njerëzit të cilët klasifikohen në mënyrë të përsëritur të njëjtin galaxy-diçka që do të ndodhë në qoftë se ata ishin duke u përpjekur për të manipuluar rezultatet, kishte të gjitha klasifikimet e tyre fshi. Kjo dhe të tjera të ngjashme pastrimi hequr rreth 4% të të gjitha klasifikimeve.

Së dyti, pas pastrimit, studiuesit e nevojshme për të hequr paragjykimet sistematike në klasifikime. Nëpërmjet një seri studimesh të zbulimit paragjykim ngulitur brenda shembull fillestar të projektit, për të, duke treguar disa vullnetarë galaktikë në pikturë njëngjyrëshe në vend të ngjyrës, studiuesit zbuluan disa paragjykime sistematike, të tilla si një paragjykim sistematik të klasifikuar galaktikat larg spirale si galaktikave eliptike (Bamford et al. 2009) . Përshtatur për këto paragjykime sistematike është shumë e rëndësishme për shkak se mesatarisht një kontribut shumë nuk heq paragjykim sistematik; ajo vetëm heq gabim të rastit.

Më në fund, pas debiasing, studiuesit e nevojshme një metodë për të kombinuar klasifikimet individuale për të prodhuar një klasifikim konsensus. Mënyra më e thjeshtë për të kombinuar klasifikimet për çdo galaktikë do të jetë për të zgjedhur klasifikimin më të zakonshme. Megjithatë, kjo qasje do të japë çdo peshë vullnetar të barabartë, dhe studiuesit dyshohet se disa vullnetarë ishin më të mirë në klasifikimin se të tjerët. Për këtë arsye, studiuesit zhvilluar një procedurë më komplekse përsëritës koeficient që përpiqet të zbulojë automatikisht classifiers më të mira dhe për t'u dhënë atyre më shumë peshë.

Kështu, pas një tre hap proces-pastrimi, debiasing, dhe koeficient-ekipi hulumtues Galaxy Zoo kishte konvertuar 40 milionë klasifikime vullnetare në një grup të konsensusit klasifikimeve morfologjike. Kur këto klasifikime Galaxy Zoo janë krahasuar me tre përpjekjeve të mëparshme të vogla në shkallë nga astronomët profesionale, duke përfshirë klasifikimin nga Schawinski që ndihmoi për të frymëzuar Galaxy Zoo, ka pasur marrëveshje të fortë. Kështu, vullnetarët, në total, ishin në gjendje të ofrojnë klasifikimet me cilësi të lartë dhe në një shkallë që studiuesit nuk mund të përputhen (Lintott et al. 2008) . Në fakt, duke pasur klasifikimet e njeriut për një numër kaq të madh të galaktikave, Schawinski, Lintott, dhe të tjerët ishin në gjendje të tregojnë se vetëm rreth 80% e galaktikave ndiqni spiralet e pritshme model blu dhe ellipticals-dhe kuqe dokumente të shumta janë shkruar në lidhje ky zbulim (Fortson et al. 2011) .

Duke pasur parasysh këtë sfond, ne tani mund të shohim se si Galaxy Zoo vijon ndarja-aplikojë-kombinuar recetë, e njëjta recetë që përdoret për shumicën e projekteve llogaritje njerëzore. Së pari, një problem i madh është e ndarë në chunks. Në këtë rast, problemi i klasifikimit një milion galaktika është e ndarë në një milion probleme të klasifikimit një galaktikë. Tjetra, një operacion është aplikuar për çdo copë në mënyrë të pavarur. Në këtë rast, një vullnetar do të klasifikojnë çdo galaktikë si ose spirale apo eliptike. Së fundi, rezultatet janë të kombinuara për të prodhuar një rezultat konsensual. Në këtë rast, të kombinuar hapi përfshirë pastrimin, debiasing dhe peshën për të prodhuar një klasifikim konsensus për çdo galaktikë. Edhe pse shumica e projekteve të përdorur këtë recetë të përgjithshme, secili nga hapat duhet të përshtatur për problemin specifik duke u adresuar. Për shembull, në projektin e llogaritjes të njeriut të përshkruara më poshtë, e njëjta recetë do të ndiqet, por të zbatohen dhe kombinojnë hapat e do të jetë mjaft e ndryshme.

Për ekipin Galaxy kopshtin zoologjik, ky projekt i parë ishte vetëm fillimi. Shumë shpejt ata e kuptuan se edhe pse ata ishin në gjendje për të klasifikuar afër një milion galaktika, kjo shkallë nuk është e mjaftueshme për të punuar me të sondazheve më të reja qiell dixhitale, të cilat mund të prodhojnë imazhe të rreth 10 miliardë galaktika (Kuminski et al. 2014) . Për të trajtuar një rritje nga 1 milion në 10 miliardë një faktor i 10.000-Galaxy kopshtin zoologjik do të duhet për të rekrutuar rreth 10,000 herë më shumë pjesëmarrës. Edhe pse numri i vullnetarëve në internet është e madhe, ajo nuk është e pafund. Për këtë arsye, studiuesit kuptuan se në qoftë se ata janë duke shkuar për të trajtuar sasi gjithnjë e në rritje të të dhënave, një të ri edhe më të shkallëzuar, qasje, ishte e nevojshme.

Prandaj, Manda Banerji-duke punuar me Kevin Schawinski, Chris Lintott, dhe anëtarët e tjerë të kompjuterëve mësimdhënies Galaxy Zoo ekipit, duke filluar për të klasifikuar galaktikat. Më konkretisht, duke përdorur klasifikimet e njeriut e krijuar nga Galaxy kopshtin zoologjik, Banerji et al. (2010) të ndërtuar një model të mësuarit makinë që mund të parashikuar klasifikimin njerëzore të një galaktikë të bazuar në karakteristikat e imazhit. Nëse ky model të mësuarit e makinës mund të riprodhoni klasifikimet e njeriut me saktësi të lartë, atëherë ajo mund të përdoret nga hulumtuesit Galaxy Zoo për të klasifikuar një numër në thelb të pafund të galaktikave.

Thelbi i Banerji dhe kolegët e "qasjes në fakt është shumë e ngjashme me teknikat e përdorura zakonisht në hulumtimet sociale, edhe pse kjo ngjashmëri nuk mund të jetë i qartë në shikim të parë. Së pari, Banerji dhe kolegët konvertuar çdo imazh në një sërë karakteristika numerike që përmbledhin është e pronave. Për shembull, për imazhet e galaktikave nuk mund të ketë tri karakteristika: shuma e blu në imazhin, varianca në shkëlqimin e pixels, dhe përqindja e piksele jo-të bardhë. Përzgjedhja nga karakteristikat e saktë është një pjesë e rëndësishme e problemit, dhe kjo në përgjithësi kërkon ekspertizë subjekt-zonë. Ky hap i parë, i quajtur zakonisht inxhinieri tipar, rezulton në një matricë të dhënave me një rresht për imazhin dhe pastaj tre kolona përshkruajnë atë imazh. Duke pasur parasysh matricën e të dhënave dhe prodhimin e dëshiruar (p.sh., nëse imazhi është klasifikuar nga një njeri, si një galaktikë eliptike), studiuesi vlerëson parametrat e një modeli, për shembull statistikore, diçka si një regres-se logjistik parashikon klasifikimin e njeriut bazuar nga karakteristikat e imazhit. Më në fund, studiuesi përdor parametrat në këtë model statistikore për të prodhuar klasifikimet e vlerësuara të galaktikave të reja (Figura 5.4). Të mendojnë për një analog sociale, imagjinoni se keni pasur informata demografike rreth një milion studentë, dhe ju e dini nëse ata diplomuar nga një universitet apo jo. Ju mund të përshtatet një regres logjistike për këto të dhëna, dhe pastaj ju mund të përdorni parametrat që rezultojnë modelit të parashikohet nëse studentët e rinj do të diplomuar nga një universitet. Në të mësuarit e makinës, kjo qasje, duke përdorur shembuj etiketuar për të krijuar një model statistikor të cilat pastaj mund emërtim të ri të dhënave-quhet mbikëqyrur të mësuarit (Hastie, Tibshirani, and Friedman 2009) .

Figura 5.4: Përshkrimi thjeshtuar se si Banerji et al. (2010) e përdorur klasifikimet Galaxy Zoo për të trajnuar një model të mësuarit makinë për të bërë klasifikimin galaxy. Imazhet e galaktikave janë konvertuar në një matricë të karakteristikave. Në këtë shembull të thjeshtuar ekzistojnë tri karakteristika (shuma e blu në imazhin, varianca në shkëlqimin e pixels, dhe përqindja e piksele jo të bardhë). Pastaj, për një mesin e imazheve, etiketat Galaxy Zoo janë përdorur për të trajnuar një model të mësuarit makinë. Së fundi, të mësuarit makinë është përdorur për të vlerësuar klasifikimet për galaktikat mbetura. Unë e quaj këtë lloj të projektit të një të dytë të gjeneratës kompjuterike njeriut projekt për shkak se, në vend që njerëzit të zgjidhur një problem, ata kanë njerëzit ndërtojnë një dataset që mund të përdoret për të trajnuar një kompjuter për të zgjidhur problemin. Avantazhi i kësaj qasjeje kompjuter-ndihmuar është se kjo ju mundëson për të trajtuar sasi thelb pafund të të dhënave duke përdorur vetëm një sasi e fundme e përpjekjeve njerëzore.

Figura 5.4: Përshkrimi thjeshtuar se si Banerji et al. (2010) e përdorur klasifikimet Galaxy Zoo për të trajnuar një model të mësuarit makinë për të bërë klasifikimin galaxy. Imazhet e galaktikave janë konvertuar në një matricë të karakteristikave. Në këtë shembull të thjeshtuar ekzistojnë tri karakteristika (shuma e blu në imazhin, varianca në shkëlqimin e pixels, dhe përqindja e piksele jo të bardhë). Pastaj, për një mesin e imazheve, etiketat Galaxy Zoo janë përdorur për të trajnuar një model të mësuarit makinë. Së fundi, të mësuarit makinë është përdorur për të vlerësuar klasifikimet për galaktikat mbetura. Unë e quaj këtë lloj të projektit të një të dytë të gjeneratës kompjuterike njeriut projekt për shkak se, në vend që njerëzit të zgjidhur një problem, ata kanë njerëzit ndërtojnë një dataset që mund të përdoret për të trajnuar një kompjuter për të zgjidhur problemin. Avantazhi i kësaj qasjeje kompjuter-ndihmuar është se kjo ju mundëson për të trajtuar sasi thelb pafund të të dhënave duke përdorur vetëm një sasi e fundme e përpjekjeve njerëzore.

Karakteristika në Banerji et al. (2010) modeli i të mësuarit makinë ishin më komplekse se ato në lodër tim shembull, për shembull, ajo e përdorur karakteristika si "de Vaucouleurs përshtaten raport aksiale" -dhe modeli i saj nuk ishte regresioni logjistik, kjo ishte një rrjet nervor artificial. Duke përdorur karakteristikat e saj, modelin e saj, dhe konsensus klasifikimet e Galaxy Zoo, ajo ishte në gjendje për të krijuar pesha në çdo funksion, dhe pastaj të përdorin këto pesha për të bërë parashikime në lidhje me klasifikimin e galaktikave. Për shembull, analiza e saj zbuloi se figurat me të ulët "de Vaucouleurs përshtaten raport aksiale" kishin më shumë gjasa të jetë galaktika spirale. Duke pasur parasysh këto pesha, ajo ishte në gjendje të parashikojnë klasifikimin njerëzore të një galaktikë me saktësi të arsyeshme.

Puna e Banerji et al. (2010) u Galaxy kopshtin zoologjik në atë që unë do ta quaja një të dytë të gjeneratës së sistemit të llogaritjes njerëzore. Mënyra më e mirë për të menduar për këto sisteme brezit të dytë është se në vend të që kanë njerëzit të zgjidhur një problem, ata kanë njerëzit ndërtojnë një dataset që mund të përdoret për të trajnuar një kompjuter për të zgjidhur problemin. Shuma e të dhënave të nevojshme për të trajnuar në kompjuter mund të jetë aq i madh se ajo kërkon një bashkëpunim në masë njerëzore për të krijuar. Në rastin e Galaxy Zoo, rrjetet nervore përdorura nga Banerji et al. (2010) kërkohet një numër shumë të madh të shembujve të njeriut-etiketuar për të ndërtuar një model që ishte në gjendje të besueshme të riprodhuar klasifikimin e njeriut.

Avantazhi i kësaj qasjeje kompjuter-ndihmuar është se kjo ju mundëson për të trajtuar sasi thelb pafund të të dhënave duke përdorur vetëm një sasi e fundme e përpjekjeve njerëzore. Për shembull, një studiues me një milion galaktika të klasifikuara të njeriut mund të ndërtojë një model parashikuese të cilat pastaj mund të përdoret për të klasifikuar një miliardë apo edhe një trilion galaktika. Nëse ka një numër të mëdha të galaktikave, atëherë ky lloj i hibrid e njeriut-kompjuter është me të vërtetë e vetmja zgjidhje e mundshme. Kjo scalability pafund nuk është e lirë, megjithatë. Ndërtimi i një modeli të mësuarit makinë që mund të saktë të riprodhuar klasifikimet e njeriut në vetvete është një problem i vështirë, por për fat tashmë ka libra të shkëlqyer të dedikuar për këtë temë (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo tregon evolucionin e shumë projekteve llogaritje njerëzore. Së pari, një studiues tenton projektin me veten ose me një ekip të vogël të asistentëve të hulumtimit (p.sh., përpjekje fillestare Schawinski së klasifikimit). Nëse kjo qasje nuk ka shkallë të mirë, studiuesi mund të lëvizin në një projekt llogaritje të njeriut, ku shumë njerëz të kontribuojnë klasifikime. Por, për një vëllim të caktuar të të dhënave, përpjekje e pastër e njeriut nuk do të jetë e mjaftueshme. Në këtë pikë, studiuesit duhet të ndërtojmë sisteme të brezit të dytë, ku klasifikimet e njeriut janë përdorur për të trajnuar një model të mësuarit makinë që më pas mund të aplikohet në sasi praktikisht të pakufizuar të dhënave.