5.2.1 Galaxy Zoo

Galaktikas zooloģiskais dārzs apvienoja daudzu brīvprātīgo, kas nav eksperti, centienus klasificēt miljonu galaktiku.

Galaktikas zooloģiskais dārzs izauga no problēmām, ar ko saskārās 2007. gada Oksfordas Universitātes astronomijas studijas doktors Kevins Šavinsks. Vienkāršojot, Schawinski interesēja galaktikas, un galaktikas var klasificēt pēc to morfoloģijas-eliptiskas vai spirālveida to krāsa zilā vai sarkanā krāsā. Šajā laikā astronomu parastā gudrība bija tāda, ka spirālveida galaktikas, tāpat kā mūsu Piena ceļš, bija zilā krāsā (norādot jaunību) un eliptiskās galaktikas bija sarkanas (norādot vecumu). Schawinski apšauba šo parasto gudrību. Viņam bija aizdomas, ka, lai arī šis modelis kopumā varētu būt taisnība, iespējams, ka ir ļoti daudz izņēmumu, un, pētot daudz šīs neparastas galaktikas - tās, kas neatbilst paredzamajam modelim, viņš varēja kaut ko uzzināt par procesu, ar kura palīdzību veidotas galaktikas.

Tādējādi, ko Schawinski vajadzēja, lai apgāztu tradicionālo gudrību, bija liels morfoloģiski klasificētu galaktiku kopums; tas ir, galaktikas, kas tika klasificētas kā spirāli vai eliptisks. Tomēr problēma bija tāda, ka esošās algoritmiskās klasifikācijas metodes vēl nebija pietiekami labas, lai tās varētu izmantot zinātniskiem pētījumiem; citiem vārdiem sakot, galaktiku klasificēšana tajā laikā bija problēma, kas datoriem bija grūti. Tāpēc bija vajadzīgs daudz cilvēku klasificētu galaktiku. Schawinski uzsāka šo klasifikācijas problēmu ar absolventu entuziasmu. Septiņu 12 stundu dienu maratona sesijā viņš varēja klasificēt 50 000 galaktikas. Kaut gan 50 000 galaktikas var izklausīties daudz, tas faktiski ir tikai aptuveni 5% no gandrīz viena miljona galaktikām, kas tika fotografētas Sloan Digital Sky Survey. Schawinski saprata, ka viņam vajadzīga lielāka mēroga pieeja.

Par laimi, izrādās, ka uzdevums klasificēšanas galaktiku neprasa progresīvu apmācību astronomijā; Jūs varat iemācīt kādu, lai to izdarītu diezgan ātri. Citiem vārdiem sakot, lai gan galaktikas klasificējot ir uzdevums, kas bija grūti datoriem, tas bija diezgan viegli cilvēkiem. Tātad, sēžot krogā Oxford, Schawinski un puisis astronoms Chris Lintott sacerēja tīmekļa vietni, kur brīvprātīgie klasificētu attēlus galaktiku. Dažus mēnešus vēlāk, Galaxy Zoo dzimis.

Galaktikas zooloģiskā dārza tīmekļa vietnē brīvprātīgie apmeklēs dažas minūtes treniņu; piemēram, apgūstot atšķirību starp spirāli un eliptisko galaktiku (5.2. attēls). Pēc šīs apmācības katram brīvprātīgajam bija jānokārto samērā viegli viktorīna, kas pareizi klasificētu 11 no 15 galaktikām ar zināmu klasifikāciju, un pēc tam uzsāktu reālu nezināmu galaktiku klasifikāciju, izmantojot vienkāršu tīmekļa saskarni (5.3. Attēls). Pāreja no brīvprātīgā uz astronomu notiks mazāk nekā 10 minūtes un tikai vajadzēja nokārtot viszemāko šķēršļu - vienkāršu viktorīnu.

5.2. Attēls: divu galveno galaktiku tipu piemēri: spirāli un eliptiskie. Galaxy Zoo projektā tika izmantoti vairāk nekā 100 000 brīvprātīgo, lai kategorizētu vairāk nekā 900 000 attēlus. Pārpublicēts ar atļauju no http://www.GalaxyZoo.org un Sloan Digital Sky Survey.

5.2. Attēls: divu galveno galaktiku tipu piemēri: spirāli un eliptiskie. Galaxy Zoo projektā tika izmantoti vairāk nekā 100 000 brīvprātīgo, lai kategorizētu vairāk nekā 900 000 attēlus. Pārpublicēts ar atļauju no http://www.GalaxyZoo.org un Sloan Digital Sky Survey .

Attēls 5.3: ievades ekrāns, kurā brīvprātīgajiem tika lūgts klasificēt vienu attēlu. Reproducēts ar Chris Lintott atļauju, pamatojoties uz Sloan Digital Sky Survey attēlu.

Attēls 5.3: ievades ekrāns, kurā brīvprātīgajiem tika lūgts klasificēt vienu attēlu. Reproducēts ar Chris Lintott atļauju, pamatojoties uz Sloan Digital Sky Survey attēlu .

Galaktikas zooloģiskais dārzs piesaistīja sākotnējos brīvprātīgos pēc tam, kad projekts bija redzams ziņu rakstā, un aptuveni sešus mēnešus projektā iesaistījās vairāk nekā 100 000 pilsoņu zinātnieki, cilvēki, kuri piedalījās, jo viņiem bija šis uzdevums, un viņi vēlējās veicināt astronomijas attīstību. Kopā šie 100 000 brīvprātīgie kopumā veidoja vairāk nekā 40 miljonus klasifikāciju, un lielākā daļa klasifikāciju bija no relatīvi nelielas galvenās dalībnieku grupas (Lintott et al. 2008) .

Pētnieki, kuriem ir pieredze, piesaistot bakalaura pētnieku asistentus, var nekavējoties būt skeptiski par datu kvalitāti. Kaut arī šis skepticisms ir saprātīgs, Galaxy Zoo liecina, ka, kad brīvprātīgo ieguldījumi tiek pareizi iztīrīti, nošķirti un apvienoti, tie var radīt augstas kvalitātes rezultātus (Lintott et al. 2008) . Svarīgs triks, lai pūlis izveidotu profesionālas kvalitātes datus, ir atlaišana , tas ir, ar to pašu uzdevumu veic daudzi cilvēki. Galaktikas zooloģiskajā dārzā katrai galaktikai bija aptuveni 40 klasifikācijas; pētnieki, kuri izmanto bakalaura pētnieku palīgus, nekad nevarētu atļauties šādu atlaišanas līmeni, un tādēļ viņiem būtu daudz jāieinteresē katras atsevišķas klasifikācijas kvalitāte. Ko brīvprātīgajiem trūka apmācības, viņiem bija jāstrādā ar atlaišanu.

Pat ar daudzkārtējām klasifikācijām uz katru galaktiku, tomēr apvienojot brīvprātīgo klasifikāciju, lai panāktu vienprātīgu klasifikāciju, bija grūts uzdevums. Tā kā lielākajā daļā cilvēku aprēķinu projekti rodas ļoti līdzīgi izaicinājumi, ir lietderīgi īsumā pārskatīt trīs soļus, ko Galaksikas zoodārza pētnieki izmantoja, lai veidotu viņu konsensu klasifikācijas. Pirmkārt, pētnieki "tīra" datus, noņemot fiktīvas klasifikācijas. Piemēram, cilvēki, kuri atkārtoti klasificējuši vienu un to pašu galaktiku, kaut kas notikt, ja viņi mēģina manipulēt ar rezultātiem, visu savu klasifikāciju iznīcināja. Šo un citu līdzīgu tīrīšanu noņem aptuveni 4% no visām klasifikācijām.

Otrkārt, pēc tīrīšanas pētniekiem bija nepieciešams novērst sistemātiskas aizspriedumus klasifikācijās. Piemēram, sākotnējā projektā iekļautā neobjektivitātes noteikšanas pētījumu sērija, piemēram, dažu brīvprātīgo parādīšana melnbaltos galaktikā krāsas vietā, pētnieki atklāja vairākas sistemātiskas novirzes, piemēram, sistemātisku neobjektivitāti, lai klasificētu fāzu spirālveida galaktikas kā eliptiskas galaktikas (Bamford et al. 2009) . Pielāgošana šīm sistemātiskajām neobjektivitātei ir ārkārtīgi svarīga, jo atlaišana automātiski neatceļ sistemātiskus aizspriedumus; tas tikai palīdz noņem izlases kļūdu.

Visbeidzot, pēc debiāžas pētniekiem bija vajadzīga metode, lai apvienotu atsevišķās klasifikācijas, lai iegūtu vienprātīgu klasifikāciju. Vienkāršākais veids, kā apvienot klasifikācijas katrai galaktikai, būtu izvēlēties visizplatītāko klasifikāciju. Tomēr šī pieeja būtu piešķīrusi katram brīvprātīgajam vienādu svaru, un pētnieki bija pamanījuši, ka daži brīvprātīgie ir labāk klasificēti nekā citi. Tāpēc pētnieki izstrādāja sarežģītāku atkārtotu svēršanas procedūru, kas mēģināja noteikt labākos klasifikatorus un piešķirt tiem lielāku nozīmi.

Tādējādi pēc trīspakāpju procesa tīrīšanas, debiācijas un svēršanas - Galaxy Zoo pētniecības komanda 40 miljonus brīvprātīgo klasifikāciju pārveidoja par konsensa morfoloģisko klasifikāciju kopumu. Kad šīs Galaxy Zoo klasifikācijas tika salīdzinātas ar trim iepriekšējiem mazā mēroga mēģinājumiem profesionāliem astronemiem, tostarp Schawinski klasifikāciju, kas palīdzēja iedvesmot Galaxy Zoo, bija liela vienošanās. Tādējādi brīvprātīgie kopumā spēja nodrošināt kvalitatīvas klasifikācijas un tādā apjomā, ka pētnieki nevarēja sasniegt atbilstību (Lintott et al. 2008) . Faktiski, ievērojot cilvēku klasifikāciju tik daudzām galaktikām, Schawinski, Lintott un citi varēja pierādīt, ka tikai apmēram 80% galaktiku izpilda sagaidāmos raksturīgos zilos spirālus un sarkanos eliptiskos elementus, un par daudziem rakstiem ir rakstīts šis atklājums (Fortson et al. 2011) .

Ņemot vērā šo fona, tagad jūs varat redzēt, kā Galaxy Zoo seko split-apply-combine receptei - tā pati recepte, kas tiek izmantota lielākajai daļai cilvēku aprēķinu projektu. Pirmkārt, liela problēma tiek sadalīta gabalos. Šajā gadījumā miljonu galaktiku klasificēšanas problēma tika sadalīta miljonā vienas galaktikas klasificēšanas problēmu. Next, darbība tiek piemērota katrai gabalu patstāvīgi. Šajā gadījumā brīvprātīgie klasificēja katru galaktiku vai nu spirāli, vai eliptiskos. Visbeidzot, rezultāti tiek apvienoti, lai panāktu konsensa rezultātu. Šajā gadījumā kombinētajā stadijā ietilpa tīrīšana, debiācija un svēršana, lai panāktu konsekventu klasifikāciju katrai galaktikai. Lai arī lielākā daļa projektu izmanto šo vispārējo recepti, katrs solis jāpielāgo konkrētajai problēmai, kas tiek risināta. Piemēram, zemāk aprakstītā cilvēka aprēķināšanas projektā tiks ievērota viena un tā pati recepte, bet piemērošanas un apvienošanas soļi būs pavisam citādi.

Galaksa Zoo komandai šis pirmais projekts bija tikai sākums. Ļoti ātri viņi saprata, ka, lai gan viņi varēja klasificēt gandrīz miljonu galaktiku, šis apjoms nav pietiekams, lai varētu strādāt ar jaunākām digitālās (Kuminski et al. 2014) apsekojumiem, kas var radīt aptuveni 10 miljardu galaktiku attēlus (Kuminski et al. 2014) . Lai sasniegtu palielinājumu no 1 miljarda līdz 10 miljardiem - 10 000 galaktikas zoodārza faktoram vajadzētu pieņemt darbā aptuveni 10 000 reižu vairāk dalībnieku. Pat ja brīvprātīgo skaits internetā ir liels, tas nav bezgalīgs. Tādēļ pētnieki saprata, ka, ja viņi gatavojas apstrādāt arvien pieaugošo datu apjomu, nepieciešama jauna, vēl arvien mērogojamu pieeja.

Tāpēc Manda Banerji, sadarbojoties ar Schawinski, Lintott un citiem Galaxy Zoo komandas locekļiem (2010) uzsāka datorus mācīties, lai klasificētu galaktikas. Konkrētāk, izmantojot Galaxy Zoo izveidotās cilvēku klasifikācijas, Banerji izveidoja mašīnu mācību modeli, kas varētu prognozēt galaktikas cilvēka klasifikāciju, pamatojoties uz attēla īpašībām. Ja šis modelis varētu reproducēt cilvēka klasifikācijas ar augstu precizitāti, tad to varētu izmantot Galaktikas zooloģiskā dārza zinātnieki, lai klasificētu būtībā bezgalīgu skaitu galaktiku.

Banerji un kolēģu pieejas pamats patiesībā ir diezgan līdzīgs paņēmieniem, kas parasti tiek izmantoti sociālajos pētījumos, lai gan šī pirmā acu uzmetiena doma var nebūt skaidra. Pirmkārt, Banerji un kolēģi katru attēlu pārveidoja par skaitlisko iespēju kopumu, kas apkopoja tās īpašības. Piemēram, galaktiku attēliem var būt trīs elementi: attēla zilā krāsa, displeja spilgtums pikseļos un nebaltu pikseļu īpatsvars. Pareizo funkciju izvēle ir svarīga problēmas daļa, un tā parasti prasa speciālo zināšanu apguvi. Šis pirmais solis, ko parasti sauc par funkciju inženieriju , iegūst datu matricu ar vienu rindu katram attēlam un pēc tam trim kolonnām, kas apraksta šo attēlu. Ņemot vērā datu matricu un vēlamo rezultātu (piemēram, vai attēls tika klasificēts kā cilvēka elipses galaktika), pētnieks izveido statistikas vai mašīnu mācību modeli, piemēram, loģistikas regresiju, kas paredz cilvēka klasifikāciju, pamatojoties uz iezīmēm no attēla. Visbeidzot, pētnieks šajā statistiskajā modelī izmanto parametrus, lai iegūtu aprēķinātās jauno galaktiku klasifikācijas (5.4. Attēls). Apmācot mašīnu, šīs pieejas marķētie piemēri, lai izveidotu modeli, pēc kura var marķēt jaunus datus, sauc par uzraudzītu mācīšanos .

5.4. Attēls. Vienkāršots apraksts par to, kā Banerji et al. (2010) izmantoja Galaxy Zoo klasifikācijas, lai apmācītu mašīnu mācību modeli, lai veiktu galaktikas klasifikāciju. Galaktiku attēli tika pārveidoti funkciju matricā. Šajā vienkāršotajā piemērā ir trīs elementi (attēla zilā krāsa, izšķirtspējas spilgtums pikseļos un nefiksētu pikseļu īpatsvars). Tad, lai noteiktu attēlu apakškopu, mašīnu mācību modelis tiek izmantots Galaxy Zoo etiķetēs. Visbeidzot, mašīnu apguvi izmanto, lai novērtētu atlikušo galaktiku klasifikāciju. Es to saucu par datorizētu cilvēku aprēķinu projektu, jo tā vietā, lai cilvēki atrisinātu problēmu, cilvēkiem ir jāizveido datu kopums, ko var izmantot, lai apmācītu datoru, lai atrisinātu problēmu. Šīs datorizētās cilvēku skaitļošanas sistēmas priekšrocība ir tāda, ka tā ļauj apstrādāt pēc būtības bezgalīgas datu apjomu, izmantojot tikai ierobežotu skaitu cilvēku veikto darbu. Galaktiku attēli, kas atveidoti ar Sloan Digital Sky Survey atļauju.

5.4. Attēls. Vienkāršots apraksts par to, kā Banerji et al. (2010) izmantoja Galaxy Zoo klasifikācijas, lai apmācītu mašīnu mācību modeli, lai veiktu galaktikas klasifikāciju. Galaktiku attēli tika pārveidoti funkciju matricā. Šajā vienkāršotajā piemērā ir trīs elementi (attēla zilā krāsa, izšķirtspējas spilgtums pikseļos un nefiksētu pikseļu īpatsvars). Tad, lai noteiktu attēlu apakškopu, mašīnu mācību modelis tiek izmantots Galaxy Zoo etiķetēs. Visbeidzot, mašīnu apguvi izmanto, lai novērtētu atlikušo galaktiku klasifikāciju. Es to saucu par datorizētu cilvēku aprēķinu projektu, jo tā vietā, lai cilvēki atrisinātu problēmu, cilvēkiem ir jāizveido datu kopums, ko var izmantot, lai apmācītu datoru, lai atrisinātu problēmu. Šīs datorizētās cilvēku skaitļošanas sistēmas priekšrocība ir tāda, ka tā ļauj apstrādāt pēc būtības bezgalīgas datu apjomu, izmantojot tikai ierobežotu skaitu cilvēku veikto darbu. Galaktiku attēli, kas atveidoti ar Sloan Digital Sky Survey atļauju.

Banerji un kolēģu mašīnu mācību modeļa iezīmes bija daudz sarežģītākas nekā manas rotaļlietas piemērs, piemēram, viņa izmantoja tādas funkcijas kā "de Vaucouleurs fit axial ratio" un viņas modelis nebija loģistikas regresija, tas bija mākslīgais neironu tīkls. Izmantojot savas funkcijas, viņas modeli un konsekventu Galaxy Zoo klasifikāciju, viņa varēja izveidot svarus katrai funkcijai un pēc tam izmantot šos svarus, lai prognozētu galaktiku klasifikāciju. Piemēram, viņas analīze atklāja, ka attēli ar zemu "de Vaucouleurs fit aksiālo attiecību", visticamāk, ir spirālveida galaktikas. Ņemot vērā šos svarus, viņa spēja prognozēt cilvēka galaktikas klasifikāciju ar saprātīgu precizitāti.

Banerji un kolēģu darbs kļuva par galaktikas zooloģisko dārzu, ko es saucu par datorizētu cilvēka aprēķinu sistēmu . Vislabākais veids, kā domāt par šīm hibrīdām sistēmām, ir tā, ka cilvēki, nevis cilvēki, lai atrisinātu problēmu, viņiem ir izveidots datu kopums, ko var izmantot, lai apmācītu datoru, lai atrisinātu problēmu. Dažreiz, apmācot datoru, lai atrisinātu problēmu, var būt vajadzīgi daudz piemēri, un vienīgais veids, kā iegūt pietiekamu skaitu piemēru, ir masveida sadarbība. Šīs datorizētās pieejas priekšrocība ir tāda, ka tā ļauj apstrādāt pēc būtības neierobežotu datu daudzumu, izmantojot tikai ierobežotu skaitu cilvēku veikto piepūli. Piemēram, pētnieks ar miljonu cilvēku klasificētas galaktikas var veidot prognozējošu modeli, ko pēc tam var izmantot, lai klasificētu miljardu vai pat triljonu galaktiku. Ja ir milzīgs galaktiku skaits, tad šis cilvēka-datora hibrīda veids patiešām ir vienīgais iespējamais risinājums. Tomēr šī bezgalīgā mērogojamība nav brīva. Pati mašīna, kas spēj pareizi reproducēt cilvēka klasifikāciju, pati par sevi ir grūts uzdevums, bet par laimi tas jau tagad ir izcilas grāmatas, kas veltītas šim jautājumam (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo ir labs piemērs tam, cik daudz cilvēku aprēķina projekti attīstās. Pirmkārt, pētnieks mēģina īstenot projektu pati vai ar nelielu pētnieku palīgu komandu (piemēram, Schawinski sākotnējās klasifikācijas centieni). Ja šī pieeja nenotiek labi, pētnieks var pāriet uz cilvēku aprēķina projektu, kurā piedalās daudzi dalībnieki. Bet, lai iegūtu noteiktu datu apjomu, nepietiek tikai ar cilvēku centieniem. Šajā brīdī pētniekiem ir jāizveido datorizēta cilvēka aprēķinu sistēma, kurā cilvēka klasifikācijas tiek izmantotas, lai apmācītu mašīnu mācību modeli, kuru pēc tam var piemērot praktiski neierobežotai datu apjomam.