5.2.1 Galaxy Zoo

Šis tulkojums tika izveidota ar datoru. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

5.2.1 Galaxy Zoo

Galaxy Zoo apvieno centienus daudzu nav ekspertu brīvprātīgajiem klasificēt miljons galaktikas.

Galaxy Zoo izauga no problēmu Kevin Schawinski, aspirantu Astronomy Universitātes Oxford saskārās 2007. gadā vienkāršošana diezgan daudz, Schawinski interesēja galaktikās, un galaktikas var klasificēt pēc to morfoloģija, eliptiskas vai spirālveida un pēc krāsas zilā vai sarkanā krāsā. Tajā laikā, parasto gudrība vidū astronomi bija, ka spirālveida galaktikas, tāpat kā mūsu Piena ceļš, bija zilā krāsā (norādot jauniešiem) un ka elipsveida galaktikas bija sarkanā krāsā (norādot vecuma). Schawinski šaubījās šo parasto gudrība. Viņš aizdomas, ka lai gan šis modelis varētu būt taisnība vispār, tur droši vien bija prāvs skaits izņēmumu, un ka, pētot daudz šo neparasta galaktiku-tiem, kas nav piemēroti gaidāmais modelis-viņš varētu uzzināt kaut ko par procesu, ar kuru palīdzību galaktikas veidojas.

Tātad, ko Schawinski vajadzīgs, lai apgāzties parasto gudrība bija liels kopums morfoloģiski klasificētas galaktiku; ti, galaktikas, kas tika klasificēti kā nu spirāli vai elipsveida. Problēma, tomēr, bija tas, ka esošās algoritmiskās metodes klasifikācijas vēl nebija pietiekami labs, ko izmanto zinātniskiem pētījumiem; citiem vārdiem sakot, klasificē galaktikas bija tajā laikā, ir problēma, kas bija grūti datoriem. Tādēļ, kas bija nepieciešams, bija liels skaits cilvēku, kas klasificēti galaktiku. Schawinski uzņēmās šo klasifikācijas problēmas ar entuziasmu graduate students. In maratona sesijā septiņiem, 12 stundu laikā, viņš varēja klasificēt 50000 galaktikas. Kaut 50000 galaktikas var izklausīties daudz, tas faktiski ir tikai aptuveni 5% no gandrīz viens miljons galaktiku, kas bija fotografēja ar Sloan Digital Sky Survey. Schawinski saprata, ka viņam vajadzēja vairāk pielāgojamiem pieeju.

Par laimi, izrādās, ka uzdevums klasificēšanas galaktiku neprasa progresīvu apmācību astronomijā; Jūs varat iemācīt kādu, lai to izdarītu diezgan ātri. Citiem vārdiem sakot, lai gan galaktikas klasificējot ir uzdevums, kas bija grūti datoriem, tas bija diezgan viegli cilvēkiem. Tātad, sēžot krogā Oxford, Schawinski un puisis astronoms Chris Lintott sacerēja tīmekļa vietni, kur brīvprātīgie klasificētu attēlus galaktiku. Dažus mēnešus vēlāk, Galaxy Zoo dzimis.

Pie Galaxy Zoo mājas lapā, brīvprātīgie būtu jāiziet dažas minūtes apmācības; Piemēram, mācību atšķirību starp spirāli un elipsveida galaktikas (5.2 attēls). Pēc šīs apmācības, brīvprātīgie bija jānokārto salīdzinoši viegli viktorīna-pareizi klasificējot 11 no 15 galaktikas ar zināmiem klasifikācijām, un pēc tam brīvprātīgo sāksies reāla klasifikāciju nezināmu galaktiku, izmantojot vienkāršu tīmekļa saskarni (attēls 5.3). Pāreja no brīvprātīgo līdz astronoms notiks mazāk nekā 10 minūtes un tikai nepieciešams iet zemākā šķēršļi, vienkāršu viktorīnā.

5.2 attēls: piemēri divu galveno veidu galaktikas: spirāle un elipsveida. Galaxy Zoo projekta izmantots vairāk nekā 100000 brīvprātīgos kategorijām vairāk nekā 900,000 attēlus. Avots: www.galaxyzoo.org .

5.3 attēls: Ievadformu kur vēlētājiem tika lūgts klasificēt vienu attēlu. Avots: www.galaxyzoo.org .

Galaxy Zoo piesaistīja savus pirmos brīvprātīgos pēc projekta bija redzamas ziņu rakstu, un aptuveni sešu mēnešu projekts pieauga iesaistīt vairāk nekā 100000 iedzīvotāju zinātnieki, cilvēki, kas piedalījās, jo viņi bija uzdevums, un viņi gribēja, lai palīdzētu iepriekš astronomijā. Kopā šie 100000 brīvprātīgie palīdzēja kopumā vairāk nekā 40 miljonus klasifikācijām, ar balsu vairākumu no klasifikācijas nāk no salīdzinoši neliela, pamatgrupu dalībnieku (Lintott et al. 2008) .

Pētnieki, kam ir pieredze darbā bakalaura pētniecības palīgu varētu uzreiz būt skeptiski par datu kvalitāti. Kaut arī šī skepse ir saprātīgs, Galaxy Zoo liecina, ka tad, kad brīvprātīgo iemaksas tiek pareizi jātīra, debiased, un apkopota, tie var ražot augstas kvalitātes rezultātus (Lintott et al. 2008) . Svarīgs triks, lai iegūtu pūlis izveidot profesionālas kvalitātes datus, ir atlaišana; tas ir, kam tas pats uzdevums veikt ar daudziem dažādiem cilvēkiem. In Galaxy Zoo, bija apmēram 40 klasifikācijas uz galaktikas; Pētnieki izmanto bakalaura pētniecības asistenti nekad nevarētu atļauties šāda līmeņa atlaišanas un tādēļ ir jābūt daudz vairāk saistīta ar katra atsevišķā klasifikācijas kvalitāti. Ko brīvprātīgie trūka apmācībā, viņi veido, lai ar atlaišanas.

Pat ar vairākām klasifikācijām vienu galaktiku, tomēr, apvienojot kopumu brīvprātīgo klasifikāciju ražot vienprātīgs klasifikācija ir sarežģīta. Jo rodas ļoti līdzīgas problēmas vairumā cilvēku skaitļošanas projektiem, ir lietderīgi īsi pārskatīt trīs soļus, ka Galaxy Zoo pētnieki izmanto, lai ražotu savu konsensa klasifikāciju. Pirmkārt, pētnieki "iztīrīt" datus, likvidējot viltus klasifikācijas. Piemēram, cilvēki, kas atkārtoti klasificēti to pašu galaktiku-kaut kas notiktu, ja viņi mēģina manipulēt rezultātus, bija visas viņu klasifikācijas jāiznīcina. Šis un citi līdzīgi tīrīšanas izņem aptuveni 4% no visiem klasifikāciju.

Otrkārt, pēc tīrīšanas, pētnieki nepieciešami, lai novērstu sistemātiskus aizspriedumus klasifikācijās. Izmantojot virkni aizspriedumiem atklāšanas pētījumu iestrādāts sākotnējā projekta, piemēram, norādot dažus brīvprātīgos galaktika vienkrāsainus nevis krāsu, pētnieki atklāja vairākas sistemātisko tendenču, piemēram, sistemātiski aizspriedumiem klasificēt tālu spirālveida galaktikas kā elipsveida galaktiku (Bamford et al. 2009) . Pielāgošana šiem sistemātisko tendenču ir ārkārtīgi svarīgi, jo vidēji daudzas iemaksas nenoņem sistemātisku novirzi; tas tikai noņem izlases kļūda.

Visbeidzot, pēc debiasing, pētnieki vajadzēja metodi apvienot atsevišķas klasifikācijas ražot vienprātību klasifikāciju. Vienkāršākais veids, kā apvienot klasifikācijas katram galaktikā būtu izvēlēties visbiežāk klasifikāciju. Tomēr šī pieeja dos katru brīvprātīgo vienādu svaru, un pētnieki aizdomas, ka daži brīvprātīgie bija labāki klasifikāciju nekā citi. Tāpēc pētnieki izstrādājuši sarežģītāku iteratīvs svēršanas procedūru, kas mēģina automātiski noteikt labākos klasifikatorus un sniegt viņiem lielāku svaru.

Tādējādi, pēc trīs soļu procesu tīrīšanai, debiasing, un svēršanas-Galaxy Zoo pētniecības komanda bija pārvērsts 40 miljoni brīvprātīgo klasifikācijas stājas kopumu konsensa morfoloģisko klasifikāciju. Kad šie Galaxy Zoo klasifikācijas tika salīdzinātas ar trim iepriekšējiem mazāka mēroga mēģinājumiem profesionālo astronomu, tostarp klasifikāciju pēc Schawinski kas palīdzēja iedvesmot Galaxy Zoo, tur bija spēcīga vienošanās. Tādējādi, brīvprātīgie, kopumā varēja nodrošināt augstas kvalitātes klasifikācijas un atzīmi, ka pētnieki varētu nesakrīt (Lintott et al. 2008) . Patiesībā, kam cilvēku klasifikācijas tik lielu skaitu galaktiku, Schawinski, Lintott, un citi bija iespēja pierādīt, ka tikai aptuveni 80% no galaktiku sekot paredzētajās tendencēs zila spirāles un sarkano eliptiskie-un daudzus dokumentus ir rakstīts par šis atklājums (Fortson et al. 2011) .

Ņemot vērā šo situāciju, mēs tagad varam redzēt, kā Galaxy Zoo seko split-pieteikties-apvieno recepti, to pašu recepti, kas tiek izmantots, lai lielākā daļa cilvēku aprēķināšanas projektiem. Pirmkārt, liela problēma ir sadalīts gabalos. Šajā gadījumā problēma klasificējot miljons galaktikas ir sadalīts miljons problēmas klasificējot vienu galaktiku. Tālāk, operācija tiek piemērota katram rieciens patstāvīgi. Šajā gadījumā brīvprātīgais varētu klasificēt katru galaktiku kā nu spirāli vai elipsveida. Visbeidzot, rezultāti tiek apvienoti, lai ražotu konsensa rezultātu. Tādā gadījumā apvienot solis ietvēra tīrīšanas, debiasing, un korekcijas, lai ražotu vienprātību klasifikāciju par katru galaktikā. Kaut gan lielākā daļa projektu izmanto šo vispārējo recepti, katru no soļiem ir pielāgota, lai konkrēto problēmu risināšanu. Piemēram, turpmāk aprakstīto cilvēka skaitļošanas projektu, pats recepte sekos, bet piemērot un apvieno soļi būs diezgan atšķirīgi.

Par Galaxy Zoo komanda, šis pirmais projekts bija tikai sākums. Ļoti ātri viņi saprata, ka, lai gan viņi varēja klasificēt gandrīz miljons galaktikām, šis mērogs nav pietiekami, lai strādātu ar jaunāku digitālo debesis aptaujas, kas varētu ražot attēlus aptuveni 10000000000 galaktiku (Kuminski et al. 2014) . Rīkoties pieaugums no 1.000.000-10000000000-faktors 10000-Galaxy Zoo būtu nepieciešams pieņemt darbā aptuveni 10,000 reizes vairāk dalībniekus. Kaut arī brīvprātīgo skaits internetā ir liels, tas nav bezgalīgs. Tāpēc zinātnieki saprata, ka, ja viņi gatavojas rīkoties arvien pieaugošo datu apjomu, bija nepieciešams jauns, vēl pielāgojamiem, pieeja.

Tāpēc, Manda Banerji strādājoši ar Kevin Schawinski, Chris Lintott un citiem locekļiem Galaxy Zoo komandas sāk mācību datoriem klasificēt galaktikas. Precīzāk, izmantojot cilvēka klasifikācijas rada Galaxy Zoo, Banerji et al. (2010) uzcēla mašīna mācību modeli, kas varētu prognozēt no galaktikas cilvēku klasifikāciju, kas pamatojas uz īpašībām attēla. Ja šī mašīna mācīšanās modeli varētu atveidot cilvēka klasifikācijas ar augstu precizitāti, tad to varētu izmantot ar Galaxy Zoo pētnieki klasificēt būtībā bezgalīgi daudz galaktiku.

Par Banerji un kolēģi "pieejas pamatā ir faktiski diezgan līdzīgs paņēmieniem parasti izmanto sociālo pētījumu, lai gan, ka līdzība varētu nebūt skaidrs no pirmā acu uzmetiena. Pirmkārt, Banerji un kolēģi pārvērš katru attēlu kopums ciparu funkcijas, kas apkopoti tā īpašības. Piemēram, attēlus galaktiku varētu būt trīs funkcijas: summa no zila attēlā, dažādību spilgtumu pikseļi, un proporcija nav balto pikseļi. No pareizās funkcijas izvēle ir svarīga daļa no problēmas, un tas parasti prasa priekšmets jomā zināšanas. Šis pirmais solis, ko parasti sauc par funkciju inženierija, rada datu matrica ar vienu rindu katram attēlam un pēc tam trīs kolonnas apraksta šo attēlu. Ņemot vērā datu matricu un vēlamo rezultātu (piemēram, vai attēls ir klasificēts ar cilvēka kā elipsveida galaktika), pētnieks lēš parametrus statistikas modelis, piemēram, kaut kas līdzīgs loģistikas regresija-kas prognozē cilvēka klasificēšanu par iezīmes attēla. Visbeidzot, pētnieks izmanto parametrus šajā statistikas modeli, lai nodrošinātu aprēķināto klasifikācijas jauno galaktiku (5.4 attēls). Domāt par sociālās analogo, iedomājieties, ka jums bija demogrāfisko informāciju par miljons studentu, un jūs zināt, vai tie beidzis koledžu vai ne. Jūs varētu fit loģistiskās regresijas šiem datiem, un tad jūs varētu izmantot iegūtos modeļa parametrus, lai prognozētu, vai jaunie studenti gatavojas absolvēt koledžu. In mašīnu apmācības, šī pieeja, izmantojot marķēti piemērus, lai izveidotu statistikas modeli, kas pēc tam var marķēt jaunus datus, sauc uzrauga mācīšanās (Hastie, Tibshirani, and Friedman 2009) .

5.4 attēls: Vienkāršota apraksts, kā Banerji et al. (2010) izmantoja Galaxy Zoo klasifikācijas apmācīt mašīna mācību modeli darīt galaktiku klasifikāciju. Attēli galaktiku tika pārvērsts matricā funkcijām. Šajā vienkāršots piemērs ir trīs funkcijas (par summu no zila attēlā, dažādību spilgtumu pikseļi, un proporcija nav balto pikseļi). Tad, apakškopu attēliem, tad Galaxy Zoo uzlīmes tiek izmantotas, lai apmācītu mašīna mācīšanās modeli. Visbeidzot, mašīna mācīšanās tiek izmantota, lai novērtētu klasifikācijas atlikušajiem galaktiku. Es aicinu šāda veida projekta otrās paaudzes cilvēka skaitļošanas projekts, jo, nevis cilvēkiem atrisināt problēmas, tie ir cilvēki veidot datu kopumu, ko var izmantot, lai apmācītu datoru, lai atrisinātu problēmu. Šī datora palīdzību pieejas priekšrocība ir tā, ka tas ļauj jums rīkoties būtībā bezgalīgu datu apjomu, izmantojot tikai ierobežots daudzums cilvēka pūles.

Par funkcijas Banerji et al. (2010) mašīna mācīšanās modelis bija sarežģītāka nekā manā rotaļlietu piemērs-piemēram, viņa izmanto iespējas, piemēram, "de Vaucouleurs fit aksiālo attiecību" -un viņas modelis nebija loģistikas regresija, tas bija mākslīgo neironu tīklu. Izmantojot savas funkcijas, viņas modeli, un konsensa Galaxy Zoo klasifikācijas, viņa varēja radīt atsvarus katru funkciju, un pēc tam izmantot šos svarus, lai padarītu prognozes par klasifikāciju galaktiku. Piemēram, viņas analīze liecina, ka attēli ar zemu "de Vaucouleurs fit aksiālo attiecību" bija vairāk varētu būt spirālveida galaktikas. Ņemot vērā šos svarus, viņa varēja prognozēt cilvēku klasifikāciju galaktika ar saprātīgu precizitāti.

No darba Banerji et al. (2010) kļuva Galaxy Zoo par to, ko es sauktu par otrās paaudzes cilvēku skaitļošanas sistēmu. Labākais veids, kā domāt par šo otrās paaudzes sistēmu ir tā, ka nevis cilvēkiem atrisināt problēmas, tie ir cilvēki veidot datu kopumu, ko var izmantot, lai apmācītu datoru, lai atrisinātu problēmu. Datu vajadzīgi, lai apmācītu datoru summa var būt tik liels, ka tas prasa cilvēka masu sadarbību, lai radītu. Attiecībā uz Galaxy Zoo, uz neironu tīkliem, ko izmanto Banerji et al. (2010) nepieciešams ļoti liels skaits cilvēku iezīmēta piemēriem, lai izveidotu modeli, kas varēja droši reproducēt cilvēka klasifikāciju.

Šī datora palīdzību pieejas priekšrocība ir tā, ka tas ļauj jums rīkoties būtībā bezgalīgu datu apjomu, izmantojot tikai ierobežots daudzums cilvēka pūles. Piemēram, pētnieks ar miljons cilvēku, kas klasificēti galaktiku var izveidot jutīgo modeli, kas pēc tam var izmantot, lai klasificētu miljardu vai pat triljonu galaktikas. Ja ir milzīgs skaits galaktiku, tad šāda veida cilvēka-datora hibrīda tiešām ir vienīgais iespējamais risinājums. Tas bezgalīgs mērogojamību nav bezmaksas, tomēr. Veidojot mašīna mācību modeli, kas var pareizi reproducēt cilvēka klasifikācijas pati ir grūti problēma, bet par laimi jau ir lieliskas grāmatas veltīta šo tēmu (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .

Galaxy Zoo parāda attīstība daudzu cilvēku aprēķināšanas projektiem. Pirmkārt, pētnieks mēģina projektu ar sevi, vai ar mazu komandu pētniecības asistentu (piemēram, Schawinski sākotnējā klasifikācija piepūles). Ja šī pieeja nav skalas labi, pētnieks var pāriet uz cilvēka skaitļošanas projekts, kurā daudzi cilvēki veicinātu klasifikācijas. Bet, par noteiktu datu apjomu, tīra cilvēka pūles nebūs pietiekami. Tajā brīdī, pētniekiem ir nepieciešams izveidot otrās paaudzes sistēmas, kurās cilvēka klasifikācijas izmanto, lai apmācītu mašīna mācību modeli, kas pēc tam var piemērot praktiski neierobežotu datu apjomu.