5.2.1 ទូរស័ព្ទ Galaxy សួនសត្វ

ទូរស័ព្ទ Galaxy សួនសត្វរួមបញ្ចូលគ្នានូវកិច្ចខិតខំប្រឹងប្រែងរបស់អ្នកស្ម័គ្រចិត្តដែលមិនមែនជាអ្នកជំនាញជាច្រើនបានចាត់ថ្នាក់មួយលានកាឡាក់ស៊ី។

ទូរស័ព្ទ Galaxy សួនសត្វកើនឡើងចេញពីបញ្ហាប្រឈមដោយលោក Kevin Schawinski និស្សិតបញ្ចប់ការសិក្សានៅក្នុងតារាវិទ្យានៅសាកលវិទ្យាល័យ Oxford បាននៅក្នុងឆ្នាំ 2007 ការពិតបន្តិចបកស្រាយ, Schawinski មានចំណាប់អារម្មណ៍នៅក្នុងកាឡាក់ស៊ីមួយ, និងកាឡាក់ស៊ីអាចចាត់ជារបស់ខ្លួនដោយការ morphology-រាងអេលីបឬការតំរៀបស្លឹកនិង របស់ខ្លួនដោយការណ៍ខៀវឬក្រហម។ នៅពេលនោះជាប្រាជ្ញាតាមធម្មតានៅក្នុងចំណោមក្រុមតារាវិទូកាឡាក់ស៊ីតំរៀបស្លឹកគឺថាដូចជា Milky Way របស់យើងត្រូវបានគេណ៍ខៀវ (យុវជនដែលបញ្ជាក់) និងកាឡាក់ស៊ីរាងអេលីបត្រូវបានគេដឹងថានៅក្នុងការណ៍ក្រហម (ដែលបញ្ជាក់អាយុដែលមានអាយុ) ។ Schawinski សង្ស័យជាប្រាជ្ញាតាមធម្មតានេះ។ លោកបានសង្ស័យថាខណៈដែលលំនាំនេះអាចជាការពិតនៅក្នុងទូទៅ, មានមនុស្សប្រហែលជាមានចំនួនច្រើនគួរសមនៃករណីលើកលែងនិងថាដោយសិក្សាកាឡាក់ស៊ីជាច្រើនមិនប្រក្រតីទាំងនេះដែលជាអ្នកដែលថាមិនសមដែលគេរំពឹងថាគាត់អាចគំរូអ្វីមួយអំពីដំណើរការរៀនតាមរយៈការដែល កាឡាក់ស៊ីបានបង្កើតឡើង។

ដូច្នេះអ្វីដែល Schawinski ត្រូវការជាចាំបាច់ដើម្បីលើកចោលជាប្រាជ្ញាតាមធម្មតាគឺសំណុំធំមួយនៃកាឡាក់ស៊ីសម្ងាត់ morphological; នោះគឺកាឡាក់ស៊ីដែលត្រូវបានគេចាត់ថ្នាក់ជាវង់ឬរាងអេលីបដែរ។ បញ្ហាទោះជាយ៉ាងណាវិធីសាស្រ្តក្បួនដោះស្រាយគឺថាសម្រាប់ចំណាត់ថ្នាក់ដែលមានស្រាប់ត្រូវបានគេមិនទាន់ល្អគ្រប់គ្រាន់ដើម្បីត្រូវបានប្រើសម្រាប់ការស្រាវជ្រាវវិទ្យាសាស្រ្ត; នៅក្នុងពាក្យផ្សេងទៀតចំណាត់ថ្នាក់គឺជាកញ្ចុំនៅពេលនោះ, បញ្ហាមួយដែលមានការលំបាកសម្រាប់កុំព្យូទ័រមួយ។ ដូច្នេះអ្វីដែលត្រូវបានគេត្រូវការជាចាំបាច់គឺមួយចំនួនធំនៃកាឡាក់ស៊ីចាត់ថ្នាក់មនុស្ស។ Schawinski undertook បញ្ហាការបែងចែកប្រភេទនេះជាមួយនឹងភាពរីករាយនៃនិស្សិតបញ្ចប់ការសិក្សានេះ។ នៅក្នុងសម័យរត់ម៉ារ៉ាត​​ុងមួយនៃប្រាំពីរថ្ងៃ 12 ម៉ោង, គាត់អាចចាត់ថ្នាក់ 50,000 កាឡាក់ស៊ី។ ខណៈពេលដែលកាឡាក់ស៊ីអាចស្តាប់ទៅចំនួន 50.000 នាក់ដូចជាច្រើន, វាគឺជាការពិតប្រហែល 5% ប៉ុណ្ណោះនៃស្ទើរតែមួយលានកាឡាក់ស៊ីដែលត្រូវបានគេថតរូបក្នុងការស្ទង់ទូរទស្សន៍ Sky Sloan ឌីជីថល។ Schawinski បានដឹងថាគាត់ត្រូវការវិធីសាស្រ្តដែលអាចធ្វើមាត្រដ្ឋានបន្ថែមទៀត។

ជាសំណាងល្អវាប្រែថាភារកិច្ចនៃការធ្វើចំណាត់ថ្នាក់នេះមិនកញ្ចុំមិនតម្រូវឱ្យមានបណ្តុះបណ្តាកម្រិតខ្ពស់ខាងតារាវិទ្យា; អ្នកអាចបង្រៀននរណាម្នាក់ដើម្បីធ្វើវាស្អាតយ៉ាងឆាប់រហ័ស។ នៅក្នុងពាក្យផ្សេងទៀតទោះបីជាចំណាត់ថ្នាក់កាឡាក់ស៊ីគឺជាភារកិច្ចមួយដែលជាការលំបាកសម្រាប់កំព្យូទ័រមួយវាជាការងាយស្រួលណាស់សម្រាប់មនុស្ស។ ដូច្នេះខណៈពេលអង្គុយនៅក្នុង pub នៅ Oxford, Schawinski និងមិត្តរួមលោក Chris Lintott មួយតារាវិទូឡើងគេហទំព័ររបស់អ្នកស្ម័គ្រចិត្តដែលសុបិនដែលជាកន្លែងដែលចាត់រូបភាពនៃកាឡាក់ស៊ីមួយ។ ប៉ុន្មានខែក្រោយមក, ទូរស័ព្ទ Galaxy សួនសត្វបានកើត។

នៅវេបសាយរបស់ Galaxy សួនសត្វ, អ្នកស្ម័គ្រចិត្តនឹងឆ្លងកាត់នូវពីរបីនាទីនៃការបណ្តុះបណ្តាល; ឧទាហរណ៍, រៀនពីភាពខុសគ្នារវាងវង់មួយនិង Galaxy រាងអេលីប (រូបភាព 5.2) បាន។ បន្ទាប់ពីការបណ្តុះបណ្តានេះអ្នកស្ម័គ្រចិត្តបានអនុម័តចំណាត់ថ្នាក់ងាយស្រួលសំណួរ-ត្រឹមត្រូវ 11 15 កាឡាក់ស៊ីជាមួយគេស្គាល់ថាចំណាត់ថ្នាក់ហើយបន្ទាប់មកអ្នកស្ម័គ្រចិត្តនឹងចាប់ផ្តើមការចាត់ថ្នាក់ពិតប្រាកដនៃកាឡាក់ស៊ីដែលមិនស្គាល់តាមរយៈចំណុចប្រទាក់បណ្ដាញដែលមានមូលដ្ឋានមួយដែលសាមញ្ញ (រូបភាពទី 5.3) ។ ផ្លាស់ប្តូរពីអ្នកស្ម័គ្រចិត្តដើម្បីតារាវិទូនឹងធ្វើឡើងក្នុងពេលតិចជាង 10 នាទីហើយតែត្រូវបានទាមទារឆ្លងកាត់ទាបបំផុតនៃឧបសគ្គដែលជាសំណួរសាមញ្ញ។

រូបភាពទី 5.2: ឧទាហរណ៍នៃប្រភេទសំខាន់ពីរនៃកាឡាក់ស៊ី: តំរៀបស្លឹកនិងរាងអេលីប។ គម្រោងទូរស័ព្ទ Galaxy សួនសត្វបានប្រើអ្នកស្ម័គ្រចិត្តជាង 100.000 នាក់ទៅឱ្យប្រភេទច្រើនជាងរូបភាព 900.000 នាក់។ ប្រភព: www.galaxyzoo.org ។

រូបភាពទី 5.2: ឧទាហរណ៍នៃប្រភេទសំខាន់ពីរនៃកាឡាក់ស៊ី: តំរៀបស្លឹកនិងរាងអេលីប។ គម្រោងទូរស័ព្ទ Galaxy សួនសត្វបានប្រើអ្នកស្ម័គ្រចិត្តជាង 100.000 នាក់ទៅឱ្យប្រភេទច្រើនជាងរូបភាព 900.000 នាក់។ ប្រភព: www.galaxyzoo.org

រូបភាពទី 5.3: អេក្រង់បញ្ចូលជាកន្លែងដែលអ្នកបោះឆ្នោតត្រូវបានស្នើឱ្យចាត់ថ្នាក់រូបភាពតែមួយ។ ប្រភព: www.galaxyzoo.org ។

រូបភាពទី 5.3: អេក្រង់បញ្ចូលជាកន្លែងដែលអ្នកបោះឆ្នោតត្រូវបានស្នើឱ្យចាត់ថ្នាក់រូបភាពតែមួយ។ ប្រភព: www.galaxyzoo.org

សួនសត្វបានទាក់ទាញអ្នកស្ម័គ្រចិត្តរបស់ Galaxy ដំបូងរបស់ខ្លួនបន្ទាប់ពីគម្រោងនេះត្រូវបានដាក់បង្ហាញនៅក្នុងអត្ថបទកាសែតមួយ, និងនៅក្នុងប្រហែលប្រាំមួយខែគម្រោងនេះបានកើនឡើងដល់ការចូលរួមរបស់អ្នកវិទ្យាសាស្ត្រដែលជាពលរដ្ឋជាង 100.000 នាក់ជាអ្នកដែលបានចូលរួមដោយសារពួកគេបានរីករាយភារកិច្ចហើយពួកគេចង់ដើម្បីជួយឱ្យតារាវិទ្យាជាមុន។ រួមជាមួយគ្នា, អ្នកស្ម័គ្រចិត្តទាំងនេះ 100.000 នាក់រួមចំណែកសរុបចំនួនជាង 40 លានចំណាត់ថ្នាក់មួយដែលភាគច្រើននៃការចាត់ថ្នាក់មកពីតូច, ក្រុមស្នូលនៃអ្នកចូលរួម (Lintott et al. 2008)

អ្នកស្រាវជ្រាវដែលមានបទពិសោធការជួលជំនួយការស្រាវជ្រាវថ្នាក់បរិញ្ញាភ្លាមអាចមានការសង្ស័យអំពីគុណភាពទិន្នន័យ។ ខណៈពេលដែលការសង្ស័យនេះគឺសមល្មមនិង Galaxy សួនសត្វបង្ហាញថានៅពេលដែលត្រូវបានសម្អាតស្ម័គ្រចិត្តបានត្រឹមត្រូវ debiased និងការប្រមូលផ្តុំពួកគេអាចផលិតបានលទ្ធផលដែលមានគុណភាពខ្ពស់ (Lintott et al. 2008)ល្បិចសារៈសំខាន់សម្រាប់ការទទួលបានហ្វូងមនុស្សដើម្បីបង្កើតជាទិន្នន័យដែលមានគុណភាពជំនាញវិជ្ជាជីវៈគឺលែងត្រូវការតទៅទៀត! នោះគឺដោយបានភារកិច្ចដូចគ្នានេះបានធ្វើឡើងដោយមនុស្សផ្សេងជាច្រើន។ នៅក្នុងការលក់ Galaxy សួនសត្វនោះមានប្រហែល 40 នាក់ជាចំណាត់ថ្នាក់មួយកាឡាក់ស៊ី! ក្រុមអ្នកស្រាវជ្រាវបានប្រើប្រាស់ជំនួយការស្រាវជ្រាវថ្នាក់បរិញ្ញាមិនអាចមានលទ្ធភាពកម្រិតនៃការលែងត្រូវការតទៅទៀតហើយដូច្នេះត្រូវតែមានការព្រួយបារម្ភជាច្រើនទៀតដែលមានគុណភាពនៃការធ្វើចំណាត់ថាក់បុគ្គលនីមួយ។ តើអ្វីដែលអ្នកស្ម័គ្រចិត្តក្នុងការបណ្តុះបណ្តាលខ្វះពួកគេបានបង្កើតឡើងសម្រាប់ការជាមួយលែងត្រូវការតទៅទៀត។

ទោះបីជាមានច្រើនក្នុងកាឡាក់ស៊ីចំណាត់ថ្នាក់ទោះយ៉ាងណារួមបញ្ចូលគ្នារវាងសំណុំបែងចែកអ្នកស្ម័គ្រចិត្តដើម្បីផលិតការចាត់ថ្នាក់មូលមតិគ្នាគឺមានយ៉ាងដូចម្តេច។ ដោយសារតែបញ្ហាប្រឈមស្រដៀងគ្នាខ្លាំងណាស់បានកើតឡើងនៅក្នុងគម្រោងការគណនារបស់មនុស្សភាគច្រើនវានឹងមានប្រយោជន៍ដើម្បីពិនិត្យឡើងវិញយ៉ាងខ្លីជំហានទាំងបីថាអ្នកស្រាវជ្រាវទូរស័ព្ទ Galaxy សួនសត្វប្រើដើម្បីផលិតចំណាត់ថ្នាក់មូលមតិគ្នារបស់ពួកគេ។ ជាដំបូង, អ្នកស្រាវជ្រាវបាន "ស្អាត" ទិន្នន័យដោយយកចំណាត់ថ្នាក់ក្លែងក្លាយ។ ឧទាហរណ៍, មនុស្សដែលបានចាត់ថ្នាក់ដូចគ្នានេះដែរកាឡាក់ស៊ី-អ្វីដែលនឹងកើតឡើងប្រសិនបើពួកគេត្រូវបានគេព្យាយាមដើម្បីរៀបចំម្តងហើយម្តងទៀតបានលទ្ធផលទាំងអស់របស់គេបានបោះបង់ចោលចំណាត់ថ្នាក់។ នេះនិងការលាងសំអាតស្រដៀងគ្នាផ្សេងទៀតបានយកចេញប្រមាណជា 4% ចំណាត់ថ្នាក់ទាំងអស់។

ទីពីរ, បន្ទាប់ពីការលាងសំអាត, អ្នកស្រាវជ្រាវដែលត្រូវការដើម្បីយកចេញភាពលំអៀងជាលក្ខណៈប្រព័ន្ធក្នុងចំណាត់ថ្នាក់។ តាមរយៈការសិក្សារកឃើញបង្កប់នៅក្នុងឧទាហរណ៍លំអៀងគម្រោងសម្រាប់ដើម, ការបង្ហាញស្ម័គ្រចិត្តមួយចំនួនកាឡាក់ស៊ីនៅក្នុងការជំនួសឱ្យការគូល័ណ៍ដែលជាការមួយដែលក្រុមអ្នកស្រាវជ្រាវបានរកឃើញភាពលំអៀងជាលក្ខណៈប្រព័ន្ធជាច្រើនដូចជាភាពលំអៀងជាលក្ខណៈប្រព័ន្ធក្នុងការចាត់ថ្នាក់កាឡាក់ស៊ីនៅឆ្ងាយតំរៀបស្លឹកកាឡាក់ស៊ីរាងអេលីបទៅជា (Bamford et al. 2009) ។ ែកសំរួលសម្រាប់ភាពលំអៀងជាលក្ខណៈប្រព័ន្ធទាំងនេះគឺមានសារៈសំខាន់ខ្លាំងណាស់ដោយសារតែការរួមចំណែករបស់មនុស្សជាច្រើនជាមធ្យមមិនយកភាពលំអៀងជាលក្ខណៈប្រព័ន្ធ; វាគ្រាន់តែយកកំហុសចៃដន្យ។

ទីបំផុតបន្ទាប់ពី debiasing, អ្នកស្រាវជ្រាវដែលត្រូវការវិធីសាស្រ្តដើម្បីបញ្ចូលគ្នាចំណាត់ថ្នាក់បុគ្គលដើម្បីបង្កើតចំណាត់ថា្នាក់ការមូលមតិគ្នាមួយ។ វិធីសាមញ្ញបំផុតក្នុងការបញ្ចូលគ្នាចំណាត់ថ្នាក់សម្រាប់ទូរស័ព្ទ Galaxy គ្នានឹងជ្រើសរើសយកការចាត់ថ្នាក់ទូទៅបំផុត។ ទោះយ៉ាងណាវិធីសាស្រ្តនេះនឹងផ្តល់ឱ្យទំងន់ស្មើគ្នាជាអ្នកស្ម័គ្រចិត្ដនិងក្រុមអ្នកស្រាវជ្រាវបានសង្ស័យថាអ្នកស្ម័គ្រចិត្តមួយចំនួននៅក្នុងការចាត់ថ្នាក់ប្រសើរជាងអ្នកដទៃ។ ដូច្នេះក្រុមអ្នកស្រាវជ្រាវបានបង្កើតនីតិវិធីទំងន់ដងស្មុគស្មាញបន្ថែមទៀតថាការព្យាយាមក្នុងការរកឃើញដោយស្វ័យប្រវត្តិល្អបំផុតការផ្សព្វផ្សាយចំរុះនិងផ្តល់ឱ្យពួកគេនូវទម្ងន់បន្ថែមទៀត។

ដូច្នេះបន្ទាប់ពីបីជំហានដំណើរការសម្អាត debiasing និងទំងន់ដែលជាក្រុមស្រាវជ្រាវរបស់ Galaxy សួនសត្វបានបម្លែងបែងចែកអ្នកស្ម័គ្រចិត្ត 40 លាននាក់បានចូលទៅក្នុងសំណុំនៃការឯកភាពគ្នាមួយចំណាត់ថ្នាក់ morphological ។ នៅពេលដែលចំណាត់ថ្នាក់ទូរស័ព្ទ Galaxy សួនសត្វទាំងនេះត្រូវបានប្រៀបធៀបទៅនឹងកាលពីបីការប៉ុនប៉ងដោយមានខ្នាតតូចតារាវិទូជំនាញវិជ្ជាជីវៈរួមទាំងការចាត់ថ្នាក់ដោយ Schawinski ដែលបានជួយជម្រុញទូរស័ព្ទ Galaxy សួនសត្វមានកិច្ចព្រមព្រៀងយ៉ាងខ្លាំង។ ដូច្នេះអ្នកស្ម័គ្រចិត្ត, នៅក្នុងការសរុប, អាចផ្តល់ជូននូវចំណាត់ថ្នាក់គុណភាពខ្ពស់និងទ្រង់ទ្រាយថាអ្នកស្រាវជ្រាវមិនអាចផ្គូផ្គង (Lintott et al. 2008) ។ នៅក្នុងការពិត, ដោយមានបែងចែកមនុស្សសម្រាប់ការដូចមួយចំនួនធំនៃកាឡាក់ស៊ី Schawinski, Lintott និងអ្នកផ្សេងទៀតអាចបង្ហាញថាប្រហែល 80% ប៉ុណ្ណោះនៃកាឡាក់ស៊ីតាមការតំរៀបស្លឹកដែលរំពឹងទុកគំរូនិងខៀវរាងអេលីប-និងក្រហមត្រូវបានគេកាសែតជាច្រើនបានសរសេរអំពី ការរកឃើញនេះ (Fortson et al. 2011)

ដែលបានផ្ដល់ឱ្យផ្ទៃខាងក្រោយនេះឥឡូវនេះយើងអាចមើលពីរបៀបដែលទូរស័ព្ទ Galaxy សួនសត្វខាងក្រោមនេះបំបែកអនុវត្ត-បញ្ចូលគ្នារូបមន្ត, រ​​ូបមន្តដូចគ្នាដែលត្រូវបានប្រើសម្រាប់គម្រោងការគណនារបស់មនុស្សភាគច្រើនបំផុត។ ជាលើកដំបូងដែលជាបញ្ហាធំមួយត្រូវបានបំបែកទៅជាកំណាត់។ ក្នុងករណីនេះបញ្ហានៃការចាត់ថ្នាក់មួយលានកាឡាក់ស៊ីត្រូវបានបំបែកទៅមួយលាននាក់មានបញ្ហានៃការចាត់ថ្នាក់កាឡាក់ស៊ីតែមួយ។ បន្ទាប់, ប្រតិបត្ដិការមួយត្រូវបានអនុវត្តទៅបណ្តុំគ្នាដោយឯករាជ្យ។ ក្នុងករណីនេះអ្នកស្ម័គ្រចិត្តមួយដែលអាចចាត់ថ្នាក់កាឡាក់ស៊ីតំរៀបស្លឹកឬជាការគ្នាទាំងរាងអេលីប។ ជាចុងក្រោយ, លទ្ធផលនេះត្រូវបានរួមបញ្ចូលគ្នាដើម្បីផលិតលទ្ធផលការមូលមតិគ្នាមួយ។ ក្នុងករណីនេះដែលជាការរួមបញ្ចូលគ្នានូវជំហានរួមបញ្ចូលការសម្អាត debiasing និងទំងន់ដើម្បីផលិតចំណាត់ថា្នាក់ការមូលមតិគ្នាមួយសម្រាប់កាឡាក់ស៊ីគ្នា។ ទោះបីជាគម្រោងដែលភាគច្រើនប្រើរូបមន្តទូទៅនេះរាល់ជំហានចាំបាច់ត្រូវប្តូរតាមបំណងដើម្បីបញ្ហាជាក់លាក់ដែលកំពុងត្រូវបានដោះស្រាយ។ ឧទាហរណ៍នៅក្នុងគម្រោងការគណនារបស់មនុស្សបានរៀបរាប់ខាងក្រោមរូបមន្តដូចគ្នានឹងត្រូវបានអនុវត្តតាមទេប៉ុន្តែអនុវត្តនិងរួមបញ្ចូលគ្នានូវជំហាននឹងខុសគ្នាណាស់។

សម្រាប់ក្រុមរបស់ Galaxy សួនសត្វ, គម្រោងទីនេះគឺគ្រាន់តែចាប់ផ្តើម។ យ៉ាងឆាប់រហ័សដែលពួកគេបានដឹងថាទោះបីជាពួកគេអាចចាត់ថ្នាក់ជិតទៅមួយលានកាឡាក់ស៊ី, ទំហំនេះគឺមិនគ្រប់គ្រាន់ដើម្បីធ្វើការជាមួយនឹងការស្ទង់មតិលើមេឃឌីជីថលថ្មីដែលអាចផលិតរូបភាពនៃការប្រហែល 10 ពាន់លានកាឡាក់ស៊ី (Kuminski et al. 2014) ។ ដើម្បីដោះស្រាយការកើនឡើងពី 1 លានទៅ 10 ពាន់លានដុល្លារដែលជាកត្តានៃការរបស់ Galaxy 10.000 សួនសត្វនឹងត្រូវជ្រើសរើសអ្នកចូលរួមប្រមាណ 10,000 ដងបន្ថែមទៀត។ ទោះបីជាចំនួននៃអ្នកស្ម័គ្រចិត្តនៅលើអ៊ីនធឺណិតគឺមានទំហំធំ, វាមិនមែនគ្មានកំណត់។ ដូច្នេះក្រុមអ្នកស្រាវជ្រាវនេះបានដឹងថាប្រសិនបើពួកគេមិនធ្លាប់មានដើម្បីដោះស្រាយការកើនឡើងនៃបរិមាណទិន្នន័យថ្មី, សូម្បីតែអាចធ្វើមាត្រដ្ឋានបានច្រើនវិធីសាស្រ្តដែលត្រូវបានគេត្រូវការជាចាំបាច់។

ដូច្នេះ Manda Banerji-ធ្វើការជាមួយលោក Kevin Schawinski លោក Chris Lintott និងសមាជិកដទៃទៀតនៃការកុំព្យូទ័របានចាប់ផ្តើមក្រុមការបង្រៀនសួនសត្វចាត់ថ្នាក់ថា Galaxy កាឡាក់ស៊ី។ ជាពិសេសជាងនេះទៅទៀតការប្រើបែងចែកមនុស្សដែលបង្កើតឡើងដោយទូរស័ព្ទ Galaxy សួនសត្វ Banerji et al. (2010) បានកសាងឡើងជាគំរូការរៀនម៉ាស៊ីនដែលអាចព្យាករបានចំណាត់ថា្នាក់មនុស្សរបស់ Galaxy មួយដោយផ្អែកលើលក្ខណៈនៃរូបភាព។ ប្រសិនបើនេះជាគំរូការរៀនម៉ាស៊ីនអាចបង្កើតចំណាត់ថ្នាក់របស់មនុស្សជាមួយនឹងភាពត្រឹមត្រូវខ្ពស់, បន្ទាប់មកវាអាចត្រូវបានប្រើដោយអ្នកស្រាវជ្រាវទូរស័ព្ទ Galaxy សួនសត្វមួយចំនួនចាត់ថ្នាក់សំខាន់នៃកាឡាក់ស៊ីគ្មានដែនកំណត់។

ស្នូលនៃវិធីសាស្រ្ត Banerji និងមិត្តរួមការងារ "នេះគឺពិតជាស្រដៀងគ្នាទៅនឹងបច្ចេកទេសស្អាតប្រើជាទូទៅក្នុងការស្រាវជ្រាវសង្គមបើទោះជាភាពស្រដៀងគ្នាមួយដែលអាចនឹងមិនត្រូវបានច្បាស់លាស់នៅ glance ដំបូង។ ជាដំបូង Banerji និងសហការីបានបម្លែងរូបភាពគ្នាទៅជាសំណុំនៃលក្ខណៈពិសេសលេខដែលសង្ខេបវាជាលក្ខណៈសម្បត្តិមួយ។ ឧទាហរណ៍សម្រាប់រូបភាពនៃកាឡាក់ស៊ីវាអាចនឹងមានបីលក្ខណៈពិសេស: ចំនួននៃការខៀវនៅក្នុងរូបភាព, ខុសគ្នានៅក្នុងពន្លឺនៃភីកសែលនេះ, និងសមាមាត្រនៃភីកសែលដែលមិនមែនជាស។ ការជ្រើសរើសនៃលក្ខណៈពិសេសត្រឹមត្រូវនេះគឺជាផ្នែកសំខាន់មួយនៃបញ្ហានេះហើយវាត្រូវការជំនាញប្រធានបទជាទូទៅតំបន់។ នេះជាជំហានដំបូងជាធម្មតាគេហៅថាវិស្វកម្មលក្ខណៈពិសេស, លទ្ធផលនៅក្នុងម៉ាទ្រីសទិន្នន័យមួយជួរដេកជាមួយនឹងមួយហើយបន្ទាប់មកបីរូបភាពជួរឈរដែលអធិប្បាយអំពីរូបភាពនោះ។ ដែលបានផ្ដល់ឱ្យម៉ាទ្រីសទិន្នន័យនិងទិន្នផលដែលចង់បាន (ឧទាហរណ៍ថាតើរូបភាពនេះត្រូវបានចាត់ថ្នាក់ដោយមនុស្សម្នាក់ដែលជាកាឡាក់ស៊ីរាងអេលីប), អ្នកស្រាវជ្រាវបានប៉ាន់ប្រមាណប៉ារ៉ាម៉ែត្រឧទាហរណ៍គំរូសម្រាប់ស្ថិតិនេះ, អ្វីមួយដូចជាតំរែតំរង់ដែលដឹកជញ្ជូនព្យាករថាការចាត់ថ្នាក់មនុស្សដែលមានមូលដ្ឋាន នៅលើលក្ខណៈពិសេសនៃរូបភាព។ ជាចុងក្រោយ, អ្នកស្រាវជ្រាវរូបនេះបានប្រើប៉ារ៉ាម៉ែត្រនៅក្នុងគំរូនេះដើម្បីបង្កើតស្ថិតិប៉ាន់ស្មាននៃកាឡាក់ស៊ីចំណាត់ថ្នាក់ថ្មី (រូបភាពទី 5.4) ។ ការគិតនៃអាណាឡូកសង្គមស្រមៃថាអ្នកមានពប្រជាសាស្ត្រអំពីសិស្សមួយលាននាក់និងអ្នកបានដឹងថាតើពួកគេបានបញ្ចប់ការសិក្សាពីមហាវិទ្យាល័យឬមិនបាន។ អ្នកអាចសមនឹងជាការតំរែតំរង់ដឹកជញ្ជូនទៅនឹងទិន្នន័យនេះ, ហើយបន្ទាប់មកអ្នកអាចប្រើប៉ារ៉ាម៉ែត្រម៉ូដែលលទ្ធផលដើម្បីទស្សន៍ទាយថាតើសិស្សថ្មីនឹងត្រូវបញ្ចប់ការសិក្សាពីមហាវិទ្យាល័យ។ ក្នុងការរៀនម៉ាស៊ីន, វិធីសាស្រ្តដោយប្រើឧទាហរណ៍ដែលមានស្លាកនេះដើម្បីបង្កើតគំរូស្ថិតិដែលអាចដាក់ស្លាកថ្មីមួយត្រូវបានគេហៅថាទិន្នន័យរៀនត្រួតពិនិត្យ (Hastie, Tibshirani, and Friedman 2009)

រូបភាពទី 5.4: ការរៀបរាប់អក្សរកាត់នៃរបៀប Banerji et al ។ (2010) បានប្រើចំណាត់ថ្នាក់សួនសត្វបណ្តុះបណ្តាទូរស័ព្ទ Galaxy ម៉ូដែលម៉ាស៊ីនរៀនដើម្បីធ្វើការចាត់ថ្នាក់កាឡាក់ស៊ី។ រូបភាពនៃកាឡាក់ស៊ីដែលត្រូវបានបម្លែងនៅក្នុងម៉ាទ្រីសនៃលក្ខណៈពិសេសមួយ។ នៅក្នុងឧទាហរណ៍សាមញ្ញមួយនេះមានលក្ខណៈពិសេសទាំងបី (ចំនួនទឹកប្រាក់នៃការខៀវនៅក្នុងរូបភាព, ខុសគ្នានៅក្នុងពន្លឺនៃភីកសែលនេះ, និងសមាមាត្រនៃភីកសែលមិនមែនជាការស) មាន។ បន្ទាប់មក, សម្រាប់សំណុំរងនៃរូបភាពដែលជាស្លាកទូរស័ព្ទ Galaxy សួនសត្វត្រូវបានប្រើដើម្បីបណ្តុះបជាគំរូការរៀនម៉ាស៊ីន។ ជាចុងក្រោយ, ការរៀនម៉ាស៊ីនត្រូវបានប្រើដើម្បីប៉ាន់ស្មានចំណាត់ថ្នាក់សម្រាប់កាឡាក់ស៊ីដែលនៅសល់។ ខ្ញុំបានហៅទូរស័ព្ទប្រភេទនៃការគម្រោងនេះជាគម្រោងកុំព្យូទ័រជំនាន់ទីពីររបស់មនុស្សបានទេព្រោះនោះប្រសើរជាងមានមនុស្សដោះស្រាយបញ្ហាពួកគេមានមនុស្សកសាងសំណុំទិន្នន័យដែលអាចត្រូវបានប្រើដើម្បីបណ្តុះបណ្តាកុំព្យូទ័រមួយដើម្បីដោះស្រាយបញ្ហានេះ។ វិធីសាស្រ្តកុំព្យូទ័រផលប្រយោជន៍នៃការនេះជំនួយនោះគឺថាវាអនុញ្ញាតឱ្យអ្នកដើម្បីដោះស្រាយបរិមាណគ្មានដែនកំណត់សំខាន់នៃទិន្នន័យដោយប្រើតែចំនួនទឹកប្រាក់កំណត់នៃកិច្ចខិតខំប្រឹងប្រែងរបស់មនុស្ស។

រូបភាពទី 5.4: ការរៀបរាប់អក្សរកាត់នៃរបៀប Banerji et al. (2010) បានប្រើចំណាត់ថ្នាក់សួនសត្វបណ្តុះបណ្តាទូរស័ព្ទ Galaxy ម៉ូដែលម៉ាស៊ីនរៀនដើម្បីធ្វើការចាត់ថ្នាក់កាឡាក់ស៊ី។ រូបភាពនៃកាឡាក់ស៊ីដែលត្រូវបានបម្លែងនៅក្នុងម៉ាទ្រីសនៃលក្ខណៈពិសេសមួយ។ នៅក្នុងឧទាហរណ៍សាមញ្ញមួយនេះមានលក្ខណៈពិសេសទាំងបី (ចំនួនទឹកប្រាក់នៃការខៀវនៅក្នុងរូបភាព, ខុសគ្នានៅក្នុងពន្លឺនៃភីកសែលនេះ, និងសមាមាត្រនៃភីកសែលមិនមែនជាការស) មាន។ បន្ទាប់មក, សម្រាប់សំណុំរងនៃរូបភាពដែលជាស្លាកទូរស័ព្ទ Galaxy សួនសត្វត្រូវបានប្រើដើម្បីបណ្តុះបជាគំរូការរៀនម៉ាស៊ីន។ ជាចុងក្រោយ, ការរៀនម៉ាស៊ីនត្រូវបានប្រើដើម្បីប៉ាន់ស្មានចំណាត់ថ្នាក់សម្រាប់កាឡាក់ស៊ីដែលនៅសល់។ ខ្ញុំបានហៅទូរស័ព្ទប្រភេទនៃការគម្រោងនេះជាគម្រោងកុំព្យូទ័រជំនាន់ទីពីររបស់មនុស្សបានទេព្រោះនោះប្រសើរជាងមានមនុស្សដោះស្រាយបញ្ហាពួកគេមានមនុស្សកសាងសំណុំទិន្នន័យដែលអាចត្រូវបានប្រើដើម្បីបណ្តុះបណ្តាកុំព្យូទ័រមួយដើម្បីដោះស្រាយបញ្ហានេះ។ វិធីសាស្រ្តកុំព្យូទ័រផលប្រយោជន៍នៃការនេះជំនួយនោះគឺថាវាអនុញ្ញាតឱ្យអ្នកដើម្បីដោះស្រាយបរិមាណគ្មានដែនកំណត់សំខាន់នៃទិន្នន័យដោយប្រើតែចំនួនទឹកប្រាក់កំណត់នៃកិច្ចខិតខំប្រឹងប្រែងរបស់មនុស្ស។

លក្ខណៈពិសេសនេះនៅក្នុង Banerji et al. (2010) ការរៀនម៉ាស៊ីនត្រូវបានគេម៉ូដែលជាច្រើនទៀតស្មុគ្រស្មាញជាងអ្នកដែលនៅក្នុងប្រដាប់ក្មេងលេងរបស់ខ្ញុំគំរូឧទាហរណ៍ដែលនាងត្រូវបានគេប្រើលក្ខណៈពិសេសដូចជា "ដឺ Vaucouleurs សមនឹងសមាមាត្រអ័ក្ស»ហើយគំរូរបស់នាងមិនមែនជាតំរែតំរង់ដឹកជញ្ជូន, វាគឺជាបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត។ ដោយប្រើលក្ខណៈពិសេសរបស់នាងដែលជាតារាម៉ូដែលរបស់នាងនិងការមូលមតិគ្នាចំណាត់ថ្នាក់ទូរស័ព្ទ Galaxy សួនសត្វ, នាងអាចបង្កើតទម្ងន់លើលក្ខណៈពិសេសទៅវិញទៅមកហើយបន្ទាប់មកប្រើទម្ងន់នេះដើម្បីឱ្យការព្យាករអំពីការចាត់ថ្នាក់នៃកាឡាក់ស៊ីនេះ។ ឧទាហរណ៍វិភាគរបស់គាត់បានរកឃើញថារូបភាពជាមួយទាប "ដឺ Vaucouleurs សមនឹងសមាមាត្រអ័ក្ស" ហាក់ដូចជាបន្ថែមទៀតដើម្បីក្លាយកាឡាក់ស៊ីតំរៀបស្លឹក។ ដែលបានផ្ដល់ឱ្យទម្ងន់ទាំងនេះនាងអាចទស្សន៍ទាយការចាត់ថ្នាក់មនុស្ស Galaxy មួយជាមួយនឹងភាពត្រឹមត្រូវសមហេតុផល។

ការងាររបស់ Banerji et al. (2010) បានប្រែក្លាយទូរស័ព្ទ Galaxy សួនសត្វទៅក្នុងអ្វីដែលខ្ញុំហៅថាជាប្រព័ន្ធកុំព្យូទ័មនុស្សជំនាន់ទីពីរ។ វិធីល្អបំផុតដើម្បីគិតអំពីប្រព័ន្ធជំនាន់ទីពីរនេះគឺប្រសើរជាងមានមនុស្សដោះស្រាយបញ្ហាពួកគេមានមនុស្សកសាងសំណុំទិន្នន័យដែលអាចត្រូវបានប្រើដើម្បីបណ្តុះបណ្តាកុំព្យូទ័រមួយដើម្បីដោះស្រាយបញ្ហានេះ។ ចំនួនទឹកប្រាក់នៃទិន្នន័យដែលត្រូវការដើម្បីបណ្តុះបណ្តាកុំព្យូទ័រនេះអាចមានទំហំធំដូច្នេះវាតម្រូវឱ្យមានការសហការគ្នាធំមួយដែលមនុស្សបង្កើត។ នៅក្នុងករណីនៃទូរស័ព្ទ Galaxy សួនសត្វបណ្តាញសរសៃប្រសាទដែលបានប្រើដោយ Banerji et al. (2010) បានទាមទារមួយចំនួនធំណាស់នៃឧទាហរណ៍របស់មនុស្សដែលមានស្លាកនៅក្នុងគោលបំណងដើម្បីកសាងគំរូដែលអាចឿទុកចិត្ដការផលិតការចាត់ថ្នាក់មនុស្ស។

វិធីសាស្រ្តកុំព្យូទ័រផលប្រយោជន៍នៃការនេះជំនួយនោះគឺថាវាអនុញ្ញាតឱ្យអ្នកដើម្បីដោះស្រាយបរិមាណគ្មានដែនកំណត់សំខាន់នៃទិន្នន័យដោយប្រើតែចំនួនទឹកប្រាក់កំណត់នៃកិច្ចខិតខំប្រឹងប្រែងរបស់មនុស្ស។ ឧទាហរណ៍អ្នកស្រាវជ្រាវមួយលានកាឡាក់ស៊ីបានចាត់ថ្នាក់មនុស្សម្នាក់អាចកសាងគំរូព្យាករណ៍ដែលបន្ទាប់មកអាចត្រូវបានប្រើដើម្បីចាត់ថ្នាក់មួយពាន់លានឬសូម្បីតែមួយពាន់ពាន់លានកាឡាក់ស៊ី។ ប្រសិនបើមានគឺមានចំនួនយ៉ាងច្រើននៃកញ្ចុំផ្កាយបន្ទាប់មកប្រភេទនៃកូនកាត់មនុស្សកុំព្យូទ័រនេះគឺពិតជាដំណោះស្រាយដែលអាចធ្វើបានប៉ុណ្ណោះ។ ធ្វើមាត្រដ្ឋានគ្មានព្រំដែននេះគឺមិនមែនដោយឥតគិតថ្លៃទោះជាយ៉ាងណា។ ការកសាងគំរូរៀនម៉ាស៊ីនដែលអាចបង្កើតកូនចៅឱ្យបានត្រឹមត្រូវបែងចែកមនុស្សគឺជាបញ្ហាការលំបាកដោយខ្លួនវាទេប៉ុន្តែសំណាងល្អមានសៀវភៅល្អឥតខ្ចោះដើម្បីឧទ្ទិសដល់ប្រធានបទនេះរួចទៅហើយ (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013)

ទូរស័ព្ទ Galaxy សួនសត្វបង្ហាញពីការវិវត្តន៍នៃគម្រោងការគណនារបស់មនុស្សជាច្រើន។ ដំបូង, អ្នកស្រាវជ្រាវព្យាយាមគម្រោងនេះដោយខ្លួនឯងឬជាមួយនឹងក្រុមតូចមួយនៃជំនួយការស្រាវជ្រាវ (ឧទាហរណ៍ការខិតខំប្រឹងប្រែងរបស់ការចាត់ថ្នាក់ដំបូង Schawinski) ។ ប្រសិនបើមានវិធីសាស្រ្តនេះមិនធ្វើមាត្រដ្ឋានបានយ៉ាងល្អ, អ្នកស្រាវជ្រាវអាចផ្លាស់ទីទៅគម្រោងកុំព្យូទ័រមួយរបស់មនុស្សដែលជាកន្លែងដែលមនុស្សជាច្រើនបានចូលរួមចំណែកចំណាត់ថ្នាក់។ ប៉ុន្តែសម្រាប់ទំហំជាក់លាក់នៃទិន្នន័យ, ការខិតខំប្រឹងប្រែងរបស់មនុស្សបរិសុទ្ធនឹងមិនត្រូវបានគ្រប់គ្រាន់។ នៅចំណុចនោះ, អ្នកស្រាវជ្រាវបានត្រូវកសាងប្រព័ន្ធជំនាន់ទីពីរដែលជាកន្លែងដែលមនុស្សត្រូវបានប្រើចំណាត់ថ្នាក់បណ្តុះបណ្តាគំរូមួយដែលរៀនម៉ាស៊ីនបន្ទាប់មកអាចត្រូវបានអនុវត្តទៅបរិមាណនៃទិន្នន័យគ្មានដែនកំណត់ស្ទើរតែ។