3.4.1 ការវិភាគការប្រមូលទិន្នន័យនិងទិន្នន័យ: ប្រហែលគំរូ

ទម្ងន់អាចធ្វើការបង្ខូចទ្រង់ទ្រាយបណ្តាលមកពីមានចេតនាដោយដំណើរការគំរូ។

សំណាកទាំងនោះដែលប្រហែលជាត្រូវបានប្រជាជនទាំងអស់មានគេស្គាល់ថា, មិនសូន្យប្រូបាប៊ីលីតេនៃការដាក់បញ្ចូលនិងការរចនាគំរូប្រូសាមញ្ញបំផុតគឺសាមញ្ញគំរូចៃដន្យដែលជាកន្លែងដែលមនុស្សម្នាក់ដែលមានប្រូស្មើគ្នានៃការដាក់បញ្ចូល។ នៅពេលដែលការឆ្លើយតបនឹងត្រូវបានជ្រើសតាមគំរូចៃដន្យសាមញ្ញជាមួយនឹងការប្រតិបត្តិល្អឥតខ្ចោះ (ឧកំហុសគ្របដណ្តប់នោះទេហើយគ្មានការឆ្លើយតបដែលមិនមែន), បន្ទាប់មកការប៉ាន់ស្មានគឺត្រង់ដោយសារតែគំរូនេះនឹង-ក្លាយជាជាមធ្យមតូចមួយកំណែនៃចំនួនប្រជាជននេះ។

គំរូចៃដន្យសាមញ្ញគឺត្រូវបានប្រើកម្រនៅក្នុងការអនុវត្ត, ទោះជាយ៉ាងណា។ ផ្ទុយទៅវិញក្រុមអ្នកស្រាវជ្រាវបានជ្រើសរើសមនុស្សដែលមានចេតនាវិសមភាពនៃការដាក់បញ្ចូលការប្រហែលជាដើម្បីកាត់បន្ថយការចំណាយនិងបង្កើនភាពត្រឹមត្រូវ។ នៅពេលដែលអ្នកស្រាវជ្រាវចេតនាជ្រើសរើសមនុស្សដែលមានអាចខុសគ្នានៃការដាក់បញ្ចូលហើយបន្ទាប់មកត្រូវកែប្រែជាចាំបាច់ដើម្បីមិនធ្វើវិញការបង្ខូចទ្រង់ទ្រាយដែលបង្កឡើងដោយដំណើរការគំរូ។ នៅក្នុងពាក្យផ្សេងទៀត, របៀបដែលយើងទូទៅពីគំរូមួយអាស្រ័យលើរបៀបដែលគំរូនេះត្រូវបានជ្រើស។

ឧទាហរណ៍ការស្ទង់មតិប្រជាជនបច្ចុប្បន្ន (CPS) ត្រូវបានប្រើដោយរដ្ឋាភិបាលសហរដ្ឋអាមេរិកដើម្បីប៉ាន់ប្រមាណអត្រាគ្មានការងារធ្វើ។ ជារៀងរាល់ខែប្រមាណ 100.000 នាក់ត្រូវបានសម្ភាសទាំងមុខទៅមុខឬនៅលើទូរស័ព្ទហើយលទ្ធផលនេះត្រូវបានគេប្រើដើម្បីផលិតអត្រាគ្មានការងារធ្វើនេះបានប៉ាន់ប្រមាណថា។ ដោយសារតែរដ្ឋាភិបាលមានបំណងចង់បានប៉ាន់ស្មានថាអត្រាគ្មានការងារធ្វើនៅក្នុងរដ្ឋនីមួយ, វាមិនអាចធ្វើឱ្យគំរូចៃដន្យសាមញ្ញនៃមនុស្សពេញវ័យទេព្រោះថានឹងផ្តល់ការឆ្លើយតបមួយចំនួនផងដែរនៅក្នុងរដ្ឋដែលមានប្រជាជនតូចមួយ (ឧ, Rhode Island) និងជាច្រើននាក់មកពីរដ្ឋដែលមានប្រជាជនធំពេក (ឧ , កាលីហ្វញ៉ា) ។ ផ្ទុយទៅវិញប្រជាជនគំរូនៅក្នុងរដ្ឋផ្សេងគ្នា CPS ក្នុងអត្រាផ្សេងគ្នា, ដំណើរការមួយដែលគេហៅថាគំរូ stratified ជាមួយប្រូបាប៊ីលីតេមិនស្មើគ្នានៃការជ្រើសរើស។ ឧទាហរណ៍ប្រសិនបើអ្នកឆ្លើយតបចង់ CPS បាន 2.000 នាក់ក្នុងមួយរដ្ឋ, បន្ទាប់មកមនុស្សពេញវ័យនៅកោះ Rhode នឹងមានខ្ពស់ជាងប្រហែល 30 ដងប្រូបាប៊ីលីតេនៃការដាក់បញ្ចូលជាងមនុស្សពេញវ័យនៅក្នុងរដ្ឋ California (កោះ Rhode: ឆ្លើយតបដោយមនុស្សពេញវ័យចំនួន 2.000 ទល់នឹងកាលីហ្វញ៉ា 800.000: ឆ្លើយតបដោយមនុស្សពេញវ័យចំនួន 2.000 30.000.000) ។ ដូចដែលយើងនឹងឃើញនៅពេលក្រោយ, ប្រភេទនៃគំរូមួយដោយប្រូបាបវិសមភាពនេះកើតមានឡើងដោយមានប្រភពនៅលើបណ្ដាញនៃទិន្នន័យផងដែរប៉ុន្តែមិនដូច CPS របស់នេះយន្តការគំរូនេះត្រូវបានជាធម្មតាមិនត្រូវបានគេស្គាល់ឬគ្រប់គ្រងដោយអ្នកស្រាវជ្រាវនេះ។

ដែលបានផ្ដល់ឱ្យការរចនាគំរូរបស់ខ្លួន CPS គឺមិនមែនជាតំណាងផ្ទាល់របស់សហរដ្ឋអាមេរិក; វារួមបញ្ចូលទាំងមនុស្សជាច្រើនពេកពីកោះ Rhode និងមួយចំនួនពីកាលីហ្វញ៉ាផងដែរ។ ដូច្នេះវាមិនប្រកបដោយប្រាជ្ញាដើម្បីប៉ាន់ប្រមាណអត្រាគ្មានការងារធ្វើនៅក្នុងប្រទេសដែលមានអត្រាអ្នកគ្មានការងារធ្វើក្នុងគំរូ។ ជំនួសឱ្យការមធ្យមគំរូ, វាជាការល្អប្រសើរជាងមុនដើម្បីយកជាមធ្យមទម្ងន់, ដែលជាកន្លែងដែលមានចំនួនទម្ងន់សម្រាប់ការពិតដែលថាមនុស្សមកពីកោះ Rhode ហាក់ដូចជាត្រូវបានរួមបញ្ចូលជាងមនុស្សមកពីរដ្ឋ California ។ ឧទាហរណ៍មនុស្សម្នាក់មកពីរដ្ឋ California អាចនឹងមាន upweighted- ពួកគេនឹងរាប់បន្ថែមទៀតនៅក្នុងការព្យាករនិងមនុស្សម្នាក់មកពីកោះ Rhode នឹងត្រូវ downweighted គេនឹងរាប់តិចនៅក្នុងការព្យាករផងដែរ។ នៅក្នុងខ្លឹម, អ្នកត្រូវបានផ្តល់សំឡេងបន្ថែមទៀតដើម្បីមនុស្សដែលអ្នកហាក់ដូចជាមិនសូវដើម្បីរៀនអំពី។

ឧទាហរណ៍ប្រដាប់ក្មេងលេងនេះបង្ហាញជាចំណុចសំខាន់ដែលជាទូទៅយល់ខុសនោះទេប៉ុន្តែ: គំរូមួយដែលមិនចាំបាច់ត្រូវមានកំណែខ្នាតតូចនៃចំនួនប្រជាជនក្នុងគោលបំណងដើម្បីបង្កើតការប៉ាន់ប្រមាណល្អ។ ប្រសិនបើមានការគ្រប់គ្រាន់ត្រូវបានគេស្គាល់អំពីរបៀបទិន្នន័យដែលត្រូវបានប្រមូលបន្ទាប់មកពដែលអាចត្រូវបានប្រើនៅពេលដែលការធ្វើឱ្យការប៉ាន់ស្មានពីគំរូ។ វិធីសាស្រ្តនេះខ្ញុំបានរៀបរាប់នោះទេហើយថាខ្ញុំបានរៀបរាប់គណិតវិទ្យាបច្ចេកទេសសេចក្ដីបន្ថែមនៅ-ក្នុងក្របខ័ណ្ឌធ្លាក់អើងប្រូបាប៊ីលីតេគំរូបែបបុរាណ។ ឥឡូវនេះខ្ញុំនឹងបង្ហាញពីរបៀបដែលមានគំនិតដូចគ្នាដែលអាចត្រូវបានអនុវត្តទៅគំរូដែលមិនមែនជាប្រូបាប។