2.3.2.1 មិនពេញលេញ

គ្មានបញ្ហាថាតើ "ទិន្នន័យធំ" របស់អ្នក "ធំ" វាប្រហែលជាមិនមានពអ្នកចង់បាន។

ប្រភពទិន្នន័យធំបំផុតគឺមានមិនពេញលេញ, ក្នុងន័យថាពួកគេមិនមានដំណឹងថាអ្នកនឹងចង់បានសម្រាប់ការស្រាវជ្រាវរបស់អ្នក។ នេះជាលក្ខណៈពិសេសទូទៅនៃទិន្នន័យដែលត្រូវបានបង្កើតឡើងសម្រាប់គោលបំណងផ្សេងទៀតជាងការស្រាវជ្រាវ។ អ្នកវិទ្យាសាស្ដ្រសង្គមជាច្រើនមានបទពិសោធនៃការដោះស្រាយជាមួយមិនពេញលេញ, ដូចជាការស្ទាបស្ទង់មតិដែលមានស្រាប់ដែលមិនបានសួរសំណួរដែលអ្នកចង់បានរួចទៅហើយ។ ជាអកុសល, មានបញ្ហានៃភាពមិនពេញលេញដែលមានទំនោរទៅជាខ្លាំងបន្ថែមទៀតនៅក្នុងទិន្នន័យធំ។ នៅក្នុងបទពិសោធរបស់ខ្ញុំ, ទិន្នន័យធំមាននិន្នាការត្រូវបានបាត់ខ្លួនបីប្រភេទដែលមានប្រយោជន៍សម្រាប់ការស្រាវជ្រាវសង្គម: ប្រជាសាស្ត្រ, ឥរិយាបទនៅលើប្រព័ន្ធប្រតិបត្តិការផ្សេងទៀត, និងទិន្នន័យដើម្បី operationalize ការបង្កើតទ្រឹស្តី។

ទាំងបីនៃទម្រង់បែបបទនៃភាពមិនពេញលេញទាំងនេះត្រូវបានបង្ហាញនៅក្នុងការសិក្សាមួយដោយ Gueorgi Kossinets និងលោក Duncan វ៉ាត់ (2006) អំពីការវិវត្តនៃបណ្តាញសង្គមនៅសាកលវិទ្យាល័យមួយ។ Kossinets និងបានចាប់ផ្ដើមជាមួយនឹងការកំណត់ហេតុវ៉ាត់ពីសាកលវិទ្យាល័យអ៊ីម៉ែលវិញដែលមានពដែលចាត់ច្បាស់លាស់អំពីដប់នាក់ដែលនៅក្នុងអ៊ីម៉ែលវេលាអ្វីដែល (ក្រុមអ្នកស្រាវជ្រាវមិនមានសិទ្ធិចូលដំណើរការទៅមាតិកានៃអ៊ីម៉ែលនេះ) ។ កំណត់ត្រាអ៊ីម៉ែលទាំងនេះមានសំឡេងដូចជាសំណុំទិន្នន័យអស្ចារ្យនោះទេប៉ុន្តែពួកគេមានទំហំនិងទោះជាមិនពេញលេញស្ថានភាព-មូលដ្ឋានរបស់គេ។ ឧទាហរណ៍, កំណត់ហេតុអ៊ីម៉ែលដែលមិនរួមបញ្ចូលទិន្នន័យអំពីលក្ខណៈប្រជាសាស្រ្តរបស់សិស្សដូចជាភេទនិងអាយុ។ លើសពីនេះទៀត, កំណត់ហេតុអ៊ីម៉ែលដែលមិនរួមបញ្ចូលការទំនាក់ទំនងតាមរយៈអំពីប្រព័ន្ធផ្សព្វផ្សាយផ្សេងទៀតដូចជាការហៅទូរស័ព្ទ, សារ, ឬការសន្ទនាមុខទៅមុខ។ ជាចុងក្រោយ, កំណត់ហេតុអ៊ីម៉ែលដែលមិនរួមបញ្ចូលដោយផ្ទាល់អំពីទំនាក់ទំនងសំណង់ទ្រឹស្តីនៅក្នុងទ្រឹស្តីដែលមានស្រាប់ជាច្រើន។ ក្រោយមកក្នុងជំពូកនេះនៅពេលដែលខ្ញុំនិយាយអំពីយុទ្ធសាស្រ្តស្រាវជ្រាវ, អ្នកនឹងមើលឃើញពីរបៀប Kossinets និងវ៉ាត់បានដោះស្រាយបញ្ហាទាំងនេះ។

ក្នុងចំណោមបីប្រភេទនៃភាពមិនពេញលេញ, បញ្ហានៃទិន្នន័យមិនពេញលេញដើម្បី operationalize ការបង្កើតទ្រឹស្តីជាការលំបាកបំផុតក្នុងការដោះស្រាយ, ហើយនៅក្នុងបទពិសោធរបស់ខ្ញុំ, វាជាញឹកញាប់ត្រូវបានមើលរំលងដោយចៃដន្យដោយក្រុមអ្នកវិទ្យាសាស្ត្រទិន្នន័យ។ ប្រហែលសំណង់ទ្រឹស្តីជាគំនិតអរូបីដែលអ្នកវិទ្យាសាស្ដ្រសង្គមសិក្សា, ប៉ុន្តែជាអកុសលសំណង់ទាំងអស់នេះអាចមិនតែងតែត្រូវបានកំណត់យ៉ាងច្បាស់និងការវាស់។ ឧទាហរណ៍, សូមព្យាយាមដើម្បីសាកល្បងស្រមៃចក្រភពនេះពាក្យបណ្តឹងជាក់ស្តែងថាមនុស្សសាមញ្ញដែលមានប្រាជ្ញារកប្រាក់ចំណូលបានប្រាក់បន្ថែមទៀត។ នៅក្នុងគោលបំណងដើម្បីសាកល្បងការអះអាងនេះអ្នកនឹងត្រូវការដើម្បីវាស់«ស៊ើបការណ៍សម្ងាត់»។ ប៉ុន្តែអ្វីដែលជាការស៊ើបការណ៍សម្ងាត់? ឧទាហរណ៍ Gardner (2011) បានអះអាងថាមានពិតជាទម្រង់ផ្សេងគ្នាប្រាំបីនៃការស៊ើបការណ៍សម្ងាត់។ ហើយមាននីតិវិធីមានថាត្រឹមត្រូវអាចវាស់ណាមួយនៃទម្រង់បែបបទនៃការស៊ើបការណ៍សម្ងាត់ទាំងនេះ? ទោះបីជាបរិមាណនៃការងារដោយយ៉ាងសម្បើមគ្រូពេទ្យចិត្តសាស្ត្រសំណួរទាំងនេះនៅតែមិនទាន់មានចម្លើយពិតប្រាកដ។ ដូច្នេះសូម្បីតែពាក្យបណ្តឹងប្រជាជនសាមញ្ញដែលមានប្រាជ្ញារកប្រាក់ចំណូលបានច្រើនជាងប្រាក់អាចជាការលំបាកក្នុងការវាយតម្លៃអាណាចក្រព្រោះវាអាចជាការលំបាកក្នុងការ operationalize ការបង្កើតទ្រឹស្តីនៅក្នុងទិន្នន័យ។ ឧទាហរណ៍ផ្សេងទៀតនៃការបង្កើតទ្រឹស្តីដែលមានសារៈសំខាន់ទេប៉ុន្តែការលំបាកក្នុងការ operationalize រួមបញ្ចូល "បទដ្ឋាន", "រដ្ឋធានីសង្គម" និង "លទ្ធិប្រជាធិបតេយ្យ" ។ អ្នកវិទ្យាសាស្ដ្រសង្គមបានហៅការប្រកួតរវាងទ្រឹស្តីនិងការសុពលភាពសំណង់ទិន្នន័យបង្កើត (Cronbach and Meehl 1955) ។ និងជាបញ្ជីនៃការសាងសង់នេះបានបង្ហាញសាងសង់សុពលភាពគឺជាបញ្ហាមួយដែលអ្នកវិទ្យាសាស្ដ្រសង្គមបានព្យាយាមប្រយុទ្ធនឹងរយៈព​​េលយូរណាស់, សូម្បីតែនៅពេលដែលពួកគេកំពុងធ្វើការជាមួយទិន្នន័យដែលត្រូវបានប្រមូលសម្រាប់គោលបំណងនៃការស្រាវជ្រាវនេះ។ ពេលធ្វើការជាមួយទិន្នន័យដែលប្រមូលបានសម្រាប់គោលបំណងផ្សេងទៀតជាងការស្រាវជ្រាវ, បញ្ហានៃសុពលភាពសំណង់នេះកាន់តែច្រើនការប្រកួតប្រជែង (Lazer 2015)

នៅពេលដែលអ្នកកំពុងអានក្រដាសការស្រាវជ្រាវមួយ, វិធីរហ័ស​​និងមានប្រយោជន៍មួយដើម្បីវាយតម្លៃពីការព្រួយបារម្ភអំពីសុពលភាពបង្កើតគឺដើម្បីយកពាក្យបណ្តឹងចម្បងនៅក្នុងក្រដាសដែលជាធម្មតាត្រូវបានបញ្ជាក់នៅក្នុងលក្ខខណ្ឌនៃការសាងសង់និងការឡើងវិញបានបង្ហាញវានៅក្នុងលក្ខខណ្ឌនៃទិន្នន័យដែលបានប្រើ។ ជាឧទាហរណ៍សូមពិចារណាអំពីការសិក្សាតាមសម្មតិកម្មពីរដែលបានអះអាងថាដើម្បីបង្ហាញថាមនុស្សឆ្លាតវៃច្រើនជាងនេះរកប្រាក់បានច្រើន:

  • ការសិក្សាទី 1: រកគ្រាប់បាល់បានយ៉ាងល្អមនុស្សដែលនៅលើការធ្វើតេស្ត Raven រីកចម្រើនរង្វាស់មួយជាការធ្វើតេស្តបានសិក្សាយ៉ាងល្អនៃការស៊ើបការណ៍សម្ងាត់វិភាគ (Carpenter, Just, and Shell 1990) -have ប្រាក់ចំណូលខ្ពស់លើត្រឡប់មកវិញបានរាយការណ៍ថាពួកគេពន្ធ
  • ការសិក្សាទី 2: មានមនុស្សនៅលើ Twitter ដែលបានប្រើពាក្យវែងជាងច្រើនតែនិយាយពីម៉ាកប្រណីត

នៅក្នុងករណីទាំងពីរនេះ, អ្នកស្រាវជ្រាវអាចអះអាងថាពួកគេបានបង្ហាញថាមនុស្សឆ្លាតវៃច្រើនជាងនេះរកប្រាក់ចំណូលបានប្រាក់បន្ថែមទៀត។ ប៉ុន្តែនៅក្នុងការសិក្សាលើកដំបូងការបង្កើតទ្រឹស្តីនេះត្រូវបានដំណើរការបានយ៉ាងល្អដោយទិន្នន័យនិងនៅក្នុងទីពីរនេះពួកគេមិនមាន។ លើសពីនេះទៀត, ជាឧទាហរណ៍នេះបានបង្ហាញថាទិន្នន័យកាន់តែច្រើនមិនបានដោះស្រាយបញ្ហាជាមួយនឹងសុពលភាពបង្កើតដោយស្វ័យប្រវត្តិ។ អ្នកគួរតែសង្ស័យពីលទ្ធផលសិក្សា 2 ថាតើវាពាក់ព័ន្ធនឹងមួយលានធ្វីត, មួយពាន់លានធ្វីតឬមួយពាន់ពាន់លានធ្វីត។ ចំពោះក្រុមអ្នកស្រាវជ្រាវមិនស៊ាំជាមួយគំនិតនៃសុពលភាពសំណង់តារាង 2.2 ផ្តល់នូវឧទាហរណ៍មួយចំនួននៃការសិក្សាដែលបានដំណើរការការបង្កើតទ្រឹស្តីប្រើទិន្នន័យដានឌីជីថល។

តារាង 2.2: ឧទាហរណ៍នៃដានឌីជីថលដែលត្រូវបានប្រើជាវិធានការនៃគំនិតទ្រឹស្តីអរូបីបន្ថែមទៀត។ អ្នកវិទ្យាសាស្ដ្រសង្គមបានហៅការប្រកួតនេះសុពលភាពបង្កើតហើយវាជាបញ្ហាប្រឈមចម្បងជាមួយនឹងការប្រើប្រភពទិន្នន័យធំសម្រាប់ការស្រាវជ្រាវសង្គម (Lazer 2015)
ដានឌីជីថល ការបង្កើតទ្រឹស្តី អំណះអំណាង
កំណត់ហេតុអ៊ីម៉ែលពីសាកលវិទ្យាល័យមួយ (ទិន្នន័យមេតាប៉ុណ្ណោះ) ទំនាក់ទំនងសង្គម Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
ប្រកាសប្រព័ន្ធផ្សព្វផ្សាយសង្គមនៅលើ Weibo ការចូលរួមរបស់ពលរដ្ឋ Zhang (2016)
កំណត់ហេតុអ៊ីម៉ែលពីក្រុមហ៊ុនមួយ (និងទិន្នន័យមេតាអត្ថបទពេញលេញ) សមវប្បធម៍នៅក្នុងអង្គការមួយ Goldberg et al. (2015)

ទោះបីជាបញ្ហានៃទិន្នន័យមិនពេញលេញសម្រាប់ការសាងសង់នេះគឺជាទ្រឹស្តីប្រតិបត្តិការលំបាកក្នុងការដោះស្រាយស្រស់ស្អាត, មានដំណោះស្រាយធម្មតាបីទៅនឹងបញ្ហានៃការពប្រជាសាស្ត្រមិនពេញលេញមិនពេញលេញនិងពនៅលើវេទិកានៅលើឥរិយាបទផ្សេងទៀតគឺ។ ជាដំបូងនេះគឺដើម្បីប្រមូលទិន្នន័យដែលអ្នកត្រូវការពិតជា; ខ្ញុំនឹងប្រាប់អ្នកអំពីឧទាហរណ៍មួយនៃការដែលនៅក្នុងជំពូកទី 3 ពេលខ្ញុំប្រាប់អ្នកអំពីការស្ទង់មតិ។ ជាអកុសលប្រភេទនៃការប្រមូលទិន្នន័យនេះគឺមិនតែងតែអាចធ្វើទៅបាន។ ជាដំណោះស្រាយសំខាន់ទីពីរគឺការធ្វើអ្វីដែលអ្នកវិទ្យាសាស្ដ្រទិន្នន័យហៅអ្នកប្រើគុណលក្ខណៈ inference និងអ្វីដែលអ្នកវិទ្យាសាស្ដ្រសង្គមបានហៅ imputation ។ ក្នុងវិធីសាស្រ្តនេះ, អ្នកស្រាវជ្រាវបានប្រើប្រាស់ទិន្នន័យដែលពួកគេមាននៅលើមនុស្សមួយចំនួនទៅជាសន្និដ្ឋានលក្ខណៈនៃមនុស្សផ្សេងទៀត។ ដំណោះស្រាយនេះមួយដែលអាចធ្វើទីបីនិងបានប្រើប្រាស់ដោយ Kossinets គឺដើម្បីវ៉ាត់បានរួមបញ្ចូលគ្នាប្រភពទិន្នន័យជាច្រើន។ ដំណើរការនេះត្រូវបានគេហៅថាពេលខ្លះការរួមបញ្ចូលគ្នាឬកំណត់ត្រាភ្ជាប់។ និមិត្តរូបសំណព្វរបស់ខ្ញុំសម្រាប់ដំណើរការនេះត្រូវបានស្នើឡើងក្នុងកថាខ័ណ្ឌទីមួយនៃក្រដាសដំបូងបំផុតដែលមិនធ្លាប់មានដែលបានសរសេរនៅលើកំណត់ត្រាភ្ជាប់បណ្តាញ (Dunn 1946) :

"មនុស្សម្នាក់នៅលើពិភពលោកដែលបង្កើតសៀវភៅនៃជីវិត។ សៀវភៅនេះបានចាប់ផ្តើមដោយការកើតនិងការបញ្ចប់ជាមួយនឹងការស្លាប់។ ទំព័ររបស់ខ្លួនត្រូវបានបង្កើតឡើងពីកំណត់ត្រានៃព្រឹត្តិការណ៍គោលការណ៍ក្នុងជីវិត។ ការភ្ជាប់បណ្តាកំណត់ត្រាគឺជាឈ្មោះដែលបានផ្ដល់ទៅឱ្យដំណើរការនៃការដំឡើងទំព័រនៃសៀវភៅនេះចូលទៅក្នុងបរិមាណមួយ "។

ការអនុម័តនេះត្រូវបានសរសេរនៅក្នុងឆ្នាំ 1946 ហើយនៅពេលនោះ, មនុស្សដែលត្រូវបានគេគិតថាសៀវភៅនៃជីវិតអាចរួមបញ្ចូលទាំងព្រឹត្តិការណ៍សំខាន់ដូចជាកំណើត, អាពាហ៍ពិពាហ៍, ការលែងលះនិងការស្លាប់។ ទោះជាយ៉ាងណា, ឥឡូវនេះដែលពច្រើនអំពីមនុស្សដែលត្រូវបានកត់ត្រា, សៀវភៅជីវិតអាចជាបញ្ឈរលម្អិតមិនគួរឱ្យជឿថាប្រសិនបើទំព័រផ្សេងគ្នាទាំងនោះ (មានន័យថាដានឌីជីថលរបស់យើង), អាចត្រូវបានចងជាមួយគ្នា។ សៀវភៅនៃជីវិតនេះវាអាចជាធនធានអស្ចារ្យសម្រាប់ក្រុមអ្នកស្រាវជ្រាវ។ ប៉ុន្តែសៀវភៅជីវិតអាចត្រូវបានហៅមូលដ្ឋានទិន្នន័យមួយនៃប្រាសាទបុរាណ (Ohm 2010) ដែលអាចត្រូវបានប្រើសម្រាប់គោលបំណងគ្រប់ប្រភេទអាក្រក់ដូចដែលបានរៀបរាប់ដូចខាងក្រោមនៅពេលដែលខ្ញុំនិយាយអំពីធម្មជាតិរសើបពត័មានដែលប្រមូលដោយប្រភពទិន្នន័យធំដូចខាងក្រោម ហើយនៅក្នុងជំពូកទី 6 (Ethics) ។