2.3.1.1 ធំ

ទិន្នន័យដែលមានទំហំធំគឺជាមធ្យោបាយដល់ទីបញ្ចប់មួយ; ពួកគេមិនមានទីបញ្ចប់នៅក្នុងខ្លួនគេទេ។

នេះជាលើកដំបូងនៃលក្ខណៈល្អទាំងបីនៃទិន្នន័យធំកំពុងត្រូវបានពិភាក្សាច្រើនបំផុត: ទាំងនេះគឺជាទិន្នន័យធំ។ ប្រភពទិន្នន័យទាំងនេះអាចមានទំហំធំនៅក្នុងវិធីផ្សេងគ្នាចំនួនបី: មនុស្សជាច្រើន, ច្រើននៃពក្នុងម្នាក់ឬសង្កេតការណ៍ជាច្រើនជាងពេលវេលា។ មានសំណុំទិន្នន័យធំអនុញ្ញាតឱ្យប្រភេទជាក់លាក់មួយចំនួននៃការវាស់ស្ទង់ការស្រាវជ្រាវវិសភាគ, សិក្សាអំពីព្រឹត្តិការណ៍កម្រ, ការរកឃើញភាពខុសគ្នាតូចនិងធ្វើឱ្យការប៉ាន់ស្មានពីទិន្នន័យដែលអង្កេតមូលហេតុ។ វាហាក់បីដូចជានាំឱ្យប្រភេទជាក់លាក់នៃ sloppy ។

រឿងដំបូងដែលទំហំនេះគឺមានប្រយោជន៍ជាពិសេសជាមធ្យមលើសពីការផ្លាស់ប្តូរត្រូវបានធ្វើឱ្យមានការប៉ាន់ស្មានសម្រាប់ប្រភេទក្រុមតូចជាក់លាក់។ ឧទាហរណ៍លោក Gary ស្ដេច, នាង Jennifer ប៉ាន, និង Molly Roberts បាន (2013) បានវាស់ប្រូដែលប្រកាសប្រព័ន្ធផ្សព្វផ្សាយសង្គមនៅក្នុងប្រទេសចិននឹងត្រូវបានពិនិត្យចាប់ពិរុទ្ធដោយរដ្ឋាភិបាល។ ដោយខ្លួនវាផ្ទាល់ប្រូមធ្យមនេះនៃការលុបគឺមិនមានប្រយោជន៍ខ្លាំងណាស់សម្រាប់ការយល់ដឹងអំពីមូលហេតុដែលរដ្ឋាភិបាលប្រកាសមួយចំនួនប៉ុន្តែ censors មិនបានអ្នកផ្សេងទៀត។ ប៉ុន្តែដោយសារតែសំណុំទិន្នន័យរបស់ខ្លួនរួមបញ្ចូលទាំង 11 លាននាក់ប្រកាសព្រះមហាក្សត្រនិងសហការីផងដែរដែលបានផលិតប៉ាន់ស្មានសម្រាប់ការប្រូបាប៊ីលីតេនៃការត្រួតពិនិត្យចំពោះការប្រកាសនៅលើ 85 ប្រភេទដោយឡែកពីគ្នា (ឧទា, រូបអាសអាភាស, ទីបេ, និងចរាចរណ៍នៅក្រុងប៉េកាំង) ។ ដោយប្រៀបធៀបប្រូបាប៊ីលីតេនៃការត្រួតពិនិត្យចំពោះការប្រកាសនៅក្នុងប្រភេទផ្សេងគ្នា, ពួកគេអាចយល់បន្ថែមទៀតអំពីរបៀបនិងហេតុអ្វីបានជារដ្ឋាភិបាល censors ប្រភេទមួយចំនួននៃប្រកាស។ ជាមួយនឹងការ 11 ពាន់ប្រកាស (ជាជាង 11 លាននាក់ប្រកាស), ពួកគេនឹងមិនអាចបង្កើតការប៉ាន់ប្រមាណប្រភេទជាក់លាក់ទាំងនេះ។

ទីពីរទំហំគឺមានប្រយោជន៍ជាពិសេសសម្រាប់កំពុងសិក្សានៃព្រឹត្តិការណ៍កម្រណាស់។ ឧទាហរណ៍ Goel និងមិត្តរួមការងារ (2015) បានសិក្សាពីវិធីផ្សេងគ្នាដែលបានធ្វីតអាចទៅមេរោគ។ ដោយសារតែការបង្កើតអោយធំនៃការឡើងវិញគឺមានធ្វីតខ្លាំងណាស់ប្រហែលមួយកម្រនៅក្នុង 3000 ពួកគេត្រូវការដើម្បីសិក្សាជាងមួយពាន់លានធ្វីតក្នុងគោលបំណងដើម្បីស្វែងរកការបង្កើតអោយមានទំហំធំគ្រប់គ្រាន់សម្រាប់ការវិភាគរបស់ពួកគេ។

ទីបីទិន្នន័យដែលមានទំហំធំអនុញ្ញាតឱ្យក្រុមអ្នកស្រាវជ្រាវដើម្បីរកឱ្យឃើញភាពខុសគ្នាតូច។ នៅក្នុងការពិត, ភាគច្រើននៃការផ្តោតលើទិន្នន័យធំនៅក្នុងឧស្សាហកម្មនេះគឺនិយាយអំពីភាពខុសគ្នាតូចទាំងនេះ: ឿទុកចិត្ដរកឃើញភាពខុសគ្នារវាងអត្រាការចុចតាមរយៈ 1% និង 1,1% លើការផ្សព្វផ្សាយពាណិជ្ជកម្មមួយដែលអាចបកប្រែទៅជារាប់លានដុល្លារនៅក្នុងប្រាក់ចំណូលបន្ថែម។ នៅក្នុងការកំណត់ខាងវិទ្យាសាស្រ្តមួយចំនួន, ភាពខុសគ្នាតូចបែបនេះប្រហែលជាមិនមែនជាពិសេសសំខាន់ (បើទោះបីជាពួកគេមានសំខាន់ស្ថិតិ) ។ ប៉ុន្តែនៅក្នុងការកំណត់គោលនយោបាយមួយចំនួន, ភាពខុសគ្នាតូចនេះអាចក្លាយជាការសំខាន់នៅពេលដែលមើលនៅក្នុងការប្រមូលផ្តុំ។ ឧទាហរណ៍ប្រសិនបើមានការអន្តរាគមន៍សុខភាពសាធារណៈចំនួនពីរនិងមួយគឺមានប្រសិទ្ធិភាពក្នុងជាងទៀត, បន្ទាប់មកប្ដូរទៅអន្តរាគមន៍កាន់តែមានប្រសិទ្ធិភាពអាចបញ្ចប់ការរក្សាទុកជីវិតមនុស្សរាប់ពាន់នាក់បន្ថែមទៀត។

ជាចុងក្រោយ, សំណុំទិន្នន័យដែលមានទំហំធំយ៉ាងខ្លាំងក្នុងការបង្កើនសមត្ថភាពរបស់យើងដើម្បីធ្វើឱ្យការប៉ាន់ស្មានធ្វើអោយពីទិន្នន័យអង្កេត។ ទោះបីជាទិន្នន័យដែលមានទំហំធំមិនផ្លាស់ប្តូរបញ្ហានេះជាមូលដ្ឋានដោយមានការធ្វើឱ្យ inference ធ្វើអោយពីទិន្នន័យសង្កេតមួយ, ផ្គូផ្គងនិងការធ្វើពិសោធន៍ពីរធម្មជាតិបច្ចេកទេសដែលអ្នកស្រាវជ្រាវបានអភិវឌ្ឍសម្រាប់ធ្វើពាក្យបណ្តឹធ្វើអោយពីអ្នកសង្កេតការណ៍ទាំងទិន្នន័យទទួលបានអត្ថប្រយោជន៍ពីទិន្នន័យយ៉ាងខ្លាំងធំ។ ខ្ញុំនឹងពន្យល់និងបង្ហាញពីការទាមទារនៅក្នុងលម្អិតកាន់តែនេះនៅពេលក្រោយនៅក្នុងជំពូកនេះនៅពេលដែលខ្ញុំបានរៀបរាប់អំពីយុទ្ធសាស្រ្តស្រាវជ្រាវ។

ទោះបីជា bigness ជាទូទៅគឺជាទ្រព្យសម្បត្ដិល្អនៅពេលដែលប្រើត្រឹមត្រូវ, ខ្ញុំបានកត់សម្គាល់ឃើញថា bigness ជាទូទៅនាំឱ្យមានកំហុសទស្សន។ សម្រាប់ហេតុផលមួយចំនួន, bigness ហាក់ដូចជាមិនអើពើនឹងនាំអ្នកស្រាវជ្រាវទិន្នន័យរបស់ពួកគេត្រូវបានបង្កើត។ ខណៈពេលដែល bigness កាត់បន្ថយតម្រូវការដើម្បីធ្វើការព្រួយបារម្ភអំពីកំហុសចៃដន្យនេះវាពិតជាបង្កើនតម្រូវការក្នុងការព្រួយបារម្ភអំពីកំហុសជាប្រព័ន្ធប្រភេទនៃកំហុសដែលខ្ញុំនឹងរៀបរាប់នៅក្នុងការច្រើនខាងក្រោមនេះដែលកើតឡើងពីភាពលំអៀងនៅក្នុងរបៀបទិន្នន័យដែលត្រូវបានបង្កើតឡើងនិងបានប្រមូល។ ក្នុងសំណុំទិន្នន័យតូចទាំងកំហុសចៃដន្យនិងកំហុសប្រព័ន្ធអាចមានសារៈសំខាន់, ប៉ុន្តែនៅក្នុងកំហុសធំមួយចៃដន្យសំណុំទិន្នន័យអាចត្រូវបានមានអត្រាជាមធ្យមត្រូវបានឆ្ងាយនិងកំហុសប្រព័ន្ធត្រួតត្រា។ អ្នកស្រាវជ្រាវដែលមិនគិតអំពីកំហុសប្រព័ន្ធនឹងបញ្ចប់ឡើងដោយការប្រើទិន្នន័យធំរបស់ពួកគេដើម្បីទទួលបាននូវការប៉ាន់ប្រមាណច្បាស់លាស់នៃរឿងខុសតើ! ពួកគេនឹងមិនត្រឹមត្រូវយ៉ាងច្បាស់ណាស់ (McFarland and McFarland 2015)