6.6.2 ការយល់ដឹងនិងការគ្រប់គ្រងហានិភ័យក្រៅប្រព័ន្ធ

ហានិភ័យពគឺជាហានិភ័យទូទៅបំផុតក្នុងការស្រាវជ្រាវសង្គម វាបានកើនឡើងយ៉ាងខ្លាំង! ហើយវាជាហានិភ័យពិបាកយល់។

នេះជាបញ្ហាប្រឈមវិជ្ជាជីវៈឌីជីថលទីពីរសំរាប់ការស្រាវជ្រាវជាហានិភ័យសង្គមមានអាយុជូនដំណឹងដល់សក្តានុពលសម្រាប់ការះថាក់ពីការបង្ហាញពត័មានដែល (Council 2014) ។ គេះថា្នាក់ក្រៅផ្លូវការពីការបង្ហាញទិន្នន័យផ្ទាល់ខ្លួនអាចនឹងមានសេដ្ឋកិច្ច (ឧទាហរណ៍: បាត់បង់ការងារ) សង្គម (ឧទាហរណ៍អាម៉ាស់) ផ្លូវចិត្ត (ឧទាហរណ៍, ជំងឺធ្លាក់ទឹកចិត្ត), ឬសូម្បីតែរឿងព្រហ្មទណ្ឌ (ឧទា, ការចាប់ខ្លួនសម្រាប់ឥរិយាបទខុសច្បាប់) ។ ជាអកុសលអាយុឌីជីថលបង្កើនហានិភ័យពយ៉ាងខ្លាំង-មានគឺបន្ថែមគ្រាន់តែជាការយ៉ាងច្រើនអំពីឥរិយាបថរបស់យើង។ ហើយហានិភ័យក្រៅផ្លូវការបានបង្ហាញឱ្យឃើញការលំបាកក្នុងការយល់និងគ្រប់គ្រងយ៉ាងខ្លាំងបើប្រៀបធៀបទៅនឹងហានិភ័យដែលមានការព្រួយបារម្ភនៅក្នុងការស្រាវជ្រាវផ្នែកសង្គមដែលមានអាយុអាណាឡូក, ដូចជាហានិភ័យនៃរាងកាយ។ ដើម្បីមើលពីរបៀបអាយុឌីជីថលបង្កើនហានិភ័យក្រៅផ្លូវការពិចារណាផ្លាស់ប្តូរពីក្រដាសអេឡិចត្រូនិកំណត់ត្រាវេជ្ជសាស្រ្តទៅ។ ប្រភេទនៃការកត់ត្រាទាំងពីរបង្កើតឱ្យមានគ្រោះថ្នាក់ប៉ុន្តែកំណត់ត្រាអេឡិចត្រូនិបង្កើតជាហានិភ័យកាន់តែច្រើនពីព្រោះនៅក្នុងទ្រង់ទ្រាយធំមួយដែលពួកគេអាចត្រូវបានបញ្ជូនទៅជាភាគីគ្មានការអនុញ្ញាតឬរួមបញ្ចូលគ្នាជាមួយកំណត់ត្រាផ្សេងទៀត។ ក្រុមអ្នកស្រាវជ្រាវសង្គមនៅក្នុងអាយុឌីជីថលបានរត់ចូលទៅក្នុងបញ្ហាជាមួយហានិភ័យក្រៅផ្លូវការមួយផ្នែកដោយសារតែពួកគេមិនយល់យ៉ាងពេញលេញពីរបៀបក្នុងការកំណត់និងគ្រប់គ្រងវា។ ដូច្នេះខ្ញុំនឹងផ្តល់ជូននូវវិធីមានប្រយោជន៍ដើម្បីគិតអំពីហានិភ័យជូនដំណឹង, ហើយបន្ទាប់មកខ្ញុំនឹងផ្តល់ដំបូន្មានមួយចំនួនសម្រាប់របៀបក្នុងការគ្រប់គ្រងហានិភ័យក្នុងការស្រាវជ្រាវក្រៅផ្លូវការរបស់អ្នកនិងក្នុងការបញ្ចេញទិន្នន័យតាមក្រុមអ្នកស្រាវជ្រាវផ្សេងទៀតដែលអ្នក។

វិធីមួយដែលក្រុមអ្នកស្រាវជ្រាវសង្គមបន្ថយហានិភ័យក្រៅផ្លូវការគឺ "អនាមិក" នៃទិន្នន័យ។ "អនាមិក" គឺជាដំណើរការនៃការយកចេញអត្តសញ្ញាណផ្ទាល់ខ្លួនជាក់ស្តែងដូចជាឈ្មោះអាសយដ្ឋាននិងលេខទូរស័ព្ទពីទិន្នន័យនេះ។ ទោះជាយ៉ាងណាវិធីសាស្រ្តនេះគឺមានច្រើនតិចមានប្រសិទ្ធភាពជាងដែលមនុស្សជាច្រើនបានដឹងហើយវាគឺជាការពិត, យ៉ាងជ្រាលជ្រៅនិងបានកំណត់ជាមូលដ្ឋាន។ សម្រាប់ហេតុផលនោះ, នៅពេលណាដែលខ្ញុំបានរៀបរាប់អំពី "ការអនាមិកថា: «ខ្ញុំនឹងប្រើសញ្ញាសម្រង់ដើម្បីរំលឹកអ្នកថាដំណើរការនេះនឹងបង្កើតរូបរាងសុំមិនបញ្ចេញឈ្មោះប៉ុន្តែមិនបានសុំមិនបញ្ចេញឈ្មោះពិត។

ឧទាហរណ៍រស់រវើកនៃការបរាជ័យនៃ "អនាមិក" បានមកពីចុងទសវត្សរ៍ឆ្នាំ 1990 នៅក្នុងរដ្ឋ Massachusetts (Sweeney 2002) ។ ការធានារ៉ាប់រងគណៈកម្មាធិគ្រុប (GIC) គឺជាទីភ្នាក់ងាររដ្ឋាភិបាលដែលទទួលខុសត្រូវសម្រាប់ការទិញធានារ៉ាប់រងសុខភាពសម្រាប់កម្មករនិយោជិតរដ្ឋទាំងអស់។ តាមរយៈកិច្ចការនេះ GIC ការដែលប្រមូលបានកំណត់ត្រាសុខភាពលម្អិតអំពីមនុស្សរាប់ពាន់នាក់នៃបុគ្គលិករបស់រដ្ឋ។ ក្នុងកិច្ចខិតខំប្រឹងប្រែងដើម្បីជំរុញឱ្យមានការស្រាវជ្រាវអំពីវិធីដើម្បីកែលម្អសុខភាពមួយ GIC ការសម្រេចចិត្តដើម្បីដោះលែងក្រុមអ្នកស្រាវជ្រាវទាំងនេះទៅកំណត់ត្រា។ ទោះយ៉ាងណាពួកគេមិនបានចែករំលែកទាំងអស់នៃទិន្នន័យរបស់ពួកគេ; ផ្ទុយទៅវិញពួកគេ "អនាមិក" វាដោយយកចេញពដូចជាឈ្មោះនិងអាសយដ្ឋាន។ ទោះជាយ៉ាងណាពួកគេបានចាកចេញពីពផ្សេងទៀតដែលពួកគេបានគិតថាអាចនឹងមានប្រយោជន៍សម្រាប់អ្នកស្រាវជ្រាវដូចជាពប្រជាសាស្ត្រ (កូដ ZIP, ថ្ងៃខែឆ្នាំកំណើត, ជាតិសាសន៍និងការរួមភេទ) និងពវេជ្ជសាស្រ្ត (ទិន្នន័យដំណើរទស្សនកិច្ច, ការធ្វើរោគវិនិច្ឆ័យនីតិវិធី) (រូបភាពទី 6.4) (Ohm 2010) ។ ជាអកុសលនេះ "អនាមិក" គឺមិនគ្រប់គ្រាន់ដើម្បីការពារទិន្នន័យ។

រូបភាពទី 6.4: អនាមិកគឺជាដំណើរការនៃការយកចេញជាក់ស្តែងកំណត់អត្តសញ្ញាណទិន្នន័យនេះ។ ឧទាហរណ៍នៅពេលដែលបញ្ចេញកំណត់ត្រាធានារ៉ាប់រងវេជ្ជសាស្រ្តនៃបុគ្គលិករបស់រដ្ឋម៉ាសាឈូសេតជាក្រុមធានារ៉ាប់រងគណៈកម្មាធិ (GIC) បានយកចេញឈ្មោះនិងអាសយដ្ឋានពីឯកសារ។ ខ្ញុំប្រើពាក្យអនាមិកសម្រង់ជុំវិញដំណើរការបានទេព្រោះសុំមិនបញ្ចេញឈ្មោះរូបរាងបានផ្តល់នូវការនេះប៉ុន្តែមិនបានសុំមិនបញ្ចេញឈ្មោះពិតប្រាកដ។

រូបភាពទី 6.4: "អនាមិក" គឺជាដំណើរការនៃការយកចេញជាក់ស្តែងកំណត់អត្តសញ្ញាណទិន្នន័យនេះ។ ឧទាហរណ៍នៅពេលដែលបញ្ចេញកំណត់ត្រាធានារ៉ាប់រងវេជ្ជសាស្រ្តនៃបុគ្គលិករបស់រដ្ឋម៉ាសាឈូសេតជាក្រុមធានារ៉ាប់រងគណៈកម្មាធិ (GIC) បានយកចេញឈ្មោះនិងអាសយដ្ឋានពីឯកសារ។ ខ្ញុំប្រើពាក្យសម្រង់ជុំវិញ "អនាមិក" ដោយសារតែដំណើរការនេះបានផ្តល់នូវរូបរាងនៃការសុំមិនបញ្ចេញឈ្មោះប៉ុន្តែមិនសុំមិនបញ្ចេញឈ្មោះពិតប្រាកដ។

ដើម្បីបង្ហាញពីកង្វះខាតនៃការ GIC ការ "អនាមិក" នេះ, Latanya Sweeney-បន្ទាប់មកនិស្សិតនៅ MIT បង់ប្រាក់ $ 20 ដើម្បីទទួលបានកំណត់ត្រាបោះឆ្នោតពីទីក្រុងខេមប្រ៊ីដដែលជាស្រុកកំណើតរបស់លោកអភិបាលរដ្ឋ Massachusetts លោក William ផ្សារនេះ។ កំណត់ត្រាការបោះឆ្នោតទាំងនេះរួមមានពដូចជាឈ្មោះ, អាស​​យដ្ឋាន, លេខកូដ ZIP, ថ្ងៃខែឆ្នាំកំណើតនិងយេនឌ័រ។ ការពិតដែលថាឯកសារនិងទិន្នន័យលេខកូដពេទ្យស្រែបង្ហាប់ឯកសារឈ្មោះបោះឆ្នោតបានចែករំលែក, ថ្ងៃខែឆ្នាំកំណើតនិងការរួមភេទមានន័យថា Sweeney អាចតភ្ជាប់ពួកគេ។ Sweeney បានដឹងថាថ្ងៃខួបកំណើត Weld គឺថ្ងៃទី 31 ខែកក្កដាឆ្នាំ 1945 និងកំណត់ត្រាបោះឆ្នោតបានបញ្ចូលតែនៅ Cambridge ចំនួនប្រាំមួយនាក់បានជាមួយថ្ងៃខួបកំណើតនោះ។ លើសពីនេះទៀតនៃអ្នកទាំងនោះប្រាំមួយនាក់ដែលក្នុងនោះមានតែបីនាក់ជាបុរស។ ហើយបុរសទាំងបីនាក់នេះបានតែមួយដែលបានចែករំលែកកូដតំបន់ Weld នេះ។ ដូច្នេះទិន្នន័យដែលបានបោះឆ្នោតបានបង្ហាញថានរណាម្នាក់នៅក្នុងទិន្នន័យវេជ្ជសាស្រ្តដោយការ Weld របស់ថ្ងៃខែឆ្នាំកំណើតភេទ, និងលេខកូដតំបន់គឺលោក William Weld ។ នៅក្នុងខ្លឹម, បំណែកទាំងបីនៃពផ្តល់ជាស្នាមម្រាមដៃតែមួយគត់ទៅគាត់នៅក្នុងទិន្នន័យ។ ដោយប្រើការពិតនេះ, Sweeney អាចកំណត់ទីតាំងកំណត់ត្រាវេជ្ជសាស្រ្ត Weld របស់លោកនិងដើម្បីប្រាប់លោកអំពីលាវរបស់នាងនាងបានផ្ញើច្បាប់ចម្លងនៃកំណត់ត្រាគាត់របស់គាត់ (Ohm 2010)

រូបភាពទី 6.5: Re-idenification នៃទិន្នន័យអនាមិក។ Latanya Sweeney បានរួមបញ្ចូលកំណត់ត្រាសុខភាពអនាមិកជាមួយកំណត់ត្រាបោះឆ្នោតនៅក្នុងគោលបំណងដើម្បីស្វែងរកកំណត់ត្រាវេជ្ជសាស្រ្តនៃលោក William Weld អភិបាល (Sweeney 2002) ។

រូបភាពទី 6.5: Re-idenification នៃទិន្នន័យ "អនាមិក" ។ Latanya ការបញ្ចូលគ្នារវាង Sweeney "អនាមិក" កំណត់ត្រាសុខភាពជាមួយកំណត់ត្រាបោះឆ្នោតនៅក្នុងគោលបំណងដើម្បីស្វែងរកកំណត់ត្រាវេជ្ជសាស្រ្តនៃលោក William Weld អភិបាល (Sweeney 2002)

ការងារ Sweeney បានបង្ហាញពីរចនាសម្ព័ន្ធជាមូលដ្ឋាននៃការវាយប្រហារដឺអនាមិក-សដ៍អនុម័តរយៈពេលពីសហគមន៍សន្តិសុខកុំព្យូទ័រ។ នៅក្នុងការវាយប្រហារទាំងនេះសំណុំទិន្នន័យពីរ, មិនដែលដោយខ្លួនវាបង្ហាញទិន្នន័យត្រូវបានភ្ជាប់, និងតាមរយៈការភ្ជាប់បណ្តាញនេះត្រូវបានលាតត្រដាងពប្រកាន់អក្សរតូចធំ។ នៅក្នុងវិធីមួយចំនួនដែលដំណើរការនេះគឺស្រដៀងគ្នាទៅនឹងវិធីដែល soda ដុតនំនិង vinegar, សារធាតុពីរដែលមានដោយខ្លួនឯងដែលមានសុវត្ថិភាពអាចត្រូវបានរួមបញ្ចូលគ្នាដើម្បីបង្កើតបានជាលទ្ធផលអាក្រក់នេះ។

ក្នុងការឆ្លើយតបទៅនឹងការងារ Sweeney, និងការងារទាក់ទងផ្សេងទៀត, អ្នកស្រាវជ្រាវឥឡូវជាទូទៅយកច្រើនទៀតពទាំងអស់ហៅថាដូច្នេះ "ផ្ទាល់ខ្លួនការសម្គាល់ព" (PII) បាន (Narayanan and Shmatikov 2010) -during ដំណើរការនៃ "ការអនាមិក" ។ លើសពីនេះទៀតអ្នកស្រាវជ្រាវបានច្រើននៅពេលនេះ បានដឹងថាមួយចំនួនដូចជាទិន្នន័យកំណត់ត្រាវេជ្ជសាស្រ្ត, កំណត់ត្រាហិរញ្ញវត្ថុចម្លើយទៅនឹងសំណួរអំពីការស្ទង់មតិគឺជាការខុសច្បាប់ដែលឥរិយាបថប្រកាន់អក្សរតូចធំពេកក្នុងការប្រហែលជាបានដោះលែងសូម្បីតែបន្ទាប់ពី "អនាមិក" ។ ទោះយ៉ាងណាឧទាហរណ៍ថ្មីជាច្រើនទៀតដែលខ្ញុំនឹងរៀបរាប់ខាងក្រោមនេះបានបង្ហាញថាក្រុមអ្នកស្រាវជ្រាវសង្គមត្រូវការ ផ្លាស់ប្តូរការគិតរបស់ពួកគេ។ ក្នុងនាមជាជំហានដំបូង, វាគឺជាប្រាជ្ញាដើម្បីសន្មត់ថាទិន្នន័យទាំងអស់គឺមានសក្តានុពលនិងទិន្នន័យដែលបានកំណត់អត្តសញ្ញាណទាំងអស់គឺប្រកាន់អក្សរតូចធំសក្តានុពល។ នៅក្នុងពាក្យផ្សេងទៀតជាជាងការគិតហានិភ័យនៃការជូនដំណឹងដែលបានអនុវត្តទៅកាន់សំណុំរងតូចមួយនៃគម្រោងដែលយើងគួរសន្មតថាវាអនុវត្តទៅមួយចំនួនបានសញ្ញាបត្រទៅគម្រោងទាំងអស់។

ទិដ្ឋភាពទាំងពីរនេះត្រូវបានតំរង់ទិសឡើងវិញគូរដោយរង្វាន់ក្រុមហ៊ុន Netflix Inc ។ ដូចបានរៀបរាប់ក្នុងជំពូកទី 5, ក្រុមហ៊ុន Netflix Inc ដែលបានចេញផ្សាយការផ្តល់ចំណាត់ថ្នាក់ខ្សែភាពយន្ដចំនួន 100 លានគ្រឿងដែលផ្តល់ដោយសមាជិកជិត 500.000 នាក់និងបានបើកចំហដែលជាកន្លែងដែលការហៅប្រជាជនមកពីទូទាំងពិភពលោកដែលបានដាក់ជូនក្បួនដោះស្រាយដែលអាចធ្វើឱ្យប្រសើរឡើងនូវសមត្ថភាពក្រុមហ៊ុន Netflix Inc ដើម្បីផ្ដល់អនុសាសន៍ខ្សែភាពយន្ដ។ មុនពេលចេញផ្សាយទិន្នន័យក្រុមហ៊ុន Netflix Inc បានយកចេញពជាក់ស្តែងផ្ទាល់-កំណត់អត្តសញ្ញាណណាមួយដូចជាឈ្មោះ។ ក្រុមហ៊ុន Netflix Inc ផងដែរបានទៅជាជំហានបន្ថែមនិងណែនាំ perturbations បន្តិចនៅក្នុងមួយចំនួននៃកំណត់ត្រា (ឧទាហរណ៍ការផ្លាស់ប្តូរចំណាត់ថ្នាក់មួយចំនួនពីផ្កាយ 4 ផ្កាយ 3) ។ ក្រុមហ៊ុន Netflix Inc ឆាប់រកឃើញថាបើទោះជាមានកិច្ចខិតខំប្រឹងប្រែងរបស់ពួកគេ, ទិន្នន័យនេះត្រូវបានគេដោយមានន័យថាគ្មានអនាមិក។

គ្រាន់តែពីរសប្តាហ៍បន្ទាប់ពីការចេញផ្សាយទិន្នន័យនេះ Narayanan and Shmatikov (2008) បានបង្ហាញថាវាអាចធ្វើទៅបានក្នុងការរៀនអំពីចំណង់ចំណូលចិត្តរបស់មនុស្សជាក់លាក់ខ្សែភាពយន្ត។ ល្បិចការវាយប្រហាររបស់ពួកគេឡើងវិញការកំណត់អត្តសញ្ញាណនេះគឺស្រដៀងគ្នាទៅនឹង Sweeney រប​​ស់: បញ្ចូលគ្នាជាមួយគ្នាប្រភពពពីរ, មួយដែលមានសក្តានុពលនិងការពរសើបគ្មានពជាក់ស្តែងកំណត់និងមួយដែលមានអត្តសញ្ញាណរបស់ប្រជាជន។ គ្នានៃប្រភពទិន្នន័យទាំងនេះអាចមានសុវត្ថិភាពជាលក្ខណៈបុគ្គល, ប៉ុន្តែនៅពេលដែលពួកគេត្រូវបានរួមបញ្ចូលគ្នាសំណុំទិន្នន័យច្របាច់បញ្ចូលគ្នានេះអាចបង្កើតឱ្យមានគ្រោះថ្នាក់ក្រៅផ្លូវការ។ នៅក្នុងករណីនៃទិន្នន័យរបស់ក្រុមហ៊ុន Netflix Inc, នៅទីនេះជារបៀបដែលវាអាចកើតឡើង។ សូមស្រមៃគិតថាខ្ញុំជ្រើសរើសដើម្បីចែករំលែកគំនិតរបស់ខ្ញុំអំពីសកម្មភាពនិងខ្ស​​ែភាពយន្ដកំប្លែងជាមួយនឹងរួមការងាររបស់ខ្ញុំ, ប៉ុន្តែថាខ្ញុំមិនចង់ចែករំលែកគំនិតរបស់ខ្ញុំអំពីខ្សែភាពយន្ដខាងសាសនានិងនយោបាយ។ រួមការងាររបស់ខ្ញុំអាចប្រើប្រាស់ទិន្នន័យដែលខ្ញុំបានចែករំលែកជាមួយពួកគេដើម្បីស្វែងរកកំណត់ត្រារបស់ខ្ញុំនៅក្នុងទិន្នន័យក្រុមហ៊ុន Netflix Inc បាន; ពថាខ្ញុំចែករំលែកអាចជាស្នាមម្រាមដៃតែមួយគត់គ្រាន់តែដូចជាកាលបរិច្ឆេទរបស់លោក William Weld កំណើត, កូដ ZIP, និងការរួមភេទ។ បន្ទាប់មក, ប្រសិនបើពួកគេបានរកឃើញស្នាមម្រាមដៃតែមួយគត់របស់ខ្ញុំនៅក្នុងទិន្នន័យនេះពួកគេអាចរៀនបានចំណាត់ថ្នាក់របស់ខ្ញុំអំពីខ្សែភាពយន្ដទាំងអស់រួមទាំងភាពយន្ដដែលជាកន្លែងដែលខ្ញុំបានជ្រើសរើសយកការមិនចែករំលែក។ ក្នុងការបន្ថែមទៅប្រភេទនៃការវាយប្រហារដោយកំណត់គោលដៅផ្តោតទៅលើមនុស្សម្នាក់តែមួយនេះ Narayanan and Shmatikov (2008) បានបង្ហាញថាវាគឺអាចធ្វើទៅបានដើម្បីធ្វើ -one ពាក់ព័ន្ធនឹងទូលំទូលាយការវាយប្រហារជាច្រើនដែលប្រជាជនដោយការរួមបញ្ចូលទិន្នន័យក្រុមហ៊ុន Netflix Inc ជាមួយនឹងទិន្នន័យផ្ទាល់ខ្លួននិងភាពយន្តចំណាត់ថ្នាក់មួយចំនួនដែលថា មនុស្សដែលបានជ្រើសដើម្បីប្រកាសលើមូលដ្ឋានទិន្នន័យភាពយន្តតាមអ៊ីនធឺណិត (IMDb) ។ ពណាមួយដែលមានស្នាមម្រាមដៃតែមួយគត់ដើម្បីមនុស្សម្នាក់ដែលសូម្បីតែសំណុំរបស់ពួកគេជាក់លាក់នៃភាពយន្តការផ្តល់ចំណាត់ថ្នាក់-អាចត្រូវបានប្រើដើម្បីកំណត់អត្តសញ្ញាណពួកគេ។

ទោះបីជាទិន្នន័យរបស់ក្រុមហ៊ុន Netflix Inc អាចត្រូវបានកំណត់នៅក្នុងការវាយប្រហារទាំងឬកំណត់គោលដៅទូលំទូលាយ, វានៅតែអាចមើលទៅជាហានិភ័យទាប។ បន្ទាប់ពីទាំងអស់, ការផ្តល់ចំណាត់ថ្នាក់ភាពយន្តហាក់ដូចជាមិនមានភាពរសើបខ្លាំងណាស់។ ខណៈពេលដែលអាចក្លាយជាការពិតនៅក្នុងទូទៅ, សម្រាប់ការមួយចំនួននៃសំណុំទិន្នន័យ 500.000 នាក់ក្នុងនោះការផ្តល់ចំណាត់ថ្នាក់ខ្សែភាពយន្តអាចនឹងមានរសើបណាស់។ នៅក្នុងការពិតនៅក្នុងការឆ្លើយតបទៅនឹងដឺអនាមិកមួយស្ត្រីស្រលាញ់ភេទដូចគ្នាទូបានចូលរួមជាមួយឈុតថ្នាក់សកម្មភាពប្រឆាំងនឹងក្រុមហ៊ុន Netflix Inc ។ នេះជារបៀបដែលបញ្ហានេះត្រូវបានបញ្ជាក់នៅក្នុងពាក្យបណ្តឹងរបស់ពួកគេ (Singel 2009) :

« [M] ovie និងវាយតម្លៃទិន្នន័យមានព័តមានជាលក្ខណៈបុគ្គលច្រើនជាងខ្ពស់និងរសើប [sic] ។ ទិន្នន័យភាពយន្តសមាជិកនឹងបញ្ចេញចំណាប់អារម្មណ៍ផ្ទាល់ខ្លួនមួយដែលជាសមាជិកក្រុមហ៊ុន Netflix Inc និង / ឬការតស៊ូជាមួយនឹងបញ្ហាផ្ទាល់ខ្លួនយ៉ាងខ្លាំងជាច្រើនរួមទាំងភេទ, ជំងឺផ្លូវចិត្ត, ការងើបឡើងវិញពីការញៀនស្រានិងជនរងគ្រោះពីស្មន្ធការរំលោភបំពានលើរាងកាយអំពើហិង្សាក្នុងគ្រួសារអំពើផិតក្បត់និងការរំលោភ "។

នេះដឺអនាមិកទិន្នន័យរង្វាន់ក្រុមហ៊ុន Netflix Inc បង្ហាញពីអ្នកទាំងពីរថាទិន្នន័យទាំងអស់គឺកំណត់អត្តសញ្ញាណសក្តានុពលនិងថាទិន្នន័យទាំងអស់គឺប្រកាន់អក្សរតូចធំសក្តានុពល។ នៅចំណុចនេះអ្នកអាចគិតថានេះអនុវត្តតែទៅទិន្នន័យដែលដែលអះអាងថានឹងមានប្រហែលនាក់។ គួរអោយភ្ញាក់ផ្អើលនោះគឺមិនមែនជាករណីនេះ។ ក្នុងការឆ្លើយតបទៅនឹងសេរីភាពនៃការស្នើរសុំច្បាប់ពមួយ, ទីក្រុងញូវយ៉កដែលបានចេញផ្សាយរដ្ឋាភិបាលកំណត់ត្រានៃការជិះតាក់ស៊ីទាំងអស់នៅក្នុងញូវយ៉កក្នុងឆ្នាំ 2013 រួមទាំងរថយន្តភិកអាប់និងការធ្លាក់ចុះបិទដងទីតាំងនិងបរិមាណថ្លៃសំបុត្រធ្វើដំណើរ (ពីជំពូកទី 2 ការប្រមូលរថយន្តដែល Farber (2015) ប្រើប្រាស់ទិន្នន័យនេះដើម្បីសាកល្បងទ្រឹស្តីសំខាន់នៅក្នុងសេដ្ឋកិច្ចពលកម្ម) ។ ទោះបីជាទិន្នន័យអំពីការធ្វើដំណើរតាក់ស៊ីនេះហាក់ដូចជាស្លូតដោយសារតែវាហាក់ដូចជាមិនមានការអំពីប្រជាជន, លោក Anthony Tockar ដឹងថាសំណុំទិន្នន័យតាក់ស៊ីនេះពិតដែលមានច្រើននៃទិន្នន័យមានសក្តានុពលអំពីមនុស្ស។ ជាឧទាហរណ៍គាត់បានមើលនៅឯការធ្វើដំណើរទាំងអស់ដែលចាប់ផ្តើមនៅ Hustler ក្លឹបមួយក្លិបបន្ទះធំមួយនៅញូវយ៉ករវាងកណ្តាលអធ្រាត្រនិងម៉ោង 6 ព្រឹកហើយបន្ទាប់មកបានរកឃើញទីតាំងការធ្លាក់ចុះរបស់ខ្លួន។ ការស្វែងរកនេះបានបង្ហាញនៅក្នុងសារៈសំខាន់បញ្ជីអាសយដ្ឋានរបស់មនុស្សមួយចំនួនដែលជាញឹកញាប់ Hustler ក្លឹប (Tockar 2014) ។ វាគឺជាការលំបាកក្នុងការស្រមៃថារដ្ឋាភិបាលទីក្រុងនេះមាននេះនៅក្នុងចិត្តនៅពេលដែលវាចេញផ្សាយទិន្នន័យ។ នៅក្នុងការពិត, បច្ចេកទេសដូចគ្នានេះអាចត្រូវបានប្រើក្នុងការស្វែងរកអាសយដ្ឋានផ្ទះរបស់មនុស្សដែលមកទស្សនាកន្លែងណាមួយនៅក្នុងទីក្រុងមួយគ្លីនិក, អគាររដ្ឋាភិបាលឬស្ថាប័នសាសនា។

ករណីនេះទាំងពីររង្វាន់ក្រុមហ៊ុន Netflix Inc និងទីក្រុងញូវយ៉កបង្ហាញទិន្នន័យតាក់ស៊ីមនុស្សដែលមានជំនាញទំនាក់ទំនងដែលបានបរាជ័យក្នុងការប៉ាន់ប្រមាណពីហានិភ័យនៃការជូនដំណឹងនៅក្នុងទិន្នន័យដែលពួកគេបានចេញផ្សាយបានត្រឹមត្រូវហើយករណីទាំងនេះគឺដោយមានន័យថាគ្មានតែមួយគត់ (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) ។ លើសពីនេះទៀតនៅក្នុងជាច្រើននៃករណីទាំងនេះ, ទិន្នន័យបញ្ហានេះគឺនៅតែអាចប្រើបានលើបណ្តាញដោយសេរី, បង្ហាញការលំបាកនៃការដែលមិនធ្លាប់មានការចេញផ្សាយមិនទាន់រួចរាល់ទិន្នន័យមួយ។ ការប្រមូលផ្តុំឧទាហរណ៍ដូចទាំងនេះព្រមទាំងការស្រាវជ្រាវវិទ្យាសាស្រ្តកុំព្យូទ័រអំពីភាពជាឯកជនការនាំមុខដើម្បីការសន្និដ្ឋានសំខាន់។ ក្រុមអ្នកស្រាវជ្រាវគួរសន្មត់ថាទិន្នន័យទាំងអស់គឺមានសក្តានុពលនិងទិន្នន័យដែលបានកំណត់អត្តសញ្ញាណទាំងអស់គឺប្រកាន់អក្សរតូចធំសក្តានុពល។

ជាអកុសល, មិនមានដំណោះស្រាយសាមញ្ញទៅលើការពិតដែលថាទិន្នន័យទាំងអស់គឺបានកំណត់អត្តសញ្ញាណមានសក្តានុពលនិងទិន្នន័យទាំងអស់គឺប្រកាន់អក្សរតូចធំមានសក្តានុពលនោះទេ។ ទោះជាយ៉ាងណា, វិធីមួយដើម្បីកាត់បន្ថយការប្រឈមពខណៈពេលអ្នកកំពុងធ្វើការជាមួយទិន្នន័យគឺដើម្បីបង្កើតនិងអនុវត្តតាមផែនការការពារទិន្នន័យ។ គម្រោងនេះនឹងមានការថយចុះឱកាសដែលថាទិន្នន័យរបស់អ្នកនឹងលេចធ្លាយហើយនឹងកាត់បន្ថយការះថាក់ប្រសិនបើលេចធ្លាយមួយដូចម្ដេចបានកើតឡើងនេះ។ ជាក់លាក់នៃផែនការការពារទិន្នន័យដូចជាទម្រង់មួយនៃការអ៊ីនគ្រីបដែលការប្រើ, នឹងផ្លាស់ប្តូរនៅលើពេលវេលានោះទេប៉ុន្តែសេវាទិន្នន័យចក្រភពអង់គ្លេសរៀបចំធាតុនៃផែនការការពារទិន្នន័យជា 5 helpfully ប្រភេទដែលពួកគេបានហៅ 5 ដោយសុវត្ថិភាព: គម្រោងសុវត្ថិភាព, មនុស្សដែលមានសុវត្ថិភាព ការកំណត់សុវត្ថិភាព, ទិន្នន័យមានសុវត្ថិភាពនិងលទ្ធផលមានសុវត្ថិភាព (តារាង 6.2) (Desai, Ritchie, and Welpton 2016) ។ គ្មាននរណាម្នាក់ក្នុងចំណោមប្រាំនាក់ជាលក្ខណៈបុគ្គលមានសុវត្ថភាពដែលបានផ្តល់ការការពារយ៉ាងល្អឥតខ្ចោះ។ ប៉ុន្តែជាមួយគ្នាពួកគេបានបង្កើតជាសំណុំដែលមានអនុភាពមួយនៃកត្តាដែលអាចបន្ថយហានិភ័យក្រៅផ្លូវការ។

តារាង 6.2: 5 គឺជាគោលការណ៍សម្រាប់សុវត្ថរចនានិងការប្រតិបត្តិផែនការការពារទិន្នន័យ (Desai, Ritchie, and Welpton 2016)
សុវត្ថិភាព សកម្មភាព
គម្រោងសុវត្ថិភាព កំណត់ការគម្រោងជាមួយនឹងទិន្នន័យទៅពួកអ្នកដែលមានវិជ្ជាជីវៈ
មនុស្សដែលមានសុវត្ថិភាព ការចូលដំណើរការត្រូវបានដាក់កម្រិតទៅឱ្យមនុស្សដែលអាចត្រូវបានជឿទុកចិត្តជាមួយទិន្នន័យ (បណ្តុះបណ្តាវិជ្ជាជីវៈឧទាហរណ៍, មនុស្សដែលបានទទួល)
ទិន្នន័យមានសុវត្ថិភាព ទិន្នន័យត្រូវបានដោះកំណត់និងប្រមូលផ្តុំទៅនឹងវិសាលភាពដែលអាចធ្វើបាន
ការកំណត់សុវត្ថិភាព ទិន្នន័យត្រូវបានរក្សាទុកនៅក្នុងកុំព្យូទ័រជាមួយសមរម្យរាងកាយ (ឧទា, បន្ទប់ជាប់សោ) និងផ្នែកទន់ (ឧទាហរណ៍, ការការពារពាក្យសម្ងាត់ដែលបានអ៊ិនគ្រីប) ការការពារ
ទិន្នផលសុវត្ថិភាព ទិន្នផលការស្រាវជ្រាវត្រូវបានត្រួតពិនិត្យដើម្បីទប់ស្កាត់ការរំលោភបំពានសិទ្ធិឯកជនចៃដន្យ

ក្រៅពីការការពារទិន្នន័យរបស់អ្នកខណៈពេលដែលអ្នកកំពុងប្រើវា, មួយជំហាននៅក្នុងដំណើរការស្រាវជ្រាវដែលហានិភ័យក្រៅផ្លូវការដែលចង់បានជាពិសេសគឺការចែករំលែកទិន្នន័យជាមួយក្រុមអ្នកស្រាវជ្រាវផ្សេងទៀត។ ចែករំលែកទិន្នន័យក្នុងចំណោមអ្នកវិទ្យាសាស្ដ្រជាតម្លៃស្នូលមួយនៃការខិតខំបែបវិទ្យាសាស្រ្តនេះហើយវាគ្រឿងបរិក្ខារយ៉ាងខ្លាំងការអភិវឌ្ឍនៃចំណេះដឹង។ នេះជារបៀបដែលប្រទេសអង់គ្លេសសភា Commons បានរៀបរាប់ពីសារៈសំខាន់នៃការចែករំលែកទិន្នន័យ:

"ការចូលដំណើរការទិន្នន័យដែលជាមូលដ្ឋានប្រសិនបើអ្នកស្រាវជ្រាវគឺដើម្បីការផលិត, ផ្ទៀងផ្ទាត់និងកសាងនៅលើលទ្ធផលដែលបានរាយការណ៍នៅក្នុងអក្សរសិល្ប៍។ ការសន្មតជាមុនថាត្រូវតែនោះលើកលែងតែមានមូលហេតុយ៉ាងខ្លាំងបើមិនដូច្នេះទេ, ទិន្នន័យគួរត្រូវបានបង្ហាញយ៉ាងពេញលេញនិងបានធ្វើឱ្យមានជាសាធារណៈ។ នៅក្នុងបន្ទាត់ជាមួយគោលការណ៍នេះ, ដែលជាកន្លែងដែលអាចធ្វើទៅបានទិន្នន័យបានផ្សារភ្ជាប់ជាមួយនឹងការស្រាវជ្រាវបានផ្តល់មូលនិធិជាសាធារណៈទាំងអស់គួរតែត្រូវបានធ្វើឡើងយ៉ាងទូលំទូលាយនិងដែលអាចរកបានដោយសេរី»។ (Molloy 2011)

ប៉ុន្ដែដោយការចែករំលែកទិន្នន័យរបស់អ្នកជាមួយអ្នកស្រាវជ្រាវមួយផ្សេងទៀត, អ្នកអាចត្រូវបានបង្កើនហានិភ័យនៃជូ​​នដំណឹងដល់អ្នកចូលរួមរបស់អ្នក។ ដូច្នេះវាអាចហាក់ដូចជាថាក្រុមអ្នកស្រាវជ្រាវដែលមានបំណងដើម្បីចែករំលែករបស់ពួកគេទិន្នន័យឬត្រូវបានទាមទារដើម្បីចែករំលែករបស់ពួកគេកំពុងប្រឈមមុខនឹងទិន្នន័យភាពតានតឹងជាមូលដ្ឋានមួយ។ នៅលើដៃមួយពួកគេមានកាតព្វកិច្ចត្រឹមត្រូវក្នុងការចែករំលែកទិន្នន័យរបស់ពួកគេជាមួយក្រុមអ្នកវិទ្យាសាស្ត្រដទៃទៀតជាពិសេសប្រសិនបើការស្រាវជ្រាវដើមត្រូវបានផ្តល់មូលនិធិជាសាធារណៈ។ ប៉ុន្ដែនៅពេលដូចគ្នានេះក្រុមអ្នកស្រាវជ្រាវមានកាតព្វកិច្ចត្រឹមត្រូវដើម្បីកាត់បន្ថយការ, ជាច្រើនដូចជាអាចធ្វើទៅបាន, ហានិភ័យពដល់អ្នកចូលរួមរបស់ខ្លួន។

ជាសំណាងល្អ, ទុក្ខលំបាកនេះគឺមិនមែនជាធ្ងន់ធ្ងរដូចដែលវាបានលេចឡើង។ វាជាការសំខាន់ក្នុងការគិតនៃទិន្នន័យការចែករំលែកពីការបន្តនៅតាមបណ្តោយចែករំលែកទិន្នន័យនោះទេដោះលែងនិងភ្លេច, ដែលជាកន្លែងដែលទិន្នន័យត្រូវបាន "អនាមិក" និងបង្ហោះសម្រាប់នរណាម្នាក់ដើម្បីចូលដំណើរការ (រូបភាពទី 6.6) ។ ទាំងពីរនៃមុខតំណែងខ្លាំងទាំងនេះមានហានិភ័យនិងអត្ថប្រយោជន៍។ នោះគឺជា, វាមិនមែនជារឿងត្រឹមត្រូវដោយស្វ័យប្រវត្តិភាគច្រើនមិនបានចែករំលែកទិន្នន័យរបស់អ្នក; ដំណោះស្រាយបែបនេះលុបបំបាត់អត្ថប្រយោជន៍ជាសក្ដានុពលជាច្រើនដល់សង្គម។ វិលត្រឡប់ទៅភ្លក្សរសជាតិ, ទំនាក់ទំនង, និងពេលវេលា, ឧទាហរណ៍ពិភាក្សាគ្នាពីមុននៅក្នុងជំពូកមួយអាគុយម៉ង់ជំទាស់នឹងការដោះលែងទិន្នន័យដែលផ្តោតតែលើការប៉ះពាល់អាចធ្វើទៅបានហើយថាអាចធ្វើបានមិនអើពើផលប្រយោជន៍តែម្ខាងពេក! ខ្ញុំនឹងរៀបរាប់អំពីបញ្ហានេះជាមួយនឹងការតែម្ខាងវិធីសាស្រ្តនៃការការពារហួសហេតុពេកនេះនៅក្នុងលម្អិតបន្ថែមទៀតនៅក្នុងពេលដែលខ្ញុំបានផ្តល់ជូនដូចខាងក្រោមដំបូន្មានអំពីការធ្វើការសម្រេចចិត្តនៅក្នុងមុខរបស់ភាពមិនច្បាស់លាស់ (ផ្នែកទី 6.6.4) បាន។

រូបភាពទី 6.6: យុទ្ធសាស្រ្តការចេញផ្សាយទិន្នន័យអាចនឹងធ្លាក់ចុះនៅតាមបណ្តោយបន្តមួយ។ ដែលជាកន្លែងដែលអ្នកគួរតែរួមជាបន្តនេះគឺអាស្រ័យលើសេចក្តីលម្អិតជាក់លាក់នៃទិន្នន័យរបស់អ្នក។ ក្នុងករណីនេះការពិនិត្យភាគីទីបីអាចជួយអ្នកសម្រេចចិត្តដែលតុល្យភាពនៃហានិភ័យនិងផលប្រយោជន៍ក្នុងករណីរបស់អ្នក។

រូបភាពទី 6.6: យុទ្ធសាស្រ្តការចេញផ្សាយទិន្នន័យអាចនឹងធ្លាក់ចុះនៅតាមបណ្តោយបន្តមួយ។ ដែលជាកន្លែងដែលអ្នកគួរតែរួមជាបន្តនេះគឺអាស្រ័យលើសេចក្តីលម្អិតជាក់លាក់នៃទិន្នន័យរបស់អ្នក។ ក្នុងករណីនេះការពិនិត្យភាគីទីបីអាចជួយអ្នកសម្រេចចិត្តដែលតុល្យភាពនៃហានិភ័យនិងផលប្រយោជន៍ក្នុងករណីរបស់អ្នក។

លើសពីនេះទៀតនៅក្នុងរវាងពីរករណីធ្ងន់ធ្ងរទាំងនេះគឺជាអ្វីដែលខ្ញុំនឹងបានគេហៅថាវិធីសាស្រ្តសួនច្បារមួយដែលមានកំពែងព័ទ្ធជុំវិញដែលជាកន្លែងដែលទិន្នន័យដែលត្រូវបានចែករំលែកជាមួយនឹងមនុស្សដែលបំពេញតាមលក្ខណៈវិនិច្ឆ័យមួយចំនួននិងអ្នកដែលយល់ព្រមនឹងត្រូវបានចងដោយច្បាប់មួយចំនួន (ឧទា, ការត្រួតពិនិត្យពីននិងជា IRB ផែនការការពារទិន្នន័យ) ។ វិធីសាស្រ្តសួនជញ្ជាំងនេះបានផ្តល់នូវការជាច្រើននៃអត្ថប្រយោជន៍នៃការដោះលែងនិងការភ្លេចជាមួយហានិភ័យតិច។ ជាការពិតណាស់វិធីសាស្រ្តសួនច្បារមួយដែលមានកំពែងព័ទ្ធជុំវិញដែលបង្កើតសំណួរជាច្រើនដែលគួរតែមានសិទ្ធិទទួលបានស្ថិតនៅក្រោមលក្ខខណ្ឌអ្វីដែល, សម្រាប់របៀបរយៈពេលយូរ, ដែលគួរតែយកដើម្បីរក្សានិងប៉ូលិសសួនជញ្ជាំងប៉ុន្តែលទាំងនេះគឺមិនដែលមើលទៅពិបាក។ នៅក្នុងការពិត, មានសួនច្បារមានកំពែងព័ទ្ធជុំវិញកំពុងធ្វើការរួចទៅហើយនៅក្នុងកន្លែងដែលអ្នកស្រាវជ្រាវអាចប្រើឥឡូវនេះដូចជាបណ្ណសារទិន្នន័យនៃសមាគមអន្តរសាកលវិទ្យាល័យសម្រាប់ការស្រាវជ្រាវផ្នែកនយោបាយនិងសង្គមនៅឯសាកលវិទ្យាល័យ Michigan ។

ដូច្នេះ, ដែលជាកន្លែងដែលទិន្នន័យពីការសិក្សារបស់អ្នកគួរតែនៅលើការបន្តនៃការចែករំលែកទេសួនជញ្ជាំងហើយដោះលែងនិងភ្លេច? វាអាស្រ័យទៅលើសេចក្ដីលម្អិតនៃទិន្នន័យរបស់អ្នក! ក្រុមអ្នកស្រាវជ្រាវត្រូវតែមានតុល្យភាពការគោរពចំពោះជន, គុណ, យុត្តិធម៍, និងការគោរពច្បាប់និងការប្រាក់សាធារណៈ។ នៅពេលដែលការវាយតម្លៃតុល្យភាពសមរម្យសម្រាប់ការសម្រេចចិត្តផ្សេងទៀតក្រុមអ្នកស្រាវជ្រាវស្វែងរកដំបូន្មាននិងការអនុម័តនៃ IRBs និងការចេញផ្សាយទិន្នន័យដែលអាចត្រូវបានគ្រាន់តែផ្នែកមួយផ្សេងទៀតនៃដំណើរការនោះ។ នៅក្នុងពាក្យផ្សេងទៀត, បើទោះបីមនុស្សមួយចំនួនគិតថាការចេញផ្សាយទិន្នន័យជា morass វិជ្ជាជីវៈអស់សង្ឃឹម, យើងមានប្រព័ន្ធនៅក្នុងកន្លែងដើម្បីជួយដល់ក្រុមអ្នកស្រាវជ្រាវមានតុល្យភាពរវាងប្រភេទនៃបញ្ហាវិជ្ជាជីវៈទាំងនេះរួចទៅហើយ។

វិធីចុងក្រោយមួយដើម្បីគិតអំពីការចែករំលែកទិន្នន័យគឺដោយស្រដៀងគ្នា។ ជារៀងរាល់គ្រឿងកាលពីឆ្នាំទទួលខុសត្រូវចំពោះមនុស្សរាប់ពាន់នាក់បានស្លាប់ប៉ុន្តែយើងមិនព្យាយាមហាមឃាត់ការបើកបរ។ នៅក្នុងការពិត, ដូចហៅទៅហាមឃាត់ការបើកបរមិនទំនងទេព្រោះនឹងមានការបើកបរអាចឱ្យអស្ចារ្យជាច្រើន។ ផ្ទុយទៅវិញសង្គមដាក់ការរឹតបន្តឹងលើអ្នកដែលអាចបើកបរ (ឧទាហរណ៍ចាំបាច់ត្រូវមានអាយុជាក់លាក់មួយ, ត្រូវបានឆ្លងកាត់ការសាកល្បងមួយចំនួន) និងរបៀបដែលពួកគេអាចបើកបរ (ឧទាហរណ៍, នៅក្រោមដែនកំណត់ល្បឿន) ។ សង្គមមានមនុស្សដែលទទួលបន្ទុកអនុវត្តច្បាប់ទាំងនេះ (ឧប៉ូលីសបាន), ហើយយើងបានដាក់ទោសមនុស្សដែលត្រូវបានគេចាប់រំលោភលើពួកគេ។ នេះជាប្រភេទដូចគ្នានៃការគិតដែលមានតុល្យភាពថាសង្គមបានអនុវត្តទៅកាន់ការគ្រប់គ្រងការបើកបរផងដែរអាចត្រូវបានអនុវត្តក្នុងការចែករំលែកទិន្នន័យ។ នោះគឺជា, ជាជាងការធ្វើឱ្យអាគុយម៉ង់ផ្ដាច់ការឬប្រឆាំងនឹងការចែករំលែកទិន្នន័យ, ខ្ញុំគិតថាផលប្រយោជន៍ធំបំផុតនឹងបានមកពីការរកមើលពីរបៀបដែលយើងអាចចែករំលែកទិន្នន័យកាន់តែច្រើនដោយសុវត្ថិភាព។

សរុបសេចក្តីមកហានិភ័យក្រៅផ្លូវការបានកើនឡើងយ៉ាងខ្លាំង, ហើយវាគឺជាការលំបាកខ្លាំងណាស់ក្នុងការទស្សន៍ទាយនិងបរិមាណ។ ដូច្នេះវាគឺជាការល្អបំផុតដើម្បីសន្មត់ថាទិន្នន័យទាំងអស់គឺមានសក្តានុពលដែលបានកំណត់អត្តសញ្ញាណនិងរសើបសក្តានុពល។ ដើម្បីកាត់បន្ថយហានិភ័យនៃការជូនដំណឹងនៅពេលធ្វើការស្រាវជ្រាវ, អ្នកស្រាវជ្រាវអាចបង្កើតនិងអនុវត្តតាមផែនការការពារទិន្នន័យ។ លើសពីនេះទៅទៀត, ហានិភ័យក្រៅផ្លូវការមិនរារាំងអ្នកស្រាវជ្រាវមកពីការចែករំលែកទិន្នន័យជាមួយអ្នកវិទ្យាសាស្ត្រដទៃទៀត។