6.6.2 түсіну және ақпараттық тәуекелдерді басқару

Ақпараттық тәуекел - әлеуметтік зерттеулердегі ең көп таралған тәуекел; ол күрт өсті; және түсіну қиын.

Цифрлық жас (National Research Council 2014) зерттеуге арналған екінші этикалық проблема ақпараттың ашылуынан болатын зиян әлеуеті (National Research Council 2014) . Жеке ақпараттың ашылуынан келтірілген ақпараттық зиян экономикалық (мысалы, жұмысын жоғалту), әлеуметтік (мысалы, ыңғайсыздық), психологиялық (мысалы, депрессия), тіпті қылмыскерді (мысалы, заңсыз әрекеттер үшін қамауға алу) болуы мүмкін. Өкінішке орай, сандық ғасыр ақпарат қауіп-қатерін күрт арттырады - біздің мінез-құлқымыз туралы көп ақпарат бар. Ақпараттық тәуекел тәуекелі сияқты аналогтық әлеуметтік зерттеулерге қатысты қауіптермен салыстырғанда, түсіну мен басқаруға өте қиын болды.

Әлеуметтік зерттеушілер ақпараттық қаупін азайтатын деп бір жолы деректер «жасырын» болып табылады. «Анонимдігі» деректер осындай аты, мекен-жайы, телефон нөмірі және сондай-ақ айқын жеке идентификаторларын алып тастау процесі болып табылады. Алайда, бұл тәсіл көптеген адамдар ойлағаннан әлдеқайда аз тиімді болып табылады, және ол шын мәнінде, терең және түбегейлі шектеулі болып табылады. Сол себепті, мен сипаттау болған жағдайда «анонимді,» Мен бұл процесс анонимдік емес, шынайы анонимдік көрінісін жасайды естеріңізге саламыз тырнақша пайдаланасыз.

«Анонимацияның» сәтсіздігінің жарқын мысалы Массачусетстегі 90-шы жылдардың соңынан келеді (Sweeney 2002) . Топтық сақтандыру жөніндегі комиссия (GIC) барлық мемлекеттік қызметкерлер үшін медициналық сақтандыруды сатып алуға жауапты мемлекеттік орган болды. Осы жұмыс арқылы GIC мыңдаған мемлекеттік қызметкерлер туралы толығымен медициналық деректер жинады. Зерттеуді ынталандыру мақсатында GIC осы жазбаларды зерттеушілерге жіберуге шешім қабылдады. Дегенмен, олар барлық деректерді бөліспеді; Керісінше, олар осы деректерді «атауларды» және «мекен-жайларды» жою арқылы «анонимді» жасайды. Дегенмен, демографиялық ақпарат (пошталық индекс, туған күн, этностық және жыныстық қатынас) және медициналық ақпарат (бару, диагноз қою, рәсімдеу) сияқты зерттеушілерге пайдалы болуы мүмкін басқа да ақпараттарды қалдырды (6.4 сур.) (Ohm 2010) . Өкінішке орай, бұл «анонимизация» деректерді қорғау үшін жеткіліксіз болды.

6.4-сурет: Анонимизация - айқын анықтайтын ақпаратты жою процесі. Мысалы, мемлекеттік қызметкерлердің медициналық сақтандыру туралы жазбаларын шығарған кезде, Массачусетс тобының сақтандыру жөніндегі комиссиясы (GIC) файлдардан аттар мен мекен-жайларды алып тастады. Мен анонимизация сөзінің айналасында тырнақшаларды қолданамын, себебі процесс жасырындықтың пайда болуын қамтамасыз етеді, бірақ нақты жасырын емес.

6.4-сурет: «Анонимизация» - айқын анықтайтын ақпаратты жою процесі. Мысалы, мемлекеттік қызметкерлердің медициналық сақтандыру туралы жазбаларын шығарған кезде, Массачусетс тобының сақтандыру жөніндегі комиссиясы (GIC) файлдардан аттар мен мекен-жайларды алып тастады. Мен «анонимизация» сөзінің айналасында тырнақшаларды қолданамын, себебі процесс жасырындықтың пайда болуын қамтамасыз етеді, бірақ нақты жасырын емес.

GIC-ті «анонимизациялау» кемшіліктерін көрсету үшін MIT-тың аспиранты Latanya Sweeney Массачусетс губернаторы Уильям Вельттің туған қаласы Кембридж қаласынан дауыс беру жазбаларын алу үшін 20 $ төледі. Бұл дауыс беру жазбалары атау, мекен-жайы, пошталық индексі, туған күні және жынысы сияқты ақпаратты қамтиды. Медициналық деректер файлы және сайлаушылардың файлдары ортақ пайдаланылатын жерлер - пошталық индекс, туған күн және секс - бұл Sweeney оларды байланыстыратын дегенді білдіреді. Суини Велдтің туған күнін 1945 жылдың 31 шілдесінде білетінін және дауыс беру жазбаларына Кембриджде осы туған күнмен алты адам ғана кіретінін білді. Бұдан басқа, алты адамның тек үшеуі ер болды. Және сол үш адамнан бір ғана Weld пошталық индексті бөлісті. Осылайша, дауыс беру деректері Weld компаниясының туған күні, жынысы және пошталық индекстерінің комбинациясы бар медициналық деректерде Уильям Вельд болды. Мәні бойынша осы үш мәлімет деректерге бірегей саусақ ізін берді. Осы фактіні пайдаланып, Sweeney Weld-тің медициналық жазбаларын табуға қабілетті болды және оған ерні туралы хабарлау үшін ол өзінің жазбаларының көшірмесін жіберді (Ohm 2010) .

Сурет 6.5: Анонимді деректерді қайта анықтау. Латания Суэни есімді анонимді медициналық жазбаларды дауыс беру жазбаларына біріктірді, ол сувенирдің губернаторы Уильям Вельдті (2002), 1-суретте табуға болады.

6.5-сурет: «анонимді» деректерді қайта анықтау. Латании Суэни «анонимді» денсаулық туралы жазбаларды дауыс беру жазбаларына біріктірді. Ол Уильям Уэллдің Sweeney (2002) бейімделген медициналық жазбаларын табу үшін, 1-сурет.

Суинидің жұмысы қайта сәйкестендіру шабуылдарының негізгі құрылымын бейнелейді - компьютер қауіпсіздігі қоғамдастығынан термин қабылдау. Бұл шабуылдарда екі деректер жиынтығы бар, олардың бірде-біреуі құпия ақпаратты ашып көрсетеді, және осы байланыс арқылы құпия ақпарат ашылады.

Свинидің жұмысына және басқа да осыған байланысты жұмыстарға жауап ретінде, зерттеушілер қазіргі уақытта «анонимизация» процесін жасай отырып, әдетте «жеке сәйкестендіретін ақпараттар» (PII) деп аталатын (Narayanan and Shmatikov 2010) әлдеқайда көп ақпарат алып тастайды. Сонымен қатар көптеген зерттеушілер енді «анонимизациядан» кейін тіпті медициналық құжаттар, қаржылық есептер, заңсыз мінез-құлық туралы сауалнама сұрақтарына жауаптар сияқты белгілі бір деректердің бар екендігін түсінеді. Алайда, менің мысалда әлеуметтік зерттеушілерге олардың ойларын өзгерту. Алғашқы қадам ретінде, барлық деректер ықтимал сәйкестендірілетін және барлық деректер ықтимал сезімтал деп болжанған жөн. Басқаша айтқанда, ақпараттық тәуекелдер жобалардың кішігірім жиынтығына қатысты деп ойлағаннан гөрі, ол бір дәрежеде - барлық жобаларға қатысты деп есептелуі керек.

Бұл қайта бағыттаудың екі аспектісі Netflix сыйлығымен сипатталады. 5-тарауда айтылғандай, Netflix 500,000-ға жуық мүшелердің 100 миллион кино рейтингісін шығарды және бүкіл әлемнің тұрғындары Netflix фильмдерін ұсынуға қабілеттілігін жақсарта алатын алгоритмдер ұсынған ашық қоңырау шалған. Деректерді шығармас бұрын, Netflix атаулар сияқты айқын жеке анықтайтын ақпаратты жойды. Олар сондай-ақ қосымша қадам жасады және кейбір жазбаларда (мысалы, 4 жұлдыздан 3 жұлдызға дейінгі кейбір рейтингтерді өзгерту) аздап наразылықтарды енгізді. Алайда көп ұзамай олардың күш-жігеріне қарамастан, деректер әлі де жасырын емес екенін анықтады.

Деректер шыққаннан кейін екі апта өткен соң, Арвинд Нараянан және Виталий Шматиков (2008) белгілі бір адамдардың кинофильмінің артықшылықтары туралы білуге ​​болатындығын көрсетті. Sweeney-ді қайта сәйкестендіру шабуылына ұқсастық екі ақпарат көзін біріктірді, біреуі ықтимал құпия ақпараттармен және ешкім анықтайтын ақпараттармен, сондай-ақ, адамның жеке басын куәландыратын мәліметтерден тұрады. Осы деректер көздерінің әрқайсысы жеке қауіпсіз болуы мүмкін, бірақ біріктірілген кезде, біріктірілген деректер жиынтығы ақпараттық тәуекелді тудыруы мүмкін. Netflix мәліметтері болған жағдайда, бұл қалай болуы мүмкін. Менің әріптестеріммен әрекеттер мен комедия фильмдер туралы ойларымен бөлісуді таңдағанымды елестетіп көріңізші, бірақ мен діни және саяси фильмдер туралы пікірімді бөліспеуді жөн көремін. Менің әріптестерім Netflix мәліметтерімде менің жазбаларымды табу үшін олармен бөлісті. Мен бөлісетін ақпарат Уильям Уэлдтың туған күні, пошталық индексі және жынысы секілді бірегей саусақ ізі болуы мүмкін. Содан кейін, егер олар менің деректеріме бірегей саусақ ізін тапса, олар барлық фильмдер туралы, соның ішінде бөліспейтін фильмдер туралы менің бағалауларымды біле алады. Нараанан мен Шматиков жеке адамға бағытталған осы мақсатқа бағытталған шабуылдан басқа, көптеген адамдардың қатысуымен Netflix деректерін дербес және кино рейтингі деректерімен біріктіріп, кең таңдау жасай алатындығын көрсетті Internet Movie Database деректер базасына (IMDb) орналастыру. Қарапайым, қарапайым адамға арналған бірегей саусақ ізі бар кез-келген ақпарат, тіпті олардың кинофильмдер рейтингінің жиынтығы да оларды анықтау үшін пайдаланылуы мүмкін.

Netflix деректерін мақсатты немесе кең шабуылдарда қайта анықтауға болады, бірақ ол әлі де төмен тәуекелге ұқсауы мүмкін. Өйткені, фильмдер рейтингілері өте сезімтал емес. Дегенмен, бұл шындыққа сәйкес болуы мүмкін, ал деректер жиынтығында 500 000 адамның кейбірі үшін кинотеындылар өте сезімтал болуы мүмкін. Шын мәнінде, қайта сәйкестендіруге жауап ретінде жабық лесбияндық әйел Netflix-ке қарсы іс-әрекет кофесіне қосылды. Мәселе олардың сот процесінде қалай көрініс (Singel 2009) туралы (Singel 2009) :

«[M] ovie және рейтингі деректерінде ... жоғары жеке және сезімтал сипаты туралы ақпарат бар. Қатысушы кинофильмі Netflix қатысушысының жеке қызығушылығын тудырады және / немесе сексуалдылық, психикалық аурулар, алкоголизмнен қалпына келтіру, инкассодан, физикалық зорлық-зомбылықтан, тұрмыстық зорлық-зомбылықтан, неке адалдығын бұзудан және зорлаудан құтылу сияқты әртүрлі жеке мәселелермен күреседі ».

Netflix Prize деректерін қайта сәйкестендіру барлық деректердің әлеуетті сәйкестендірілетінін және барлық деректер ықтимал сезімтал екендігін көрсетеді. Осы сәтте сіз бұл туралы тек қана адамдар туралы ақпаратқа қатысты қолдануға болады деп ойлауыңыз мүмкін. Таңқаларлық жағдай емес. Ақпараттық құқық туралы бостандық туралы өтінішке жауап ретінде, Нью-Йорк үкіметі 2013 жылы Нью-Йорктегі барлық такси сапарының жазбаларын, соның ішінде, іріктеу және түсіру уақыттарын, орындары мен тарифтерін Farber (2015) еңбек экономикасы саласындағы маңызды теорияларды сынау үшін ұқсас деректерді қолданды. Бұл таксимен шыққандар туралы деректер адамдарға қатысты ақпарат бермейтіндіктен көрінеді, бірақ Энтони Токар бұл такси деректер жиынтығында адамдар туралы көптеген ықтимал ақпарат бар екенін түсінді. Мысалы, Нью-Йорктегі «Хьюстлер» клубында - түн ортасына дейін және таңғы 6-да болған үлкен жолақ клубынан бастап, сапардан шығып кету орындарын анықтаған. Бұл іздеу, негізінен, Хьюстлер клубы (Tockar 2014) қатысқан кейбір адамдардың мекенжайларының тізімін анықтады. Деректерді шығарған кезде қалалық билік бұл туралы есіне түсірді. Шын мәнісінде, сол техниканы қаланың кез-келген жеріне баратын адамдардың медициналық мекен-жайын - емхананы, үкіметтік ғимаратты немесе діни мекемені табу үшін қолдануға болады.

Netflix сыйлығының және Нью-Йорктегі такси деректерінің осы екі жағдайлары салыстырмалы түрде білікті мамандар олар шығарған деректердегі ақпараттық қауіпті дұрыс бағалауға қабілетсіз екенін көрсетеді және бұл жағдай бірегей емес (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Сонымен қатар, осындай көптеген жағдайларда проблемалық деректер онлайн режимінде қолжетімді болып табылады, бұл деректерді босатудың қиындықтарын анықтайды. Бұл мысалдар, сондай-ақ информатикадағы құпиялылық туралы зерттеулер, маңызды қорытындыға алып келеді. Зерттеушілер барлық деректер ықтимал сәйкестендірілетін және барлық деректер ықтимал сезімтал деп болжауға тиіс.

Өкінішке орай, барлық деректер ықтимал сәйкестендірілетін және барлық деректер ықтимал сезімтал болған фактілерге қарапайым шешім жоқ. Дегенмен, деректермен жұмыс істеу кезінде ақпараттық қауіпті азайтудың бір жолы деректерді қорғау жоспарын жасау және сақтау болып табылады. Бұл жоспар сіздердің деректеріңіз ағып кету мүмкіндігін азайтады және қандай да бір ақаулар пайда болған жағдайда зиянды азайтады. Деректерді қорғау жоспарларының ерекшеліктері, мысалы, шифрлаудың қандай нысаны уақыт өте келе өзгереді, бірақ Ұлыбритания деректер қызметтері бес сейф деп аталатын бес санатқа деректерді қорғау жоспарының элементтерін пайдалы түрде ұйымдастырады: қауіпсіз жобалар, қауіпсіз адамдар , қауіпсіз параметрлер, қауіпсіз деректер және қауіпсіз нәтижелер (кесте 6.2) (Desai, Ritchie, and Welpton 2016) . Бес сейфтің бірде-біреуі жеке қорғаусыз қамтамасыз етеді. Бірақ олар бірге ақпараттық тәуекелді азайтатын күшті факторлар жиынтығын құрайды.

6.2-кесте: «Бес сейфтер» Деректерді қорғау жоспарын құрастыру және орындау қағидалары (Desai, Ritchie, and Welpton 2016)
Қауіпсіз Әрекет
Қауіпсіз жобалар Деректермен этикалық жобаларға шектеу жасайды
Қауіпсіз адамдар Деректермен сенімді болуы мүмкін адамдар (мысалы, этикалық білім алған адамдар)
Қауіпсіз деректер Деректер ықтимал дәрежеде анықталған және біріктіріледі
Қауіпсіз параметрлер Деректер тиісті физикалық (мысалы, бұғатталған бөлме) және бағдарламалық қамтамасыз етумен (мысалы, құпия сөзбен қорғау, шифрланған) компьютерлерде сақталады
Қауіпсіз шығу Зерттеу нәтижесі құпиялылықтың кездейсоқ бұзылуына жол бермеу үшін қарастырылады

Сіз оларды пайдаланып жатқан кезде деректеріңізді қорғаудан басқа, ақпараттық тәуекелге ерекше назар аударатын зерттеу процесінің бір қадамы басқа зерттеушілермен деректерді бөлісу болып табылады. Ғалымдар арасында деректерді ортақ пайдалану - бұл ғылыми жұмысдың негізгі құндылығы және ол білімнің дамуына айтарлықтай жеңілдік береді. Ұлыбритания Корольдігінің палатасы деректерді ортақ пайдаланудың маңыздылығын сипаттады (Molloy 2011) :

«Деректерге қол жеткізу зерттеушілер әдебиетте баяндалған нәтижелерге көбейту, дәлелдеу және жасау керек болса, маңызды. Презумпция, егер басқаша дәлелдеме болмаса, деректер толығымен жарияланып, жалпыға қол жетімді болуы керек ».

Дегенмен сіздің деректеріңізді басқа зерттеушімен бөлісу арқылы сіз өзіңіздің қатысушыларыңызға ақпараттық тәуекелді арттыра аласыз. Осылайша, деректерді бөлісу басқа ғалымдармен деректерді бөлісу міндеті мен қатысушылардың ақпараттық қауіп-қатерін барынша азайту міндеті арасында түбегейлі шиеленіс тудырады. Бақытымызға орай, бұл дилемма пайда болғандай ауыр емес. Керісінше, деректерді ортақ пайдалану туралы ойластырған жөн, бұл континумалға түсіп, қоғамға пайдасы әртүрлі және қатысушыларға қауіп төндіреді (6.6-сурет).

Бір шеткі жағдайда, сіз деректеріңізді ешкіммен бөлісе алмайсыз, ол қатысушыларға қауіп төндіреді, сонымен қатар қоғамға пайда әкеледі. Екінші жағынан, деректерді «анонимді» және барлық адамдар үшін орналастырылған жерде босатып, ұмытып кетуге болады. Деректерді шығармауға, босатуға және ұмытуға қатысты қоғамға жоғары пайда әкеледі және қатысушыларға қауіп төндіреді. Осы екі төтенше жағдайдың арасында гибридтердің ауқымы, соның ішінде қабырғалық бақтың тәсілін деп атайтын нәрсе. Мұндай тәсіл арқылы деректер белгілі бір критерийлерге жауап беретін адамдармен белгілі бір ережелермен (мысалы, IRB-нің қадағалауы мен деректерді қорғау жоспары) байланыстыруға келісетін адамдармен бөлісіледі. Қабырғаға төзімді балабақшасы босатудың көптеген артықшылықтарын қамтамасыз етеді және аз тәуекелді ұмытып кетеді. Әрине, мұндай көзқарас көптеген мәселелерді тудырады: кімге қолжетімді болуы керек, қандай жағдайда, қанша уақытқа дейін, қанша қабырғалы бақты ұстауға және полицияға ақша төлеуге болады және т.б. - бірақ бұл мүмкін емес. Мичиган университетіндегі саяси және әлеуметтік зерттеулер жөніндегі университеттер арасындағы консорциумның деректер мұрағаты сияқты қазіргі уақытта зерттеушілер қазір қолданыла алатын жұмыс қабырғалары бар бақтар бар.

6.6-сурет: Деректерді шығару стратегиясы үздіксіздікке жетуі мүмкін. Бұл континуалды болуыңыз керек жерде сіздің деректеріңіздің нақты мәліметтеріне байланысты және үшінші тараптың шолуы сіздің ісіңіздегі тәуекел мен сәйкесінше теңгерімді шешуге көмектесуі мүмкін. Бұл қисықтың нақты пішіні деректердің ерекшеліктері мен зерттеу мақсаттарына байланысты (Goroff 2015).

6.6-сурет: Деректерді шығару стратегиясы үздіксіздікке жетуі мүмкін. Бұл континуалды болуыңыз керек жерде сіздің деректеріңіздің нақты мәліметтеріне байланысты және үшінші тараптың шолуы сіздің ісіңіздегі тәуекел мен сәйкесінше теңгерімді шешуге көмектесуі мүмкін. Бұл қисықтың нақты пішіні деректердің ерекшеліктері мен зерттеу мақсаттарына байланысты (Goroff 2015) .

Сонымен, сіздің зерттеуіңіздегі деректер қай жерде болмасын, қабырғадағы бақша болмайды және босатылып, ұмытып кетуі керек? Бұл сіздің деректеріңіздің егжей-тегжейіне байланысты: зерттеушілер Адамдарға деген құрметтеуді, қайырымдылықты, әділеттілікті және заңдылықты және қоғамдық мүдделерді құрметтеуді қамтамасыз етуі керек. Осы тұрғыдан алғанда, деректерді бөлісу - этикалық мінез-құлық емес; зерттеушілер тиісті этикалық тепе-теңдікті табу керек болатын зерттеулердің көптеген аспектілерінің бірі ғана.

Кейбір сыншылар, әдетте, деректерді ортақ пайдалануға қарсы, себебі, менің ойымша, олар өздерінің тәуекелдеріне бағдарланған - олар, сөзсіз, нақты және оның артықшылықтарын елемейді. Мәселен, тәуекелдер мен жеңілдіктерге назар аудару үшін, мен ұқсастығын ұсынғым келеді. Жыл сайын машиналар мыңдаған өлімге жауапты, бірақ біз көлік жүргізуге тыйым салуға тырыспаймыз. Шындығында, көлік жүргізуді тыйым салу туралы шақыру абсурдтық болар еді, себебі көлік жүргізу көптеген тамаша нәрселерге мүмкіндік береді. Керісінше, қоғам белгілі бір жастағы адамдарға (мысалы, белгілі бір жаста болуы және белгілі бір сынақтардан өтуі) және оларды қалай басқаруға болатындығына (мысалы, жылдамдық шегі бойынша) шектеулер қояды. Қоғам сондай-ақ осы ережелерді орындауды тапсырған адамдарға (мысалы, полицияға) ие болып, оларды бұзатын адамдарды жазалаймыз. Қоғамның деректерді ортақ пайдалану үшін реттейтін көлік жүргізуіне қатысты қолданатын теңдестірілген ойлаудың осындай түрі. Яғни, деректерді ортақ пайдалануға немесе қарсы тұруға абсолюттік дәлелдер жасаудан гөрі, тәуекелдерді төмендетуге және деректерді бөлісуден пайда алу мүмкіндігіне назар аудара отырып, біз ең көп жетістікке жетеміз деп ойлаймын.

Қорытындылай келе, ақпараттық қауіп-қатер айтарлықтай өсті, болжау және санау өте қиын. Сондықтан, барлық деректер ықтимал түрде анықталуы мүмкін және ықтимал сезімтал деп есептеуге болады. Зерттеу барысында ақпараттық тәуекелді төмендету үшін зерттеушілер деректерді қорғау жоспарын жасай алады және қадағалай алады. Бұдан басқа, ақпараттық тәуекел зерттеушілерге басқа ғалымдармен деректер алмасуға кедергі болмайды.