6.6.2 разбирателство и управление информационен риск

Информационният риск е най-честият риск в социалните изследвания; тя се е увеличила драстично; и това е най-големият риск да се разбере.

Второто етично предизвикателство за изследванията в областта на цифровите технологии е информационният риск , потенциалът за нанасяне на вреда от разкриването на информация (National Research Council 2014) . Информационните вреди от разкриването на лична информация биха могли да бъдат икономически (напр. Загуба на работа), социални (напр. Смущение), психологически (например депресия) или дори престъпни (например задържане за незаконно поведение). За съжаление цифровата ера увеличава драстично информационния риск - има много повече информация за нашето поведение. И информационният риск се оказа много трудно да се разбере и да се управлява в сравнение с рисковете, които представляват опасения за аналогови социални изследвания, като например физически риск.

Един от начините, че социалните изследователи намаляват информационен риск е "запазване на анонимността" на данни. "Анонимност" е процес на отстраняване на очевидни лични идентификатори, като например име, адрес и телефонен номер от данните. Въпреки това, този подход е много по-малко ефективна, отколкото много хора си дават сметка, и това е, в действителност, дълбоко и фундаментално ограничен. Поради тази причина, когато описвам "на анонимност," Ще използвам кавички, за да ви напомня, че този процес създава облика на анонимност, но не е вярно анонимност.

Ясен пример за провал на "анонимизиране" идва от края на 90-те години на миналия век в Масачузетс (Sweeney 2002) . Групата за застраховане на групата (GIC) е правителствена агенция, отговаряща за закупуването на здравно осигуряване за всички държавни служители. Чрез тази работа GIC събра подробни здравни досиета за хиляди държавни служители. В стремежа си да стимулира изследванията, GIC реши да предостави тези данни на изследователите. Те обаче не споделяха всичките си данни; те "анонимизират" тези данни, като премахват информация като имена и адреси. Те обаче оставят друга информация, която според тях може да бъде полезна за изследователи като демографска информация (пощенски код, дата на раждане, етническа принадлежност и пол) и медицинска информация (данни за посещенията, диагноза, процедура) (фигура 6.4 (Ohm 2010) . За съжаление, тази "анонимност" не беше достатъчна, за да защити данните.

Фигура 6.4: Анонимизирането е процесът на премахване на очевидно идентифициращата информация. Например, при освобождаването на здравноосигурителните документи на държавните служители, комисията за застрахователна група в Масачузетс Груп (GIC) отстрани имената и адресите от файловете. Използвам кавичките около анонимизацията на думата, защото процесът създава анонимност, но не и реална анонимност.

Фигура 6.4: "Анонимизация" е процесът на премахване на очевидно идентифициращата информация. Например, при освобождаването на здравноосигурителните документи на държавните служители, комисията за застрахователна група в Масачузетс Груп (GIC) отстрани имената и адресите от файловете. Използвам кавичките около думата "анонимност", защото процесът създава анонимност, но не и действителна анонимност.

За да илюстрира недостатъците на "анонимизирането" на GIC, Latanya Sweeney, след това завършил студент в MIT, плати 20 долара, за да получи документите за гласуване от град Кеймбридж, родния град на Уилям Уелд, управител на Масачузетс. Тези записи за гласуване включват информация като име, адрес, пощенски код, дата на раждане и пол. Фактът, че файлът с медицинските данни и файлът на гласоподавателите споделят полета - пощенски код, дата на раждане и секс - означава, че Суини може да ги свърже. Суини знаеше, че рожденият ден на Уелд е 31 юли 1945 г., а записите за гласуване включват само шест души в Кеймбридж с този рожден ден. Освен това, от тези шест души само три бяха мъжки. И на тези трима мъже само един пощенски код на Уелд. По този начин данните от гласуването показаха, че всеки в медицинските данни с комбинацията на Уелд с дата на раждане, пол и пощенски код е Уилям Уелд. По същество тези три елемента предоставят уникален пръстов отпечатък в него. Използвайки този факт, Суини успя да открие медицинските досиета на Уелд и, за да го информира за подвига си, тя му изпрати копие от записите си (Ohm 2010) .

Фигура 6.5: Повторно идентифициране на анонимни данни. Латания Суини комбинира анонимизираните здравни досиета с протоколите за гласуване, за да намери медицинската документация на управителя Уилям Уелд, адаптиран от Sweeney (2002), фигура 1.

Фигура 6.5: Повторно идентифициране на "анонимни" данни. Латания Суини комбинира "анонимизираните" здравни досиета с протоколите за гласуване, за да намери медицинската документация на управителя Уилям Уелд, адаптиран от Sweeney (2002) , фигура 1.

Работата на Суини илюстрира основната структура на атаките за повторно идентифициране - да приеме термин от общността за компютърна сигурност. При тези нападения два комплекта данни, нито един от които сами по себе си не разкриват чувствителна информация, са свързани и чрез тази връзка се разкрива чувствителна информация.

В отговор на работата на Суини и друга свързана с нея работа изследователите по принцип премахват много повече информация - всички така наречени "лични данни" (PII) (Narayanan and Shmatikov 2010) - в процеса на "анонимизиране". Освен това много изследователи сега осъзнаваме, че някои данни - като медицински досиета, финансови записи, отговори на въпросите за незаконното поведение - вероятно са прекалено чувствителни за освобождаване дори след "анонимизиране". Примерите, които предстои да предложа, обаче, да променят мисленето си. Като първа стъпка е разумно да приемем, че всички данни са потенциално идентифицируеми и всички данни са потенциално чувствителни. С други думи, вместо да мислим, че информационният риск се отнася за малка част от проектите, трябва да приемем, че то се прилага до известна степен за всички проекти.

И двата аспекта на това преориентиране са илюстрирани от наградата Netflix. Както е описано в глава 5, Netflix пуска 100 милиона филмови рейтинги, осигурени от почти 500 000 членове и има отворен разговор, където хора от цял ​​свят подават алгоритми, които биха могли да подобрят способността на Netflix да препоръчва филми. Преди да освободи данните, Netflix премахна всяка очевидна лично идентифицираща информация, например имена. Те също така направиха допълнителна стъпка и въведоха леки смущения в някои от записите (например промяна на някои рейтинги от 4 звезди до 3 звезди). Те скоро открили, че въпреки усилията си, данните все още не са анонимни.

Само две седмици след пускането на данните Арвинд Нараянан и Витали Шматиков (2008) показаха, че е възможно да се запознаят с филмовите предпочитания на конкретни хора. Номерът на атаката за повторно идентифициране е подобен на този на "Суини": обединяват два източника на информация, едната с потенциално чувствителна информация и очевидно идентифицираща информация, която съдържа идентичност на хората. Всеки от тези източници на данни може да бъде индивидуално безопасен, но когато се комбинират, обединеният набор от данни може да създаде информационен риск. В случая на данните от Netflix, ето как може да се случи това. Представете си, че избирам да споделя моите мисли за действия и комедийни филми с моите колеги, но предпочитам да не споделям мнението си за религиозни и политически филми. Моите колеги могат да използват информацията, която съм споделила с тях, за да намеря моите записи в данните на Netflix; информацията, която споделям, може да бъде уникален пръстов отпечатък, точно като рождената дата на Уилям Уелд, пощенския код и пола. Тогава, ако открият уникалния си отпечатък в данните, те могат да научат рейтингите ми за всички филми, включително и за филми, които избирам да не споделям. В допълнение към този вид целенасочена атака, насочена към един човек, Нараянан и Шматиков също показаха, че е възможно да се извърши широка атака, включваща много хора, като се слеят данните от Netflix с лични и филмови рейтингови данни, които някои хора са избрали да публикувате в интернет база данни за филми (IMDb). Съвсем просто, всяка информация, която е уникален пръстов отпечатък на конкретен човек, дори набора от филмови рейтинги, може да бъде използвана за идентифицирането им.

Въпреки че данните от Netflix могат да бъдат идентифицирани повторно при целенасочена или широка атака, все пак може да изглежда, че са с нисък риск. В края на краищата оценките на филмите не изглеждат много чувствителни. Макар че това може да е вярно като цяло, за някои от 500 000 души в набора от данни оценките за филми може да са доста чувствителни. В действителност, в отговор на повторното идентифициране, затворена лесбийка се присъедини към дело срещу Netflix. Ето как проблемът е изразен в делото им (Singel 2009) :

"Данните от рейтинга и рейтинга съдържат информация от ... много личен и чувствителен характер. Филмовите данни на членовете показват личен интерес и / или борба с различни лични проблеми, включително сексуалност, психични заболявания, възстановяване от алкохолизъм и жертви от кръвосмешение, физическо насилие, домашно насилие, прелюбодеяние и изнасилване.

Повторното идентифициране на данните за наградата Netflix илюстрира едновременно, че всички данни са потенциално идентифицируеми и че всички данни са потенциално чувствителни. В този момент може би си мислите, че това се отнася само за данни, които претендират, че са за хора. Изненадващо, това не е така. В отговор на искането за Закона за свободата на информацията правителството на Ню Йорк публикува записите за всяко пътуване с такси в Ню Йорк през 2013 г., включително времето за излитане и излитане, местоположенията и размера на тарифите (припомняме от глава 2, че Farber (2015) използват подобни данни за тестване на важни теории в икономиката на труда). Тези данни за таксиметровите пътувания може да изглеждат благоприятни, защото изглежда не предоставят информация за хората, но Антъни Токър осъзна, че този набор от данни за таксита всъщност съдържа много потенциално чувствителна информация за хората. За да илюстрира, той разгледа всички разходки, започващи от Хустлер Клуб - голям стриптийз клуб в Ню Йорк - между полунощ и 6 часа сутринта, след което откриха местата си за отпадане. Това търсене разкри - по същество - списък на адресите на някои хора, които посещаваха Hustler Club (Tockar 2014) . Трудно е да си представим, че градското правителство имаше това предвид, когато издаваше данните. Всъщност тази същата техника може да се използва за намиране на домашни адреси на хора, които посещават всяко място в града - медицинска клиника, правителствена сграда или религиозна институция.

Тези два случая на наградата Netflix и данните от такситата в Ню Йорк показват, че сравнително квалифицираните хора не могат правилно да преценят информационния риск в данните, които издават - и тези случаи по никакъв начин не са уникални (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Освен това в много такива случаи проблематичните данни все още са свободно достъпни онлайн, което показва, че е трудно някога да бъде отменено освобождаването на данни. Колективно, тези примери - както и научните изследвания в областта на компютърните науки за личния живот - водят до важно заключение. Изследователите трябва да приемат, че всички данни са потенциално идентифицируеми и всички данни са потенциално чувствителни.

За съжаление, няма просто решение на фактите, че всички данни са потенциално идентифицируеми и че всички данни са потенциално чувствителни. Един от начините за намаляване на информационния риск, докато работите с данните, е да създадете и да следвате план за защита на данните . Този план ще намали вероятността данните Ви да изтекат и ще намалят вредата, ако по някакъв начин се получи изтичане. Спецификате на плановете за защита на данните, като например коя форма на криптиране да се използват, ще се променят с течение на времето, но британските служби за данни полезно организират елементите на плана за защита на данните в пет категории, които те наричат петте сейфове : безопасни проекти, , безопасни настройки, безопасни данни и безопасни изходи (таблица 6.2) (Desai, Ritchie, and Welpton 2016) . Никой от петте сейфове не осигурява индивидуална защита. Но заедно те формират мощен набор от фактори, които могат да намалят информационния риск.

Таблица 6.2: "Петте сейфове" са принципи за проектиране и изпълнение на план за защита на данните (Desai, Ritchie, and Welpton 2016)
сейф действие
Безопасни проекти Ограничава проектите с данни до тези, които са етични
Безопасни хора Достъпът е ограничен до хора, на които може да се вярва с данни (напр. Хора, които са преминали през етично обучение)
Безопасни данни Данните са дефинирани и обобщени доколкото е възможно
Безопасни настройки Данните се съхраняват на компютри с подходяща физическа защита (напр. Заключена стая) и софтуер (напр. Защита с парола, криптирана)
Безопасен изход Резултатите от изследването се преразглеждат, за да се предотврати случайно нарушаване на поверителността

В допълнение към защитата на данните, докато ги използвате, една стъпка в изследователския процес, където информационният риск е особено важен, е споделянето на данни с други изследователи. Споделянето на данни между учени е основна ценност на научното начинание и значително улеснява напредването на знанието. Ето как Камарата на общините в Обединеното кралство описа важността на споделянето на данни (Molloy 2011) :

"Достъпът до данни е от основно значение, за да могат изследователите да възпроизвеждат, да проверяват и да се основават на резултатите, които се съобщават в литературата. Презумпцията трябва да бъде, че освен ако няма сериозна причина за това, данните трябва да бъдат напълно оповестени и направени обществено достъпни. "

Въпреки това, като споделите данните си с друг изследовател, може да увеличите информационния риск за участниците си. По този начин може да изглежда, че споделянето на данни създава фундаментално напрежение между задължението за обмен на данни с други учени и задължението за минимизиране на информационния риск за участниците. За щастие, тази дилема не е толкова тежка, колкото изглежда. По-добре е по-добре да обмислим споделянето на данни като падащи по продължение, като всяка точка от този континуум осигурява различна комбинация от ползи за обществото и риск за участниците (фигура 6.6).

В една крайност можете да споделяте данните си с никого, което минимизира риска за участниците, но също така минимизира печалбите за обществото. В другата крайност можете да освободите и забравите , където данните са "анонимни" и се публикуват за всички. В сравнение с това, че не се освобождават данни, освобождаването и забравянето предлага както по-високи ползи за обществото, така и по-висок риск за участниците. Между тези два екстремни случая има редица хибриди, включително и това, което ще нарека озеленен градински подход. При този подход данните се споделят с хора, които отговарят на определени критерии и които се съгласяват да бъдат обвързани от определени правила (напр. Надзор от IRB и план за защита на данните). Подходът с градински градини осигурява много от предимствата на освобождаването и забравяйте с по-малък риск. Разбира се, подобен подход създава много въпроси - кой трябва да има достъп, при какви условия и колко време, кой трябва да плаща, за да поддържа и полицелира оградената градина и т.н. - но те не са непреодолими. Всъщност вече съществуват работни оградени градини, които изследователите могат да използват в момента, като например архив с данни на Междууниверситетския консорциум за политически и социални изследвания в Мичиганския университет.

Фигура 6.6: Стратегиите за освобождаване на данни могат да паднат по продължение на континуум. Където трябва да бъдете в този континуум, зависи от специфичните подробности на вашите данни, а прегледът от трети страни може да ви помогне да решите подходящия баланс на риска и ползата във вашия случай. Точната форма на тази крива зависи от спецификата на данните и изследователските цели (Goroff 2015).

Фигура 6.6: Стратегиите за освобождаване на данни могат да паднат по продължение на континуум. Където трябва да бъдете в този континуум, зависи от специфичните подробности на вашите данни, а прегледът от трети страни може да ви помогне да решите подходящия баланс на риска и ползата във вашия случай. Точната форма на тази крива зависи от спецификата на данните и изследователските цели (Goroff 2015) .

И така, къде би трябвало данните от вашето проучване да бъдат на континуум на не споделяне, стените на градината и да се освободят и забравят? Това зависи от детайлите на вашите данни: изследователите трябва да балансират Respect for Persons, Beneficience, Justice и Respect for Law и Public Interest. Гледано от тази гледна точка, обменът на данни не е отличителен етичен хаос; това е само един от многото аспекти на научните изследвания, в които изследователите трябва да намерят подходящо етично равновесие.

Някои критици обикновено се противопоставят на обмена на данни, защото според мен те са съсредоточени върху рисковете - които несъмнено са реални - и пренебрегват ползите от нея. Така че, за да се насърчи фокусът както върху рисковете, така и върху ползите, бих искал да предложа аналогия. Всяка година автомобилите са причина за хиляди смъртни случаи, но не се опитваме да забраним шофирането. Всъщност, призивът за забрана на шофирането би бил абсурден, защото шофирането позволява много чудесни неща. По-скоро обществото поставя ограничения върху това, кой може да кара (например, необходимостта да бъде определена възраст и да е преминал определени тестове) и как те могат да управляват (напр. Под ограничението за скорост). Обществото има и хора, натоварени с прилагането на тези правила (напр. Полицията), и ние наказваме хората, които са уловени, да ги нарушават. Същият вид балансирано мислене, което обществото прилага при регулирането на управлението, може да се приложи и при обмена на данни. Тоест, вместо да вземаме абсолютни аргументи за или против обмена на данни, мисля, че ще постигнем най-голям напредък, като се съсредоточим върху това как можем да намалим рисковете и да увеличим ползите от обмена на данни.

За да се заключи, информационният риск се е увеличил драматично и е много трудно да се предскаже и да се определи количествено. Ето защо най-добре е да се приеме, че всички данни са потенциално идентифицируеми и потенциално чувствителни. За да намалят информационния риск при извършване на изследвания, изследователите могат да създават и следват план за защита на данните. Освен това информационният риск не пречи на изследователите да споделят данни с други учени.