6.6.2 разбирателство и управление информационен риск

Този превод е създаден от компютър. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

6.6.2 разбирателство и управление информационен риск

Информация риск е най-честата риска в социални изследвания; той се е увеличил драстично; и това е най-трудната риска да се разбере.

Вторият етично предизвикателство за цифров изследвания социалната възраст е информационен риск, потенциалът за увреждане от разкриването на информация (Council 2014) . Информационни вреди от разкриването на лична информация може да бъде икономически (например, загуба на работа), социално (например, срам), психологически (например, депресия), или дори наказателна (например, арест за незаконно поведение). За съжаление, в цифровата ера увеличава информация риск драматично-има толкова много повече информация за нашето поведение. И, информационен риск се оказа много трудно да се разбере и да управлява в сравнение с рисковете, които бяха опасения в аналогов възраст социални изследвания, като например физическа опасност. За да видите как дигиталната епоха увеличава информационен риск, помисли за прехода от хартия до електронни медицински досиета. И двата вида записи създават риск, но електронните записи създават много по-големи рискове, защото на по-голям мащаб, те могат да бъдат предадени на неупълномощено лице или слети с други записи. Социални изследователи в цифровата ера вече работят в неприятности с информационен риск, отчасти защото те не разбират напълно как да се определи количествено и да го управлявате. Така че, аз ще се предлагат полезен начин да се мисли за информационен риск, и тогава аз ще ви дам някои съвети за това как да се управлява информационен риск в научните изследвания и в освобождаването на данни с други изследователи.

Един от начините, че социалните изследователи намаляват информационен риск е "запазване на анонимността" на данни. "Анонимност" е процес на отстраняване на очевидни лични идентификатори, като например име, адрес и телефонен номер от данните. Въпреки това, този подход е много по-малко ефективна, отколкото много хора си дават сметка, и това е, в действителност, дълбоко и фундаментално ограничен. Поради тази причина, когато описвам "на анонимност," Ще използвам кавички, за да ви напомня, че този процес създава облика на анонимност, но не е вярно анонимност.

Ярък пример за провала на "запазване на анонимността" идва от края на 1990 г. в Масачузетс (Sweeney 2002) . Застраховка комисия Group (GIC) е правителствена агенция, отговорна за закупуване на здравно осигуряване за всички държавни служители. Чрез тази работа, на ГИК събира подробни здравни записи за хиляди държавни служители. В стремежа си да стимулира научните изследвания за начините за подобряване на здравето, GIC реши да освободи тези записи да изследователи. Въпреки това, те не споделят всички им данни; по-скоро, те "анонимна" го чрез премахване на информация като име и адрес. Въпреки това, те са напуснали друга информация, която преценила, че може да бъде полезна за изследователи като демографска информация (пощенски код, дата на раждане, етническа принадлежност, пол и) и медицинска информация (данни посещение, диагностика, процедура) (Фигура 6.4) (Ohm 2010) . За съжаление, тази "на анонимност" не е достатъчен, за да се защитят данните.

Фигура 6.4: анонимност, е процес на премахване очевидно идентифицираща информация. Например, при освобождаване на медицинските застраховки регистрите на държавните служители Група Insurance комисия на щата Масачузетс (GIC) отстранява име и адрес от файловете. Аз използвам кавички около думата на анонимност, тъй като процесът предвижда появата на анонимност, но не действителната анонимност.

Фигура 6.4: "анонимност" е процес на отстраняване очевидно идентифицираща информация. Например, при освобождаване на медицинските застраховки регистрите на държавните служители Група Insurance комисия на щата Масачузетс (GIC) отстранява име и адрес от файловете. Аз използвам кавички около "на анонимност" на думата, тъй като процесът предвижда появата на анонимност, но не действителната анонимност.

За да се убедите недостатъците на "запазване на анонимността" GIC, Latanya Sweeney-после студент в MIT-плаща по $ 20 за придобиване на записите на глас от град Кеймбридж, родния град на щата Масачузетс губернатор Уилям Weld. Тези гласуват записи са включени данни като име, адрес, пощенски код, дата на раждане и пол. Фактът, че медицинската файла с данни и избирател файл споделена полета-пощенски код, дата на раждане, и пол-означаваше, че Суини може да ги свърже. Суини знаеше, че рожден ден Weld беше 31 Юли 1945, и записите на глас, включени само шест души в Кеймбридж с които рожден ден. Освен това, на тези шест души, само три са били мъже. И, на тези трима мъже, само един споделен пощенски код Weld е. По този начин, данните от гласуването показаха, че някой в медицински данни с комбинация от дата на раждане, пол, както и пощенски код Weld беше William Weld. По същество, тези три парчета на информация, предвидени уникален пръстов отпечатък, за да го в данните. Използването на този факт, Суини е в състояние да намери медицинска документация Weld, а за да го информира за нея подвиг, тя го изпраща по пощата копие от документацията си (Ohm 2010) .

Фигура 6.5: Re-idenification на анонимни данни. Latanya Суини комбинира анонимни здравни записи с записи на глас, за да намерите най-медицинската документация на губернатор Уилям Weld (Суини 2002).

Фигура 6.5: Re-idenification на "анонимни" данни. Latanya Суини комбиниран на "анонимни" здравни записи с записи на глас, за да намерите най-медицинската документация на губернатор Уилям Weld (Sweeney 2002) .

Работа Суини илюстрира основната структура на де-анонимизирането атаки -да приемат срок от общността на компютърната сигурност. В тези атаки, две групи от данни, нито една от които само по себе си разкрива поверителна информация, са свързани, и чрез тази връзка, чувствителна информация е изложена. В някои отношения този процес е подобен на начина, по който сода и оцет, две вещества, които са сами по себе си в безопасност, могат да се комбинират, за да се получи неприятен резултат.

В отговор на работа на Суини, и други, свързани с работата, изследователи сега обикновено премахват много повече информация-всичко така наречената "лично идентифицираща информация" (PII) (Narayanan and Shmatikov 2010) -during процеса на "запазване на анонимността." Освен това, много изследователи сега осъзнават, че някои данни, като например медицински данни, финансови документи, отговори на въпросите в проучването за незаконно поведение-вероятно е твърде чувствителна за да се освободи дори и след "на анонимност." Въпреки това, по-скорошни примери, които ще описват по-долу показват, че социалните изследователи трябва да променят своето мислене. Като първа стъпка, че е разумно да се предположи, че всички данни, е потенциално разпознаваеми и всички данни е потенциално чувствителна. С други думи, вместо да се мисли, че информационен риск се отнася до една малка част от проектите, ние трябва да приемем, че тя се отнася до някаква степен, за всички проекти.

И двата аспекта на тази преориентация са илюстрирани с наградата Netflix. Както е описано в глава 5, Netflix освобождава 100 милиона филмови рейтинги, предоставени от почти 500 000 членове, и имаше открита покана, където хора от всички краища на света, представени алгоритми, които биха могли да подобрят способността на Netflix да препоръча филми. Преди оповестяването на данните, Netflix отстранява всяко очевидно лично идентифицираща информация, като имена. Netflix също отиде една допълнителна стъпка и въвежда леки сътресения в някои от записите (например, промяна на някои оценки от 4 звезди 3 звезди). Netflix скоро открих, обаче, че въпреки усилията им, данните са били по никакъв начин не анонимен.

Само две седмици след данните са били освободени Narayanan and Shmatikov (2008) показа, че е възможно да се запознаят с филмови предпочитания конкретни хора. Номерът на тяхната повторна идентификация атака е била подобна на Суини: слеят заедно две информационни източници, едната с потенциално поверителна информация и не очевидно идентифицираща информация и такава, която съдържа идентичността на хората. Всеки един от тези източници на данни може да бъде индивидуално безопасно, но когато те са комбинирани в резултат на сливането набор от данни може да се създаде информационен риск. В случай на данните Netflix, ето как може да се случи. Представете си, че аз избирам да споделя мислите си за действие и комедийни филми с моите колеги, но че аз предпочитам да не споделят моето мнение за религиозни и политически филми. Моите колеги биха могли да използват информацията, че Споделих с тях, за да намерите записи ми в данните Netflix; информацията, която аз споделям може да бъде уникален пръстов отпечатък точно като дата Уилям Weld на раждане, пощенски код, и секс. След това, ако те намеря уникален пръстов отпечатък в данните, те биха могли да се научат моите оценки за всички филми, включително филми, където аз не избират да споделят. В допълнение към този вид целенасочена атака фокусирана върху един-единствен човек, Narayanan and Shmatikov (2008) също показа, че е възможно да се направи широка атака -он с участието на много хора, чрез сливане на данните Netflix с лични и филмови данни рейтинг, че някои хората са избрали да публикувате в Internet Movie Database на (IMDb). Всяка информация, която е уникална за пръстови отпечатъци до конкретен човек, дори им набор от филмови рейтинги-може да се използва, за да ги идентифицират.

Въпреки че данните Netflix могат да бъдат повторно идентифицирани в нито една целенасочена или широка атака, тя все още може да изглежда нисък риск. В края на краищата, филмови рейтинги не изглеждат много чувствителни. Макар, че може да е вярно по принцип, за някои от 500,000 души в набора от данни, филмови рейтинги могат да бъдат доста чувствителни. В действителност, в отговор на де-запазване на анонимността, а насаме лесбийка жена присъедини костюм клас-действие срещу Netflix. Ето как проблемът се изразява в тяхното дело (Singel 2009) :

"[M] ovie и рейтинг данни съдържа информация за по-висока лична и чувствителна природа [така]. филм данни на члена излага личния интерес на член на Netflix и / или борби с различни силно лични проблеми, включително и сексуалността, психични заболявания, възстановяване от алкохолизъм, и виктимизация от кръвосмешение, физическо насилие, домашно насилие, прелюбодеяние, и изнасилване. "

Най-де-запазване на анонимността на данните от Netflix награда илюстрира едновременно, че всички данни, е потенциално разпознаваеми и че всички данни е потенциално чувствителна. В този момент, може би си мислите, че това се отнася само до данни, че това претендира да бъде около хората. Изненадващо е, че не е така. В отговор на свобода на искането Информация закон, City правителството в Ню Йорк пусна записи на всеки път с такси в Ню Йорк през 2013 г., включително и пикап и качване и слизане пъти, местоположения и билетите количества (изземване от глава 2, че Farber (2015) използва тези данни, за да се тества важни теории в икономика на труда). Въпреки това данните за таксиметровите пътувания може да изглежда доброкачествен, защото тя не изглежда да е информация за хората, Антъни Tockar осъзнах, че това такси данните действително се съдържа много потенциално чувствителна информация за хората. За да се убедите, той погледна към всички пътувания, започващи от Hustler Club-голяма ивица клуб в Ню Йорк между полунощ и 6 сутринта и после намерили своето капка, от места. Това търсене разкри-по същество-списък с адреси на някои хора, които посещават The Hustler клуб (Tockar 2014) . Трудно е да си представим, че градската управа е имал това предвид, когато тя пусна на данните. Всъщност, същата тази техника може да се използва, за да намерите най-домашните адреси на хора, които посещават всяка точка на града-медицинска клиника, правителствена сграда, или религиозна институция.

Тези два случая-на Netflix награда и на New York City такси данни показват, че сравнително квалифицирани хора не успяха да се оцени правилно информационния риск в данните, които те издават, и тези дела са в никакъв случай не означава, уникален (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Освен това, в много от тези случаи, проблемната данни все още е свободно достъпен онлайн, което показва трудността някога се развали освобождаване на данни. Колективно тези примери-, както и изследвания в областта на компютърните науки за неприкосновеността на личния живот, води до едно важно заключение. Изследователите трябва да приемат, че всички данни, е потенциално разпознаваеми и всички данни е потенциално чувствителна.

За съжаление, не е просто решение на факта, че всички данни, е потенциално разпознаваеми и всички данни е потенциално чувствителна. Въпреки това, един от начините за намаляване на информация за риска, докато работите с данни е да се създадат и следват план за защита на данните. Този план ще намалява вероятността, че данните ви ще изтекат и ще се намалят вредите, ако по някакъв начин се появи теч. Спецификата на планове за защита на данните, като например кои форма на криптиране, за да използвате, ще се променят с течение на времето, но услуги за данни на Обединеното кралство услужливо организира елементите на план за защита на данните в 5 категории, които те наричат 5 сейфовете: безопасни проекти, безопасни хора , безопасни настройки, безопасни данни, както и безопасни изходи (Таблица 6.2) (Desai, Ritchie, and Welpton 2016) . Нито един от петте сейфовете индивидуално осигури перфектна защита. Но, заедно те образуват мощен набор от фактори, които могат да понижат информационен риск.

Таблица 6.2: На 5 сейфовете са принципи за проектиране и изпълнение на план за защита на личните данни (Desai, Ritchie, and Welpton 2016) .
сейф	действие
Сейф проекти	ограничава проекти с данни за тези, които са етични
Сейф хора	достъпът е ограничен до хора, които може да се вярва с данни (например, хората са били подложени на етична обучение)
Сейф данни	данни е де-идентифицирани и агрегира, доколкото е възможно
Сейф настройки	данни се съхраняват в компютрите с подходящи физични (напр, заключена стая) и софтуер (например, защита с парола, криптирана) защити
сейф изход	резултатите от научните изследвания се преразглежда, за да се предотврати случайно нарушаване неприкосновеността на личния живот

В допълнение към защитата на данните ви, докато го използвате, една стъпка в процеса на научните изследвания, където информационен риск е особено забележителен е обмен на данни с други изследователи. Обменът на данни между учените е основна ценност на научно начинание, и това значително съоръжения напредъка на знанието. Ето как британската Палата на общините е описано значението на обмена на данни:

"Достъпът до данните е от основно значение, ако изследователи са да се възпроизведе, да провери и да се основава на резултати, които са описани в литературата. Презумпцията трябва да бъде, че, освен ако не е налице силна причина друго, данните трябва да бъдат напълно разкрити и са публично достъпни. В съответствие с този принцип, когато трябва да се направи възможно, данните, свързани с всички публично финансирани научни изследвания широко и свободно достъпна. " (Molloy 2011)

И все пак, чрез споделяне на вашите данни с друг изследовател, може да бъде увеличаване на информационния риск да си участници. По този начин, тя може да изглежда, че изследователите, които искат да споделят своите данни или са необходими, за да споделят своите данни са изправени пред фундаментална напрежение. От една страна те имат моралното задължение да споделят своите данни с други учени, особено ако първоначалното изследване е финансирана с публични средства. И все пак, в същото време, учените имат моралното задължение да се намали, доколкото е възможно, на информация за риска на техните участници.

За щастие, тази дилема не е толкова сериозна, колкото изглежда. Важно е да се мисли за обмен на данни по континуум от никакъв обмен на данни, за да се освободи и да забравя, когато данните се "анонимна" и публикуван за всеки, за да получите достъп (Фигура 6.6). И на тези крайни позиции има рискове и ползи. Това означава, че тя не е автоматично най-етично нещо, което да не споделят вашите данни; такъв подход елиминира много потенциални ползи за обществото. Връщайки се на вкус, вратовръзки, и времето, за пример по-рано в тази глава, аргументи срещу освобождаване на данни, които се фокусират само върху възможните вреди и че пренебрегват възможните ползи са прекалено едностранчиви; Ще опишем проблемите с тази едностранна, прекалено защитно подход по-подробно в по-долу, когато се предложи информация за вземане на решения в лицето на несигурност (раздел 6.6.4).

Фигура 6.6: стратегии за оповестяване на данните могат да паднат заедно континуум. Къде трябва да бъде по този континуум, зависи от специфичните детайли на вашите данни. В този случай, преглед на трета страна може да ви помогне да решите подходящия баланс на риска и ползата във вашия случай.

Освен това, между тези две крайни случаи е това, което аз ще се нарича ограден подход градина, където данните се споделя с хората, които отговарят на определени критерии и които са съгласни да бъдат обвързани с определени правила (например, надзор от IRB и планове за защита на данните) , Това стени подход градина осигурява много от предимствата на освобождаване и забрави с по-малък риск. Разбира се, ограден подход градина създава много въпроси-, които трябва да имат достъп, при какви условия, за колко време, кой трябва да плати, за да се запази и полиция ограден двор и т.н., но те не са непреодолими. В действителност, има вече работят оградените градини на място, че учените могат да използват в момента, като архив на данни на Междууниверситетския консорциум за политически и социални изследвания в Университета на Мичиган.

Така че, когато трябва данните от проучването си бъдат на континуума на никой споделяне, ограден двор, и да освободят и да забравят? Тя зависи от детайлите на вашите данни; изследователи трябва да балансират уважение към хората, благотворителност, правосъдието, и зачитането на закона и обществения интерес. При оценката на подходящ баланс за други решения, изследователите търсят съветите и одобрението на IRBS, и освобождаване на данни може да бъде просто още една част от този процес. С други думи, въпреки че някои хора мислят за оповестяване на данните като безнадежден етично тресавище, ние вече имаме системи, които да помогнат на изследователите да балансират тези вид на етични дилеми.

Един последен начин да се мисли за обмен на данни е по аналогия. Всяка година автомобили са отговорни за смъртта на хиляди хора, но ние не се опитвайте да се забрани шофирането. В действителност, като призив да се забрани шофирането би било абсурдно, защото шофиране дава възможност на много прекрасни неща. По-скоро, обществото поставя ограничения върху които могат да се управляват (например, трябва да бъде определена възраст, трябва да са преминали някои тестове) и как те могат да се управляват (например, при ограничение на скоростта). Обществото също има хора, натоварени с прилагането на тези правила (например, полиция), и ние наказваме хората, които са уловени нарушаването им. Същият този вид балансирано мислене, че обществото се отнася и за регулиране на шофиране може да се прилага и за обмен на данни. Това означава, че вместо да абсолютистки аргументи за или против споделянето на данни, мисля, че най-големите ползи ще дойдат от разберете как можем да споделим повече информация по-безопасно.

В заключение, информационен риск се е увеличил драстично, а това е много трудно да се предскаже и количествено. Ето защо, най-добре е да се предположи, че всички данни, е потенциално разпознаваеми и потенциално чувствителна. За да се намали информационния риск, докато правиш изследвания, учените могат да създадат и следват план за защита на данните. Освен това, информационен риск не пречи на изследователи от споделяне на данни с други учени.