6.6.2 разбирање и управување со информативните ризик

Овој превод е создаден од страна на компјутер. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

6.6.2 разбирање и управување со информативните ризик

Информации за ризикот, е најчестиот ризик во социјални истражувања; тоа се зголеми драстично; и тоа е една од најтешките ризик да се разбере.

Вториот етички предизвик за дигитални општествените возраст е информативни ризикот, потенцијалната опасност од откривањето на информации (Council 2014) . Информативен штети од откривање на лични информации може да биде економски (на пример, губење на работа), социјални (на пример, срам), психолошки (на пример, депресија), или дури и криминално (на пример, за апсење на незаконско однесување). За жал, на дигиталната ера зголемува ризик информации драматично, има толку многу повеќе информации во врска со нашето однесување. И, информативни ризик се покажа многу тешко да се разбере и да управуваат во однос на ризиците што се однесува во аналогни возраст социјално истражување, како што се физички ризик. За да видите како дигиталната ера зголемува ризикот информативни, сметаат дека преминот од хартиена во електронска медицинска евиденција. И двата вида на евиденција создаде ризик, но на електронските записи создаде многу поголем ризик затоа што во огромни количини можат да се пренесуваат на неовластени лица или се спои со други записи. Социјални истражувачи во дигиталната ера веќе се кандидира во проблеми со информациски ризик, делумно поради тоа што тие не се разбере целосно како да се измери и да управуваат со него. Па, јас ќе одам да им понуди многу корисен начин да се размислува за информативни ризик, а потоа јас ќе одам да ви даде некои совети за тоа како да се справат со информативни ризик во вашето истражување и во давањето на податоци на други истражувачи.

Еден начин на кој социјални истражувачи намали информативни ризик е "анонимизација" на податоци. "Анонимизација" е процес на отстранување на очигледна лични идентификатори како што се име, адреса и телефонски број од податоците. Сепак, овој пристап е многу помалку ефикасни од многу луѓе сфаќаат, а тоа е, всушност, длабоко и суштински ограничени. Од таа причина, секогаш кога ќе се опише "анонимизација," Јас ќе го користите наводници да ве потсетам дека овој процес создава изглед на анонимност, но не е точно анонимност.

А жив пример за неуспехот на "анонимизација" доаѓа од доцните 1990-ти во Масачусетс (Sweeney 2002) . Осигурување комисија група (ГИЦ) е владина агенција одговорна за купување на здравствено осигурување за сите државни службеници. Со својата работа, на ГИЦ собрани детални здравствени досиеја за илјадници државни службеници. Во обид да се поттикне истражување за начините да се подобри здравјето, ГИЦ одлучи да го ослободи овие записи на истражувачите. Сепак, тие не ги делат сите на нивните податоци; Наместо тоа, тие "анонимизирани" тоа со отстранување на информации како што се името и адресата. Сепак, тие го оставија други информации кои тие мислеа дека може да биде корисно за истражувачи како демографски информации (поштенски број, датум на раѓање, етничката припадност и полот) и медицински информации (податоци посета, дијагноза, постапката) (Слика 6.4) (Ohm 2010) . За жал, овој "анонимизација" не беше доволно за заштита на податоци.

Слика 6.4: "анонимизација" е процес на отстранување очигледно идентификување на информации. На пример, кога ослободување на здравствено осигурување евиденција на државните службеници Група осигурување комисија Масачусетс (ГИЦ) Отстранет име и адреса од досиејата. Јас користите наводници околу "анонимизација" на зборот, бидејќи процесот предвидува појавата на анонимност, но не вистински анонимност.

Да се илустрира на недостатоците на "анонимизација" ГИЦ, Latanya Свини, а потоа дипломиран студент на МИТ-плати $ 20 за да се здобијат со евиденција за гласање од градот Кембриџ, родниот град на гувернер на Масачусетс, Вилијам Велд. Овие гласање евиденција вклучува информации како што се име, адреса, поштенски код, датумот на раѓање и пол. Фактот дека медицинското досие на податоци и гласачите датотека дели полиња-zip код, датумот на раѓање и пол-значеше дека Свини може да ги поврзе. Свини знаеше дека роденденската Weld беше 31 Јули 1945 година, како и евиденција за гласање се вклучени само шест лица во Кембриџ со тоа роденден. Понатаму, од кои шест лица, само три се од машки пол. И, тие тројца мажи, само една заедничка ZIP код Weld е. Така, податоците на гласањето покажа дека секој во медицински податоци со комбинација на датумот на раѓање, пол, и ZIP код Weld беше Вилијам Велд. Во суштина, овие три парчиња на информации дадени единствен отпечаток од прст на него во податоците. Користење на овој факт, Свини беше во можност да го лоцира медицинска евиденција Weld, и да го информира за нејзиниот подвиг, таа му испратила копија од неговата евиденција (Ohm 2010) .

Слика 6.5: Повторно idenification на анонимизирани податоци. Latanya Свини комбинација на анонимизирани здравствени досиеја со евиденција на глас, со цел да се најде на медицинска евиденција на гувернерот Вилијам Велд (Свини 2002).

Слика 6.5: Повторно idenification на "анонимни" податоци. Latanya Свини комбинација на "анонимни" здравствени досиеја со евиденција на глас, со цел да се најде на медицинска евиденција на гувернерот Вилијам Велд (Sweeney 2002) .

Работа Свини илустрира основната структура на де-анонимизација напади -да донесе рок од заедницата на компјутерска безбедност. Во овие напади, две збирки на податоци, од кои ниту една страна се открива доверливи информации, се поврзани, и преку оваа поврзаност, чувствителни информации е изложен. На некој начин, овој процес е сличен на начинот на кој сода бикарбона и оцет, две супстанции кои се сами по себе сигурно, може да се комбинираат за да се произведе еден вистински боксерски исход.

Како одговор на работа Свини, како и други слични работи, научниците сега генерално се отстранат многу повеќе информации за сите т.н. "лични информации" (PII) (Narayanan and Shmatikov 2010) -Во текот на процесот на "анонимизација." Понатаму, многу истражувачи сега сфати дека одредени податоци, како што се медицинска евиденција, финансиските извештаи, одговори на анкетата прашања за незаконско однесување, веројатно е премногу чувствителни за да се ослободи дури и по "анонимизација." Сепак, поновите примери кои јас ќе се опише подолу, укажуваат на тоа дека социјалната истражувачите треба да го променат своето размислување. Како прв чекор, тоа е да се претпостави дека сите податоци се потенцијално препознатливи и сите податоци се потенцијално чувствителни. Со други зборови, наместо да се размислува дека информативни ризик се однесува на мала подгрупа на проекти, треба да се претпостави дека тоа се однесува до некој степен, за сите проекти.

И двата аспекти на оваа преориентација се илустрирани со награда Netflix. Како што е опишано во поглавјето 5, Netflix објави 100 милиони филм рејтингот се предвидени од страна на скоро 500.000 членови, и имаше отворен повик каде што луѓето од целиот свет поднесени алгоритми кои би можеле да се подобри способноста на Netflix е да се препорача филмови. Пред давање на податоците, Netflix отстрани било очигледно лично идентификување на информации, како што се имиња. Netflix, исто така отиде дополнителни чекори и воведе мали нарушувања во некои од евиденција (на пример, промена на некои рејтинг од 4 ѕвезди 3 ѕвезди). Netflix наскоро открил дека, сепак, и покрај нивните напори, податоците беа во никој случај не е анонимен.

Само две недели откако на податоци беа објавени Narayanan and Shmatikov (2008) покажа дека е можно да се запознаат со филмот специфични параметри на луѓето. Трикот за нивна повторна идентификација напад бил сличен на Свини е: спојат заедно два извори на информации, еден со потенцијално чувствителни информации и нема очигледно идентификување на информации и оној што го содржи идентитетот на луѓето. Секој од овие извори на податоци може да биде поединечно безбедно, но кога тие се комбинираат на претпријатието базата може да се создаде информативни ризик. Во случај на податоците Netflix, еве како тоа може да се случи. Замислете дека изберам да го споделам моите мисли за акција и комедија филмови со моите соработници, но јас не сакаат да го споделам моето мислење за верско и политичко филмови. Моите соработници би можеле да ги користат информациите што сум ги дели со нив да се најде е мојот во податоците Netflix; информациите кои ги делат може да биде уникатен отпечаток како датум Вилијам Велд раѓање, поштенски код, и секс. Потоа, ако тие сметаат дека мојот единствен отпечаток од прст на податоци, тие би можеле да научат рејтингот ми за сите филмови, вклучувајќи филмови, каде што не да изберат да го споделат. Во прилог на овој вид на насочени напад фокусира на една личност, Narayanan and Shmatikov (2008) , исто така, покажа дека тоа е можно да се направи широка напад -еден вклучуваат многу луѓе-со спојување на податоци Netflix со лични податоци и видео рејтинг што некои луѓе ја одбрале да ја објавите на Интернет Филмската база на податоци (IMDb). Секоја информација која е уникатен отпечаток од прст на одредена личност, дури и нивните сет на филм рејтингот, може да се користи да ги идентификуваат.

Иако податоците Netflix може повторно да се идентификувани во ниту еден насочени или широка напад, сепак може да се појави да биде низок ризик. Впрочем, филм рејтингот не изгледа многу чувствителен. Иако тоа може да биде вистина, воопшто, за некои од 500.000 луѓе во базата на податоци, филм рејтингот може да биде доста чувствителни. Всушност, во одговор на де-анонимизација на closeted лезбејка жена приклучи костум класа-акција против Netflix. Еве како на проблем беше истакнато во нивното тужба (Singel 2009) :

"[M] ovie и оценка на податоци содржи информации од повеќе мошне личен и чувствителна природа [sic]. Филмот податоци на членот изложува личен интерес на член на Netflix и / или да се бори со различни високо лични прашања, вклучувајќи сексуалност, ментална болест, закрепнување од алкохолизам и виктимизација од инцест, физичко насилство, семејно насилство, прељубата и силување. "

Де-анонимизација на податоците од Netflix награда покажува и дека сите податоци се потенцијално препознатливи и сите податоци кои се потенцијално чувствителни. Во овој момент, може да мислам дека ова се однесува само на податоците кои што се тврди дека е за луѓето. Изненадувачки, тоа не е случај. Како одговор на барањето за Слобода на информации од јавен карактер, градските власти на Њујорк објави евиденција на секоја такси во Њујорк во 2013 година, вклучувајќи го и пикап и заспивам пати, локации, и билет износи (се потсетиме од Глава 2, кој Farber (2015) користат овие податоци за да ги тестираат важни теории во труд, економија). Иако овие податоци за такси патувања може да изгледа бенигни поради тоа што не чини да се биде информации за луѓе, Ентони Tockar сфати дека ова такси базата, всушност, содржи голем број на потенцијално чувствителни информации за луѓето. Да се илустрира, тој гледаше во сите патувања со почеток во Hustler Клуб-голем стриптиз клуб во Њујорк меѓу полноќ и 6 часот наутро, а потоа го нашле својот капка-оф места. Ова пребарување открива во суштина-листа на адреси на некои луѓе кои се почести Hustler клуб (Tockar 2014) . Тешко е да се замисли дека владините градот имал ова на ум кога го објави податоците. Всушност, истата оваа техника може да се користи да се најде на домашни адреси на луѓе кои ги посети местата во градот-медицинска клиника, зградата на владата, или религиозна институција.

Овие два случаи-на Netflix награда и Њујорк такси податоци покажуваат дека релативно квалификувани луѓе не успеаја да се процени правилно информативни ризик во податоците кои ги објави, а овие случаи се во никој случај уникатен (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Понатаму, во многу од овие случаи, проблематичните податоци се уште слободно достапни на интернет, што укажува на тежината на некогаш расипувајќи ослободување на податоци. Заедно, овие примери, како и истражување во компјутерската наука во врска со приватноста води до важен заклучок. Истражувачите треба да се претпостави дека сите податоци се потенцијално препознатливи и сите податоци се потенцијално чувствителни.

За жал, не постои едноставно решение за фактот дека сите податоци се потенцијално препознатливи и сите податоци се потенцијално чувствителни. Сепак, еден начин да се намали ризикот информации додека сте работат со податоци е да се создаде и да ги следат планот за заштита на податоците. Овој план ќе ги намалува шансите дека вашите податоци ќе излегуваат во јавноста и ќе се намали штетата ако некако се случи истекување. Спецификите на планови за заштита на податоци, како што се кои форма на енкрипција за користење, ќе се промени со текот на времето, но на податоци Услуги Велика Британија helpfully организира елементи на планот за заштита на податоци во 5 категории што тие го нарекуваат 5 сефови: безбедно проекти, безбедно луѓе , безбедна поставувања, безбедно податоци и безбедна излези (Табела 6.2) (Desai, Ritchie, and Welpton 2016) . Ниту една од петте сефови поединечно се обезбеди доволна заштита. Но, сите заедно претставуваат моќен сет на фактори кои може да се намали ризикот информативни.

Табела 6.2: 5 сефови се принципи за проектирање и извршување на планот за заштита на податоци (Desai, Ritchie, and Welpton 2016) .
безбедно	акција
безбедно проекти	ограничува проекти со податоци за оние кои се етички
безбедно луѓе	ограничен пристап на луѓето кои можат да се верува со податоци (на пример, луѓето биле подложени на етичка обука)
безбедно податоци	податоци де-идентификувани и собираат колку што е можно
безбедно подесувања	податоци се чуваат во компјутери со соодветни физички (на пример, заклучена соба) и софтвер (на пример, лозинка заштита, заштита) заштита
безбеден излез	истражување излез се ревидира за да се спречи случајно прекршување на приватноста

Во прилог на заштита на вашите податоци додека го користат, еден чекор во процесот на истражување каде информативни Ризикот е особено истакнатите е размена на податоци со други истражувачи. размената на податоци меѓу научниците е основната вредност на научни настојуваат, и тоа во голема мера објекти унапредување на знаењата. Еве како на Велика Британија Долниот дом го опиша значењето на размената на податоци:

"Пристапот до податоците е од фундаментално значење ако истражувачите се да се репродуцира, се потврди и да се изгради на резултатите кои се пријавени во литературата. Претпоставката мора да биде дека, освен ако постои силна причина спротивно, податоците треба да бидат целосно откриени и достапни за јавноста. Во согласност со овој принцип, каде што треба да се овозможи, податоците поврзани со сите јавно финансирани истражувачки широко и слободно достапна. " (Molloy 2011)

Сепак, од страна на споделување на вашите податоци со друг истражувач, може да биде зголемување на информативни ризик за вашата учесници. Така, тоа може да изгледа дека истражувачите кои сакаат да ги споделат своите податоци или се потребни за да ги споделат своите податоци се соочуваат со основните тензија. Од една страна, тие имаат етичка обврска да ги споделат своите податоци со други научници, особено ако оригиналниот истражувања финансирани од јавноста. Сепак, во исто време, истражувачите имаат етичка обврска да се минимизира, колку што е можно, информации ризик за нивните клиенти.

За среќа, оваа дилема не е толку тешко како што изгледа. Тоа е важно да се размислува на размена на податоци по континуумот од не делење на податоци за да се ослободи и да заборави, каде што податоците се "анонимни" и објави за секој да пристапите (Слика 6.6). И двете од овие екстремни позиции имаат ризици и бенефиции. Тоа е, тоа не е автоматски повеќето етички нешто да не ги споделите вашите податоци; таквиот пристап ја елиминира многу потенцијалните придобивки за општеството. Враќајќи се на вкус, врски, како и на времето, на пример дискутирано и порано во ова поглавје, аргументи против ослободување на податоци кои се фокусираат само на можните штети и дека ги игнорира можните придобивки се премногу еднострани; Јас ќе се опише проблеми со оваа еднострана, премногу заштитен пристап во повеќе детали во подолу кога ќе нудат совети за донесување на одлуки во лицето на несигурност (Дел 6.6.4).

Слика 6.6: стратегии за ослободување на податоци може да падне по континуумот. Каде што треба да биде заедно континуум зависи од специфичните детали на вашите податоци. Во овој случај, преглед трета страна може да ви помогне да одлучите на соодветна рамнотежа помеѓу ризикот и да имаат корист на вашиот случај.

Понатаму, во меѓу овие две екстремни случаи е она што јас ќе се нарекува пристап ѕидови градина, каде што податоците се дели со луѓето кои ги исполнуваат одредени критериуми и кои се согласуваат да бидат обврзани со одредени правила (на пример, надзор од IRB и планови за заштита на податоци) . Овој пристап ѕидови градина обезбедува голем број на бенефиции на ослободување и да заборави со помал ризик. Се разбира, ѕидови градина пристап создава многу прашања, кои треба да имаат пристап, под кои услови, колку долго, кои треба да плаќаат за одржување и полицијата на ѕидови градина итн-но овие не се несовладливи. Всушност, таму веќе работат ѕидови градини во место, што научниците може да се користи во моментов, како архива на податоци на Интеруниверзитетската Конзорциумот за политички и социјални истражувања на Универзитетот во Мичиген.

Значи, каде што треба да се на податоци од вашите студии биде на континуумот на не делење, ѕидови градина, и порака и да заборави? Тоа зависи од деталите на вашите податоци; истражувачите мора да го балансира Почитување на лица, beneficence, правда и почитување на законот и јавниот интерес. При оценувањето на соодветна рамнотежа за други одлуки истражувачи бараат совет и одобрување на IRBs, и ослободување на податоци може да биде само уште еден дел од тој процес. Со други зборови, иако некои луѓе мислат на ослободување на податоци, како безнадежна етички блато, ние веќе имаат системи во место за да им помогне на истражувачите да се балансираат тие вид на етички дилеми.

Една конечна начин да се размислува за делење на податоци е по аналогија. Секоја година автомобили се одговорни за смртта на илјадници луѓе, но ние не се обидуваме да се забрани возење. Всушност, како повик за забрана за возење би било апсурдно поради возење овозможува многу прекрасни работи. Наместо тоа, општеството рестрикции за кој може да се вози (на пример, треба да биде одредена возраст, треба да имаат положен некои тестови) и како тие може да се вози (на пример, во рамките на ограничувањето на брзината). Друштвото исто така има луѓе задолжени за спроведување на овие правила (на пример, полицијата), а ние се казнуваат луѓе кои се фатени нив кршење. Овој ист вид на избалансиран размислување дека општеството се однесува на регулирање на возење, исто така може да се примени за делење на податоци. Тоа е, наместо да апсолутистички аргументи за или против делење на податоци, мислам дека најголемите придобивки ќе дојде од пронајдат начин можеме да ги споделиме на повеќе податоци безбедно.

Да заклучиме, информативни ризик се зголеми драстично, а тоа е многу тешко да се предвиди и да се измери. Затоа, најдобро е да се претпостави дека сите податоци се потенцијално препознатливи и потенцијално чувствителни. За да се намали ризикот информативни, а тоа е истражување, истражувачите можат да се создаде и да го следат планот за заштита на податоците. Понатаму, информативни ризик не го спречува истражувачи од споделување на податоци со други научници.