6.6.2 разбирање и управување со информативните ризик

Информативниот ризик е најчестиот ризик во општествените истражувања; тоа драстично се зголеми; и тоа е најтешкиот ризик за разбирање.

Вториот етички предизвик за истражување на дигиталната ера е информативниот ризик , потенцијалот за штета од објавувањето на информациите (National Research Council 2014) . Информативните штети од откривањето на лични информации може да бидат економски (на пример, губење на работа), социјални (на пример, срам), психолошки (на пример, депресија) или дури и криминални (на пример, апсење за нелегално однесување). За жал, дигиталната ера драстично го зголемува информативниот ризик - има само многу повеќе информации за нашето однесување. И информативниот ризик се покажа како многу тешко да се разбере и да се управува во споредба со ризиците кои беа загрижени во аналогно-социјалните истражувања, како што е физичкиот ризик.

Еден начин на кој социјални истражувачи намали информативни ризик е "анонимизација" на податоци. "Анонимизација" е процес на отстранување на очигледна лични идентификатори како што се име, адреса и телефонски број од податоците. Сепак, овој пристап е многу помалку ефикасни од многу луѓе сфаќаат, а тоа е, всушност, длабоко и суштински ограничени. Од таа причина, секогаш кога ќе се опише "анонимизација," Јас ќе го користите наводници да ве потсетам дека овој процес создава изглед на анонимност, но не е точно анонимност.

Жив пример за неуспехот на "анонимизација" доаѓа од доцните 1990-ти во Масачусетс (Sweeney 2002) . Групата за осигурителна комисија (ГИЦ) беше владина агенција одговорна за купување здравствено осигурување за сите државни службеници. Преку оваа работа, ГИЦ собра детални здравствени евиденции за илјадници државни службеници. Во обид да поттикне истражување, ГИЦ одлучи да ги објави овие записи до истражувачите. Сепак, тие не ги споделија сите свои податоци; Наместо тоа, тие ги "анонимизираат" овие податоци со отстранување на информации како имиња и адреси. Сепак, тие оставија други информации за кои сметале дека би можеле да бидат корисни за истражувачите, како што се демографските информации (поштенски код, датум на раѓање, етничка припадност и пол) и медицински информации (посетете податоци, дијагноза, постапка) (слика 6.4) (Ohm 2010) . За жал, оваа "анонимизација" не беше доволна за да ги заштити податоците.

Слика 6.4: Анонимизацијата е процес на отстранување очигледно идентификување на информации. На пример, при издавањето на здравствените досиеја на државните службеници, Комисијата за осигурување на Масачусетс (GIC) ги отстрани имињата и адресите од досиејата. Ги користам цитатите околу зборот анонимизација, бидејќи процесот обезбедува појава на анонимност, но не и вистинска анонимност.

Слика 6.4: "Анонимизација" е процес на отстранување очигледно идентификување на информации. На пример, при издавањето на здравствените досиеја на државните службеници, Комисијата за осигурување на Масачусетс (GIC) ги отстрани имињата и адресите од досиејата. Ги користам наводите околу зборот "анонимизација", бидејќи процесот обезбедува појава на анонимност, но не и вистинска анонимност.

За да ги илустрираат недостатоците на ГИЦ "анонимизација", Латања Свини, тогаш студент на МИТ, платила 20 долари за да ги добие записите за гласање од градот Кембриџ, родниот град на гувернерот на Масачусетс Вилијам Велд. Овие записи за гласање вклучуваа информации како што се името, адресата, поштенски број, датумот на раѓање и родот. Фактот дека медицинската датотека со податоци и датотеката со избирачи споделени полиња - поштенски код, датум на раѓање и секс - значеле дека Свини може да ги поврзе. Свини знаеше дека роденденот на Велд бил 31 јули 1945 година, а записите за гласање вклучувале само шест лица во Кембриџ со тој роденден. Понатаму, од тие шест лица, само тројца биле мажи. И, од овие тројца мажи, само еден делил поштенски код на Залд. Така, податоците од гласањето покажаа дека секој од медицинските податоци со комбинација на датумот на раѓање, полот и поштенскиот број на Вилд бил Вилијам Велд. Во суштина, овие три информации обезбедија уникатен отпечаток до него во податоците. Користејќи го овој факт, Свини успеа да ги лоцира медицинските досиеја на Валд и, за да го информира за нејзиниот подвиг, му испрати примерок од неговите записи (Ohm 2010) .

Слика 6.5: Повторно идентификација на анонимизирани податоци. Латања Свини ги комбинираше анонимизираните здравствени досиеја со записите за гласање за да ги пронајде медицинските досиеја на гувернерот Вилијам Велд. Прилагодено од Свини (2002), слика 1.

Слика 6.5: Повторна идентификација на "анонимизирани" податоци. Латања Свини ги комбинираше "анонимизираните" здравствени досиеја со записите за гласање за да ги пронајде медицинските досиеја на гувернерот Вилијам Велд. Прилагодено од Sweeney (2002) , слика 1.

Работата на Свини ја илустрира основната структура на нападите за повторно идентификување - за усвојување на термин од компјутерската заедница за безбедност. Во овие напади, два набора податоци, од кои ниту еден од нив не открива чувствителни информации, се поврзани, и преку оваа поврзаност се откриваат чувствителни информации.

Како одговор на работата на Свини и други поврзани работи, истражувачите сега генерално отстрануваат многу повеќе информации - сите т.н. "лични податоци за идентификација" (PII) (Narayanan and Shmatikov 2010) - во текот на процесот на "анонимизација". Понатаму, многу истражувачи сега сфаќаат дека одредени податоци - како што се медицинска евиденција, финансиска евиденција, одговори на прашања од анкетата за нелегално однесување - се веројатно премногу осетливи на ослободување дури и по "анонимизација". Сепак, примерите што ќе ги дадам сугерираат дека социјалните истражувачи да го променат своето размислување. Како прв чекор, мудро е да се претпостави дека сите податоци се потенцијално препознатливи и сите податоци се потенцијално чувствителни. Со други зборови, наместо да размислуваме дека информативниот ризик важи за мала подгрупа на проекти, треба да претпоставиме дека тоа се однесува - до одреден степен - на сите проекти.

Двата аспекти на оваа преориентација се илустрирани со наградата Netflix. Како што е опишано во поглавјето 5, Netflix објави 100 милиони рејтинг филмови што ги обезбедува речиси 500.000 членови и имаа отворен повик, каде што луѓето од целиот свет доставија алгоритми кои би можеле да ја подобрат способноста на Netflix да препорача филмови. Пред да ги објави податоците, Netflix ги отстрани сите очигледни лични информации за идентификација, како што се имиња. Тие, исто така, направија дополнителен чекор и воведоа мали пертурбации во некои записи (на пример, менување на некои рејтинзи од 4 ѕвезди на 3 ѕвезди). Тие наскоро откриле дека, и покрај нивните напори, податоците сè уште не се анонимни.

Само две недели по објавувањето на податоците, Арвинд Нарајанан и Виталиј Шматиков (2008) покажаа дека е можно да се запознаат со специфичните филмски преференци на луѓето. Трикот за нивниот напад за идентификација беше сличен на Sweeney's: спојуваме два извори на информации, еден со потенцијално чувствителни информации и без очигледно идентификување на информации и оние кои ги содржат идентитетите на луѓето. Секој од овие извори на податоци може да биде индивидуално безбеден, но кога тие се комбинираат, споделениот назив на податоци може да создаде информативен ризик. Во случај на податоци Netflix, еве како може да се случи. Замислете дека одлучувам да ги споделам моите мисли за акција и комедија филмови со моите соработници, но дека не сакам да го споделам моето мислење за верските и политичките филмови. Моите соработници можеа да ги користат информациите што ги споделив со нив за да ги најдам моите записи во податоците на Netflix; информациите што ги споделувам може да биде уникатен отпечаток од прсти како датумот на раѓање на Вилијам Велд, поштенски код и секс. Потоа, ако го најдат мојот уникатен отпечаток од прсти во податоците, тие би можеле да го научат мојот рејтинг за сите филмови, вклучувајќи ги и филмовите што не сакам да ги споделам. Во прилог на овој вид насочен напад фокусиран на една личност, Нарајанан и Шматиков исто така покажаа дека е можно да се направи широк напад - кој вклучува многу луѓе - преку спојување на податоците на Netflix со лични и филмски рејтинг податоци што некои луѓе го избрале да објавувате на Интернет филмот База на податоци (IMDb). Мошне едноставно, секоја информација која е уникатен отпечаток од прст на одредена личност - дури и низа рејтинг за филмови - може да се користи за да ги идентификува.

Иако податоците на Netflix можат повторно да се идентификуваат или во насочен или широк напад, сепак може да изгледа дека се со низок ризик. Впрочем, рејтингот на филмот не изгледа многу чувствителен. Иако ова може да биде точно во целина, за некои од 500.000 луѓе во базата на податоци, рејтингот на филмот може да биде доста чувствителен. Всушност, како одговор на повторната идентификација, една затворена жена лезбејка се приклучи на тужбата за класната акција против Netflix. Еве како проблемот беше изразен во нивната тужба (Singel 2009) :

"[М] овие и рејтинг податоци содржат информации од ... мошне лична и чувствителна природа. Филмските податоци на членот го изложуваат личниот интерес на членот на Netflix и се борат со различни лични прашања, вклучувајќи ја сексуалноста, менталната болест, закрепнувањето од алкохолизам и виктимизација од инцест, физичко малтретирање, семејно насилство, прељуба и силување.

Повторната идентификација на податоците за наградата Netflix покажува дека сите податоци се потенцијално препознатливи и дека сите податоци се потенцијално чувствителни. Во овој момент, може да мислите дека ова важи само за податоци кои се наменети за луѓето. Изненадувачки, тоа не е случај. Како одговор на барањето за право на слобода на информации, Владата на Њујорк издаде записи за секое возење со такси во Њујорк во 2013 година, вклучувајќи ги и времетраењето и паѓањето на времето, локациите и износот на билет (повлекување од поглавјето 2 на Farber (2015) користеле слични податоци за да ги тестираат важни теории во трудовата економија). Овие податоци за патувања со такси може да изгледаат бенигни, бидејќи не изгледаат како да обезбедуваат информации за луѓето, но Ентони Токар сфати дека овој назив на податоци на податоци, всушност, содржи многу потенцијално чувствителни информации за луѓето. За да се илустрира, тој ги разгледал сите патувања што започнале во Клубот Хастлер - голем стриптиз клуб во Њујорк - помеѓу полноќ и 6 часот наутро, а потоа ги нашле нивните места за опаѓање. Ова пребарување откри - во суштина - листа на адреси на некои луѓе кои го посетуваа Hustler Club (Tockar 2014) . Тешко е да се замисли дека градската власт имала ова на ум кога ги објави податоците. Всушност, оваа иста техника би можела да се искористи за да се најдат дома адреси на луѓе кои го посетуваат секое место во градот - медицинска клиника, владина зграда или религиозна институција.

Овие два случаи на наградата Нефликс и такси од Њујорк покажуваат дека релативно квалификувани луѓе не можат правилно да го проценат информативниот ризик во податоците што ги објавуваат - и овие случаи во никој случај не се единствени (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Понатаму, во многу вакви случаи, проблематичните податоци сè уште се слободно достапни на интернет, што укажува на тешкотијата да се откаже порака. Колективно, овие примери - како и истражувањата во компјутерската наука за приватноста - доведуваат до важен заклучок. Истражувачите треба да претпостават дека сите податоци се потенцијално препознатливи и сите податоци се потенцијално чувствителни.

За жал, не постои едноставно решение за фактите дека сите податоци се потенцијално препознатливи и дека сите податоци се потенцијално чувствителни. Меѓутоа, еден начин да се намали информативниот ризик додека работите со податоците е да се создаде и следи план за заштита на податоци . Овој план ќе ја намали веројатноста дека вашите податоци ќе истекуваат и ќе ја намалат штетата ако некако настанат течење. Спецификите на плановите за заштита на податоци, како што е формата на енкрипција за користење, ќе се променат со текот на времето, но Велика Британија податоци услуги со помош на организацијата ги организира елементите на планот за заштита на податоци во пет категории што ги нарекуваат пет сефови : безбедни проекти, безбедни луѓе , безбедно поставувања, безбедни податоци и безбедни излези (табела 6.2) (Desai, Ritchie, and Welpton 2016) . Ниту еден од петте сефови поединечно не обезбедуваат совршена заштита. Но заедно тие формираат моќен сет на фактори кои можат да го намалат информативниот ризик.

Табела 6.2: "Петте сефови" се принципи за дизајнирање и извршување на план за заштита на податоци (Desai, Ritchie, and Welpton 2016)
Безбедно Акција
Безбедни проекти Ги ограничува проектите со податоци на оние кои се етички
Безбедни луѓе Пристапот е ограничен на луѓе на кои може да им се верува со податоци (на пример, луѓе кои биле подложени на етичка обука)
Безбедни податоци Податоците се де-идентификувани и агрегирани до степен до кој е можно
Безбедни поставувања Податоците се складирани во компјутери со соодветна физичка (на пример, заклучена соба) и софтвер (на пр. Заштита на лозинка, шифрирана заштита)
Безбеден излез Истражувањето е ревидирано за да се спречат случајни прекршувања на приватноста

Покрај заштитата на вашите податоци додека ги користите, еден чекор во процесот на истражување каде што информативниот ризик е особено значаен е размената на податоци со други истражувачи. Размената на податоци меѓу научниците е основна вредност на научниот напор, и во голема мера го олеснува напредокот на знаењето. Еве како Велика Британија Долниот дом ја опиша важноста на делење на податоци (Molloy 2011) :

"Пристапот до податоци е од суштинско значење ако истражувачите треба да ги репродуцираат, потврдат и да ги градат резултатите што се пријавени во литературата. Презумпцијата мора да биде дека, освен ако не постои силна причина поинаку, податоците треба да бидат целосно обелоденети и јавно достапни. "

Сепак, со споделување на вашите податоци со друг истражувач, може да се зголеми информативниот ризик за вашите учесници. Така, може да изгледа дека размената на податоци создава темелна тензија помеѓу обврската за споделување на податоци со други научници и обврската за минимизирање на информативниот ризик за учесниците. За среќа, оваа дилема не е толку тешка како што изгледа. Наместо тоа, подобро е да се размислува за делење на податоци како што паѓаат по континуумот, при што секоја точка на тој континуум обезбедува различна комбинација на придобивки за општеството и ризик за учесниците (слика 6.6).

Во еден крајност, можете да ги споделите вашите податоци со никој, што го минимизира ризикот за учесниците, но исто така ги минимизира придобивките за општеството. Во другиот екстрем, можете да го ослободите и да заборавите , каде што податоците се "анонимизирани" и се објавуваат за секого. Во однос на ослободување на податоци, ослободување и заборавање нуди и поголеми придобивки за општеството и поголем ризик за учесниците. Помеѓу овие два екстремни случаи се опсег на хибриди, вклучувајќи го и она што јас ќе го наречам пристап до ѕидови . Според овој пристап, податоците се делат со луѓе кои ги исполнуваат одредени критериуми и кои се согласуваат да бидат обврзани со одредени правила (на пример, надзор од IRB и план за заштита на податоци). Пристаништето со градинарски пристап обезбедува многу од придобивките од пуштањето и заборавете со помал ризик. Се разбира, ваквиот пристап создава многу прашања - кој треба да има пристап, под кои услови, и колку долго, кој треба да плати за одржување и полиција на ѕидот во градината итн., Но тие не се непремостливи. Всушност, веќе постојат работни ѕидини за градини што истражувачите можат да ги користат токму сега, како што е архивата на податоци на Интер-универзитетскиот конзорциум за политички и социјални истражувања на Универзитетот во Мичиген.

Слика 6.6: Стратегии за ослободување на податоци може да паднат по континуумот. Каде што треба да бидете на овој континуум зависи од специфичните детали на вашите податоци, а третата страна може да ви помогне да одлучите за соодветната рамнотежа на ризик и корист во вашиот случај. Точниот облик на оваа крива зависи од спецификите на податоците и истражувачките цели (Goroff 2015).

Слика 6.6: Стратегии за ослободување на податоци може да паднат по континуумот. Каде што треба да бидете на овој континуум зависи од специфичните детали на вашите податоци, а третата страна може да ви помогне да одлучите за соодветната рамнотежа на ризик и корист во вашиот случај. Точниот облик на оваа крива зависи од спецификите на податоците и истражувачките цели (Goroff 2015) .

Значи, каде треба податоците од вашата студија да бидат на континуитет на не споделување, ѕидови градина, и ослободување и да заборавите? Ова зависи од деталите на вашите податоци: истражувачите мора да го балансираат почитувањето на лицата, бенефициите, правдата и почитувањето на правото и јавниот интерес. Гледано од оваа перспектива, размената на податоци не е посебна етичка загатка; тоа е само еден од многуте аспекти на истражувањето во кое истражувачите мора да најдат соодветна етичка рамнотежа.

Некои критичари главно се противат на размената на податоци, бидејќи, според мое мислење, тие се фокусирани на нејзините ризици - кои се несомнено реални и ги игнорираат неговите придобивки. Значи, со цел да се поттикне фокусот на ризиците и придобивките, би сакал да понудам аналогија. Секоја година, автомобили се одговорни за илјадници смртни случаи, но ние не се обидуваме да го забраниме возењето. Всушност, повикот за забрана на возењето би бил апсурден бидејќи возењето овозможува многу прекрасни работи. Наместо тоа, општеството поставува ограничувања за тоа кој може да вози (на пример, потребата да биде одредена возраст и да поминат одредени тестови) и како тие можат да возат (на пример, под ограничувањето на брзината). Општеството, исто така, има луѓе кои имаат задача да ги спроведуваат овие правила (на пример, полицијата), и ги казнуваме луѓето што се фатени да ги кршат. Истиот вид на балансирано размислување кое општеството го применува за регулирање на возењето, исто така, може да се примени за размена на податоци. Тоа е, наместо да се прават апсолутистички аргументи за или против размена на податоци, мислам дека ќе постигнеме најголем напредок со фокусирање на тоа како можеме да ги намалиме ризиците и да ги зголемиме придобивките од размената на податоци.

Да се ​​заклучи, информативниот ризик драматично се зголеми, и многу е тешко да се предвиди и да се измери. Затоа, најдобро е да се претпостави дека сите податоци се потенцијално препознатливи и потенцијално чувствителни. За да се намали информативниот ризик додека се прави истражување, истражувачите можат да создадат и следат план за заштита на податоци. Понатаму, информативниот ризик не ги спречува истражувачите да споделуваат податоци со други научници.