6.6.2 Разумевање и управљање информациони ризик

Овај превод је креиран од стране рачунара. ×

6.6.2 Разумевање и управљање информациони ризик

Информативни ризик је најчешћи ризик у друштвеним истраживањима; драматично се повећао; и то је најтежи ризик за разумевање.

Други етички изазов за истраживање дигиталног доба је информативни ризик , потенцијал за штету од откривања информација (National Research Council 2014) . Информативне штете од откривања личних информација могу бити економске (нпр. Губљење посла), социјалне (нпр. Срамота), психолошке (нпр. Депресије) или чак криминалне (нпр. Хапшење за незаконито понашање). Нажалост, дигитално доба драматично повећава информациони ризик - ту је само много више информација о нашем понашању. И информативни ризик се показао врло тешким за разумевање и управљање у поређењу са ризицима који су били забрињавајући у социјалним истраживањима у аналогном добу, као што је физички ризик.

Један од начина да социјални истраживачи смањити информациони ризик је "анонимну" података. "Анонимну" је процес уклањања очигледне могућност идентификације, као што су име, адресу и број телефона од података. Међутим, овај приступ је много мање ефикасна него сто многи људи схвате, а то је, у ствари, дубоко и суштински ограничена. Из тог разлога, кад год сам описати "анонимну," Ја ћу користити наводнике да вас подсетим да је овај процес ствара привид анонимности, али није истина анонимности.

Живописан пример неуспјеха "анонимизације" потиче од крајем деведесетих година у Масачусетсу (Sweeney 2002) . Комисија за осигурање Групе (ГИЦ) била је владина агенција одговорна за куповину здравственог осигурања за све државне службенике. Кроз овај рад, ГИЦ је прикупио детаљне здравствене податке о хиљадама државних службеника. У настојању да подстакне истраживање, ГИЦ је одлучио да ове записе објављује истраживачима. Међутим, они нису поделили све своје податке; већ су анонимизовали ове податке уклањањем информација као што су имена и адресе. Међутим, оставили су друге информације које су сматрали корисним за истраживаче као што су демографске информације (поштански број, датум рођења, етничка припадност и пол) и медицинске информације (посете података, дијагноза, процедура) (слика 6.4) (Ohm 2010) . Нажалост, ова "анонимизација" није била довољна за заштиту података.

Слика 6.4: "Анонимизација" је процес уклањања очигледно идентификације информација. На примјер, када је објавио евиденцију здравственог осигурања државних службеника, Комисија за осигурање Масачусетс групе (ГИЦ) уклонила је имена и адресе из досијеа. Користим цитате око речи "анонимизација" јер процес пружа појаву анонимности, али не и стварне анонимности.

Да би се илустровале недостаци ГИЦ-а "анонимизације", Латаниа Свеенеи-тада је дипломирала на МИТ-у, која је платила 20 долара за добијање гласачких записа из града Кембриџа, родног града гувернера Масачусетса Виллиама Велда. Ови записи о гласању укључивали су информације као што су име, адреса, поштански број, датум рођења и пол. Чињеница да су подаци о медицинским подацима и гласачкој датотеци дељени зип-код, датум рођења и пол-значи да их Свеенеи може повезати. Свини је знао да је рођендан Велда био 31. јула 1945. године, а записници о гласању укључивали су само шест људи у Кембриџу са тог рођендана. Надаље, од тих шест људи, само су три мушкарца. И, од тих тројице, само један је дијелио Зелдов зип код. Према томе, подаци о гласању показали су да је било ко у медицинским подацима са Велдовом комбинацијом рођендана, пола и поштанског кода био Виллиам Велд. У суштини, ове три информације пружиле су му јединствени отисак прста у подацима. Користећи ову чињеницу, Свеенеи је успела да лоцира Велдове медицинске податке, а, да би га обавијестила о свом подухвату, послао му је копију својих записа (Ohm 2010) .

Слика 6.5: Поновно иденификовање анонимних података. Латаниа Свеенеи је комбинирала анонимне здравствене податке са евиденцијом гласања како би пронашла медицинске податке о гувернеру Виллиаму Велду. Прилагођено од Свеенеи (2002), слика 1.

Слика 6.5: Поновно иденификовање "анонимних" података. Латаниа Свеенеи је комбинирала "анонимне" здравствене рекорде са евиденцијама о гласању како би пронашли медицинску документацију гувернера Виллиам Велда. Прилагођена од Sweeney (2002) , слика 1.

Рад Свеенеиа илуструје основну структуру напада за поновно идентификацију - да усвоји термин из безбедносне заједнице рачунара. У овим нападима, два скупа података, од којих ни једна од њих не открива осјетљиве информације, су повезани, а путем ове везе осјетљиве информације су изложене.

Као одговор на Свеенеи-ов рад и друге повезане радове, истраживачи генерално уклањају много више информација - све такозване "личне информације идентификације" (ПИИ) (Narayanan and Shmatikov 2010) - током процеса "анонимизације". Даље, многи истраживачи сада схватају да су одређени подаци - као што су медицинска документација, финансијска евиденција, одговори на анкетна питања о илегалном понашању - вероватно сувише осетљиви на ослобађање чак и после "анонимизације". Међутим, примери које ћу дати сугеришу да социјални истраживачи треба да промене своје размишљање. Као први корак, мудро је претпоставити да су сви подаци потенцијално препознати и да су сви подаци потенцијално осјетљиви. Другим ријечима, умјесто размишљања да се информативни ризик примјењује на мали дио пројеката, требали би се претпоставити да се у одређеној мери односи на све пројекте.

Оба аспекта ове преоријентације илустрована су наградом Нетфлик. Као што је описано у поглављу 5, Нетфлик је објавио 100 милиона филмских рејтинга које је обезбедило скоро 500.000 чланова, а отворен је позив на којем су људи из целог света поднели алгоритме који би могли побољшати способност Нетфлика да препоручује филмове. Пре него што је објавио податке, Нетфлик је уклонио све очигледне личне информације о идентитету, као што су имена. Такође су направили додатни корак и уведени су мали пертурбацији у неким записима (нпр. Мијењање неких оцјена од 4 звезде до 3 звезде). Убрзо су открили да, упркос њиховим напорима, подаци и даље нису ни анонимни.

Само две недеље након што су подаци пуштени, Арвинд Нараианан и Витали Схматиков (2008) су показали да је могуће научити о специфичним људским филмским преференцама. Трик њиховог напада на поновно идентификацију био је сличан Свеенеи-у: спојити два извора информација, један са потенцијално осјетљивим информацијама и без очигледно идентификационих информација, а онај који садржи идентитете људи. Сваки од ових извора података може бити појединачно сигуран, али када се комбинују, спојени скуп података може да створи информациони ризик. У случају података Нетфлик-а, ево како би то могло да се деси. Замислите да сам одлучио да поделим своје мисли о акцији и комедијским филмовима са мојим сарадницима, али да више не радим своје мишљење о религијским и политичким филмовима. Моји сарадници могу да користе информације које сам поделио са њима како би пронашли своје податке у Нетфлик подацима; информације које ја поделим могу бити јединствени отисак прста као и датум рођења Виллиам Велд-а, поштански број и пол. Затим, ако су пронашли моју јединствену отиску прстију у подацима, могли су да науче моје оцене о свим филмовима, укључујући и филмове које изаберем да не дијелим. Поред оваквог напада усмереног на једну особу, Нараианан и Схматиков су такође показали да је било могуће направити широк напад - онај који укључује многе људе - спајањем Нетфликових података с подацима о личним и филмским оценама које су неки људи изабрали да објавите на Интернет Мовие Датабасе (ИМДб). Сасвим једноставно, свака информација која је јединствени отисак прста одређеној особи - чак и њихов скуп филмских оцјена - може се користити за идентификацију.

Иако се Нетфлик подаци могу поново идентификовати било у циљаном или широком нападу, и даље се може чинити малим ризиком. На крају крајева, оцене филмова не изгледају врло осетљиве. Иако то може бити истинито уопште, за неке од 500.000 људи у скупу података, оцјене филма могу бити прилично осетљиве. Заправо, у одговору на поновно идентификацију, једна лезбејка која је затворена ушла је у тужбу против класе Нетфлик-а. Ево како је проблем био изражен у њиховој тужби (Singel 2009) :

"Ови и подаци о рејтингу садрже информације о ... врло личној и осетљивој природи. Подаци о члановима филма откривају лични интерес чланова Нетфлик-а и / или боре се са различитим веома личним проблемима, укључујући сексуалност, менталне болести, опоравак од алкохола и виктимизацију од инцеста, физичког злостављања, насиља у породици, прељубе и силовања. "

Поновно идентификовање података Нетфлик Призе илуструје како су сви подаци потенцијално препознати и да су сви подаци потенцијално осетљиви. У овом тренутку, можда мислите да се ово односи само на податке који се односе на људе. Изненађујуће, то није случај. У одговору на захтев Закона о слободи информација, влада Њујорка објавила је податке о свакој вожњи такси у Нев Иорку у 2013. години, укључујући и пикаве и пада времена, локација и износа превоза (подсетимо из поглавља 2 да је Farber (2015) користе сличне податке за тестирање важних теорија у економији рада). Ови подаци о таксијским путовањима могу изгледати бенигни јер они не пружају информације о људима, али Антхони Тоцкар схвати да овај скуп података о такси заправо садржи пуно потенцијално осјетљивих информација о људима. Да би илустровао, погледао је све излете од Хустлер Цлуб-а великог стриптиз клуба у Њујорку - између поноћи и 6 ујутро, а потом пронашао своје одлагачке локације. Ова претрага је открила - у суштини - списак адреса неких људи који су посећивали Хустлер Цлуб (Tockar 2014) . Тешко је замислити да је градска влада то имала на уму када је објавила податке. Заправо, ова иста техника могла би се користити за проналажење кућних адреса људи који посјећују било које мјесто у граду - медицинску клинику, зграду владе или верску установу.

Ова два случаја Нетфлик награде и такси подаци из Њујорка показују да релативно квалификовани људи не могу правилно проценити информациони ризик у подацима које објављују - а ти случајеви никако нису јединствени (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Даље, у многим таквим случајевима, проблематични подаци су и даље слободни доступни на интернету, што указује на потешкоће да се икада поништи објављивање података. Колективно, ови примери - као и истраживања у рачунарству о приватности - доводе до важног закључка. Истраживачи треба да претпоставе да су сви подаци потенцијално препознати и да су сви подаци потенцијално осјетљиви.

Нажалост, не постоји једноставно решење за чињенице да су сви подаци потенцијално препознати и да су сви подаци потенцијално осетљиви. Међутим, један начин смањења информативног ризика док радите са подацима је креирање и праћење плана заштите података . Овај план ће смањити могућност да ће ваши подаци пропуштати и смањити штету уколико дође до цурења. Специфичности планова за заштиту података, као што је који облик шифровања за употребу, временом ће се променити, али УК Дата Дата корисно организује елементе плана заштите података у пет категорија које називају пет сефова : сигурни пројекти, сигурни људи , безбедна подешавања, сигурни подаци и сигурни излази (табела 6.2) (Desai, Ritchie, and Welpton 2016) . Ниједан од пет сефова појединачно не пружа савршену заштиту. Али заједно оне представљају моћан скуп фактора који могу смањити информациони ризик.

Табела 6.2: "Фиве Сафес" су Принципи за пројектовање (Desai, Ritchie, and Welpton 2016) плана заштите података (Desai, Ritchie, and Welpton 2016)
Сигурно	поступак
Сигурни пројекти	Ограничава пројекте са подацима онима који су етички
Сигурни људи	Приступ је ограничен на људе којима се може вјеровати са подацима (нпр. Људи који су прошли етички тренинг)
Безбедни подаци	Подаци се не идентификују и агрегирају у мери у којој је то могуће
Безбедне поставке	Подаци се чувају на рачунарима са одговарајућим физичким (нпр. Закључана соба) и софтвером (нпр. Заштитом лозинком, шифрирањем)
Сигуран излаз	Истраживачки резултат је прегледан како би се спречило случајно кршење приватности

Осим што штити ваше податке док их користите, један корак у истраживачком процесу гдје је информативни ризик посебно важан је дијељење података са другим истраживачима. Размјена података између научника је основна вриједност научног подухвата, а значајно олакшава напредак знања. Ево како је УК Хоусе оф Цоммонс описао важност поделе података (Molloy 2011) :

"Приступ подацима је од суштинског значаја ако истраживачи репродукују, верификују и надограђују резултате који су објављени у литератури. Претпоставка мора бити да, уколико нема другог разлога, подаци би требали бити потпуно објелодањени и јавно доступни. "

Ипак, дељењем података са другим истраживачем, можда ћете повећати информациони ризик за ваше учеснике. Стога, чини се да подјелавање података ствара темељну тензију између обавезе дијељења података са другим научницима и обавезе минимизирања информативног ризика за учеснике. На срећу, ова дилема није толико озбиљна као што се чини. Уместо тога, боље је размишљати о дијељењу података као што се тиче континуума, при чему свака тачка на том континууму пружа другачију комбинацију користи за друштво и ризик за учеснике (слика 6.6).

У једној екстреми, можете подијелити своје податке ни са једним, што минимизира ризик за учеснике, али и смањује добробит друштва. У другом екстрему, можете пуштати и заборавити , где су подаци "анонимни" и објављени за све. У односу на објављивање података, објављивање и заборављење нуди и веће користи друштву и већи ризик за учеснике. У међувремену ова два екстремна случаја представљају низ хибрида, укључујући оно што ћу назвати зиданим приступом врту . Према овом приступу, подаци се деле са људима који испуњавају одређене критеријуме и који се слажу да буду везани одређеним правилима (нпр. Надгледање из ИРБ-а и плана заштите података). Приступ зидним баштама пружа многе од предности ослобађања и заборави са мање ризика. Наравно, такав приступ ствара много питања - ко треба да има приступ, под којим условима и колико дуго ко треба да плати да одржава и полицира зидну башту итд. - али то није непремостиво. У ствари, већ постоје радне зидне баште које истраживачи могу користити сада, као што је архив података Интеруниверзитетског конзорција за политичка и друштвена истраживања на Универзитету у Мицхигану.

Слика 6.6: Стратегије испуштања података могу пасти дуж континуума. Где бисте требали бити на овом континууму зависи од специфичних детаља ваших података, а преглед треће стране може вам помоћи да одлучите о одговарајућем балансу ризика и користи у вашем случају. Тачан облик ове криве зависи од специфичности података и циљева истраживања (Goroff 2015) .

Дакле, где би подаци из ваше студије били на континууму без дељења, зидане баште и ослобађања и заборави? То зависи од детаља ваших података: истраживачи морају уравнотежити поштовање особа, користи, правичности и поштовања закона и јавног интереса. Гледано из ове перспективе, размјена података није посебна етичка загонетка; то је само један од многих аспеката истраживања у којем истраживачи морају пронаћи одговарајућу етичку равнотежу.

Неки критичари се генерално супротстављају размјени података, јер су, по мом мишљењу, фокусирани на своје ризике - који су несумњиво стварни и игноришу његове предности. Дакле, како бих подстакао фокус на ризике и користи, желио бих понудити аналогију. Сваке године аутомобили су одговорни за хиљаде смртних случајева, али не покушавамо да забранимо вожњу. У ствари, позив за забрану вожње би био апсурдан јер вожња омогућава много дивних ствари. Уместо тога, друштво ставља ограничења на то ко може да вози (нпр. Потреба да буде одређена старост и да прође одређене тестове) и како могу да возе (нпр., Под ограничењем брзине). Друштво такође има људе задужене за спровођење ових правила (нпр. Полиција), а ми кажњавамо људе који су ухваћени да их крше. Овакво уравнотежено размишљање које друштво примењује за регулисање вожње такође се може применити на размену података. То јест, умјесто да направим апсолутистичке аргументе за или подјелу података, мислим да ћемо највише напредовати фокусирањем на то како можемо смањити ризик и повећати користи од дијељења података.

Да закључимо, информативни ризик је драматично порастао и веома је тешко предвидети и квантификовати. Према томе, најбоље је претпоставити да су сви подаци потенцијално препознати и потенцијално осетљиви. Да би смањили информациони ризик током истраживања, истраживачи могу креирати и пратити план заштите података. Надаље, информативни ризик не спречава истраживаче да деле податке са другим научницима.