6.6.2 Разумевање и управљање информациони ризик

Овај превод је креиран од стране рачунара. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

6.6.2 Разумевање и управљање информациони ризик

Информације ризик је најчешћи ризик у друштвена истраживања; је повећан драматично; и то је најтеже ризик да разуме.

Други етички изазов за дигитално истраживање социјални старосне информациони ризик, потенцијал за штету од откривања информација (Council 2014) . Информативни штете од откривања личних података може бити економски (на пример, губитка посла), социјалне (нпр стида), психолошки (нпр, депресија), или чак кривични (нпр хапшење због илегалног понашања). Нажалост, дигитално доба повећава ризик информације драматично-има тако много више информација о нашем понашању. И, информациони ризик се показало веома тешко разумети и управљање у односу на ризике који су забринутост у аналогни старосној друштвена истраживања, као што је физички ризик. Да видимо како дигитално доба повећава ризик информативну, размотрити прелазак са папира на електронске медицинске картоне. Обе врсте евиденција стварају ризик, али електронски записи створити много веће ризике, јер у великом обиму се могу пренети неовлашћених особа или спојено са другим подацима. Друштвене истраживачи у дигиталном добу већ наилазе на проблеме са информациону ризика, делом због тога што нису у потпуности разумели како квантитативно и управљање га. Дакле, ја ћу понудити користан начин да се размишља о информационом ризик, а онда ћу да ти дам један савет за како да управљају информациони ризик у свом истраживању и у ослобађању податке са другим истраживачима.

Један од начина да социјални истраживачи смањити информациони ризик је "анонимну" података. "Анонимну" је процес уклањања очигледне могућност идентификације, као што су име, адресу и број телефона од података. Међутим, овај приступ је много мање ефикасна него сто многи људи схвате, а то је, у ствари, дубоко и суштински ограничена. Из тог разлога, кад год сам описати "анонимну," Ја ћу користити наводнике да вас подсетим да је овај процес ствара привид анонимности, али није истина анонимности.

Жива пример неуспеха "анонимну" долази из касних 1990-их у Масачусетсу (Sweeney 2002) . Комисија Група осигурања (ГИЦ) је владина агенција одговорна за куповину здравствено осигурање за све државних службеника. Путем овог рада, Гиц прикупљени детаљне здравствене картоне о хиљадама државних службеника. У настојању да подстакне истраживања о начинима да се побољша здравље, ГИЦ је одлучио да ослободи ове евиденције за истраживаче. Међутим, они нису делили све њихових података; а, они су "анонимне" га уклонити податке као што су име и адреса. Међутим, они су отишли друге информације које су мислили да могу бити корисни за истраживаче, као што су демографски подаци (поштански број, датум рођења, националност, и пола) и медицинских информација (посетите података, дијагнозе, процедуре) (Слика 6.4) (Ohm 2010) . На жалост, овај "анонимну" није био довољан да заштити података.

Слика 6.4: "анонимну" је процес уклањања очигледно идентификационе податке. На пример, приликом стављања у медицинску документацију осигурања државних службеника Масачусетс група Комисија за осигурање (ГИЦ) уклоњене име и адресу из списа. Ја користим наводнике око речи "анонимну", јер је процес даје изглед анонимности, али не стварни анонимност.

Да би илустровао недостатке ГИЦ "анонимну", Латаниа Свини-тада студент на МИТ платио $ 20 да стекну право гласа евиденције из града Кембриџа, родном граду Масачусетс гувернера Виллиам Велд. Ове гласања евиденција укључен информације као што су име, адреса, поштански број, датум рођења и пол. Чињеница да је медицински подаци фајл и бирач датотека заједничка поља-поштански број, датум рођења, и секс-значило да Свини би их повезати. Свини је знао да шава рођендан је 31. јула, 1945, а гласања записи укључени само шест људи у Кембриџу са тим рођендан. Даље, од тих шест људи, само три су били мушкарци. И, од та три мушкарца, само један заједнички шава је поштански број. Према томе, подаци гласања показали да свако у медицинских података са шава је комбинацијом датум рођења, пол, и поштанског је Вилијам заваривање. У суштини, ова три податка обезбедио јединствен отисак прста за њега у подацима. Користећи ову чињеницу, Свини био у стању да пронађе шава медицинске податке, и да га обавести о свом феат, она му послао копију својих евиденција (Ohm 2010) .

Слика 6.5: Поновно иденифицатион анонимних података. Латаниа Свини комбинује анонимну здравствене картоне са правом гласа евиденције како би пронашли медицинску документацију гувернер Виллиам Велд (Свеенеи 2002).

Слика 6.5: Поновно иденифицатион на "анонимне" података. Латаниа Свини у комбинацији са "анонимну" здравствени картон са правом гласа евиденције како би пронашли медицинску документацију гувернер Виллиам Велд (Sweeney 2002) .

Свини је рад илуструје основну структуру де анонимну напада -да усвоји термин из рачунара безбедности заједнице. У овим нападима, два скупови података, од којих ни једна по себи открива осетљиве информације, су повезани, и преко ове везе, осетљиве информације изложен. На неки начин овај процес је сличан начину на који соде бикарбоне и сирћета, две супстанце које су саме по себи сигурно, се могу комбиновати да произведе гадан исход.

У одговору на Свеенеиева рад, и друге сродне рад, истраживачи сада углавном уклонити много више информација-све тзв "Информације за личну идентификацију" (ПИИ) (Narayanan and Shmatikov 2010) -за процес "анонимну." Даље, многи истраживачи сада схватити да је одређени подаци-су медицинске документације, финансијских података, одговора на анкети питања о незаконитом понашању-је вероватно превише осетљива да се ослободи и након "анонимну." Међутим, новије примере који ћу описати ниже указују да социјални истраживачи треба да мењају мишљење. Као први корак, паметно је претпоставити да су сви подаци потенцијално могу идентификовати и сви подаци су потенцијално осетљив. Другим речима, пре него мислећи да је информациони ризик се односи на мали подскуп пројеката, требало би да претпоставимо да се то односи-у извесној мери-у све пројекте.

Оба аспекта овог преоријентације се илуструје Нетфлик награде. Као што је описано у Поглављу 5, Нетфлик објавио 100 милиона филма оцене које пружа скоро 500.000 чланова, и имао је отворени позив где људи из целог света поднела алгоритме који би могли побољшати способност Нетфлик да предложи филмове. Пре изношења података, Нетфлик уклонити било очигледно лично-идентификационе податке, као што су имена. Нетфлик такође је додатни корак и увела незнатне сметње у неким од евиденције (нпр мењају неке оцене од 4 звезда до 3). Нетфлик ускоро открио, међутим, да упркос њиховим напорима, подаци су никако анонимни.

Само две недеље након подаци су пуштени Narayanan and Shmatikov (2008) показали да је могуће да се упознају са филмским склоностима специфичних људи. Трик њиховог поновног идентификације напада била слична Свини је: спајање заједно два извора информација, један са потенцијално осетљиве информације и без очигледно информације о идентитету и један који садржи идентитет људи. Сваки од ових извора података могу бити појединачно безбедан, али када се комбинују спојена скуп података може да створи информациони ризик. У случају података Нетфлик, ево како се то могло догодити. Замислите да бирам да поделим своје мисли о акцији и комедије филмова са својим сарадницима, али да не желе да деле моје мишљење о вјерским и политичким филмовима. Моји сарадници могу да користе информације које сам заједничко са њима да пронађу своје записе у подацима Нетфлик; информације које делим могао бити јединствен отисак прста као Виллиам шава је датум рођења, поштански број и пол. Онда, ако нађем јединствен отисак прста у подацима, они могли да науче своје оцене о свим филмовима, укључујући и филмовима у којима не желе да деле. Поред ове врсте циљани напад фокусиран на једну особу, Narayanan and Shmatikov (2008) такође показали да је могуће направити широк напад -он укључује многе људе-спајањем података Нетфлик са личним и филмских података рејтинг да су неки људи су изабрали да поставите на Интернет Мовие Датабасе (ИМДб). Свака информација која је јединствена отисак на конкретну особу, чак и њихов скуп оцену филма-може да се користи да их идентификује.

Иако су подаци Нетфлик може бити поново идентификовани у било циљано или широког напада, још увек могу изгледати мали ризик. На крају крајева, филм рејтинг не изгледа веома осетљива. Док то би могло бити истина уопште, за неке од 500.000 људи у података, мовие рејтинг може бити веома осетљива. У ствари, у одговору на де-анонимну сексуалност скривају лезбејка жена придружио класе акција тужбу против Нетфлик. Ево како је проблем изражен у њиховом спору (Singel 2009) :

"[М] овие и рејтинг података садржи информације из више високо лични и осетљиве природе [сиц]. Филм подаци члан је излаже неког члана Нетфлик лични интерес и / или борбе са разним високо личним питањима, укључујући сексуалност, менталне болести, опоравак од алкохолизма, и виктимизације из инцеста, физичког злостављања, насиља у породици, прељуба, и силовање. "

Де-анонимну података у Нетфлик награда показује како да су сви подаци потенцијално могу идентификовати и да су сви подаци потенцијално осетљив. У овом тренутку, можда мислите да се ово односи само на податке да је тврди да се о људима. Изненађујуће, то није случај. У одговору на слободи захтева закона о информисању, Нев Иорк влада је објавила податке о сваком такси вожње у Њујорку 2013. године, укључујући и пикап и оставити пута, локација и цена карте износи (повлачење из поглавља 2 које Farber (2015) користи ове податке за тестирање важне теорије у раду економије). Иако је овај податак о такси путовања може изгледати бенигни јер се не чини да се информације о људима, Ентони Тоцкар схватио да такси скуп података заправо садржи много потенцијално осетљиве информације о људима. Илустрације ради, погледао је на свим путовањима са почетком у Тхе Хустлер Цлуб-велики стриптиз клуб у Њујорку-између поноћи и 6 сати, а затим нашло искрцавање локације. Ова претрага открива-у суштини-листу адресе неких људи који су честе Тхе Хустлер Цлуб (Tockar 2014) . Тешко је замислити да градска власт имала на уму када је објавио податке. У ствари, ова иста техника се може користити да се пронађу кућне адресе људи који посећују било где у граду-медицинске клинике, зграде владе, или вјерске институције.

Ова два случаја-је Нетфлик награде и Њујорк такси података показују да релативно обучених људи нису успели да правилно процени информативном ризика у подацима које су издали, и ови случајеви су ни у ком случају није јединствен (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Даље, у многим од ових случајева, проблем подаци још увек слободно доступан онлине, указује на тешкоће у све поништавање ослобађање података. Колективно ови примери-, као и истраживања у компјутерске науке о приватности-доводи до важног закључка. Истраживачи треба претпоставити да су сви подаци потенцијално могу идентификовати и сви подаци су потенцијално осетљив.

Нажалост, не постоји једноставно решење за чињеницу да су сви подаци потенцијално идентификовати и све податке је потенцијално осетљив. Међутим, један од начина да се смањи ризик информација док радите са подацима је да створи и прати план заштите података. Овај план ће смањује шансе да ће ваши подаци цури и да ће смањити штету ако некако дође до цурења. Специфичности планова за заштиту података, као што су облик енкрипције користити, ће се мењати током времена, али су Велика Британија Дата Сервицес услужно организује елементе плана за заштиту података у 5 категорија које они називају 5 сефова: сигурних пројеката, сигурно људи , сигурне подешавања, сигурне податке и безбедни излаза (табела 6.2) (Desai, Ritchie, and Welpton 2016) . Ниједна од пет сефова појединачно пружају савршену заштиту. Али, заједно чине моћан скуп фактора који могу да смањују ризик информативну.

Табела 6.2: Тхе 5 сефови су принципи за пројектовање и извршење плана за заштиту података (Desai, Ritchie, and Welpton 2016) .
Сафе	акција
сафе пројекти	ограничава пројекте са подацима на оне који су етички
сафе људи	приступ је ограничен на људе који могу да се поверење са подацима (на пример, људи су прошли етички тренинг)
сафе подаци	подаци де-идентификован и сакупљају колико је то могуће
сафе подешавања	Подаци се чувају у рачунарима са одговарајућим физички (нпр закључан соба) и софтвера (нпр, заштита лозинком, кодиран) заштите
безбедан излаз	резултати истраживања је прегледан да би се спречило ненамерно приватности кршења

Поред заштите своје податке, док га користите, један корак у процесу истраживања где информациони ризик је посебно истакнута је размена података са другим истраживачима. размена података међу научницима је основна вредност научни подухват, а што у великој мери објеката унапређење знања. Ево како у Великој Британији дом парламента описао је важност дељење података:

"Приступ подацима је од суштинског значаја ако истраживачи су да се репродукује, провери и градити на резултатима који су пријављени у литератури. Претпоставка мора бити да, уколико не постоји јак разлог другачије, подаци треба да буду у потпуности откривен и јавно доступни. У складу са овим принципом, где треба да буде направљен широко и слободно доступан могуће, подаци у вези са свим истраживањима јавно финансираног. " (Molloy 2011)

Ипак, за дељење података са другим истраживач, можете бити повећање информациони ризик да својим учесницима. Тако, може изгледати да су истраживачи који желе да деле своје податке-или се захтева да поделе своје податке-се суочавају са фундаментално напетост. С једне стране, они имају моралну обавезу да поделе своје податке са другим научницима, нарочито ако се јавно финансиран оригинално истраживање. Ипак, у исто време, истраживачи имају моралну обавезу да минимизира, колико је то могуће, информације ризик за њиховим учесницима.

На срећу, ова дилема није толико тешка као што изгледа. Важно је да на дељење података дуж континуума ни од размену података да се ослободи и заборавити, где подаци "анонимне" и постављен за свакога приступ (Слика 6.6). Оба ова екстремне позиције имају ризике и користи. То је, то није аутоматски највише етички ствар да не делите податке; такав приступ елиминише многе потенцијалне користи за друштво. Враћајући се Тасте, Везе, и време, пример раније у поглављу расправљали, аргументи против ослобађања података који се фокусирају само на могуће штете и да игноришу могуће користи претерано једнострани; Ја ћу описати проблеме са овим једнострано, превише заштитне приступ у више детаља у даљем тексту када сам дају савете о доношењу одлука у лице неизвесности (члан 6.6.4).

Слика 6.6: Дата релеасе стратегије може пасти дуж континуума. Где би требало да буду заједно овај континуум зависи од специфичне детаље ваших података. У овом случају, преглед треће лице може помоћи да одлучите одговарајућу равнотежу ризика и користи у вашем случају.

Даље, између ова два екстремним случајевима је оно што ћу назвати Валлед Гарден приступ у коме се подаци деле са људима који испуњавају одређене критеријуме и који се слажу да буде везана одређеним правилима (нпр, надзор из ИРБ-а а планови за заштиту података) . Овај зидом врт приступ обезбеђује многе предности ослобађања и заборави са мањим ризиком. Наравно, зидом врт приступ ствара многа питања-ко би требало да имају приступ, под којим условима, за колико дуго, ко треба да плати за одржавање и полицији Валлед Гарден итд-али то нису непремостиве. У ствари, постоји већ раде зидом окружене вртове у месту које истраживачи могу одмах користити, као што су архиви података Интер-универзитетском конзорцијуму за политичку и друштвена истраживања на Универзитету Мичиген.

Дакле, где би требало да се подаци из вашег истраживања бити на континуума без поделе, зидом врт, и испуштање и заборавити? То зависи од детаља података; Истраживачи мора балансирати Поштовање особа, доброчинства, правде и поштовање закона и јавног интереса. Приликом процене одговарајућу равнотежу и за друге одлуке истраживачи траже савет и сагласност ИРБс, а подаци ослобађање може бити само још један део тог процеса. Другим речима, иако неки људи мисле о издању података као безизлазној етичког мочвари, већ имамо системе како би помогле истраживачима равнотежу ове врсте етичким дилемама.

Један коначни начин размишљања о дељењу података је по аналогији. Сваке године аутомобили су одговорни за хиљаде смрти, али не покушавајте да забрани вожњу. У ствари, такав позив за забрану вожње би било апсурдно јер возача се оспособљава многе дивне ствари. Уместо тога, друштво поставља ограничења која могу возити (нпр, треба да буде одређена старост, треба да су прошли одређене тестове) и како они могу возити (нпр, под ограничење брзине). Друштво има људи задужених за спровођење тих правила (на пример, полиција), а ми кажњавају људе који су захваћени их крше. Ова иста врста уравнотеженог размишљања које друштво се односи на регулисање вожњу може се применити и на дељење података. То је, пре него што апсолутистичке аргументе за или против размену података, мислим да највеће предности ће доћи из смисли како можемо више безбедно деле више података.

Да закључимо, информациони ризик се драматично повећао, и то је веома тешко предвидети и квантификовати. Због тога је најбоље да се претпостави да су сви подаци потенцијално могу идентификовати и потенцијално осетљив. Да бисте смањили ризик информациони док раде истраживања, истраживачи могу да креирају и прате план заштите података. Даље, информациони ризик не спречава истраживаче да деле податке са другим научницима.