6.6.2 Разуменне і кіраванне рызыкамі інфармацыйнай

Інфармацыйны рызыка з'яўляецца найбольш распаўсюджаным рызыкай ў сацыяльных даследаваннях; яна рэзка ўзрасла; і гэта самы цяжкі рызыка зразумець.

Другі этычнай праблемай для лічбавага ўзросту даследавання з'яўляецца інфармацыйнай рызыкай, патэнцыйны шкоду ад раскрыцця інфармацыі (National Research Council 2014) . Інфармацыйны шкоду ад выдавання асабістай інфармацыі можа быць эканамічна (напрыклад, страта працы), сацыяльнае (напрыклад, збянтэжанасць), псіхалагічная (напрыклад, дэпрэсія), ці нават злачынец (напрыклад, арышт за незаконнае паводзіны). На жаль, лічбавы ўзрост павялічваецца інфармацыйны рызыка рэзка-то проста так значна больш інфармацыі пра нашых паводзінах. І інфармацыйны рызыка апынуўся вельмі цяжкім для разумення і кіравання ў параўнанні з рызыкамі, якія былі праблемамі ў аналягавай-узроставых сацыяльных даследаваннях, такія як фізічны рызыка.

Адзін з спосабаў , што сацыяльныя даследчыкі паменшыць інфармацыйны рызыка з'яўляецца "ананімную" дадзеных. "Анонимизация" з'яўляецца працэс выдалення відавочных асабістых ідэнтыфікатараў, такіх як імя, адрас і нумар тэлефона з дадзеных. Тым не менш, гэты падыход значна менш эфектыўны, чым многія людзі разумеюць, і гэта, па сутнасці, глыбока і прынцыпова абмежавана. Па гэтай прычыне, кожны раз, калі я апісваю "ананімную" Я буду выкарыстоўваць двукоссі, каб нагадаць вам, што гэты працэс стварае бачнасць ананімнасці, але не адпавядае рэчаіснасці ананімнасць.

Яскравым прыкладам правалу «обезличивания» адбываецца з канца 1990 - х гадоў у штаце Масачусэтс (Sweeney 2002) . Камісія страхавая група (СВГ) быў урадавым установай, адказным за набыццё медыцынскага страхавання для ўсіх дзяржаўных служачых. Дзякуючы гэтай працы ГВК сабраны падрабязныя справаздачы пра здароўе тысяч дзяржаўных служачых. У спробе стымуляваць даследаванні, ВПК вырашыла выпусціць гэтыя запісы для даследчыкаў. Тым не менш, яны не падзялялі ўсе іх дадзеныя; хутчэй, яны «ананімны» гэтыя дадзеныя шляхам выдалення інфармацыі, як імёны і адрас. Тым ня менш, яны пакінулі іншую інфармацыю , якая , па іх думку могуць быць карысныя для даследчыкаў , такіх як дэмаграфічныя дадзеныя (паштовы індэкс, дату нараджэння, нацыянальнасці і полу) і медыцынскай інфармацыі (дадзеныя візіту, дыягностыка, працэдура) (малюнак 6.4) (Ohm 2010) . На жаль, гэта «ананімны» не было дастаткова, каб абараніць дадзеныя.

Малюнак 6.4: Анонимизация гэта працэс выдалення, відавочна, ідэнтыфікуе інфармацыю. Напрыклад, пры адпушчэнні медыцынскага страхавання запісы дзяржаўных служачых, Камісія штат Масачусэтс страхавой групы (СВГ) выдаленыя імёны і адрас з файлаў. Я выкарыстоўваю двукоссі вакол словы обезличивания, таму што працэс забяспечвае з'яўленне ананімнасці, але не рэальна ананімнасць.

Малюнак 6.4: «Анонимизация» з'яўляецца працэсам выдалення відавочна ідэнтыфікавалай інфармацыі. Напрыклад, пры адпушчэнні медыцынскага страхавання запісы дзяржаўных служачых, Камісія штат Масачусэтс страхавой групы (СВГ) выдаленыя імёны і адрас з файлаў. Я выкарыстоўваю двукоссі вакол словы «анонимизация», таму што працэс забяспечвае з'яўленне ананімнасці, але не рэальна ананімнасць.

Для таго, каб праілюстраваць недахопы «обезличивания» ГПК, Latanya Sweeney-то аспірант MIT-заплаціў $ 20, каб атрымаць запісу голасу з горада Кембрыдж, радзіма губернатара штата Масачусэтс Уільям Weld. Гэтыя галасуюць запісу ўключаюць інфармацыю, такія як імя, адрас, паштовы індэкс, дату нараджэння і падлогу. Справа ў тым, што медыцынскі файл дадзеных і файл выбаршчыку сумесна поля, паштовы індэкс, дату нараджэння і пол-азначае, што Суіні мог злучыць іх. Sweeney ведаў, што дзень нараджэння Weld было 31 ліпеня 1945 года, і запіс голасу ўключана толькі шэсць людзей у Кэмбрыдж з гэтым днём нараджэння. Акрамя таго, з гэтых шасці людзей, толькі тры былі мужчыны. І з гэтых трох мужчын, толькі адзін агульны паштовы індэкс зварачнай. Такім чынам, дадзеныя галасавання паказалі, што хто-небудзь у медыцынскіх дадзеных з камбінацыяй Weld пра дату нараджэння, пол і паштовы індэкс быў Уільям Weld. Па сутнасці, гэтыя тры часткі інфармацыі , прадстаўленай унікальны адбітак пальца яму ў дадзеных. Выкарыстоўваючы гэты факт, Sweeney змог знайсці медыцынскія запісы зварнога шва, і, каб паведаміць яму аб сваім подзвігу, яна па пошце яму копію сваіх запісаў (Ohm 2010) .

Малюнак 6.5: Re-idenification ананімных дадзеных. Latanya Суіні аб'ядналі анонимизированных медыцынскія запісы з запісамі галасы для таго, каб знайсці медыцынскія запісы губернатара Уільяма Weld Адаптавана з Sweeney (2002), малюнак 1.

Малюнак 6.5: Паўторна idenification з "ананімных" дадзеных. Latanya Sweeney аб'яднаў «анонимизированные» медыцынскія запісы з запісамі галасы для таго , каб знайсці медыцынскія запісы губернатара Уільяма Weld адаптаваны з Sweeney (2002) , малюнак 1.

Праца Суіні ілюструе асноўную структуру паўторнай ідэнтыфікацыі нападаў -у прыняць тэрмін з супольнасці кампутарнай бяспекі. У гэтых нападах, два набору дадзеных, ні адзін з якіх саміх па сабе раскрывае канфідэнцыйную інфармацыю, якія звязаныя паміж сабой, і праз гэтую сувязь, сакрэтная інфармацыя падвяргаецца.

У адказ на працы Суіні і іншыя звязаныя з працай, даследчыкі зараз наогул выдаліць значна больш інфармацыі-ўсё так званую «асабістую інфармацыю» (PII) (Narayanan and Shmatikov 2010) -У працэс «обезличивания» . Акрамя таго, многія даследчыкі цяпер разумеюць, што некаторыя дадзеныя, такія як медыцынскія запісы, фінансавыя справаздачы, адказы на пытанні анкеты аб супрацьпраўным паводзінах, верагодна занадта адчувальныя, каб вызваліць нават пасля таго, як «обезличивание.» Тым не менш, прыклады, якія я збіраюся даць выказаць здагадку, што сацыяльныя даследчыкі павінны змяніць сваё мысленне. У якасці першага кроку, разумна выказаць здагадку , што ўсе дадзеныя з'яўляюцца патэнцыйна ідэнтыфікаваць і ўсе дадзеныя з'яўляюцца патэнцыйна адчувальнымі. Іншымі словамі, замест таго, каб думаць, што інфармацыйны рызыка ставіцца да невялікай групе праектаў, мы павінны выказаць здагадку, што ён ставіцца да нейкай ступені, да ўсіх праектаў.

Абодва аспекты гэтай пераарыентацыі ілюструецца Netflix прэміі. Як апісана ў главе 5, Netflix выпусціла 100 мільёнаў рэйтынгі фільмаў, прадастаўленыя амаль 500 000 членаў, і быў адкрыты выклік, дзе людзі з усяго свету, прадстаўленыя алгарытмы, якія маглі б палепшыць здольнасць Netflix, каб рэкамендаваць фільмы. Перад выпускам дадзеных, Netflix выдаленыя якія-небудзь відавочныя асабістую інфармацыю, такую ​​як імёны. Яны таксама пайшлі дадатковы крок і ўвялі невялікія абурэння ў некаторых запісах (напрыклад, змяніць некаторыя ацэнкі ад 4 зорак 3 зоркі). Неўзабаве яны выявілі, аднак, што, нягледзячы на ​​іх намаганні, дадзеныя па-ранейшаму ніякім чынам не ананімны.

Усяго праз два тыдні пасля таго, як дадзеныя былі вызваленыя, Эрвинд Нарайанана і Віталь Shmatikov (2008) паказалі , што можна даведацца аб перавагах ў кіно спецыфічных людзей. Хітрасць іх паўторная ідэнтыфікацыя атакі была падобная на свінняў: зліваецца дзве крыніцы інфармацыі, адзін з патэнцыйна сакрэтнай інфармацыяй і не відавочна, ідэнтыфікавалай інфармацыяй, і той, які змяшчае ідэнтычнасць людзей. Кожны з гэтых крыніц дадзеных можа быць індывідуальна бяспечны, але калі яны аб'яднаныя, аб'яднаны набор дадзеныя могуць стварыць інфармацыйны рызыка. У выпадку дадзеных Netflix, вось як гэта магло адбыцца. Уявіце сабе, што я хачу падзяліцца сваімі думкамі з нагоды дзеянняў і камедый фільмаў з маімі калегамі, але я аддаю перавагу не выказаць сваё меркаванне аб рэлігійных і палітычных фільмах. Мае супрацоўнікі могуць выкарыстоўваць інфармацыю, якую я падзяліўся з імі, каб знайсці мае запісы ў дадзеных Netflix; інфармацыя, якую я дзялю можа быць унікальнымі адбіткамі пальцаў, як і дата William Weld нараджэння, паштовы індэкс, і сэкс. Тады, калі яны знайшлі свой унікальны адбітак у дадзеных, яны маглі даведацца мае рэйтынгі аб усіх фільмах, у тым ліку фільмаў, якія я выбіраю, каб не падзяліць. У дадатку да гэтага віду мэтанакіраванага нападу , сфакусаваных на аднаго чалавека, Нарайанано і Shmatikov таксама паказалі , што можна было зрабіць шырокія атакі -яна з удзелам многіх людзей-шляхам аб'яднання дадзеных Netflix з асабістымі і рэйтынгам фільмаў дадзеных , якія выбралі некаторыя людзі размяшчаць на сайце Internet Movie Database (IMDb). Прасцей кажучы, любую інфармацыя, якая з'яўляецца унікальнымі адбіткамі пальцаў для канкрэтнага чалавека, нават іх набору фільмаў рэйтынгаў, можа быць выкарыстана для іх ідэнтыфікацыі.

Нягледзячы на ​​тое, што дадзеныя Netflix могуць быць паўторна вызначана ў любой мэтанакіраванай або шырокай атацы, ён усё яшчэ можа здацца нізкім рызыка. У рэшце рэшт, рэйтынгі фільмаў, здаецца, не вельмі адчувальныя. Нягледзячы на ​​тое, што можа быць праўдай, увогуле, для некаторых з 500000 людзей у наборы дадзеных, рэйтынгі фільмаў могуць быць вельмі адчувальнымі. На самай справе, у адказ на паўторнай ідэнтыфікацыі, замкнуўшыся жанчына лесбіянка далучыўся касцюм класа дзеянняў супраць Netflix. Вось як была выказана праблема ў іх пазове (Singel 2009) :

«[M] Ові і ацэнка даных змяшчае інфармацыю пра выгляд ... вельмі асабісты і канфідэнцыйны характар. Дадзеныя фільма ўдзельніка выстаўляе асабісты інтарэс для членаў Netflix і / або барацьбы з рознымі вельмі асабістымі пытаннямі, у тым ліку сэксуальнага паводзінаў, псіхічныя захворванні, акрыяння ад алкагалізму, і виктимизации ад інцэста, фізічнага гвалту, гвалту ў сям'і, распусту і згвалтаванне «.

Паўторная ідэнтыфікацыя дадзеных Netflix Prize ілюструе, як, што ўсе дадзеныя з'яўляюцца патэнцыйна ідэнтыфікуюцца і што ўсе дадзеныя з'яўляюцца патэнцыйна адчувальнымі. На дадзены момант, вы можаце падумаць, што гэта ставіцца толькі да дадзеных, якія маюць на ўвазе, што пра людзей. Дзіўна, што гэта не так. У адказ на свабоду запыту інфармацыі закона, Нью - Ёрк ўрад апублікавала запіс кожную паездкі на таксі ў Нью - Ёрку ў 2013 годзе, у тым ліку пікапа і сыходзіць часы, месцы і плату за праезд суму (нагадае , з кіраўніка 2 , што Farber (2015) выкарыстаў аналагічныя дадзеныя для тэставання важных тэорый ў эканоміцы працы). Гэтыя дадзеныя аб таксі паездак могуць здацца дабраякаснымі, таму што яны, падобна, не даваць інфармацыі пра людзей, але Энтані Tockar зразумеў, што гэта таксі набор дадзеныя на самай справе змяшчаецца мноства патэнцыйна сакрэтнай інфармацыі аб людзях. Каб праілюстраваць гэта, ён глядзеў на ўсе паездкі, пачынаючы з Hustler Club-вялікі стрып-клуб у Нью-Ёрку-паміж полуночью і 6-й раніцы, а затым знайшлі іх размяшчэнне высадка. Гэты пошук паказаў , у сутнасці-спіс адрасоў некаторых людзей, якія наведвалі ў Hustler Club (Tockar 2014) . Цяжка сабе ўявіць, што гарадскія ўлады мелі на ўвазе, калі яна выпусціла дадзеныя. На самай справе, гэты ж метад можа быць выкарыстаны, каб знайсці хатнія адрасы людзей, якія наведваюць любое месца ў горадзе-медыцынскай клініцы, ўрадавае будынак, або рэлігійнае ўстанову.

Гэтыя два выпадкі Netflix Prize і шоў таксі дадзеных Нью - Ёрк , што адносна кваліфікаваных людзі могуць не правільна ацаніць інфармацыйны рызыка ў дадзеным , якія яны вызваляюць-і гэтыя выпадкі не ў якім выпадку не ўнікальная (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Акрамя таго, у многіх такіх выпадках, праблематычныя дадзеныя па-ранейшаму свабодна даступныя ў Інтэрнэце, паказваючы на ​​цяжкасці, калі-небудзь адмяняючы выпуск дадзеных. У сукупнасці, гэтыя прыклады-а таксама даследаванні ў галіне камп'ютэрнай навукі аб канфiдэнцыяльнасцi-прыводзіць да важнай высновы. Даследчыкі павінны выказаць здагадку , што ўсе дадзеныя з'яўляюцца патэнцыйна ідэнтыфікаваць і ўсе дадзеныя з'яўляюцца патэнцыйна адчувальнымі.

На жаль, не існуе простага рашэння фактаў, што ўсе дадзеныя, якія патэнцыйна ідэнтыфікаваць і што ўсе дадзеныя, якія патэнцыйна адчувальныя. Тым ня менш, адзін з спосабаў зніжэння інфармацыйнага рызыкі пры працы з дадзенымі, каб стварыць і прытрымлівацца плана абароны дадзеных. Гэты план будзе паменшыць верагоднасць таго, што вашыя дадзеныя будуць цячы і паменшыць шкоду, калі ўцечка сапраўды нейкім чынам адбываецца. Спецыфіка планаў абароны дадзеных, напрыклад, які выгляд шыфравання для выкарыстання, будзе мяняцца з цягам часу, але службы дадзеных Вялікабрытаніі паслужліва арганізуюць элементы плана абароны дадзеных на пяць катэгорый , якія яны называюць пяць сейфаў: бяспечныя праекты, бяспечныя чалавек , бяспечныя параметры, бяспечныя дадзеныя і бяспечныя выхады (табліца 6.2) (Desai, Ritchie, and Welpton 2016) . Ні адзін з пяці сейфаў паасобку не забяспечваюць ідэальную абарону. Але разам яны ўтвараюць магутны набор фактараў, якія могуць паменшыць інфармацыйны рызыка.

Табліца 6.2: «Пяць Сейфы» з'яўляюцца прынцыпы праектавання і выканання плана па абароне дадзеных (Desai, Ritchie, and Welpton 2016)
сейф дзеянне
бяспечныя праекты Гранічна праекты з дадзенымі для тых, якія з'яўляюцца этычнымі
бяспечныя людзі Доступ абмежаваны для людзей, якім можна давяраць з дадзенымі (напрыклад, людзі, якія прайшлі этычную падрыхтоўку)
бяспечныя дадзеныя Дадзеныя абязлічанай і агрэгуе ў максімальна магчымай ступені
бяспечныя налады Дадзеныя захоўваюцца ў кампутарах адпаведныя фізічныя (напрыклад, закрытая пакой) і праграмнага забеспячэння (напрыклад, абарона паролем, зашыфраваная) абарона
бяспечны выхад Вынікі гэтых даследаванняў разглядаюцца для прадухілення выпадковага парушэння прыватнасці

У дадатак да абароны вашых дадзеных падчас іх выкарыстання, адзін крок у працэсе даследавання, дзе інфармацыйны рызыка асабліва прыкметным з'яўляецца абмен дадзенымі з іншымі даследчыкамі. Абмен дадзеных паміж навукоўцамі з'яўляецца асноўнай каштоўнасцю навуковай дзейнасці, і гэта значна палягчае прасоўванне ведаў. Вось як Палаты абшчын Вялікабрытаніі апісала важнасць абмену дадзеных (Molloy 2011) :

«Доступ да дадзеных з'яўляецца фундаментальным, калі даследчыкі прайграць, праверыць і абапірацца на вынікі, пра якія паведамляецца ў літаратуры. Здагадка, што павінна быць, калі ёсць важкі чыннік, у адваротным выпадку, дадзеныя павінны быць цалкам раскрыты і даступныя грамадскасці. »

Тым не менш, шляхам абмену дадзенымі з іншым даследчыкам, вы можаце быць павышэнне інфармацыйнага рызыкі для ўдзельнікаў семінара. Такім чынам, можа здацца, што абмен дадзенымі стварае фундаментальную напружанасць паміж абавязацельствам абменьвацца дадзенымі з іншымі навукоўцамі і абавязацельствам мінімізаваць інфармацыйны рызыка для ўдзельнікаў. На шчасце, гэтая дылема не гэтак моцная, як гэта здаецца. Хутчэй, гэта лепш думаць пра тое, абмене дадзеных, як падзенне ўздоўж кантынууму, з кожнай кропкай на гэтым кантынууме, які забяспечвае розныя спалучэння пераваг для грамадства і рызыкі для ўдзельнікаў (малюнак 6.6).

На адным полюсе, вы можаце падзяліцца сваёй інфармацыяй ні з кім, што зводзіць да мінімуму рызыка для ўдзельнікаў, але і зводзіць да мінімуму выгады для грамадства. У іншым крайнім выпадку , вы можаце адпусціць і забыцца, дзе дадзеныя «ананімнымі» і размешчаныя для ўсіх. Адносна не адпускаючы дадзеныя, рэліз і забыць прапановы як больш высокія выгады для грамадства, так і больш высокі рызыка для ўдзельнікаў. У прамежку паміж гэтымі двума крайнімі выпадкамі цэлы шэраг гібрыдаў, у тым ліку тое , што я буду называць сцяной падыход саду. Пры такім падыходзе дадзеныя сумесна з людзьмі, якія адказваюць вызначаным крытэрам, і якія згодныя выконваць пэўныя правілы (напрыклад, кантроль ад IRB і плана абароны дадзеных). Сцяна падыход саду забяспечвае многія перавагі выпуску і забыцца з меншым рызыкай. Вядома, такі падыход стварае шмат пытанняў-той павінен мець доступ, пры якіх умовах, а таксама пра тое, як доўга, хто павінен плаціць, каб падтрымліваць і патруляваць сцяну саду і г.д., але яны не з'яўляюцца непераадольнымі. На самай справе, там ужо працуюць абнесеныя сцяной сады на месцы, што даследчыкі могуць выкарыстоўваць прама цяпер, напрыклад, архіў дадзеных Кансорцыума міжвузаўскай палітычных і сацыяльных даследаванняў пры Мічыганскім універсітэце.

Малюнак 6.6: стратэгіі выпуску дадзеных могуць падаць ўздоўж кантынууму. Дзе вы павінны быць у гэтым кантынууме залежыць ад канкрэтных дэталяў вашых дадзеных, а таксама разгляд трэцяй боку можа дапамагчы вам вырашыць, адпаведны баланс рызыкі і карысці ў вашым выпадку. Дакладная форма гэтай крывой залежыць ад спецыфікі мэтаў дадзеных і даследаванняў (Goroff 2015).

Малюнак 6.6: стратэгіі выпуску дадзеных могуць падаць ўздоўж кантынууму. Дзе вы павінны быць у гэтым кантынууме залежыць ад канкрэтных дэталяў вашых дадзеных, а таксама разгляд трэцяй боку можа дапамагчы вам вырашыць, адпаведны баланс рызыкі і карысці ў вашым выпадку. Дакладная форма гэтай крывой залежыць ад спецыфікі мэтаў дадзеных і навуковых даследаванняў (Goroff 2015) .

Такім чынам, калі дадзеныя з даследавання павінны быць на кантынууме ня падзелу, абнесены сцяной сад, і адпусціць і забыцца? Гэта залежыць ад дэталяў вашых дадзеных: даследчыкі павінны збалансаваць павагу да асобы, Beneficence, справядлівасць і павага да закону і грамадскіх інтарэсаў. З гэтага пункту гледжання, абмен дадзенымі не з'яўляецца адметнай этычнай загадка; гэта ўсяго толькі адзін з многіх аспектаў даследаванняў, у якіх даследчыкі павінны знайсці адпаведнае этычнае раўнавагу.

Некаторыя крытыкі, як правіла, у адрозненне ад сумеснага выкарыстання дадзеных, таму што, на мой погляд, яны засяроджаныя на сваіх рызыках-якія, несумненна, рэальнага і ігнаруеце свае перавагі. Такім чынам, для таго, каб стымуляваць ўвагу на абодвух рызык і выгод, я хацеў бы прапанаваць аналогію. Кожны год, аўтамабілі нясуць адказнасць за тысячы смерцяў, але мы не спрабуем забараніць кіраванне. На самай справе, заклік забараніць кіраванне было б абсурдна, таму што кіраванне дае шмат выдатных рэчаў. Хутчэй за ўсё, грамадства накладвае абмежаванні на тое, хто можа кіраваць (напрыклад, неабходнасць быць пэўным узростам і прайшлі пэўныя тэсты) і якім чынам яны могуць кіраваць (напрыклад, пры абмежаванні хуткасці). Грамадства таксама ёсць людзі, якім даручана забеспячэнне захавання гэтых правілаў (напрыклад, паліцыя), і мы караем чалавек, злоўленыя за іх парушэнне. Гэты ж выгляд збалансаванага мыслення, што грамадства ставіцца да рэгулявання кіравання можа таксама прымяняцца для сумеснага выкарыстання дадзеных. Гэта значыць, замест таго, каб абсалютысцкай аргументы на карысць ці супраць сумеснага выкарыстання дадзеных, я думаю, што мы будзем рабіць найбольшы прагрэс, засяродзіўшыся на тым, як мы можам знізіць рызыкі і павялічыць выгады ад сумеснага выкарыстання дадзеных.

У заключэнне, інфармацыйны рызыка рэзка ўзрасла, і гэта вельмі цяжка прадказаць, і колькасна. Таму, лепш за ўсё выказаць здагадку, што ўсе дадзеныя з'яўляюцца патэнцыйна ідэнтыфікаваць і патэнцыйна адчувальныя. Для памяншэння інфармацыйнага рызыкі пры гэтым даследаванні, даследчыкі могуць ствараць і прытрымлівацца плана абароны дадзеных. Акрамя таго, інфармацыйны рызыка не перашкаджае даследчыкам абмену дадзенымі з іншымі навукоўцамі.