6.6.2 Понимание и управление рисками информационной

Информационный риск является наиболее распространенным риском в социальных исследованиях; она резко возросла; и это самый тяжелый риск для понимания.

Второй этической проблемой для социального возраста цифрового исследования является информационным риском, потенциальный вред от раскрытия информации (Council 2014) . Информационные вред от разглашения личной информации может быть экономическими (например, потеря работы), социальные (например, смущения), психологические (например, депрессия), или даже преступника (например, арест за незаконное поведение). К сожалению, век цифровых технологий увеличивает информационный риск резко-то просто так гораздо больше информации о нашем поведении. И, информационный риск оказался очень трудным для понимания и управления по сравнению с рисками, которые были проблемы в аналоговой возрастной социальных исследований, такие как физический риск. Чтобы увидеть, как цифровой век увеличивает информационный риск, рассмотреть переход от бумажных носителей к электронным медицинским записям. Оба типа записей создают риск, но электронные записи создают гораздо больший риск, потому что в массовом масштабе они могут быть переданы неуполномоченным лицам или объединена с другими записями. Социальные исследователи в эпоху цифровых технологий уже столкнулись с проблемами с информационного риска, отчасти потому, что они не в полной мере понять, как количественно и управлять им. Итак, я собираюсь предложить полезный способ думать об информационной опасности, а затем я собираюсь дать вам несколько советов о том, как управлять информационной риск в своих исследованиях и в освобождении данных для других исследователей.

Один из способов , что социальные исследователи уменьшить информационный риск является "анонимную" данных. "Анонимизация" является процесс удаления очевидных личных идентификаторов, таких как имя, адрес и номер телефона из данных. Тем не менее, этот подход гораздо менее эффективен, чем многие люди понимают, и это, по сути, глубоко и принципиально ограничено. По этой причине, всякий раз, когда я описываю "анонимную" Я буду использовать кавычки, чтобы напомнить вам, что этот процесс создает видимость анонимности, но не соответствует действительности анонимность.

Ярким примером провала "обезличивания" происходит с конца 1990 - х годов в штате Массачусетс (Sweeney 2002) . Комиссия страховая группа (СВГ) был правительственным учреждением, ответственным за приобретение медицинского страхования для всех государственных служащих. Благодаря этой работе, СВГ собраны подробные отчеты о здоровье тысяч государственных служащих. В попытке стимулировать исследование о путях улучшения здоровья, GIC решил выпустить эти записи для исследователей. Тем не менее, они не разделяли все их данные; скорее, они "анонимными", удалив информацию, такую ​​как имя и адрес. Тем не менее, они оставили другую информацию , которая , по их мнению могут быть полезны для исследователей , таких как демографические данные (почтовый индекс, дату рождения, национальности и пола) и медицинской информации (данные визита, диагностика, процедура) (рис 6.4) (Ohm 2010) . К сожалению, это "анонимную" было недостаточно для защиты данных.

Рисунок 6.4: Анонимизация это процесс удаления явно идентифицирующей информации. Например, при выпуске системы медицинского страхования записи государственных служащих Комиссия штата Массачусетс страховая группа (СВГ) удален имя и адрес из файлов. Я использую кавычки вокруг слова обезличивания, потому что процесс обеспечивает появление анонимности, но не фактическую анонимность.

Рисунок 6.4: "Анонимизация" это процесс удаления явно идентифицирующей информации. Например, при выпуске системы медицинского страхования записи государственных служащих Комиссия штата Массачусетс страховая группа (СВГ) удален имя и адрес из файлов. Я использую кавычки слово "обезличивания", потому что процесс обеспечивает появление анонимности, но не фактическую анонимность.

Чтобы проиллюстрировать недостатки "обезличивания" GIC, Latanya Суини-то аспирант MIT-заплатил $ 20, чтобы приобрести записи голоса из города Кембридж, родном городе губернатора штата Массачусетс Уильям Weld. Эти голосования записи включают информацию, такую ​​как имя, адрес, почтовый индекс, дату рождения и пол. Тот факт, что медицинский файл данных и избиратель общие поля, почтовый индекс, дата рождения, и секс-означало, что Суини мог связать их. Суини знал, что день рождения в Weld был 31 июля 1945 года и протоколы голосования были включены только шесть человек в Кембридже с этим днем ​​рождения. Кроме того, из этих шести человек, только трое были мужчины. И из этих трех мужчин, только один общий почтовый индекс сварного шва в. Таким образом, данные голосования показали, что кто-то в медицинских данных с комбинацией Weld о дате рождения, пол и почтовый индекс был Уильям Weld. По сути, эти три части информации обеспечили уникальные отпечатки пальцев ему в данных. Используя этот факт, Суини удалось найти медицинские записи сварного шва, и сообщить ему о своем подвиге, она по почте ему копию его записей (Ohm 2010) .

Рисунок 6.5: Re-idenification анонимных данных. Latanya Суини объединил анонимизированных медицинских записей с записями голосования, чтобы найти медицинские записи губернатора Уильяма Weld (Суини 2002).

Рисунок 6.5: Re-idenification из "обезличенных" данных. Latanya Суини объединил "анонимизированных" медицинских записей с записями голосования, чтобы найти медицинские записи губернатора Уильяма Weld (Sweeney 2002) .

Работа Суини иллюстрирует основную структуру де-обезличивания атак -в принять термин из сообщества компьютерной безопасности. В этих нападений, два набора данных, ни один из которых сам по себе раскрывает конфиденциальную информацию, которые связаны между собой, и через эту связь, конфиденциальная информация подвергается. В некотором смысле этот процесс аналогичен тому, как пищевая сода и уксус, два вещества, которые сами по себе безопасны, могут быть объединены, чтобы произвести неприятный исход.

В ответ на работе Суини и другие связанные с работой, исследователи теперь вообще удалить гораздо больше информации , все они так называемую "личную информацию" (PII) (Narayanan and Shmatikov 2010) -во процесс «обезличивания». Кроме того, многие исследователи в настоящее время понимать, что определенные данные, такие как медицинские записи, финансовые отчеты, ответы на вопросы анкеты о противоправного поведения, вероятно, слишком чувствителен, чтобы освободить даже после того, как «обезличивания». Тем не менее, более поздние примеры, которые я опишу ниже, показывают, что социальные исследователи должны изменить свое мышление. В качестве первого шага, разумно предположить , что все данные потенциально идентифицировать и все данные потенциально чувствительны. Другими словами, вместо того, чтобы думать, что информационный риск относится к небольшой группе проектов, мы должны предположить, что он относится к той или иной степени, ко всем проектам.

Оба аспекта этой переориентации проиллюстрированы Netflix Prize. Как описано в главе 5, Netflix выпустила 100 миллионов рейтинги фильмов, предоставленные почти 500 000 членов, и был открытый вызов, где люди со всего мира, представленные алгоритмы, которые могли бы улучшить способность Нетфликса рекомендовать фильмы. Перед выпуском данных, Netflix удалены любые явно лично идентифицирующую информацию, как имена. Netflix также пошел дополнительный шаг и ввел небольшие возмущения в некоторых из записей (например, изменяя некоторые оценки от 4 звезды 3 звезды). Netflix вскоре обнаружили, однако, что несмотря на их усилия, данные были отнюдь не анонимным.

Всего через две недели после выхода данных были выпущены Narayanan and Shmatikov (2008) показал , что можно узнать о предпочтениях в кино специфических людей. Хитрость их повторной идентификации атаки была похожа на Свини: сливаются воедино два источника информации, один с потенциально секретной информации и не очевидно, идентифицирующую информацию, и тот, который содержит личность людей. Каждый из этих источников данных могут быть индивидуально безопасны, но, когда они объединены объединенный набор данных может создать информационный риск. В случае данных Netflix, вот как это могло произойти. Представьте себе, что я выбираю, чтобы поделиться своими мыслями по поводу действий и комедии фильмов с моими коллегами, но я предпочитаю не высказать свое мнение о религиозных и политических фильмов. Мои сотрудники могут использовать информацию, которую я поделился с ними, чтобы найти мои записи в данных Netflix; информация , которую я разделяю может быть уникальным отпечатка пальца, как и даты Уильяма Weld дня рождения, почтовый индекс, и секса. Тогда, если они найдут свой уникальный отпечаток в данных, они могли узнать мои рейтинги обо всех фильмах, в том числе фильмов, где я выбираю не делиться. В дополнение к этому виду целенаправленной атаки , ориентированной на одного человека, Narayanan and Shmatikov (2008) также показал , что можно было сделать широкий атаки -она с участием многих людей, путем объединения данных Netflix с личными и кино рейтинговых данных , что некоторые люди решили разместить на сайте Internet Movie Database (IMDb). Любая информация, которая является уникальным отпечатков пальцев конкретному человеку, даже их набор фильмов рейтинги-могут быть использованы для их идентификации.

Даже при том, что данные Netflix могут быть повторно определены в любом целенаправленным или широкой атаки, он все еще может показаться низким риском. В конце концов, рейтинги фильмов, кажется, не очень чувствительны. Хотя это может быть правдой, вообще говоря, для некоторых из 500000 человек в наборе данных, рейтинги фильмов может быть весьма чувствительным. На самом деле, в ответ на де-обезличивания запершись женщина лесбиянка присоединился костюм класса действия против Netflix. Вот как была выражена проблема в их иске (Singel 2009) :

"[M] Ови и оценка данных содержит информацию о более высокой личной и чувствительной природы [так в оригинале]. Данные фильма участника выставляет личную заинтересованность являетесь членом Netflix и / или борьбы с различными весьма личными вопросами, в том числе сексуального поведения, психические заболевания, выздоровления от алкоголизма, и виктимизации от инцеста, физического насилия, бытовое насилие, прелюбодеяние и изнасилование ".

Де-обезличивания данных Netflix Prize показывает как то, что все данные потенциально идентифицировать и что все данные потенциально чувствительны. На данный момент, вы можете подумать, что это относится только к данным, которые, как утверждается, чтобы быть о людях. Удивительно, что это не так. В ответ на свободе запроса информационного права, Нью - Йорк правительство выпустило записи каждой поездки на такси в Нью - Йорке в 2013 году, в том числе пикап и уходят времена, места и платы за проезд суммы (напомним , из главы 2 , что Farber (2015) использовал эти данные для тестирования важных теорий в экономике труда). Хотя эти данные о такси поездок может показаться доброкачественной, потому что это, кажется, не будет информации о людях, Энтони Tockar понял, что это такси набор данных на самом деле содержится множество потенциально секретной информации о людях. Чтобы проиллюстрировать это, он смотрел на все поездки начиная с Hustler Club-большой стриптиз-клуб в Нью-Йорке-между полуночью и 6 утра, а затем нашли их места высадки пассажиров. Этот поиск показал , в сущности-список адресов некоторых людей , которые часто появляются в Hustler Club (Tockar 2014) . Трудно себе представить, что городские власти это имел в виду, когда она выпустила данные. На самом деле, эта же технология может быть использована, чтобы найти домашние адреса людей, которые посещают любое место в городе-медицинской клинике, правительственное здание, или религиозное учреждение.

Эти два случая самой Netflix Prize и Нью - Йорке такси данных показывают , что относительно квалифицированные люди не смогли правильно оценить информационный риск в данных , которые они выпустили, и эти случаи не являются ни в коем случае уникальным (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Кроме того, во многих из этих случаев, проблематична данные по-прежнему свободно доступны в Интернете, указывая на трудности когда-либо отменяя освобождение данных. В совокупности эти примеры-а также исследования в области компьютерной науки о конфиденциальности, приводит к важному выводу. Исследователи должны предположить , что все данные потенциально идентифицировать и все данные потенциально чувствительны.

К сожалению, не существует простого решения с тем, что все данные потенциально идентифицировать и все данные потенциально чувствительны. Тем не менее, одним из способов уменьшения информационного риска во время работы с данными, чтобы создать и следовать плану защиты данных. Этот план уменьшает вероятность того, что ваши данные будут течь и уменьшить вред, если утечка происходит каким-то образом. Специфика планов защиты данных, такие , как какая форма шифрования для использования, будет меняться с течением времени, но службы данных Великобритании услужливо организует элементы плана защиты данных на 5 категорий , которые они называют 5 сейфов: безопасные проекты, безопасных людей , безопасные настройки, безопасные данные и безопасные выходы (Таблица 6.2) (Desai, Ritchie, and Welpton 2016) . Ни один из пяти сейфов по отдельности не обеспечивают идеальную защиту. Но, вместе они образуют мощный набор факторов, которые могут уменьшить риск информационной.

Таблица 6.2: 5 сейфов принципы проектирования и выполнения плана по защите данных (Desai, Ritchie, and Welpton 2016) .
Безопасно действие
Безопасные проекты ограничивает проекты с данными для тех, которые являются этично
Безопасные люди доступ ограничен к людям, которые могут быть доверенными с данными (например, люди подверглись этическое обучение)
Безопасные данные данные обезличенной и агрегируются, насколько это возможно
Безопасные настройки данные хранятся в компьютерах с соответствующие физические (например, закрытая комната) и программного обеспечения (например, защита паролем, зашифрованная) средства защиты
Безопасный выход Результаты этих исследований рассматривается для предотвращения случайного нарушения конфиденциальности

В дополнение к защите ваших данных в то время как вы используете его, один шаг в процессе исследования, где информационный риск является особенно важным является обмен данными с другими исследователями. Обмен данными между учеными является основной ценностью научной деятельности, и это значительно объектов продвижение знаний. Вот как Палаты общин Великобритании описал важность обмена данными:

"Доступ к данным является фундаментальным, если исследователи должны воспроизводить, проверять и опираться на результаты, о которых сообщается в литературе. Предположение, что должно быть, если не существует веская причина, в противном случае, данные должны быть полностью раскрыты и доступны общественности. В соответствии с этим принципом, где это возможно, данные , связанные со всеми финансируемых государством исследований должны быть широко и свободно доступны. " (Molloy 2011)

Тем не менее, путем обмена данными с другим исследователем, вы можете быть повышение информационного риска для участников семинара. Таким образом, может показаться, что исследователи, которые желают обмениваться данными, или которые необходимы для обмена данными, сталкиваются с фундаментальной напряженности. С одной стороны, они имеют этическое обязательство делиться своими данными с другими учеными, особенно если оригинальное исследование финансируется государством. Тем не менее, в то же время, исследователи имеют этическое обязательство свести к минимуму, насколько это возможно, информация о рисках для их участников.

К счастью, эта дилемма не столь сильным, как кажется. Важно думать о обмене данными вдоль континуума от полного отсутствия обмена данными , чтобы освободить и забыть, где данные "анонимными" и размещены для тех , кто для доступа (Рисунок 6.6). Обе эти крайние позиции имеют риски и выгоды. То есть, это автоматически не самая этическая вещь, чтобы не поделиться своими данными; Такой подход устраняет многие потенциальные выгоды для общества. Возвращаясь к вкусу, Галстуки, и время, пример обсуждалось ранее в этой главе, аргументы против освобождения данных, которые сосредоточены только на возможного вреда и которые игнорируют возможные выгоды чрезмерно односторонний; Я буду описывать проблемы с этим односторонним, чрезмерно защитный подход более подробно ниже, когда я предлагаю советы о принятии решений в условиях неопределенности (раздел 6.6.4).

Рисунок 6.6: стратегии выпуска данных могут падать вдоль континуума. Где вы должны быть вдоль этого континуума зависит от конкретных деталей ваших данных. В этом случае обзор третья сторона может помочь вам решить, соответствующий баланс риска и пользы в вашем случае.

Рисунок 6.6: стратегии выпуска данных могут падать вдоль континуума. Где вы должны быть вдоль этого континуума зависит от конкретных деталей ваших данных. В этом случае обзор третья сторона может помочь вам решить, соответствующий баланс риска и пользы в вашем случае.

Кроме того, в промежутке между этими двумя крайними случаями является то , что я буду называть стеной подход сада , где данные совместно с людьми , которые отвечают определенным критериям , и которые согласились быть связанными определенными правилами (например, надзор от IRB и а планы по защите данных) , Этот подход стеной сад обеспечивает многие преимущества выпуска и забыть с меньшим риском. Конечно, обнесенный стеной сад подход создает много вопросов-которые должны иметь доступ, при каких условиях, как долго, кто должен платить, чтобы поддерживать и патрулировать стеной сад и т.д., но они не являются непреодолимыми. На самом деле, там уже работают сады стенами месте, что исследователи могут использовать прямо сейчас, например, архив данных Консорциума межвузовской политических и социальных исследований при Мичиганском университете.

Так, где данные из исследования должны быть на континууме не разделения, обнесенный стеной сад, и отпустить и забыть? Это зависит от деталей ваших данных; исследователи должны сбалансировать уважение к личности, благодеяния, справедливость и уважение к закону и общественным интересам. При оценке надлежащего баланса для других решений исследователей обратиться за советом и одобрение IRBs, и выпуск данных может быть только другой частью этого процесса. Другими словами, хотя некоторые люди думают о выпуске данных в качестве безнадежной этической трясины, у нас уже есть системы в месте, чтобы помочь исследователям сбалансировать такого рода этических дилемм.

Один последний способ думать о совместном использовании данных по аналогии. Каждый год автомобили ответственны за тысячи смертей, но мы не пытаемся запретить вождение. На самом деле, такой призыв запретить вождение было бы абсурдно, потому что вождение дает много замечательных вещей. Скорее всего, общество накладывает ограничения на то, кто может управлять (например, должны быть определенного возраста, нужно будет сдать определенные тесты) и каким образом они могут управлять (например, при ограничении скорости). Общество также есть люди, которым поручено обеспечение соблюдения этих правил (например, полиции), и мы наказываем людей, которые пойманы за их нарушение. Это тот же самый вид сбалансированного мышления, что общество относится к регулированию вождения может также применяться для совместного использования данных. То есть, вместо того, чтобы абсолютистские аргументы в пользу или против совместного использования данных, я думаю, что самые большие выгоды будут исходить от выяснить, как мы можем разделить больше данных более безопасно.

В заключение, информационный риск резко возросло, и это очень трудно предсказать, и количественно. Поэтому, лучше всего предположить, что все данные потенциально идентифицировать и потенциально чувствительными. Для уменьшения информационного риска при этом исследования, исследователи могут создавать и следовать плану защиты данных. Кроме того, информационный риск не мешает исследователям обмена данными с другими учеными.