6.6.2 이해 및 관리 정보 위험

이 번역은 컴퓨터에 의해 만들어졌습니다. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

6.6.2 이해 및 관리 정보 위험

정보 위험 사회 연구에서 가장 일반적인 위험; 그것은 극적으로 증가했다; 그리고 이해하기 어려운 위험이다.

사회 시대 디지털 연구를위한 두 번째 윤리 문제는 정보 위험, 정보의 공개에서 피해의 가능성이다 (Council 2014) . 개인 정보의 공개로부터 정보 피해는 경제 수 있습니다 (예를 들어, 작업 손실), 사회 (예를 들어, 당황), 심리적 (예를 들어, 우울증), 또는 범죄 (예를 들면, 불법 행위로 체포). 불행하게도, 디지털 시대는 정보 위험이 크게-이 우리의 행동에 대해 너무 많은 정보입니다 증가한다. 그리고, 정보 위험 물리적 위험 아날로그 시대 사회 연구에 관심이었다 위험에 비해 이해하고 관리하기가 매우 어려운 입증되었습니다. 디지털 시대는 정보 위험을 증가하는 방법을 보려면, 전자 의료 기록을 종이에서 전환을 고려합니다. 기록의 두 가지 유형의 위험을 만들 수 있지만 엄청난 규모가 권한이없는 자에게 전송 될 수 또는 다른 레코드와 합병하기 때문에 전자 기록은 훨씬 더 큰 위험을 만들 수 있습니다. 그들이 완전히 정량화하고 관리하는 방법을 이해하지 않았기 때문에 디지털 시대의 사회 연구원은 이미 부분적으로 정보 위험 문제로 실행했습니다. 그래서, 정보 위험에 대해 생각하는 유용한 방법을 제공거야,하고 나는 당신에게 당신의 연구에서 정보 위험을 관리하는 방법과 다른 연구자에 데이터를 해제 몇 가지 조언을 줄거야.

사회 연구원 정보 위험을 감소하는 한 가지 방법은 데이터의 "익명화"입니다. "익명화"은 이름, 주소 및 데이터로부터 전화 번호 등의 명백한 개인 식별자를 제거하는 공정이다. 그러나 깊이 근본적으로 제한,이 방법은 많은 사람들이 생각하는 것보다 훨씬 덜 효과적이며, 사실이다. 내가 설명 할 때마다이 과정은 익명의 모습이 아닌 진정한 익명 성을 생성하는 이유로, "익명화를,"나는 당신을 생각 나게하는 따옴표를 사용합니다.

"익명화"의 실패의 생생한 예는 매사추세츠에서 1990 년대 후반에서 온다 (Sweeney 2002) . 그룹 보험위원회 (GIC)는 모든 상태 직원들에게 건강 보험을 구입을 담당하는 정부 기관이다. 이 작품을 통해, GIC 상태 직원 수천명에 대한 자세한 건강 기록을 수집. 건강을 향상시킬 수있는 방법에 대한 연구를 촉진하기위한 노력의 일환으로, GIC는 연구자들에게 이러한 기록을 공개하기로 결정했다. 그러나, 그들의 모든 데이터를 공유하지 않았다; 그보다는 이름 및 주소 등의 정보를 제거하여 "익명". 그러나, 그들은 같은 인구 통계 정보 (우편 번호, 생년월일, 인종, 성별) 및 의료 정보 (방문 데이터, 진단, 절차) (그림 6.4)와 같은 연구에 유용 할 수 있다고 생각 기타 정보를 왼쪽 (Ohm 2010) . 불행히도,이 "익명화"는 데이터를 보호하기에 충분하지 않았다.

도 6.4 익명화 분명히 식별 정보를 제거하는 과정이다. 상태 직원의 의료 보험 기록을 해제 할 때 예를 들어, 매사 추세 츠 그룹 보험위원회 (GIC)은 파일의 이름과 주소를 제거했습니다. 프로세스가 실제 익명 익명의 모양을 제공하지만 때문에 단어 익명화 주위에 따옴표를 사용합니다.

도 6.4 "익명화"는 명백히 식별 정보를 제거하는 과정이다. 상태 직원의 의료 보험 기록을 해제 할 때 예를 들어, 매사 추세 츠 그룹 보험위원회 (GIC)은 파일의 이름과 주소를 제거했습니다. 프로세스가 실제 익명 익명의 모양을 제공하지만 때문에 단어 "익명화"주위에 따옴표를 사용합니다.

개성 공단 "익명화"의 단점을 설명하기 위해, Latanya 스위니-다음 캠브리지, 매사 추세 츠 주지사 윌리엄 용접의 고향 도시에서 투표 기록을 얻기 위해 $ 20 MIT 지불 대학원생. 이러한 투표 기록은 이름, 주소, 우편 번호, 생년월일, 성별 등의 정보를 포함. 사실 그 의료 데이터 파일과 유권자 파일 공유 필드 - 우편 번호, 생년월일, 성별-의미 스위니 그들을 연결 수. 스위니는 용접의 생일 7 월 31 일, 1945 년 이었다는 것을 알고 있었고, 투표 기록은 생일과 캠브리지 만 6 명이 포함되어 있습니다. 또한, 여섯 사람들 만 세 남성이었다. 그리고, 그 세 사람의, 하나는 용접의 우편 번호를 공유했습니다. 따라서, 투표 데이터는 생년월일, 성별, 우편 번호의 용접의 조합으로 의료 데이터에 사람이 윌리엄 용접 것으로 나타났다. 본질적으로, 이러한 정보는 세 개의 데이터를 그 고유의 지문을 제공 하였다. 이 사실을 이용하여, 스위니는 용접의 의료 기록을 찾을 수, 그녀의 위업 그를 알릴 수 있었다, 그녀는 그에게 자신의 기록의 사본을 우편으로 발송 (Ohm 2010) .

6.5 그림 : 다시 idenification 익명의 데이터. Latanya 스위니는 주지사 윌리엄 용접의 의료 기록 (2002 스위니)를 찾기 위해 투표 기록과 익명 건강 기록을 결합했다.

6.5 그림 : 다시 idenification "익명"데이터. Latanya 스위니는 주지사 윌리엄 용접의 의료 기록을 찾기 위해 투표 기록과 "익명"건강 기록 결합 (Sweeney 2002) .

스위니의 작업은 컴퓨터 보안 커뮤니티의 용어를 채택 -to 드 익명화 공격의 기본 구조를 도시한다. 이 공격에서, 두 개의 데이터 세트 모두 자체로 어느는, 민감한 정보를 계시 연결되어,이 링크를 통해, 중요한 정보가 노출된다. 어떤면에서이 과정은 소다와 식초, 스스로 안전이 물질을 베이킹, 불쾌한 결과를 생산하기 위해 결합 될 수있는 방법과 유사하다.

스위니의 작품 및 기타 관련 작업에 대한 응답으로, 연구진은 일반적으로 훨씬 더 많은 정보를 모두 소위 "개인 식별 정보"(PII)를 제거 (Narayanan and Shmatikov 2010) 의 과정 -during "익명화를."또한, 많은 연구자을 지금 특정 데이터 의료 기록, 재무 기록, 불법에 대한 질문이 설문 조사에 대한 답변으로 후에도 해제 아마 너무 민감한 문제를-것을 실현 "익명화."그러나, 나는 아래에 설명 사회 연구가 필요하다고 표시합니다 최근의 예를 자신의 생각을 변경합니다. 첫 단계로, 모든 데이터를 잠재적으로 식별되고 모든 데이터가 민감 할 것으로 가정하는 것이 현명하다. 즉, 그 정보 위험을 생각하는 프로젝트의 작은 부분 집합에 적용하기보다는, 우리는 그것이 적용-에 몇 가지 모든 프로젝트 학위로 가정한다.

이 재 방향의 두 측면은 넷플릭스 상에 의해 설명된다. 제 5 장에서 설명한 바와 같이, 넷플릭스는 거의 50 만 회원들에 의해 제공 억 영화 등급을 발표하고, 세계 각지에서 사람들이 영화를 추천 넷플릭스의 능력을 향상시킬 수있는 알고리즘을 제출 오픈 전화를했다. 데이터를 해제하기 전에, 넷플릭스는 이름이 같은 분명히 개인 식별 정보를 제거했습니다. 넷플릭스는 또한 추가 단계를 가서 (예를 들어, 3 개 4 개에서 일부 등급 변경) 기록의 일부에 약간의 섭동을 소개했다. 넷플릭스는 곧 그러나 그들의 노력에도 불구하고, 데이터가 없음에 의해 있다고 익명을 의미 발견했다.

데이터 후 불과 2 주 발표 된 Narayanan and Shmatikov (2008) 이 특정 사용자의 영화 환경에 대해 배울 수 있었다 것으로 나타났다. 자신의 재 식별 공격 트릭은 스위니의 유사했다 : 잠재적으로 민감한 정보없이 분명히 식별 정보와 사람의 ID를 포함하는 하나의와 함께이 정보 소스를 병합합니다. 이들 데이터 소스는 각각 개별적으로 안전 할 수 있지만, 그들이 결합 될 때 병합 된 데이터 세트는 정보를 초래할 수있다. 넷플 릭스 데이터의 경우에는 여기에서 일어날 수있는 방법입니다. 내 동료와 액션과 코미디 영화에 대한 내 생각을 공유하도록 선택할 것을, 그러나 나는 종교와 정치 영화에 대한 내 의견을 공유하지 않으려는 것을 상상해보십시오. 내 동료는 내가 넷플 릭스 데이터 내 기록을 찾아 그들과 공유 한 정보를 사용할 수 있습니다; 내가 공유하는 정보는 윌리엄 용접의 생년월일, 우편 번호, 성별과 같은 고유 한 지문이 될 수 있습니다. 그들은 데이터를 내 고유의 지문을 발견하면 그런 다음, 그들은 내가 공유하지 않도록 선택할 영화를 포함한 모든 영화에 대한 내 평가를 배울 수 있습니다. 한 사람에 집중 타겟 이런 종류의 공격에 더하여, Narayanan and Shmatikov (2008) 또한 개인 영화 등급 데이터와 넷플릭스 데이터를 병합 바이 명 많은 관련된 광범위한 공격 온을 수행하는 것이 가능였다 일부 사람들은 인터넷 영화 데이터베이스 (IMDB)에 게시 선택했습니다. 동영상의 특정 사용자 - 심지어 세트에 고유 한 지문 정보 인 상관 평가-CAN을 식별하는데 사용될 수.

넷플 릭스 데이터 중 하나 목표 또는 광범위한 공격에서 다시 확인 될 수 있지만, 여전히 위험이 낮은 것으로 나타날 수 있습니다. 결국, 영화 등급은 매우 민감하지 않는 것. 즉, 일반적으로 사실 일 수도 있지만, 데이터 세트에 50 만 사람들의 일부, 영화 등급은 매우 민감 할 수 있습니다. 사실, 드 익명화에 대한 응답으로 closeted 레즈비언 여자 넷플릭스에 대해 집단 소송에 합류했다. 여기에 문제가 자신의 소송에 표현 된 방법 (Singel 2009) :

"[M] ovie 및 평가 데이터는 더 높은 개인 및 민감한 [원문]의 정보가 포함되어 있습니다. 회원의 동영상 데이터는 성, 정신 질환, 알코올 중독에서 복구 및 피해 근친 상간에서, 신체적 학대, 가정 폭력, 간음, 강간 등 다양한 매우 개인적인 문제를 가진 넷플릭스 회원의 개인적인 관심 및 / 또는 투쟁을 제공합니다. "

넷플 릭스 상 데이터의 탈 익명화 모든 데이터는 잠재적으로 식별 모두 있고 모든 데이터가 민감한 것을 보여줍니다. 이 시점에서이 아니라 사람에 대한 수의 취지 데이터에 적용된다는 것을 생각할 수 있습니다. 놀랍게도, 이것은 그렇지 않다. 정보 법 요청의 자유에 대한 응답으로, 뉴욕시 정부는 픽업 포함, 2013 년 뉴욕의 모든 택시의 기록을 발표 것을 제 2 장에서 시간, 위치, 요금 금액 (리콜을 내려 Farber (2015) 노동 경제학에서 중요한 이론)을 테스트하기 위해이 데이터를 사용했다. 이 사람에 대한 정보가 될 것 같지 않기 때문에 택시 여행에 대한이 데이터가 양성 보일 수도 있지만, 안토니 Tockar이 택시 데이터 세트가 실제로 사람들에 대한 민감한 정보를 많이 포함 된 것을 깨달았다. 설명하기 위해 그는 다음 자정과 오전 6 사이 뉴욕 - 뉴의 사기꾼 클럽 - 대형 스트립 클럽에서 자신의 드롭 오프 위치를 발견 시작하는 모든 여행 보았다. 이 검색은 밝혀-의 사기꾼 클럽 자주 사람들의 주소의 본질-목록 (Tockar 2014) . 데이터를 발표 할 때시 정부가 마음이 있었다는 것을 상상하기 어렵다. 사실,이 같은 기술은 도시 의료 클리닉, 정부 건물, 또는 종교 기관에서 어떤 장소를 방문하는 사람들의 집 주소를 찾기 위해 사용될 수있다.

어떤 고유 한 의미에서이 두 경우-넷플 릭스 상 상대적으로 숙련 된 사람들이 제대로 그들이 발표 한 데이터에서 정보 위험을 추정하는 데 실패 뉴욕시 택시 데이터 쇼, 이러한 경우는 없습니다 (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . 또한, 많은 경우에, 문제가있는 데이터는 이제까지 데이터 공개를 취소의 어려움을 나타내는 여전히 온라인으로 자유롭게 사용할 수 있습니다. 종합적으로 이러한 예-뿐만 아니라 중요한 결론에 개인 정보 보호 리드에 대한 컴퓨터 과학의 연구. 연구진은 모든 데이터가 잠재적으로 식별하고 모든 데이터가 민감한 것으로 가정한다.

불행히도, 모든 데이터를 잠재적으로 식별되고 모든 데이터가 민감하다는 사실에 대한 간단한 해결책은 없다. 그러나 데이터로 작업하는 동안 정보 위험을 줄일 수있는 한 가지 방법은 생성 및 데이터 보호 계획을 따르는 것입니다. 이 계획은 데이터가 누출 및 누수가 어떻게 든 발생할 경우 피해를 감소 할 수있는 기회를 감소합니다. 암호화의 형태로 사용하는 등의 어떤으로 데이터 보호 계획의 특성은 시간에 따라 변화되지만, UK 데이터 서비스는 유용하게 그들이 5 금고 문의 5 종류로 데이터 보호 계획의 구성 요소를 정리 : 안전한 프로젝트 안전 명 안전 설정, 안전 데이터 및 안전 출력 (표 6.2) (Desai, Ritchie, and Welpton 2016) . 다섯 금고 중에 개별적으로 완벽한 보호를 제공하지 않습니다. 그러나, 함께 그들은 정보 위험을 줄일 수 있습니다 요인의 강력한 세트를 형성한다.

표 6.2 : 5 금고 설계 및 데이터 보호 계획을 실행하기위한 원칙 (Desai, Ritchie, and Welpton 2016) .
안전한	동작
안전 프로젝트	윤리적 것들에 데이터 프로젝트를 제한
안전 명	액세스 데이터를 신뢰할 수있는 사람으로 제한됩니다 (예를 들어, 사람들이받은 윤리 교육)
안전 데이터	데이터는 드 식별 가능한 정도까지 집계됩니다
안전 설정	데이터 (예를 들어, 암호 보호, 암호화) 보호 적절한 (예를 들어, 잠긴 방) 물리적 및 소프트웨어를 컴퓨터에 저장됩니다
안전 출력	연구 출력은 실수로 개인 정보 침해를 방지하기 위해 검토

그것을 사용하는 동안 데이터를 보호 할뿐만 아니라, 정보 위험이 특히 두드러 인 연구 과정에서 한 단계는 다른 연구자와 데이터를 공유한다. 과학자들 간의 데이터 공유 과학적 노력의 핵심 가치이며, 지식의 것이 크게 발전 설비. 여기에 공동 영국 하우스 데이터 공유의 중요성을 설명하는 방법은 다음과 같습니다

연구팀은 복제 확인하고 문헌에보고 된 결과에 구축하는 경우 "데이터에 대한 액세스는 기본이다. 추정의 원칙이 강한 이유는 그렇지가없는 한, 데이터가 완전히 공개하고 공개해야한다 것을해야합니다. 모든 공립 연구와 관련된 가능한 데이터가 널리 자유롭게 사용할 수 있어야이 원칙에 부합합니다. " (Molloy 2011)

그러나, 다른 연구원들과 데이터를 공유함으로써, 당신은 당신의 참가자들에게 정보를 제공 할 위험이 증가 될 수있다. 따라서, 그들의 공유 할 데이터를-또는 공유하는 데 필요한 연구 데이터가-하는 근본적인 긴장을 직면 보일 수 있습니다. 한편으로 그들은 원래의 연구 공개적으로 자금 지원, 특히 다른 과학자들과 데이터를 공유 할 윤리적 의무가 있습니다. 그러나, 동시에, 연구자들은, 가능한 한 최소화 윤리적 의무가 그 참가자 정보 위험.

다행히 이러한 딜레마가 나타나는만큼 심각하지 않다. 해제하고 데이터가 "익명"을 액세스 할 사람을 위해 배치되는 경우, 잊을 수없는 데이터 공유에서 연속체를 따라 공유 데이터 (그림 6.6)를 생각하는 것이 중요합니다. 이러한 극단적 인 위치 모두 위험과 이득이있다. 즉, 자동으로 데이터를 공유 할 수있는 가장 윤리적 인 일이 아니다,이다; 이러한 접근 방법은 사회에 많은 잠재적 이점을 제거합니다. 반환 맛, 넥타이, 및 시간, 이전 장에서 논의 된 예는, 유일하게 가능한 피해에 초점이 가능한 이점을 무시 데이터 공개에 대한 인수가 지나치게 일방적이다; 내가 불확실성 (제 6.6.4)의 얼굴에서 의사 결정에 대한 조언을 제공 할 때 아래에서 자세히이 일방적 지나치게 보호 방식의 문제점을 설명 할 것이다.

6.6 그림 : 데이터 릴리스 전략 연속체를 따라 떨어질 수 있습니다. 어디이 연속하여 데이터의 특정 세부 사항에 따라 함께 당신이해야합니다. 이 경우, 타사 리뷰는 귀하의 경우 적절한 위험의 균형과 이익을 결정하는 데 도움이 될 수 있습니다.

또한,이 두 가지 극단적 인 경우 사이에 나는 데이터가 특정 기준을 충족하고 특정 규칙에 동의 한 사람들과 공유되는 벽으로 둘러싸인 정원 접근 방식이라는 것이다 것입니다 (예를 들어, IRB에서 감독과 데이터 보호 계획) . 이 벽으로 둘러싸인 정원 접근 방식은 릴리스의 혜택을 많이 제공하고 덜 위험 잊어 버려. 물론, 벽으로 둘러싸인 정원 접근 방식은 많은 질문-액세스 할 수 있어야합니다, 어떤 조건 하에서, 얼마나 오래 유지하고 벽으로 둘러싸인 정원 경찰에 지불해야하는 사람들을위한 등 -하지만 이들 극복하지 만듭니다. 사실, 이미 연구자는 미시간 대학에서 정치 사회 연구를위한 대학 간 컨소시엄의 데이터 아카이브로, 현재 사용할 수있는 장소에 벽으로 둘러싸인 정원이 노력하고 있습니다.

그래서, 어디 연구 데이터가없는 공유, 벽으로 둘러싸인 정원의 연속에, 그리고 해제하고 잊지해야합니까? 그것은 데이터의 세부 사항에 따라; 연구진은 법률과 공공의 이익을 위해 사람, 선행, 정의에 대한 존중과 존경의 균형을해야합니다. 다른 결정을위한 적절한 균형을 평가할 때 연구자들은 조언과 IRBs의 승인을 받아야하고, 데이터 자료는 해당 프로세스의 또 다른 일부가 될 수 있습니다. 어떤 사람들은 희망 윤리적 궁지로 데이터 공개를 생각하지만 즉, 우리는 이미 연구가 윤리적 딜레마 이런 종류의 균형을 맞출 수있는 시스템을 마련했습니다.

데이터 공유에 대해 생각하는 한 마지막 방법은 비유입니다. 매년 자동차는 죽음의 수천에 대한 책임이 있습니다,하지만 우리는 운전을 금지하지 마십시오. 운전이 많은 훌륭한 일을 할 수 있기 때문에 사실, 운전을 금지하는 등의 호출은 터무니없는 것입니다. 오히려 사회가 구동 할 수있는 사람에 대한 제한을 배치 (예를 들어, 특정 연령 할 필요가 특정 테스트를 통과해야합니다) 그리고 그들은 (속도 제한에 따라, 예를 들어)를 구동 할 수있는 방법. 사회는 이러한 규칙 (예를 들면, 경찰)을 적용하는 임무 사람들이 있고, 우리는 그들을 위반 잡힌 사람들을 처벌. 사회가 구동을 규제 적용 균형이 사고에 있어서도 동일한 데이터 공유에 적용될 수있다. 즉, 오히려 또는 데이터 공유에 대해 절대주의 인수를 만드는 것보다, 내가 가장 큰 장점은 우리가 더 안전하게 더 많은 데이터를 공유 할 수있는 방법을 알아내는에서 온 것이라고 생각합니다.

결론적으로, 정보 위험성이 크게 증가하고, 그것을 예측하고 정량화하는 것은 매우 어렵다. 따라서 모든 데이터가 잠재적으로 식별하고 잠재적으로 민감한 있다고 가정하는 것이 가장 좋습니다. 연구를하는 동안 정보 위험을 줄이기 위해, 연구진은 생성하고 데이터 보호 계획을 따를 수 있습니다. 또한, 정보 위험이 다른 과학자들과 데이터를 공유 연구자을 방지하지 않습니다.