6.6.2 comprensión e xestión de risco informacional

Risco da información é o risco máis común en investigación social; que aumentou dramaticamente; e é o risco máis difícil de entender.

O segundo desafío ético para a investigación era dixital social é risco informacional, o potencial de dano a partir da difusión de información (Council 2014) . danos informativos da divulgación de información persoal pode ser económica (por exemplo, perda dun emprego), social (por exemplo, vergonza), psicolóxico (por exemplo, depresión), ou mesmo penal (por exemplo, a prisión por comportamento ilegal). Desafortunadamente, a era dixital aumenta o risco de información dramaticamente-hai só máis información sobre o noso comportamento. E, o risco informacional tense mostrado moi difícil de comprender e manexar en comparación cos riscos que eran preocupacións na investigación social era analóxica, como o risco físico. Para ver como a era dixital aumenta o risco informativo, considerada a transición do papel para rexistros médicos electrónicos. Dous tipos de rexistros de crear perigo, pero os rexistros electrónicos crear riscos moi grandes porque a gran escala que pode ser transmitida para unha parte non autorizada ou se fundiu con outros rexistros. investigadores sociais na era dixital xa ter problemas co risco informacional, en parte porque eles non entenden completamente como cuantificar e controlar a situación. Entón, eu estou indo a ofrecer un xeito útil de pensar sobre o risco de información, e entón eu vou dar-lle algúns consellos sobre como xestionar o risco informacional na súa investigación e na liberación de datos a outros investigadores.

Un xeito que os investigadores sociais diminuír o risco informacional é "anonimização" dos datos. "Anonymization" é o proceso de eliminación de identificadores persoais obvios, como nome, enderezo e número de teléfono a partir dos datos. Con todo, esta visión é moito menos eficaz que moitas persoas perciben, e é, de feito, profundamente e fundamentalmente limitada. Por esa razón, sempre que eu describir "anonimização", eu vou usar comiñas para recordar que este proceso crea a aparencia de anonimato, pero non é certo anonimato.

Un exemplo claro do fracaso de "anonimização" vén de finais dos anos 1990, en Massachusetts (Sweeney 2002) . A Comisión Insurance Group (GIC) era unha axencia do goberno responsable da compra de seguro de saúde para todos os funcionarios do Estado. A través deste traballo, o GIC recollidas rexistros de saúde detallada sobre miles de funcionarios do Estado. Nun esforzo para fomentar a investigación sobre formas de mellorar a saúde, a GIC decidiu lanzar eses rexistros aos investigadores. Con todo, eles non comparten os seus datos; ao contrario, eles "anónimos" Lo eliminando información como nome e enderezo. Con todo, eles deixaron outras informacións que eles pensaban que podería ser útil para investigadores, como información demográficas (código postal, data de nacemento, etnia e sexo) e información médicas (datos de rexistro, diagnóstico, procedemento) (Figura 6.4) (Ohm 2010) . Desafortunadamente, este "anonimização" non foi suficiente para protexer os datos.

Figura 6.4: Anonymization é o proceso de eliminación, obviamente, a información de identificación. Por exemplo, ao liberar os rexistros de seguros médicos de funcionarios do Estado Comisión de Seguros Grupo Massachusetts (GIC) eliminou o nome e enderezo dos arquivos. I usar comiñas en torno á palabra anonymization porque o proceso proporciona a aparición de anonimato, pero non o anonimato real.

Figura 6.4: "Anonymization" é o proceso de eliminación, obviamente, a información de identificación. Por exemplo, ao liberar os rexistros de seguros médicos de funcionarios do Estado Comisión de Seguros Grupo Massachusetts (GIC) eliminou o nome e enderezo dos arquivos. Eu uso comiñas en torno ao "anonimização" palabra, xa que o proceso proporciona a aparición de anonimato, pero non o anonimato real.

Para ilustrar as deficiencias do "anonimização" GIC, Latanya Sweeney, entón un estudante de graduación no MIT-pagou US $ 20 para adquirir os rexistros de votación da cidade de Cambridge, a cidade natal do gobernador de Massachusetts William Weld. Estes rexistros de votación incluídas información como nome, enderezo, código postal, data de nacemento e sexo. O feito de que a ficha médica de datos eo código de campos-zip ficheiro de elector común, data de nacemento, e que Sweeney podería liga-los significaba sexo. Sweeney sabía que o aniversario de Weld foi de 31 xullo de 1945, e os rexistros de votación incluídas só seis persoas en Cambridge con este aniversario. Ademais, estas seis persoas, só tres eran do sexo masculino. E, destes tres homes, só un compartida CEP do Weld. Así, os datos de voto mostrou que ninguén na datos médicos coa combinación de data de nacemento, sexo e código postal de Weld era William Weld. En esencia, estas tres pezas de información proporcionada unha impresión dixital única para el nos datos. Usando este feito, Sweeney soubo atopar os rexistros médicos de soldados, e para informarlles lo da súa fazaña, ela enviou-lle unha copia dos seus rexistros (Ohm 2010) .

Figura 6.5: Re-idenification de datos anónimos. Latanya Sweeney combinou os rexistros de saúde anónimos con rexistros de votación a fin de atopar os rexistros médicos de Gobernador William Weld (Sweeney, 2002).

Figura 6.5: Re-idenification de datos "anónimos". Latanya Sweeney combinada dos "anónimos" rexistros de saúde con rexistros de votación a fin de atopar os rexistros médicos de Gobernador William Weld (Sweeney 2002) .

O traballo de Sweeney ilustra a estrutura básica de ataques de-anonymization -para adoptar un termo da comunidade de seguridade do ordenador. Neses ataques, dous conxuntos de datos, ningunha das cales por si só revela información sensible, están ligados, ea través desta conexión, a información sensible é exposto. Nalgúns aspectos, este proceso é similar ao modo que o bicarbonato de sodio e vinagre, dúas substancias que son por si só segura, poden ser combinados para producir un resultado máis dura.

En resposta ao traballo de Sweeney, e outros traballos relacionados, os investigadores agora xeralmente eliminar máis información en todos os así chamados "Información de identificación persoal" (PII) (Narayanan and Shmatikov 2010) -durante o proceso de "anonimização". Ademais, moitos investigadores agora entender que determinados datos, tales como rexistros médicos, rexistros financeiros, respostas a preguntas de investigación sobre comportamento ilegal-é probablemente moi sensible para liberar mesmo despois de "anonimização". Con todo, os exemplos máis recentes que vou describir a continuación indican que os investigadores sociais precisan cambiar o seu pensamento. Como primeiro paso, é sensato supoñer que os datos e potencialmente identificables e todos os datos son potencialmente sensibles. Noutras palabras, no canto de pensar que o risco informativo aplícase a un pequeno subconxunto de proxectos, debemos asumir que aplicarase en algún grao, a todos os proxectos.

Ambos aspectos desta reorientación son ilustrados por Netflix Prize. Conforme descrito no capítulo 5, Netflix lanzou 100 millóns de clasificacións de películas fornecidos por case 500.000 membros, e tivo unha invitación aberta onde persoas de todo o mundo presentado algoritmos que poderían mellorar a capacidade de Netflix para recomendar películas. Antes de liberar os datos, Netflix eliminou toda a información, obviamente, de identificación persoal, como nomes. Netflix tamén foi un paso extra e introduciu lixeiras perturbacións nalgúns dos rexistros (por exemplo, o cambio de algunhas clasificacións a partir de 4 estrelas 3 estrelas). Netflix logo descubriu, con todo, que, a pesar dos seus esforzos, os datos non eran de forma anónima.

Só dúas semanas despois os datos foron facilitados Narayanan and Shmatikov (2008) mostrou que era posible coñecer as preferencias de películas das persoas específicas. O truco para o seu ataque re-identificación foi semellante ao Sweeney: fundir dúas fontes de información, un con información potencialmente confidencial e ningunha información, obviamente, identificar e aquel que contén a identidade das persoas. Cada unha destas fontes de datos poden ser individualmente segura, pero cando son combinados os datos combinados poden crear perigo informacional. No caso de que os datos Netflix, aquí está como isto podería ocorrer. Imaxina que escoller para compartir os meus pensamentos sobre a acción e películas de comedia con meus compañeiros de traballo, pero que prefiro non compartir a miña opinión sobre as películas relixiosos e políticos. Os meus compañeiros de traballo poderían usar a información que eu Compartín con eles para atopar os meus rexistros nos datos Netflix; o que comparto podería ser unha impresión dixital única, así como a data de William Weld nacemento, código postal, e sexo. Entón, se cre miña impresión dixital única nos datos, poderían aprender miñas avaliacións sobre todas as películas, incluíndo películas en que eu non escoller para compartir. Ademais deste tipo de ataque dirixido enfocada nunha única persoa, Narayanan and Shmatikov (2008) tamén mostrou que era posible facer unha ampla -un ataque inclúen moitas persoas, fundindo os datos de Netflix con datos de avaliación persoal e películas que algúns persoas optaron por publicar en Internet Movie Database (IMDb). Calquera información que é impresión dixital única para unha persoa, mesmo o seu conxunto específico de cine clasificacións de-se pode usar para identificalos.

Aínda que os datos de Netflix pode ser re-identificados en calquera ataque dirixido ou praza, aínda pode parecer ser de baixo risco. Ao final, a clasificación das películas non parecen moi sensible. Aínda que isto poida ser verdade en xeral, para algunhas das 500.000 persoas no conxunto de datos, a clasificación das películas pode ser moi sensible. De feito, en resposta á de-anonymization unha muller lesbiana enrustido uniuse a unha acción de clase contra a Netflix. Vexa como o problema foi expresada na súa acción (Singel 2009) :

"[M] ovie e clasificación de datos contén información de natureza máis altamente persoal e sensible [sic]. datos da película do membro expón interese e / ou loitas persoais dun membro do Netflix con varias cuestións moi persoais, incluíndo a sexualidade, enfermidade mental, recuperación do alcoholismo, e vitimización de incesto, abuso físico, violencia doméstica, adulterio e violación ".

O de-anonimização dos datos Netflix Prize ilustra tanto que todos os datos é potencialmente identificables e que todos os datos é potencialmente sensibles. Neste punto, pode pensar que isto só se aplica aos datos que desexa ser sobre as persoas. Sorprendentemente, que non é o caso. En resposta a unha petición de liberdade de Dereito da Información, o Goberno de Nova York lanzado rexistros de cada carreira de taxi en Nova York en 2013, incluíndo a captura e drop off veces, locais e cantidades de tarifa (Teña en conta que do Capítulo 2 que Farber (2015) usado estes datos para probar as teorías importante na economía do traballo). A pesar destes datos sobre as viaxes de taxi pode parecer benigna, pois non parece ser a información sobre as persoas, Anthony Tockar entender que este conxunto de datos de taxi, en realidade, contiña moita información potencialmente confidencial sobre as persoas. Para ilustrar, mirou para todas as viaxes desde The Hustler Club-un gran club de strip en Nova York-entre medianoite e seis horas e logo atoparon seus lugares de drop-off. Esta investigación resultou en esencia, unha lista de enderezos de algunhas persoas que frecuentan The Hustler Club (Tockar 2014) . É difícil imaxinar que o goberno municipal tiña isto presente cando lanzou os datos. En realidade, esa mesma técnica pode ser usada para atopar os enderezos residenciais de persoas que visitan calquera lugar na cidade-unha clínica médica, un edificio do goberno, ou unha institución relixiosa.

Estes dous casos o Premio Netflix eo taxi data show Nova York que as persoas relativamente cualificados non puido estimar correctamente o risco informacional nos datos que lanzaron, e estes casos non son de forma única (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Ademais, en moitos destes casos, os datos problemático aínda libremente dispoñible en liña, indicando a dificultade de cada vez desfacendo autorización de datos. Colectivamente estes exemplos-así como a investigación en ciencia da computación sobre privacidade-conduce a unha conclusión importante. Investigadores deben asumir que todos os datos son potencialmente identificables e todos os datos son potencialmente sensibles.

Desafortunadamente, non hai unha solución sinxela para o feito de que todos os datos son potencialmente identificable e todos os datos son potencialmente sensibles. Con todo, unha forma de reducir o risco de información mentres está a traballar con datos é crear e seguir un plan de protección de datos. Este plan pode diminúe a posibilidade de que os seus datos pode baleirar e pode diminuír o dano se produce unha fuga de algunha maneira. Os detalles dos planos de protección de datos, tales como o que forma de cifrado para empregar, vai cambiar co paso do tempo, pero os servizos de datos do Reino Unido organiza utilmente os elementos dun plan de protección de datos en 5 categorías que eles chaman de 5 arcas: proxectos seguros, as persoas seguras , opcións de seguridade, datos seguros e saídas seguras (Táboa 6.2) (Desai, Ritchie, and Welpton 2016) . Ningún dos cinco arcas fornecen individualmente protección perfecta. Pero xuntos forman un poderoso conxunto de factores que poden diminuír o risco informacional.

Táboa 6.2: Os 5 arcas son principios para o deseño e execución dun plan de protección de datos (Desai, Ritchie, and Welpton 2016) .
seguro acción
proxectos de seguridade limita proxectos cos datos para aqueles que están ético
as persoas seguras o acceso é restrinxido a persoas que poden ser fiables cos datos (formación ética por exemplo, as persoas sufriron)
datos seguros os datos son identificados de-áridos e na medida do posible
configuración de seguridade datos almacénanse en ordenadores con físico adecuado (por exemplo, sala pechada) e software (por exemplo, protección por contrasinal, cifrada) proteccións
saída segura produción de investigación é revisado para evitar que accidentalmente violacións de privacidade

Ademais de protexer os seus datos mentres está a usar el, un paso no proceso de investigación onde o risco informacional é particularmente relevante é a repartición de datos con outros investigadores. A posta en común de datos entre os científicos é un valor fundamental do esforzo científico, e bastante instalacións avance do coñecemento. Vexa como a Cámara dos Comúns británica describiu a importancia da posta en común de datos:

"O acceso aos datos é fundamental para que os investigadores están a reproducir, comprobar e construír sobre os resultados que son relativos na literatura. A presunción debe ser que, a menos que haxa unha forte razón en contra, os datos deben ser amplamente difundidos e facilitados ao público. Conforme este principio, sempre que sexa posible, os datos asociados a todas as enquisas financiadas publicamente deben ser amplamente e libremente dispoñible. " (Molloy 2011)

Con todo, a través da posta en común dos seus datos con outro investigador, pode estar aumentando o risco informativa para os seus participantes. Así, pode parecer que os investigadores que desexen compartir os seus datos, ou están obrigados a compartir os seus datos están enfrontando unha tensión fundamental. Por unha banda, eles teñen unha obriga ética de compartir os seus datos con outros científicos, especialmente se a investigación orixinal é financiada publicamente. Con todo, ao mesmo tempo, os investigadores teñen unha obriga ética para minimizar, na medida do posible, o risco de información aos seus participantes.

Afortunadamente, este dilema non é tan grave como parece. É importante pensar en compartir datos ao longo dun continuum de non compartir datos para liberar e esquecer, onde os datos son "anónimos" e publicado a calquera acceder (Figura 6.6). Ambas estas posicións extremas ten riscos e beneficios. É dicir, non é automaticamente o máis ética de non compartir os seus datos; unha tal visión elimina moitos potenciais beneficios para a sociedade. Volvendo ao gusto, Ties, e tempo, un exemplo discutido anteriormente no capítulo, argumentos contra a liberación dos datos que se concentran só en posibles danos e que ignoran posibles beneficios son excesivamente unilateral; Vou describir os problemas con esta visión unilateral, excesivamente protectora en máis detalles abaixo cando ofrecer consellos sobre a toma de decisións en face da incerteza (Sección 6.6.4).

Figura 6.6: estratexias de liberación dos datos pode caer ao longo dun continuum. Onde ten que ser ao longo deste continuum depende dos detalles específicos dos seus datos. Neste caso, avaliación de terceiros pode axudar a decidir o equilibrio axeitado de risco e beneficio no seu caso.

Figura 6.6: estratexias de liberación dos datos pode caer ao longo dun continuum. Onde ten que ser ao longo deste continuum depende dos detalles específicos dos seus datos. Neste caso, avaliación de terceiros pode axudar a decidir o equilibrio axeitado de risco e beneficio no seu caso.

Ademais, entre estes dous casos extremos é o que eu vou chamada unha visión xardín murado onde os datos son compartidos con persoas que atender a determinados criterios e que coinciden en se comprometer con determinadas regras (por exemplo, a supervisión dun IRB e un plans de protección de datos) . Esta visión xardín murado ofrece moitos dos beneficios da liberación e esquecer con menos risco. Claro, unha visión xardín murado crea moitas preguntas-que deben ter acceso, en que condicións, por canto tempo, quen debe pagar para manter e vixiar o xardín murado etc., pero estes non son insuperables. De feito, hai xa están a traballar xardíns murados no lugar que investigadores poden usar agora, como o arquivo de datos do Consorcio Interuniversitario de Investigación Política e Social da Universidade de Michigan.

Entón, onde deben os datos do seu estudo estar no continuum de ningunha compartir, xardín murado, e solte e esquecer? El depende dos detalles dos seus datos; os investigadores deben equilibrar Respecto polas persoas, Beneficencia, Xustiza e respecto do Dereito e de interese público. Ao avaliar o equilibrio adecuado para outras decisións investigadores buscar o consello e consentimento do CRI, e liberación de datos pode ser só unha outra parte dese proceso. Noutras palabras, aínda que algunhas persoas pensan en liberación de datos como un pantano ética sen esperanza, nós xa temos sistemas para axudar aos investigadores a equilibrar estes tipos de dilemas éticos.

Unha última forma de pensar sobre o reparto de datos é por analoxía. Cada ano os coches son responsables de miles de mortos, pero non intente prohibición de conducir. De feito, tal chamamento á prohibición de conducir sería absurdo, porque a condución permite moitas cousas marabillosas. Pola contra, a sociedade pon restricións sobre quen pode dirixir (por exemplo, ten que ser dunha certa idade, ten que pasar algunhas probas) e como poden dirixirse (por exemplo, baixo o límite de velocidade). A sociedade tamén ten as persoas encargadas de facer cumprir estas normas (por exemplo, policía), e castigar as persoas que son collidas viola-las. Este mesmo tipo de razoamento equilibrado que a sociedade é aplicable a regulación de condución tamén pode aplicarse a posta en común de datos. É dicir, en vez de facer argumentos absolutistas a favor ou en contra da compartición de datos, creo que os maiores beneficios virán de descubrir como podemos compartir máis datos con máis seguridade.

Para finalizar, o risco informacional aumentou dramaticamente, e é moi difícil de prever e cuantificar. Polo tanto, é mellor asumir que todos os datos son potencialmente identificables e potencialmente sensibles. Para diminuír o risco de información ao facer a investigación, os investigadores poden crear e seguir un plan de protección de datos. Ademais, o risco informacional non impide os investigadores de compartir datos con outros científicos.