6.6.2 comprensión e xestión de risco informacional

O risco informativo é o risco máis común na investigación social; aumentou dramaticamente; e é o risco máis difícil de entender.

O segundo desafío ético para a investigación en idade dixital é o risco informativo , o potencial de danos derivados da divulgación de información (National Research Council 2014) . Os danos informativos derivados da divulgación da información persoal poden ser económicos (por exemplo, perder un emprego), social (por exemplo, vergoña), psicolóxico (por exemplo, depresión) ou incluso criminal (por exemplo, prisión por comportamento ilegal). Desafortunadamente, a idade dixital aumenta o risco informativo de forma dramática: hai só moita máis información sobre o noso comportamento. E o risco informativo resultou moi difícil de comprender e xestionar en comparación cos riscos que se atopaban na investigación social en idade analóxica, como o risco físico.

Un xeito que os investigadores sociais diminuír o risco informacional é "anonimização" dos datos. "Anonymization" é o proceso de eliminación de identificadores persoais obvios, como nome, enderezo e número de teléfono a partir dos datos. Con todo, esta visión é moito menos eficaz que moitas persoas perciben, e é, de feito, profundamente e fundamentalmente limitada. Por esa razón, sempre que eu describir "anonimização", eu vou usar comiñas para recordar que este proceso crea a aparencia de anonimato, pero non é certo anonimato.

Un exemplo vivo do fracaso da "anonimización" provén da década de 1990 en Massachusetts (Sweeney 2002) . A Comisión de Seguros do Grupo (GIC) foi unha axencia do goberno responsable da compra de seguros de saúde para todos os empregados do Estado. A través deste traballo, o GIC recollidos rexistros de saúde detallados sobre miles de empregados estatais. Nun esforzo para impulsar a investigación, o GIC decidiu liberar estes rexistros aos investigadores. Non obstante, non compartiron todos os seus datos; máis ben, "anonimizada" estes datos eliminando información como nomes e enderezos. Non obstante, deixaron outras informacións que pensaban que podían ser útiles para investigadores como a información demográfica (código postal, data de nacemento, etnia e sexo) e información médica (visita de datos, diagnóstico, procedemento) (figura 6.4) (Ohm 2010) . Por desgraza, esta "anonimización" non foi suficiente para protexer os datos.

Figura 6.4: A anonimización é o proceso de eliminación da información obviamente identificadora. Por exemplo, ao liberar os rexistros de seguros médicos dos empregados estatais, a Comisión de Seguros do Grupo de Massachusetts (GIC) eliminou nomes e enderezos dos ficheiros. Eu uso as comiñas en torno á palabra anonimización porque o proceso proporciona o aspecto do anonimato pero non o anonimato real.

Figura 6.4: "Anonimización" é o proceso de eliminación de información obviamente identificadora. Por exemplo, ao liberar os rexistros de seguros médicos dos empregados estatais, a Comisión de Seguros do Grupo de Massachusetts (GIC) eliminou nomes e enderezos dos ficheiros. Eu uso as comiñas en torno á palabra "anonimización" porque o proceso proporciona o aspecto do anonimato pero non o anonimato real.

Para ilustrar as deficiencias da "anonimización" GIC, Latanya Sweeney -a continuación, un estudante de posgrao do MIT- pagou 20 dólares para adquirir os rexistros de voto da cidade de Cambridge, a cidade natal do gobernador de Massachusetts, William Weld. Estes rexistros de voto inclúen información como nome, enderezo, código postal, data de nacemento e xénero. O feito de que o arquivo de datos médicos eo ficheiro electoral compartiron os campos -código postal, data de nacemento e sexo- significaban que Sweeney podería vincularlos. Sweeney sabía que o aniversario de Weld era o 31 de xullo de 1945 e os rexistros de votación incluían só seis persoas en Cambridge con ese aniversario. Ademais, das seis persoas, só tres eran homes. E, deses tres homes, só compartiu o código postal de Weld. Así, os datos de votación demostraron que calquera dos datos médicos con combinación de Weld de data de nacemento, xénero e código postal foi William Weld. En esencia, estas tres informacións proporcionáronlle unha pegada única aos datos. Usando este feito, Sweeney puido localizar os rexistros médicos de Weld e, para informarlle da súa fazaña, envioulle unha copia dos seus discos (Ohm 2010) .

Figura 6.5: Reidentificación de datos anonimizados. Latanya Sweeney combinou os rexistros de saúde anónimos con rexistros de voto para atopar os rexistros médicos do Gobernador William Weld Adaptado de Sweeney (2002), figura 1.

Figura 6.5: Reidentificación de datos "anonimizados". Latanya Sweeney combinou os rexistros de saúde "anonimizados" con rexistros de voto para atopar os rexistros médicos do gobernador William Weld Adapted from Sweeney (2002) , figura 1.

O traballo de Sweeney ilustra a estrutura básica dos ataques de reidentificación para adoptar un prazo da comunidade de seguridade informática. Nestes ataques, dous conxuntos de datos, que non revelan por si mesmos información confidencial, están ligados e, a través desta ligazón, expón a información sensible.

En resposta ao traballo de Sweeney e outros traballos relacionados, os investigadores xeralmente eliminan moita máis información, toda a chamada "información de identificación persoal" (PII) (Narayanan and Shmatikov 2010) Durante o proceso de "anonimización". Ademais, moitos investigadores agora entenden que certos datos -como rexistros médicos, rexistros financeiros, respostas a preguntas de enquisas sobre comportamentos ilegais- probablemente sexan demasiado sensibles ao lanzamento mesmo despois da "anonimización". Con todo, os exemplos que estou a piques de suxerir que os investigadores sociais precisan para cambiar o seu pensamento. Como primeiro paso, é aconsellable supoñer que todos os datos son potencialmente identificables e que todos os datos son potencialmente sensibles. Noutras palabras, en vez de pensar que o risco informativo se aplica a un pequeno subconxunto de proxectos, debemos supoñer que se aplica, ata certo punto, a todos os proxectos.

Ambos os dous aspectos desta reorientación están ilustrados polo Premio Netflix. Como se describe no capítulo 5, Netflix lanzou 100 millóns de cualificacións de películas proporcionadas por case 500.000 membros e tivo unha convocatoria aberta onde persoas de todo o mundo enviaron algoritmos que podían mellorar a capacidade de Netflix para recomendar películas. Antes de liberar os datos, Netflix eliminou calquera información obvia de identificación persoal, como nomes. Tamén pasaron un paso extra e introduciron pequenas perturbacións nalgúns dos rexistros (por exemplo, cambiando algunhas clasificacións de 4 estrelas a 3 estrelas). Pronto descubriron, no entanto, que a pesar dos seus esforzos, os datos aínda non eran anónimos.

Poucas semanas despois de que se lanzaron os datos, Arvind Narayanan e Vitaly Shmatikov (2008) demostraron que era posible coñecer as preferencias de películas específicas das persoas. O truco para o seu ataque de reidentificación foi similar ao de Sweeney: unir dúas fontes de información, unha con información potencialmente sensible e ningunha información obviamente identificadora e outra que contén identidades de persoas. Cada unha destas fontes de datos pode ser segura individualmente, pero cando se combinan, o conxunto de datos fusionado pode xerar risco informativo. No caso dos datos de Netflix, vexa como podería ocorrer. Imaxina que opto por compartir os meus pensamentos sobre películas de acción e comedia cos meus compañeiros de traballo, pero que prefiro non compartir a miña opinión sobre películas relixiosas e políticas. Os meus compañeiros de traballo poderían utilizar a información que compartín con eles para atopar os meus rexistros nos datos de Netflix; a información que comparto podería ser unha pegada única como a data de nacemento de William Weld, o seu código postal e o sexo. Entón, se atoparon a miña pegada única nos datos, podían aprender as miñas valoracións sobre todas as películas, incluídas as películas que elixiría non compartir. Ademais deste tipo de ataque dirixido a unha soa persoa, Narayanan e Shmatikov tamén demostraron que era posible facer un ataque amplo -uno que involucraba a moitas persoas- fusionando os datos de Netflix cos datos persoais e de clasificación de películas que escolleron algunhas persoas para publicar en Internet Movie Database (IMDb). Simplemente, calquera información que sexa unha pegada única para unha persoa específica -aínda que o seu conxunto de clasificacións de películas- poida usarse para identificalas.

Aínda que os datos de Netflix poden ser re-identificados nun ataque obxectivo ou amplo, aínda pode parecer de baixo risco. Despois de todo, as calificacións de películas non parecen moi sensibles. Aínda que isto poida ser verdade en xeral, para algunhas das 500.000 persoas do conxunto de datos, as valoracións de películas poden ser bastante sensibles. De feito, en resposta á reidentificación, unha muller lesbiana acochada uniuse a un xogo de acción contra Netflix. Vexa como se expresou o problema no seu proceso (Singel 2009) :

"[M] ovie e os datos de clasificación contén información de ... natureza altamente persoal e sensible. Os datos do filme do membro expón o interese persoal dun membro Netflix ou loita con varias cuestións moi persoais, incluíndo a sexualidade, a enfermidade mental, a recuperación do alcoholismo e a vitimización do incesto, o abuso físico, a violencia doméstica, o adulterio ea violación ".

A reidentificación dos datos do Premio Netflix ilustra que todos os datos son potencialmente identificables e que todos os datos son potencialmente sensibles. Neste punto, podes pensar que isto só se aplica a datos que pretenden ser sobre persoas. Sorprendentemente, ese non é o caso. En resposta a unha solicitude da Lei de liberdade de información, o goberno da cidade de Nova York publicou os rexistros de cada paseo en taxi en Nova York en 2013, incluídos os horarios de recollida e despedimentos, localizacións e cantidades de tarifas (recordemos do capítulo 2 que Farber (2015) usou datos similares para probar teorías importantes na economía laboral). Estes datos sobre viaxes de taxi poden parecer benignos porque non parecen proporcionar información sobre as persoas, pero Anthony Tockar decatouse de que este grupo de datos de taxi realmente contiña moita información potencialmente sensible sobre as persoas. Para ilustrar, el mirou para todos os paseos a partir do Hustler Club -un gran club de striptease en Nova York- entre a media noite e as 6 da mañá e logo atoparon os seus lugares de despedida. Esta busca revelou (Tockar 2014) unha lista de enderezos de algunhas persoas que frecuentaban o Hustler Club (Tockar 2014) . É difícil imaxinar que o goberno da cidade tivese isto presente cando lanzase os datos. De feito, esta mesma técnica podería usarse para atopar os domicilios das persoas que visitan calquera lugar da cidade: unha clínica médica, un edificio do goberno ou unha institución relixiosa.

Estes dous casos do Premio Netflix e os datos do taxi da Cidade de Nova York mostran que as persoas relativamente cualificadas poden deixar de estimar correctamente o risco informativo nos datos que lanzan e estes casos non son de ningún xeito únicos (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Ademais, en moitos casos, os datos problemáticos aínda están dispoñibles gratuitamente en liña, o que indica a dificultade de desfacerse dun lanzamento de datos. Colectivamente, estes exemplos -o mesmo que a investigación en informática sobre a privacidade- levaron a unha conclusión importante. Os investigadores deben supoñer que todos os datos son potencialmente identificables e que todos os datos son potencialmente sensibles.

Desafortunadamente, non hai solución simple aos feitos de que todos os datos son potencialmente identificables e que todos os datos son potencialmente sensibles. Non obstante, un xeito de reducir o risco informativo mentres traballas con datos é crear e seguir un plan de protección de datos . Este plan pode diminuír a probabilidade de que os datos fosen baleirados e diminuirá o dano se se produce unha fuga. As características específicas dos plans de protección de datos, como a forma de cifrado a usar, cambiarán ao longo do tempo, pero os servizos de datos do Reino Unido organizan de forma útil os elementos dun plan de protección de datos en cinco categorías que chaman as cinco caixas de seguridade : proxectos seguros, persoas seguras , opcións seguras, datos seguros e saídas seguras (táboa 6.2) (Desai, Ritchie, and Welpton 2016) . Ningunha das cinco caixas de seguridade ofrece individualmente unha protección perfecta. Pero xuntos forman un poderoso conxunto de factores que poden diminuír o risco informativo.

Táboa 6.2: Os "Cinco cofres de seguridade" son principios para deseñar e executar un plan de protección de datos (Desai, Ritchie, and Welpton 2016)
Seguro Acción
Proxectos seguros Limita proxectos con datos para aqueles que son éticos
Persoas seguras O acceso está restrinxido a persoas que poden confiar en datos (por exemplo, persoas que foron adestradas de forma ética)
Datos seguros Os datos son desidentificados e agregados na medida do posible
Configuración segura Os datos almacénanse en computadoras con protección física (por exemplo, bloqueada) e software (por exemplo, protección por contrasinal, cifrado)
Saída segura A investigación é revisada para evitar violacións de privacidade accidentais

Ademais de protexer os seus datos mentres os está a usar, un paso no proceso de investigación onde o risco informativo é particularmente relevante é a compartición de datos con outros investigadores. O intercambio de datos entre os científicos é un valor central do esforzo científico e facilita moito o avance do coñecemento. Vexa como a Cámara dos Comúns do Reino Unido describiu a importancia de compartir datos (Molloy 2011) :

"O acceso aos datos é fundamental se os investigadores deben reproducir, verificar e construír os resultados que se informan na literatura. A presunción debe ser que, a menos que haxa un motivo forte, os datos deberían ser divulgados e publicados.

Non obstante, ao compartir os teus datos con outro investigador, podes aumentar o risco informativo para os teus participantes. Deste xeito, pode parecer que o intercambio de datos crea unha tensión fundamental entre a obriga de compartir datos con outros científicos ea obriga de minimizar o risco informativo para os participantes. Afortunadamente, este dilema non é tan grave como parece. Polo contrario, é mellor pensar en compartir datos como caer nun continuo, con cada punto do continuo ofrecendo unha mestura diferente de beneficios para a sociedade e risco para os participantes (figura 6.6).

Nun extremo, pode compartir os seus datos con ninguén, o que minimiza o risco para os participantes, pero tamén minimiza os beneficios á sociedade. No outro extremo, pode liberar e esquecer , onde os datos son "anónimos" e publicados para todos. En relación á liberación de datos, o lanzamento e o esquecemento non ofrecen maiores beneficios á sociedade e un maior risco para os participantes. Entre estes dous casos extremos hai unha variedade de híbridos, incluíndo o que eu chamaría un enfoque de xardín amurallado . Baixo este enfoque, os datos son compartidos con persoas que cumpren certos criterios e que aceptan estar ligados por certas regras (por exemplo, a supervisión dun IRB e un plan de protección de datos). O enfoque do xardín amurallado proporciona moitos dos beneficios do lanzamento e esquece con menos risco. Por suposto, este enfoque crea moitas preguntas (quen debería ter acceso, en que condicións e por canto tempo, quen debe pagar para manter e policizar o xardín amurallado, etc.), pero estes non son insuperables. De feito, xa hai xardíns protexidos en parede que os investigadores poden empregar neste momento, como o arquivo de datos do Consorcio Interuniversitario para a Investigación Política e Social na Universidade de Michigan.

Figura 6.6: As estratexias de liberación de datos poden caer nun continuo. Onde debes estar neste continuo depende dos detalles específicos dos teus datos e a revisión de terceiros pode axudarche a decidir o saldo adecuado de risco e beneficio no teu caso. A forma exacta desta curva depende das especificidades dos obxectivos de datos e de investigación (Goroff 2015).

Figura 6.6: As estratexias de liberación de datos poden caer nun continuo. Onde debes estar neste continuo depende dos detalles específicos dos teus datos e a revisión de terceiros pode axudarche a decidir o saldo adecuado de risco e beneficio no teu caso. A forma exacta desta curva depende das especificidades dos obxectivos de datos e de investigación (Goroff 2015) .

Entón, onde deben os datos do seu estudo estar no continuo de non compartir, xardín amurallado, e liberar e esquecer? Isto depende dos detalles dos teus datos: os investigadores deben equilibrar o respecto das persoas, a bondade, a xustiza eo respecto polo dereito e polo interese público. Visto desde esta perspectiva, a compartición de datos non é un problema ético característico; é só un dos moitos aspectos da investigación en que os investigadores deben atopar un equilibrio ético adecuado.

Algúns críticos son xeralmente opostos á compartición de datos porque, ao meu xuízo, están centrados nos seus riscos -que son, sen dúbida, reais- e están ignorando os seus beneficios. Así que, para fomentar o foco en riscos e beneficios, gustaríame ofrecer unha analoxía. Cada ano, os coches son responsables de miles de mortes, pero non intentamos prohibir a condución. De feito, un chamamento á prohibición de conducir sería absurdo porque a condución permite moitas cousas marabillosas. Pola contra, a sociedade pon restricións sobre quen pode dirixir (por exemplo, a necesidade de ter unha determinada idade e superar certas probas) e como poden manexar (por exemplo, baixo o límite de velocidade). A sociedade tamén ten as persoas encargadas de cumprir estas regras (por exemplo, a policía) e castigar ás persoas que son capturadas violándoas. Este mesmo tipo de pensamento equilibrado que a sociedade aplica para regular a conducción tamén se pode aplicar ao compartir datos. É dicir, en lugar de facer argumentos absolutistas a favor ou en contra da compartición de datos, creo que imos facer o maior progreso centrándonos en como podemos diminuír os riscos e aumentar os beneficios da compartición de datos.

Para rematar, o risco informativo aumentou de xeito espectacular e é moi difícil de predecir e cuantificar. Polo tanto, é mellor supoñer que todos os datos son potencialmente identificables e potencialmente sensibles. Para diminuír o risco informativo ao facer investigacións, os investigadores poden crear e seguir un plan de protección de datos. Ademais, o risco informativo non impide que os investigadores compartan datos con outros científicos.