6.6.2 comprensión y la gestión del riesgo informativo

Riesgos de la información es el riesgo más común en la investigación social; se ha incrementado dramáticamente; y es el riesgo más difícil de entender.

El segundo desafío ético para la investigación digital de la edad social es el riesgo informativo, el potencial de daño de la divulgación de información (Council 2014) . daños informativos de la divulgación de información personal podría ser económica (por ejemplo, la pérdida del trabajo), sociales (por ejemplo, la vergüenza), psicológicos (por ejemplo, depresión), o incluso penal (por ejemplo, la detención de un comportamiento ilegal). Por desgracia, la era digital aumenta el riesgo de la información de manera espectacular-sólo hay mucha más información acerca de nuestro comportamiento. Y, el riesgo de información ha demostrado ser muy difícil de entender y manejar en comparación con los riesgos que eran preocupaciones en la investigación social era analógica, como el riesgo físico. Para ver cómo la era digital aumenta el riesgo de información, considere la transición del papel a los registros médicos electrónicos. Ambos tipos de registros crean riesgo, pero los registros electrónicos crean un riesgo muy superior debido a una escala masiva que se pueden transmitir a un tercero no autorizado o fusionarse con otros registros. Los investigadores sociales en la era digital ya han tenido problemas con el riesgo informativo, en parte porque no se entienden completamente cómo cuantificar y gestionar la misma. Por lo tanto, voy a ofrecer una forma útil pensar en el riesgo informativo, y luego voy a darle algunos consejos acerca de cómo administrar el riesgo informativo en su investigación y en la liberación de los datos de otros investigadores.

Una manera en que los investigadores sociales disminuyen el riesgo de información es "anónima" de datos. "Anonimización" es el proceso de eliminación de identificadores personales obvios tales como nombre, dirección y número de teléfono a partir de los datos. Sin embargo, este enfoque es mucho menos eficaz que muchas personas se dan cuenta, y es, de hecho, profunda y fundamentalmente limitada. Por esa razón, cada vez que describo "anónima" Voy a usar comillas para recordarles que este proceso crea la apariencia de anonimato, pero no es cierto anonimato.

Un claro ejemplo de la falta de "anonimización" viene de la década de 1990 en Massachusetts (Sweeney 2002) . La Comisión de Seguros de grupo (GIC) era una agencia gubernamental responsable de la compra de un seguro de salud para todos los empleados estatales. A través de este trabajo, el GIC recoge las historias clínicas detalladas acerca de miles de empleados estatales. En un esfuerzo por estimular la investigación sobre las formas de mejorar la salud, GIC decidió liberar estos registros a los investigadores. Sin embargo, ellos no comparten todos sus datos; más bien, "anónimos" que mediante la eliminación de información como el nombre y dirección. Sin embargo, dejaron otra información que pensaban que podría ser útil para los investigadores como información demográfica (código postal, fecha de nacimiento, etnia y sexo) y la información médica (datos de visitas, diagnóstico, procedimiento) (Figura 6.4) (Ohm 2010) . Por desgracia, este "anónima" no era suficiente para proteger los datos.

Figura 6.4: El anonimato es el proceso de eliminación, obviamente, la información de identificación. Por ejemplo, cuando la liberación de los registros del seguro médico de los empleados del Estado la Comisión de Seguros Grupo de Massachusetts (GIC) eliminó nombre y la dirección de los archivos. Yo uso comillas alrededor de la palabra en forma anónima debido a que el proceso proporciona la apariencia de anonimato, pero no el anonimato real.

Figura 6.4: "anonimización" es el proceso de eliminación, obviamente, la información de identificación. Por ejemplo, cuando la liberación de los registros del seguro médico de los empleados del Estado la Comisión de Seguros Grupo de Massachusetts (GIC) eliminó nombre y la dirección de los archivos. Yo uso comillas alrededor de la "anonimización" palabra debido a que el proceso proporciona la apariencia de anonimato, pero no el anonimato real.

Para ilustrar las deficiencias de la "anonimización" GIC, Latanya Sweeney, entonces un estudiante graduado en el MIT-pago $ 20 a adquirir los registros de votación de la ciudad de Cambridge, la ciudad natal del gobernador de Massachusetts William Weld. Estos registros de votación incluyen información como el nombre, dirección, código postal, fecha de nacimiento y sexo. El hecho de que el expediente médico de datos y el código postal de campos-archivo de votantes en la residencia, fecha de nacimiento y el sexo-significaba que Sweeney podría vincularlos. Sweeney sabía que el cumpleaños de Weld fue el 31 de julio de 1945, y los registros de votación incluye sólo seis personas en Cambridge con ese cumpleaños. Además, de esas seis personas, sólo tres eran varones. Y, de esos tres hombres, sólo uno comparte el código postal de la autógena. Por lo tanto, los datos de la votación mostraron que nadie en los datos médicos con la combinación de la autógena de la fecha de nacimiento, sexo, código postal y fue William Weld. En esencia, estos tres tipos de información siempre una huella digital única para él en los datos. El uso de este hecho, Sweeney fue capaz de localizar los registros médicos de soldadura, y para informarle de su hazaña, ella le envió por correo una copia de sus registros (Ohm 2010) .

Figura 6.5: Re-idenification de datos anónimos. Latanya Sweeney combina los registros de salud anónimos con los registros de votación con el fin de encontrar los registros médicos de gobernador William Weld (Sweeney, 2002).

Figura 6.5: Re-idenification de datos "anónimos". Latanya Sweeney combina los registros de salud "anónimos" con los registros de votación con el fin de encontrar los registros médicos de gobernador William Weld (Sweeney 2002) .

El trabajo de Sweeney ilustra la estructura básica de los ataques de-anonimización: para reproducir una expresión de la comunidad de seguridad informática. En estos ataques, dos conjuntos de datos, ninguno de los cuales por sí misma revela información sensible, están vinculados, ya través de este vínculo, la información sensible se expone. En cierto modo, este proceso es similar a la forma en que el bicarbonato de sodio y vinagre, dos sustancias que son por sí mismos segura, se pueden combinar para producir un resultado desagradable.

En respuesta al trabajo de Sweeney, y otros trabajos relacionados, los investigadores ahora eliminan generalmente mucho más información, todo lo que se llama "La información de identificación personal" (PII) (Narayanan and Shmatikov 2010) -durante el proceso de "anónima". Además, muchos investigadores ahora darse cuenta de que ciertos datos, tales como registros médicos, registros financieros, respuestas a las preguntas de la encuesta sobre el comportamiento ilegal, es probable que sea demasiado sensible para liberar incluso después de "anónima". Sin embargo, los ejemplos más recientes que describiré a continuación indican que los investigadores sociales deben cambiar su forma de pensar. Como primer paso, es prudente asumir que todos los datos son potencialmente identificables y todos los datos son potencialmente sensible. En otras palabras, en lugar de pensar que el riesgo de información se aplica a un pequeño subconjunto de proyectos, debemos asumir que se aplica a un cierto grado a todos los proyectos.

Ambos aspectos de esta reorientación se ilustran por el Premio Netflix. Como se describe en el capítulo 5, Netflix liberado 100 millones de clasificaciones de películas proporcionadas por casi 500.000 miembros, y tenía una convocatoria abierta donde la gente de todo el mundo enviaron sus algoritmos que podrían mejorar la capacidad de Netflix para recomendar películas. Antes de liberar los datos, Netflix elimina cualquier información de identificación personal, obviamente, tales como nombres. Netflix también fue un paso adicional e introdujo ligeras perturbaciones en algunos de los registros (por ejemplo, el cambio de algunas clasificaciones de 4 estrellas a 3 estrellas). Netflix pronto descubrió, sin embargo, que a pesar de sus esfuerzos, los datos eran de ninguna manera anónima.

Apenas dos semanas después de los datos fueron puestos en libertad Narayanan and Shmatikov (2008) demostraron que era posible aprender acerca de las preferencias de las personas de las películas específicas. El truco para su ataque reidentificación fue similar a la de Sweeney: fusionar dos fuentes de información, una con información potencialmente sensible y no hay información, obviamente, la identificación y el que contiene la identidad de las personas. Cada una de estas fuentes de datos pueden estar a salvo de forma individual, pero cuando se combinan el conjunto de datos resultante de la concentración puede crear riesgos informativo. En el caso de los datos de Netflix, así es como podría suceder. Imagino que elijo para compartir mis pensamientos acerca de la acción y las películas de comedia con mis compañeros de trabajo, pero que prefiero no compartir mi opinión sobre las películas religiosas y políticas. Mis compañeros de trabajo podrían utilizar la información que he compartido con ellos para encontrar mis registros en los datos de Netflix; la información que comparto podría ser una huella digital única al igual que la fecha de William Weld nacimiento, código postal, y el sexo. Entonces, si encuentran mi huella digital única en los datos, que podrían aprender mis valoraciones sobre todas las películas, incluyendo películas en las que no optar por compartir. Además de este tipo de ataque dirigido concentrado en una sola persona, Narayanan and Shmatikov (2008) también demostraron que era posible hacer una amplia -uno ataque con mucha gente, mediante la fusión de los datos de Netflix con los datos personales de calificación y de la película que algunos personas han optado por publicar en la Internet Movie Database (IMDb). Cualquier información que es huella digital única a una persona específica, incluso su sistema de cine en calificaciones se puede utilizar para identificarlos.

A pesar de que los datos de Netflix pueden ser re-identifican ya sea en un ataque dirigido o amplia, todavía podría parecer bajo riesgo. Después de todo, las calificaciones de películas no parecen muy sensible. Mientras que eso puede ser cierto en general, para algunas de las 500.000 personas en el conjunto de datos, clasificación de las películas puede ser muy sensible. De hecho, en respuesta a la anonimización de-una mujer lesbiana encerrado unió a una demanda colectiva en contra de Netflix. Así es como el problema se expresó en su demanda (Singel 2009) :

"[M] ovie y la clasificación de datos contiene información de carácter más altamente personal y sensible [sic]. los datos de la película del miembro expone el interés personal de un miembro de Netflix y / o luchas con varios temas muy personales, incluyendo la sexualidad, la enfermedad mental, la recuperación del alcoholismo, y la victimización de incesto, el abuso físico, la violencia doméstica, el adulterio y violación ".

El de-la anonimización de los datos Premio Netflix ilustra tanto que todos los datos son potencialmente identificable y que todos los datos son potencialmente sensible. En este punto, se podría pensar que esto sólo se aplica a los datos que que pretende ser sobre las personas. Sorprendentemente, que no es el caso. En respuesta a una solicitud de Libertad de Derecho de la Información, el Gobierno de la Ciudad de Nueva York lanzó registros de cada trayecto en taxi en Nueva York en 2013, que incluye la recogida y regreso tiempos, lugares y cantidades de tarifas (Recuerde del capítulo 2 que Farber (2015) utiliza estos datos para probar las teorías importantes en la economía de mano de obra). A pesar de estos datos sobre viajes en taxi puede parecer benigna, ya que no parece haber información sobre las personas, Anthony Tockar dio cuenta de que este conjunto de datos de taxis que realmente contienen una gran cantidad de información potencialmente sensible sobre personas. Para ilustrar esto, miraba a todos los viajes que empiezan en el Hustler Club-un gran club de striptease en Nueva York, entre la medianoche y las 6 am y luego encontró sus sitios de entrega. Esta búsqueda reveló en esencia, una lista de direcciones de algunas personas que frecuentan el club el espabilado (Tockar 2014) . Es difícil imaginar que el gobierno de la ciudad tenía esto en mente cuando publicó los datos. De hecho, esta misma técnica se podría utilizar para encontrar las direcciones de origen de las personas que visitan cualquier lugar de la ciudad, una clínica médica, un edificio del gobierno, o de una institución religiosa.

Estos dos casos-el Premio Netflix y el taxi datos muestran la ciudad de Nueva York que las personas relativamente cualificados no pudieron estimar correctamente el riesgo de información en los datos que lanzaron, y estos casos son de ninguna manera única (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Además, en muchos de estos casos, los datos problemática es todavía libremente disponibles en línea, lo que indica la dificultad de volver a deshacer una publicación del informe. En conjunto, estos ejemplos, así como la investigación en ciencias de la computación por la privacidad-conduce a una conclusión importante. Los investigadores deben asumir que todos los datos son potencialmente identificables y todos los datos son potencialmente sensible.

Desafortunadamente, no existe una solución sencilla al hecho de que todos los datos son potencialmente identificables y todos los datos son potencialmente sensible. Sin embargo, una manera de reducir el riesgo de la información mientras se está trabajando con los datos es crear y seguir un plan de protección de datos. Este plan se disminuye la posibilidad de que sus datos se fuga y se reducirá el daño en caso de fuga de alguna manera. Los detalles de los planes de protección de datos, como qué tipo de encriptación a utilizar, cambiarán con el tiempo, pero los servicios de datos del Reino Unido organiza amablemente los elementos de un plan de protección de datos en 5 categorías que ellos llaman las 5 cajas fuertes: proyectos seguros, personas seguras , la configuración de seguridad, datos de seguridad y salidas seguras (Tabla 6.2) (Desai, Ritchie, and Welpton 2016) . Ninguno de los cinco cajas fuertes proporcionan una protección perfecta de forma individual. Pero, en conjunto, forman un potente conjunto de factores que pueden disminuir el riesgo informativo.

Tabla 6.2: Las 5 cajas fuertes son los principios para el diseño y ejecución de un plan de protección de datos (Desai, Ritchie, and Welpton 2016) .
Seguro Acción
proyectos seguros limita con los datos de los proyectos a los que son éticos
las personas seguras el acceso está restringido a las personas que se puede confiar con los datos (por ejemplo, la formación ética, las personas han sufrido)
los datos seguros datos es de-identificado y agregado a la medida de lo posible
lugares seguros los datos se almacenan en los ordenadores con física adecuada (por ejemplo, habitación cerrada con llave) y el software (por ejemplo, la protección de contraseña, cifrado) protecciones
salida segura resultados de la investigación se revisa para evitar que accidentalmente violaciones a la privacidad

Además de proteger sus datos mientras se está utilizando, un paso en el proceso de investigación donde el riesgo de información es especialmente relevante es el intercambio de datos con otros investigadores. El intercambio de datos entre los científicos es un valor fundamental de la empresa científica, y muchísimo instalaciones el avance del conocimiento. Así es como la Casa de los Comunes del Reino Unido describe la importancia del intercambio de datos:

"El acceso a los datos es fundamental para que los investigadores han de reproducir, verificar y basarse en los resultados que se reportan en la literatura. La presunción debe ser que, a menos que exista una razón fuerte de lo contrario, los datos deben ser plenamente revelados y puestos a disposición del público. De acuerdo con este principio, en donde se deben hacer posible, datos asociados a todas las investigaciones financiadas públicamente amplia y libremente disponible. " (Molloy 2011)

Sin embargo, al compartir sus datos con otro investigador, puede ser el aumento de riesgo de información a sus participantes. Por lo tanto, puede parecer que los investigadores que desean compartir sus datos o se está obligado a compartir sus datos se enfrentan a una tensión fundamental. Por un lado, tienen la obligación ética de compartir sus datos con otros científicos, sobre todo si la investigación original es financiado públicamente. Sin embargo, al mismo tiempo, los investigadores tienen la obligación ética para minimizar, en lo posible, el riesgo de la información a sus participantes.

Afortunadamente, este dilema no es tan grave como parece. Es importante pensar en el intercambio de datos a lo largo de un continuo que va desde ningún intercambio de datos para liberar y olvidar, donde los datos se "convierte en anónima" y publicada para que cualquiera pueda acceder (Figura 6.6). Ambas posiciones extremas tienen riesgos y beneficios. Es decir, no es automáticamente lo más ético de no compartir sus datos; este enfoque elimina muchos beneficios potenciales para la sociedad. Volviendo a gusto, los lazos, y el tiempo, un ejemplo discutido anteriormente en este capítulo, los argumentos contra la publicación de los datos que se centran sólo en los posibles daños y que ignoran los posibles beneficios son excesivamente unilateral; Voy a describir los problemas con este enfoque unilateral, excesivamente protector con más detalle en cuando a continuación ofrezco consejos sobre la toma de decisiones en un contexto de incertidumbre (Sección 6.6.4).

Figura 6.6: estrategias de liberación de datos pueden caer a lo largo de un continuo. Donde debe ser a lo largo de este continuo depende de los detalles específicos de sus datos. En este caso, la revisión tercero puede ayudar a decidir el adecuado equilibrio de los riesgos y beneficios en su caso.

Figura 6.6: estrategias de liberación de datos pueden caer a lo largo de un continuo. Donde debe ser a lo largo de este continuo depende de los detalles específicos de sus datos. En este caso, la revisión tercero puede ayudar a decidir el adecuado equilibrio de los riesgos y beneficios en su caso.

Además, en medio de estos dos casos extremos es lo que voy a un enfoque llamado jardín amurallado, donde los datos se comparten con las personas que cumplen con ciertos criterios y que están de acuerdo en obligarse por ciertas reglas (por ejemplo, la supervisión de un Comité de Ética y unos planes de protección de datos) . Este enfoque jardín amurallado ofrece muchos de los beneficios de la liberación y se olvida con menos riesgo. Por supuesto, un enfoque jardín amurallado crea muchas interrogantes que deben tener acceso, en qué condiciones, por cuánto tiempo, quién debe pagar para mantener y vigilar el jardín amurallado, etc., pero éstos no son insuperables. De hecho, ya están trabajando jardines amurallados en el lugar que los investigadores pueden utilizar en este momento, como el archivo de datos del Consorcio Interuniversitario para la Investigación Política y Social de la Universidad de Michigan.

Así, en caso de que los datos de su estudio estar en el continuo de no compartir, jardín amurallado, y liberar y olvidar? Que dependen de los detalles de sus datos; los investigadores deben equilibrar Respeto por las personas, beneficencia, justicia, y respeto del derecho y el interés público. Al evaluar el equilibrio apropiado para otras decisiones investigadores buscan el consejo y la aprobación del IRB, y publicación de los datos pueden ser sólo otra parte de ese proceso. En otras palabras, aunque algunas personas piensan de la publicación de los datos como una ciénaga ética sin esperanza, ya tenemos sistemas para ayudar a los investigadores equilibrar este tipo de dilemas éticos.

Una última forma de pensar sobre el intercambio de datos es por analogía. Cada año los coches son responsables de miles de muertes, pero no intentan prohibir la conducción. De hecho, una llamada de este tipo para prohibir la conducción sería absurdo, porque la conducción permite muchas cosas maravillosas. Por el contrario, la sociedad impone restricciones sobre quién puede conducir (por ejemplo, la necesidad de tener una determinada edad, necesita haber pasado ciertas pruebas) y cómo pueden conducir (por ejemplo, bajo el límite de velocidad). La sociedad también tiene las personas encargadas de hacer cumplir estas normas (por ejemplo, la policía), y castigar a las personas que están atrapadas violarlos. Este mismo tipo de pensamiento equilibrado que la sociedad se aplica a la regulación de conducción también se puede aplicar a intercambio de datos. Es decir, en lugar de hacer argumentos absolutistas favor o en contra de compartir datos, creo que los mayores beneficios vendrán de averiguar cómo podemos compartir más datos de forma más segura.

Para concluir, el riesgo de información ha aumentado de manera espectacular, y es muy difícil de predecir y cuantificar. Por lo tanto, lo mejor es asumir que todos los datos son potencialmente identificables y potencialmente sensible. Para disminuir el riesgo de información mientras se hace la investigación, los investigadores pueden crear y seguir un plan de protección de datos. Además, el riesgo de información no impide que los investigadores de compartir datos con otros científicos.