6.6.2 comprensió i la gestió del risc informatiu

Riscos de la informació és el risc més comú en la investigació social; s'ha incrementat dramàticament; i és el risc més difícil d'entendre.

El segon desafiament ètic per a la investigació digital de l'edat social és el risc informatiu, el potencial de dany de la divulgació d'informació (Council 2014) . danys informatius de la divulgació d'informació personal podria ser econòmica (per exemple, la pèrdua de la feina), socials (per exemple, la vergonya), psicològics (per exemple, depressió), o fins i tot penal (per exemple, la detenció d'un comportament il·legal). Per desgràcia, l'era digital augmenta el risc de la informació de manera espectacular-només hi ha molta més informació sobre el nostre comportament. I, el risc d'informació ha demostrat ser molt difícil d'entendre i manejar en comparació amb els riscos que eren preocupacions en la investigació social era analògica, com el risc físic. Per veure com l'era digital augmenta el risc d'informació, consideri la transició del paper als registres mèdics electrònics. Tots dos tipus de registres creen risc, però els registres electrònics creen un risc molt superior a causa d'una escala massiva que es poden transmetre a un tercer no autoritzat o fusionar-se amb altres registres. Els investigadors socials en l'era digital ja han tingut problemes amb el risc informatiu, en part perquè no s'entenen completament com quantificar i gestionar la mateixa. Per tant, vaig a oferir una forma útil pensar en el risc informatiu, i després vaig a donar-li alguns consells sobre com administrar el risc informatiu en la seva investigació i en l'alliberament de les dades d'altres investigadors.

Una manera en què els investigadors socials disminueixen el risc d'informació és "anònima" de dades. "Anonimització" és el procés d'eliminació d'identificadors personals obvis com ara nom, adreça i número de telèfon a partir de les dades. No obstant això, aquest enfocament és molt menys eficaç que moltes persones es donen compte, i és, de fet, profunda i fonamentalment limitada. Per aquesta raó, cada vegada que descric "anònima" Vaig a fer servir cometes per recordar-los que aquest procés crea l'aparença d'anonimat, però no és cert anonimat.

Un clar exemple de la manca de "anonimització" ve de la dècada de 1990 a Massachusetts (Sweeney 2002) . La Comissió d'Assegurances de grup (GIC) era una agència governamental responsable de la compra d'una assegurança de salut per a tots els empleats estatals. A través d'aquest treball, el GIC recull les històries clíniques detallades sobre milers d'empleats estatals. En un esforç per estimular la investigació sobre les formes de millorar la salut, GIC va decidir alliberar aquests registres als investigadors. No obstant això, ells no comparteixen totes les seves dades; més aviat, "anònims" que mitjançant l'eliminació d'informació com el nom i adreça. No obstant això, van deixar una altra informació que pensaven que podria ser útil per als investigadors com informació demogràfica (codi postal, data de naixement, ètnia i sexe) i la informació mèdica (dades de visites, diagnòstic, procediment) (Figura 6.4) (Ohm 2010) . Malauradament, aquest "anònima" no era suficient per protegir les dades.

Figura 6.4: L'anonimat és el procés d'eliminació, òbviament, la informació d'identificació. Per exemple, quan l'alliberament dels registres de l'assegurança mèdica dels empleats de l'Estat la Comissió d'Assegurances Grup de Massachusetts (GIC) va eliminar nom i la direcció dels arxius. Jo ús cometes al voltant de la paraula en forma anònima pel fet que el procés proporciona l'aparença d'anonimat, però no l'anonimat real.

Figura 6.4: "anonimització" és el procés d'eliminació, òbviament, la informació d'identificació. Per exemple, quan l'alliberament dels registres de l'assegurança mèdica dels empleats de l'Estat la Comissió d'Assegurances Grup de Massachusetts (GIC) va eliminar nom i la direcció dels arxius. Jo ús cometes al voltant de la "anonimització" paraula pel fet que el procés proporciona l'aparença d'anonimat, però no l'anonimat real.

Per il·lustrar les deficiències de la "anonimització" GIC, Latanya Sweeney, llavors un estudiant graduat al MIT-pagament $ 20 a adquirir els registres de votació de la ciutat de Cambridge, la ciutat natal del governador de Massachusetts William Weld. Aquests registres de votació inclouen informació com el nom, adreça, codi postal, data de naixement i sexe. El fet que l'expedient mèdic de dades i el codi postal de camps-arxiu de votants a la residència, data de naixement i el sexe-significava que Sweeney podria vincular. Sweeney sabia que l'aniversari de Weld va ser el 31 de juliol de 1945, i els registres de votació inclou només sis persones a Cambridge amb aquest aniversari. A més, d'aquestes sis persones, només tres eren homes. I, d'aquests tres homes, només un comparteix el codi postal de autògena. Per tant, les dades de la votació van mostrar que ningú en les dades mèdiques amb la combinació de la autògena de la data de naixement, sexe, codi postal i va ser William Weld. En essència, aquests tres tipus d'informació sempre una empremta digital única per a ell en les dades. L'ús d'aquest fet, Sweeney va ser capaç de localitzar els registres mèdics de soldadura, i per informar-lo de la seva gesta, ella li va enviar per correu una còpia dels seus registres (Ohm 2010) .

Figura 6.5: Re-idenification de dades anònims. Latanya Sweeney combina els registres de salut anònims amb els registres de votació per tal de trobar els registres mèdics de governador William Weld (Sweeney, 2002).

Figura 6.5: Re-idenification de dades "anònims". Latanya Sweeney combina els registres de salut "anònims" amb els registres de votació per tal de trobar els registres mèdics de governador William Weld (Sweeney 2002) .

El treball de Sweeney il·lustra l'estructura bàsica dels atacs de-anonimització: per reproduir una expressió de la comunitat de seguretat informàtica. En aquests atacs, dos conjunts de dades, cap dels quals per si mateixa revela informació sensible, estan vinculats, ia través d'aquest vincle, la informació sensible s'exposa. En certa manera, aquest procés és similar a la forma en què el bicarbonat de sodi i vinagre, dues substàncies que són per si mateixos segura, es poden combinar per produir un resultat desagradable.

En resposta al treball de Sweeney, i altres treballs relacionats, els investigadors ara eliminen generalment molt més informació, tot el que es diu "La informació d'identificació personal" (PII) (Narayanan and Shmatikov 2010) -durant el procés de "anònima". A més, molts investigadors ara adonar-se que certes dades, com ara registres mèdics, registres financers, respostes a les preguntes de l'enquesta sobre el comportament il·legal, és probable que sigui massa sensible per alliberar fins i tot després de "anònima". No obstant això, els exemples més recents que descriuré a continuació indiquen que els investigadors socials han canviar la seva forma de pensar. Com a primer pas, és prudent assumir que totes les dades són potencialment identificables i totes les dades són potencialment sensible. En altres paraules, en lloc de pensar que el risc d'informació s'aplica a un petit subconjunt de projectes, hem d'assumir que s'aplica a un cert grau a tots els projectes.

Tots dos aspectes d'aquesta reorientació s'il·lustren pel Premi Netflix. Com es descriu en el capítol 5, Netflix alliberat 100 milions de classificacions de pel·lícules proporcionades per gairebé 500.000 membres, i tenia una convocatòria oberta on la gent de tot el món van enviar els seus algoritmes que podrien millorar la capacitat de Netflix per recomanar pel·lícules. Abans d'alliberar les dades, Netflix elimina qualsevol informació d'identificació personal, òbviament, com ara noms. Netflix també va ser un pas addicional i va introduir lleugeres pertorbacions en alguns dels registres (per exemple, el canvi d'algunes classificacions de 4 estrelles a 3 estrelles). Netflix aviat va descobrir, però, que malgrat els seus esforços, les dades eren de cap manera anònima.

Tot just dues setmanes després de les dades van ser posats en llibertat Narayanan and Shmatikov (2008) van demostrar que era possible aprendre sobre les preferències de les persones de les pel·lícules específiques. El truc per al seu atac reidentificació ser similar a la de Sweeney: fusionar dues fonts d'informació, una amb informació potencialment sensible i no hi ha informació, òbviament, la identificació i el que conté la identitat de les persones. Cadascuna d'aquestes fonts de dades poden estar fora de perill de manera individual, però quan es combinen el conjunt de dades resultant de la concentració pot crear riscos informatiu. En el cas de les dades de Netflix, així és com podria succeir. Imagino que trio per compartir els meus pensaments sobre l'acció i les pel·lícules de comèdia amb els meus companys de treball, però que prefereixo no compartir la meva opinió sobre les pel·lícules religioses i polítiques. Els meus companys de treball podrien utilitzar la informació que he compartit amb ells per trobar els meus registres en les dades de Netflix; la informació que comparteixo podria ser una empremta digital única igual que la data de William Weld naixement, codi postal, i el sexe. Llavors, si troben la meva empremta digital única a les dades, que podrien aprendre meus valoracions sobre totes les pel·lícules, incloent pel·lícules en què no optar per compartir. A més d'aquest tipus d'atac dirigit concentrat en una sola persona, Narayanan and Shmatikov (2008) també van demostrar que era possible fer una àmplia -un atac amb molta gent, mitjançant la fusió de les dades de Netflix amb les dades personals de qualificació i de la pel·lícula que alguns persones han optat per publicar a Internet Movie Database (IMDb). Qualsevol informació que és empremta digital única a una persona específica, fins i tot el seu sistema de cinema a qualificacions es pot utilitzar per identificar-los.

Tot i que les dades de Netflix poden ser re-identifiquen ja sigui en un atac dirigit o àmplia, encara podria semblar baix risc. Al capdavall, les qualificacions de pel·lícules no semblen molt sensible. Mentre que això pot ser cert en general, per algunes de les 500.000 persones en el conjunt de dades, classificació de les pel·lícules pot ser molt sensible. De fet, en resposta a l'anonimització de-una dona lesbiana tancat unir a una demanda col·lectiva en contra de Netflix. Així és com el problema es va expressar en la seva demanda (Singel 2009) :

"[M] ovie i la classificació de dades conté informació de caràcter més altament personal i sensible [sic]. les dades de la pel·lícula del membre exposa l'interès personal d'un membre de Netflix i / o lluites amb diversos temes molt personals, incloent la sexualitat, la malaltia mental, la recuperació de l'alcoholisme, i la victimització d'incest, l'abús físic, la violència domèstica, l'adulteri i violació ".

El de-la anonimització de les dades Premi Netflix il·lustra tant que totes les dades són potencialment identificable i que totes les dades són potencialment sensible. En aquest punt, es podria pensar que això només s'aplica a les dades que que pretén ser sobre les persones. Sorprenentment, que no és el cas. En resposta a una sol·licitud de Llibertat de Dret de la Informació, el ​​Govern de la Ciutat de Nova York va llançar registres de cada trajecte en taxi a Nova York el 2013, que inclou la recollida i retorn temps, llocs i quantitats de tarifes (Recordi del capítol 2 que Farber (2015) utilitza aquestes dades per provar les teories importants en l'economia de mà d'obra). Tot i aquestes dades sobre viatges en taxi pot semblar benigna, ja que no sembla haver informació sobre les persones, Anthony Tockar va adonar que aquest conjunt de dades de taxis que realment contenen una gran quantitat d'informació potencialment sensible sobre persones. Per il·lustrar això, mirava a tots els viatges que comencen en el Hustler Club-un gran club de striptease a Nova York, entre la mitjanit i les 6 am i després va trobar els seus llocs de lliurament. Aquesta recerca va revelar en essència, una llista d'adreces d'algunes persones que freqüenten el club l'espavilat (Tockar 2014) . És difícil imaginar que el govern de la ciutat tenia això en ment quan va publicar les dades. De fet, aquesta mateixa tècnica es podria utilitzar per trobar les adreces d'origen de les persones que visiten qualsevol lloc de la ciutat, una clínica mèdica, un edifici del govern, o d'una institució religiosa.

Aquests dos casos-el Premi Netflix i el taxi dades mostren la ciutat de Nova York que les persones relativament qualificats no van poder estimar correctament el risc d'informació en les dades que van llançar, i aquests casos són de cap manera única (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . A més, en molts d'aquests casos, les dades problemàtica és encara lliurement disponibles en línia, el que indica la dificultat de tornar a desfer una publicació de l'informe. En conjunt, aquests exemples, així com la recerca en ciències de la computació per la privacitat-condueix a una conclusió important. Els investigadors han d'assumir que totes les dades són potencialment identificables i totes les dades són potencialment sensible.

Desafortunadament, no hi ha una solució senzilla al fet que totes les dades són potencialment identificables i totes les dades són potencialment sensible. No obstant això, una manera de reduir el risc de la informació mentre s'està treballant amb les dades és crear i seguir un pla de protecció de dades. Aquest pla es disminueix la possibilitat que les seves dades es fuga i es reduirà el dany en cas de fuga d'alguna manera. Els detalls dels plans de protecció de dades, com quin tipus d'encriptació a utilitzar, canviaran amb el temps, però els serveis de dades del Regne Unit organitza amablement els elements d'un pla de protecció de dades en 5 categories que ells anomenen les 5 caixes fortes: projectes assegurances, persones segures , la configuració de seguretat, dades de seguretat i sortides segures (Taula 6.2) (Desai, Ritchie, and Welpton 2016) . Cap dels cinc caixes fortes proporcionen una protecció perfecta de forma individual. Però, en conjunt, formen un potent conjunt de factors que poden disminuir el risc informatiu.

Taula 6.2: Les 5 caixes fortes són els principis per al disseny i execució d'un pla de protecció de dades (Desai, Ritchie, and Welpton 2016) .
segur acció
projectes assegurances limita amb les dades dels projectes als quals són ètics
les persones segures l'accés està restringit a les persones que es pot confiar amb les dades (per exemple, la formació ètica, les persones han patit)
les dades assegurances dades és de-identificat i agregat a la mesura del possible
llocs segurs les dades s'emmagatzemen en els ordinadors amb física adequada (per exemple, habitació tancada amb clau) i el programari (per exemple, la protecció de contrasenya, xifrat) proteccions
sortida segura resultats de la investigació es revisa per evitar que accidentalment violacions a la privacitat

A més de protegir les seves dades mentre s'està utilitzant, un pas en el procés d'investigació on el risc d'informació és especialment rellevant és l'intercanvi de dades amb altres investigadors. L'intercanvi de dades entre els científics és un valor fonamental de l'empresa científica, i moltíssim instal·lacions l'avanç del coneixement. Així és com la Casa dels Comuns del Regne Unit descriu la importància de l'intercanvi de dades:

"L'accés a les dades és fonamental perquè els investigadors han de reproduir, verificar i basar-se en els resultats que es reporten en la literatura. La presumpció ha de ser que, llevat que hi hagi una raó forta en cas contrari, les dades han de ser plenament revelats i posats a disposició del públic. D'acord amb aquest principi, en on s'han de fer possible, dades associades a totes les investigacions finançades públicament àmplia i lliurement disponible. " (Molloy 2011)

No obstant això, en compartir les seves dades amb un altre investigador, pot ser l'augment de risc d'informació als seus participants. Per tant, pot semblar que els investigadors que volen compartir les seves dades o s'està obligat a compartir les seves dades s'enfronten a una tensió fonamental. D'una banda, tenen l'obligació ètica de compartir les seves dades amb altres científics, sobretot si la investigació original és finançat públicament. No obstant això, al mateix temps, els investigadors tenen l'obligació ètica per minimitzar, en la mesura possible, el risc de la informació als seus participants.

Afortunadament, aquest dilema no és tan greu com sembla. És important pensar en l'intercanvi de dades al llarg d'un continu que va des de cap intercanvi de dades per alliberar i oblidar, on les dades es "converteix en anònima" i publicada perquè qualsevol pugui accedir (Figura 6.6). Les dues posicions extremes tenen riscos i beneficis. És a dir, no és automàticament el més ètic de no compartir les seves dades; aquest enfocament elimina molts beneficis potencials per a la societat. Tornant a gust, els llaços, i el temps, un exemple discutit anteriorment en aquest capítol, els arguments contra la publicació de les dades que se centren només en els possibles danys i que ignoren els possibles beneficis són excessivament unilateral; Vaig a descriure els problemes amb aquest enfocament unilateral, excessivament protector amb més detall en tant a continuació ofereixo consells sobre la presa de decisions en un context d'incertesa (Secció 6.6.4).

Figura 6.6: estratègies d'alliberament de dades poden caure al llarg d'un continu. On ha de ser al llarg d'aquest continu depèn dels detalls específics de les seves dades. En aquest cas, la revisió tercer pot ajudar a decidir l'adequat equilibri dels riscos i beneficis si s'escau.

Figura 6.6: estratègies d'alliberament de dades poden caure al llarg d'un continu. On ha de ser al llarg d'aquest continu depèn dels detalls específics de les seves dades. En aquest cas, la revisió tercer pot ajudar a decidir l'adequat equilibri dels riscos i beneficis si s'escau.

A més, enmig d'aquests dos casos extrems és el que vaig a un enfocament anomenat jardí emmurallat, on les dades es comparteixen amb les persones que compleixen amb certs criteris i que estan d'acord en obligar-se per certes regles (per exemple, la supervisió d'un Comitè d'Ètica i uns plans de protecció de dades) . Aquest enfocament jardí emmurallat ofereix molts dels beneficis de l'alliberament i s'oblida amb menys risc. Per descomptat, un enfocament jardí emmurallat crea molts interrogants que han de tenir accés, en quines condicions, per quant temps, qui ha de pagar per mantenir i vigilar el jardí emmurallat, etc., però aquests no són insuperables. De fet, ja estan treballant jardins emmurallats en el lloc que els investigadors poden utilitzar en aquest moment, com l'arxiu de dades del Consorci Interuniversitari per a la Investigació Política i Social de la Universitat de Michigan.

Així, en el cas que les dades del seu estudi d'estar en el continu de no compartir, jardí emmurallat, i alliberar i oblidar? Que depenen dels detalls de les seves dades; els investigadors han de equilibrar Respecte per les persones, beneficència, justícia, i respecte del dret i l'interès públic. En avaluar l'equilibri apropiat per a altres decisions investigadors busquen el consell i l'aprovació de l'IRB, i publicació de les dades poden ser només una altra part d'aquest procés. En altres paraules, encara que algunes persones pensen de la publicació de les dades com un pantà ètica sense esperança, ja tenim sistemes per ajudar els investigadors equilibrar aquest tipus de dilemes ètics.

Una última manera de pensar sobre l'intercanvi de dades és per analogia. Cada any els cotxes són responsables de milers de morts, però no intenten prohibir la conducció. De fet, una crida d'aquest tipus per prohibir la conducció seria absurd, perquè la conducció permet moltes coses meravelloses. Per contra, la societat imposa restriccions sobre qui pot conduir (per exemple, la necessitat de tenir una determinada edat, necessita haver passat certes proves) i com poden conduir (per exemple, sota el límit de velocitat). La societat també té les persones encarregades de fer complir aquestes normes (per exemple, la policia), i castigar les persones que estan atrapades violar-los. Aquest mateix tipus de pensament equilibrat que la societat s'aplica a la regulació de conducció també es pot aplicar a intercanvi de dades. És a dir, en lloc de fer arguments absolutistes favor o en contra de compartir dades, crec que els majors beneficis vindran d'esbrinar com podem compartir més dades de forma més segura.

Per concloure, el risc d'informació ha augmentat de manera espectacular, i és molt difícil de predir i quantificar. Per tant, el millor és assumir que totes les dades són potencialment identificables i potencialment sensible. Per disminuir el risc d'informació mentre es fa la investigació, els investigadors poden crear i seguir un pla de protecció de dades. A més, el risc d'informació no impedeix que els investigadors de compartir dades amb altres científics.