6.6.2 La comprensione e la gestione del rischio informativo

Il rischio informativo è il rischio più comune nella ricerca sociale; è aumentato drammaticamente; ed è il rischio più difficile da capire.

La seconda sfida etica per la ricerca sull'era digitale è il rischio informativo , il potenziale di danno dalla divulgazione di informazioni (National Research Council 2014) . I danni informativi derivanti dalla divulgazione di informazioni personali potrebbero essere economici (ad esempio perdere un posto di lavoro), sociali (ad es. Imbarazzo), psicologici (ad es. Depressione) o persino criminali (ad es. Arresto per comportamento illecito). Sfortunatamente, l'era digitale aumenta drasticamente il rischio informativo: ci sono molte più informazioni sul nostro comportamento. E il rischio informativo si è rivelato molto difficile da comprendere e gestire rispetto ai rischi che erano preoccupanti nella ricerca sociale sull'età analogica, come il rischio fisico.

Un modo che i ricercatori sociali diminuiscono il rischio informativo è "anonima" di dati. "Anonimizzazione" è il processo di rimozione di identificatori personali evidenti, come nome, indirizzo, numero di telefono e dai dati. Tuttavia, questo approccio è molto meno efficace di quanto si pensi, ed è, infatti, profondamente e fondamentalmente limitata. Per questo motivo, ogni volta che ho descritto "anonima", io uso le virgolette per ricordare che questo processo crea l'aspetto di anonimato, ma non è vero anonimato.

Un chiaro esempio del fallimento dell '"anonimizzazione" arriva dalla fine degli anni '90 in Massachusetts (Sweeney 2002) . La Group Insurance Commission (GIC) era un'agenzia governativa responsabile per l'acquisto di un'assicurazione sanitaria per tutti i dipendenti statali. Attraverso questo lavoro, il GIC ha raccolto dati sanitari dettagliati su migliaia di dipendenti statali. Nel tentativo di stimolare la ricerca, la GIC ha deciso di rilasciare questi documenti ai ricercatori. Tuttavia, non hanno condiviso tutti i loro dati; piuttosto, hanno "reso anonimi" questi dati rimuovendo informazioni come nomi e indirizzi. Tuttavia, hanno lasciato altre informazioni che pensavano potessero essere utili per ricercatori come informazioni demografiche (codice di avviamento postale, data di nascita, appartenenza etnica e sesso) e informazioni mediche (visita dati, diagnosi, procedura) (figura 6.4) (Ohm 2010) . Sfortunatamente, questa "anonimizzazione" non era sufficiente per proteggere i dati.

Figura 6.4: L'anonimizzazione è il processo di rimozione di informazioni che identificano chiaramente. Ad esempio, al momento del rilascio dei registri delle assicurazioni mediche dei dipendenti statali, la Massachusetts Group Insurance Commission (GIC) ha rimosso i nomi e gli indirizzi dai file. Uso le virgolette attorno alla parola anonimizzazione perché il processo fornisce l'aspetto dell'anonimato ma non l'effettivo anonimato.

Figura 6.4: "Anonimizzazione" è il processo di rimozione di informazioni chiaramente identificative. Ad esempio, al momento del rilascio dei registri delle assicurazioni mediche dei dipendenti statali, la Massachusetts Group Insurance Commission (GIC) ha rimosso i nomi e gli indirizzi dai file. Uso le virgolette attorno alla parola "anonimizzazione" perché il processo fornisce l'aspetto dell'anonimato ma non l'effettivo anonimato.

Per illustrare le carenze del GIC "anonimizzazione", Latanya Sweeney - allora una studentessa diplomata al MIT - ha pagato $ 20 per acquisire i documenti elettorali dalla città di Cambridge, la città natale del governatore del Massachusetts William Weld. Questi documenti elettorali includevano informazioni quali nome, indirizzo, codice postale, data di nascita e genere. Il fatto che il file dei dati medici e il file dell'elettore condividessero i campi (codice di avviamento postale, data di nascita e sesso) significava che Sweeney poteva collegarli. Sweeney sapeva che il compleanno di Weld era il 31 luglio 1945, e le registrazioni elettorali includevano solo sei persone a Cambridge con quel compleanno. Inoltre, di quelle sei persone, solo tre erano maschi. E, di quei tre uomini, solo uno comprendeva il codice postale di Weld. Pertanto, i dati di voto hanno mostrato che chiunque fosse nei dati medici con la combinazione di data di nascita, sesso e codice postale di Weld era William Weld. In sostanza, queste tre informazioni fornivano a lui un'impronta digitale unica nei dati. Usando questo fatto, Sweeney è stata in grado di localizzare le cartelle cliniche di Weld e, per informarlo della sua impresa, gli ha spedito una copia dei suoi documenti (Ohm 2010) .

Figura 6.5: Ri-idenificazione dei dati resi anonimi. Latanya Sweeney ha unito i record sanitari anonimi con i registri elettorali al fine di trovare le cartelle cliniche del governatore William Weld Adapted di Sweeney (2002), figura 1.

Figura 6.5: Ri-idenificazione dei dati "anonimi". Latanya Sweeney ha unito le cartelle cliniche "anonime" con i registri delle votazioni per trovare le cartelle cliniche del governatore William Weld Adapted di Sweeney (2002) , figura 1.

Il lavoro di Sweeney illustra la struttura di base degli attacchi di reidentificazione - per adottare un termine dalla comunità della sicurezza informatica. In questi attacchi, due insiemi di dati, nessuno dei quali rivela informazioni sensibili, sono collegati e attraverso questo collegamento vengono esposte le informazioni sensibili.

In risposta al lavoro di Sweeney e ad altri lavori correlati, i ricercatori ora rimuovono molte più informazioni - tutte le cosiddette "informazioni di identificazione personale" (PII) (Narayanan and Shmatikov 2010) durante il processo di "anonimizzazione". Inoltre, molti ricercatori ora comprendo che alcuni dati - come cartelle cliniche, documenti finanziari, risposte a domande di indagine sul comportamento illegale - sono probabilmente troppo sensibili per essere pubblicati anche dopo "anonimizzazione". Tuttavia, gli esempi che sto per dare suggeriscono che i ricercatori sociali hanno bisogno cambiare il loro modo di pensare. Come primo passo, è saggio presumere che tutti i dati siano potenzialmente identificabili e tutti i dati siano potenzialmente sensibili. In altre parole, piuttosto che pensare che il rischio informativo si applichi a un piccolo sottoinsieme di progetti, dovremmo presumere che si applichi - in una certa misura - a tutti i progetti.

Entrambi gli aspetti di questo riorientamento sono illustrati dal Premio Netflix. Come descritto nel capitolo 5, Netflix ha rilasciato 100 milioni di valutazioni di film fornite da quasi 500.000 membri e ha avuto una chiamata aperta in cui persone provenienti da tutto il mondo hanno presentato algoritmi che potrebbero migliorare la capacità di Netflix di consigliare i film. Prima di rilasciare i dati, Netflix ha rimosso qualsiasi ovvia informazione di identificazione personale, come i nomi. Hanno anche fatto un passo in più e hanno introdotto lievi perturbazioni in alcuni dei record (ad esempio, cambiando alcuni voti da 4 a 3 stelle). Ben presto scoprirono, tuttavia, che nonostante i loro sforzi, i dati non erano ancora anonimi.

Appena due settimane dopo il rilascio dei dati, Arvind Narayanan e Vitaly Shmatikov (2008) hanno dimostrato che era possibile conoscere le preferenze dei film di determinate persone. Il trucco per il loro attacco di reidentificazione era simile a quello di Sweeney: unire due fonti di informazione, una con informazioni potenzialmente sensibili e nessuna informazione identificativa evidente e una che contenga le identità delle persone. Ciascuna di queste origini dati può essere individualmente sicura, ma quando vengono combinate, il set di dati unito può creare un rischio informativo. Nel caso dei dati di Netflix, ecco come potrebbe accadere. Immagina di scegliere di condividere i miei pensieri su film d'azione e di commedia con i miei colleghi, ma preferisco non condividere la mia opinione sui film religiosi e politici. I miei colleghi potrebbero usare le informazioni che ho condiviso con loro per trovare i miei record nei dati di Netflix; le informazioni che condivido potrebbero essere un'impronta digitale unica, proprio come la data di nascita, il codice di avviamento postale e il sesso di William Weld. Quindi, se hanno trovato la mia impronta digitale univoca nei dati, potrebbero apprendere le mie valutazioni su tutti i film, compresi i film che scelgo di non condividere. Oltre a questo tipo di attacco mirato focalizzato su una singola persona, Narayanan e Shmatikov hanno anche dimostrato che era possibile fare un ampio attacco, coinvolgendo molte persone, unendo i dati di Netflix con dati personali e di valutazione del film che alcune persone hanno scelto pubblicare su Internet Movie Database (IMDb). Molto semplicemente, qualsiasi informazione che sia un'impronta digitale unica per una persona specifica, anche il loro insieme di valutazioni del film, può essere utilizzata per identificarli.

Anche se i dati di Netflix possono essere ri-identificati in un attacco mirato o ampio, potrebbe comunque sembrare a basso rischio. Dopo tutto, le classifiche dei film non sembrano molto sensibili. Mentre questo potrebbe essere vero in generale, per alcune delle 500.000 persone nel set di dati, le classifiche dei film potrebbero essere piuttosto sensibili. Infatti, in risposta alla reidentificazione, una donna lesbica chiusa si unì a una campagna d'azione contro Netflix. Ecco come il problema è stato espresso nella loro causa (Singel 2009) :

"[M] ovie e dati di valutazione contengono informazioni di carattere ... altamente personale e sensibile. I dati del film del membro espongono l'interesse personale di un membro Netflix e / o lotta con varie questioni altamente personali, tra cui la sessualità, la malattia mentale, il recupero dall'alcolismo e la vittimizzazione da incesto, abuso fisico, violenza domestica, adulterio e stupro. "

La reidentificazione dei dati di Netflix Prize dimostra che tutti i dati sono potenzialmente identificabili e che tutti i dati sono potenzialmente sensibili. A questo punto, potreste pensare che questo si applica solo ai dati che si riferiscono alle persone. Sorprendentemente, non è così. In risposta a una richiesta di legge sulla libertà di informazione, il governo della città di New York ha pubblicato i record di ogni corsa in taxi a New York nel 2013, inclusi gli orari di ritiro e consegna, le località e le tariffe (ricordate dal capitolo 2 che Farber (2015) usato dati simili per testare teorie importanti sull'economia del lavoro). Questi dati sui viaggi in taxi potrebbero sembrare benigni perché non sembrano fornire informazioni sulle persone, ma Anthony Tockar si è reso conto che questo set di dati del taxi conteneva effettivamente molte informazioni potenzialmente sensibili sulle persone. Per illustrare, ha guardato tutti i viaggi che hanno avuto inizio dallo Hustler Club - un grande strip club di New York - tra mezzanotte e le 6 del mattino e poi hanno trovato i loro luoghi di trasferimento. Questa ricerca ha rivelato, in sostanza, un elenco di indirizzi di alcune persone che frequentavano l'Hustler Club (Tockar 2014) . È difficile immaginare che il governo della città avesse questo in mente quando ha rilasciato i dati. In effetti, questa stessa tecnica potrebbe essere utilizzata per trovare gli indirizzi di casa delle persone che visitano qualsiasi luogo della città: una clinica medica, un edificio governativo o un'istituzione religiosa.

Questi due casi del Premio Netflix e dei dati sui taxi di New York City mostrano che le persone relativamente abili non riescono a stimare correttamente il rischio informativo nei dati che rilasciano - e questi casi non sono affatto unici (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Inoltre, in molti di questi casi, i dati problematici sono ancora disponibili gratuitamente online, a indicare la difficoltà di annullare mai un rilascio di dati. Collettivamente, questi esempi - così come la ricerca in informatica sulla privacy - portano a una conclusione importante. I ricercatori dovrebbero presumere che tutti i dati siano potenzialmente identificabili e tutti i dati siano potenzialmente sensibili.

Sfortunatamente, non esiste una soluzione semplice ai fatti che tutti i dati siano potenzialmente identificabili e che tutti i dati siano potenzialmente sensibili. Tuttavia, un modo per ridurre il rischio informativo mentre si lavora con i dati è creare e seguire un piano di protezione dei dati . Questo piano ridurrà la possibilità che i tuoi dati perderanno e diminuirà il danno se in qualche modo si verifica una perdita. Le specifiche dei piani di protezione dei dati, come la forma di crittografia da utilizzare, cambieranno nel tempo, ma i servizi di dati del Regno Unito organizzano utilmente gli elementi di un piano di protezione dei dati in cinque categorie che chiamano le cinque casseforti : progetti sicuri, persone sicure , impostazioni sicure, dati sicuri e uscite sicure (tabella 6.2) (Desai, Ritchie, and Welpton 2016) . Nessuna delle cinque casseforti offre individualmente una protezione perfetta. Ma insieme formano una potente serie di fattori che possono ridurre il rischio informativo.

Tabella 6.2: I "Cinque Casseforti" sono i principi per la progettazione e l'esecuzione di un piano di protezione dei dati (Desai, Ritchie, and Welpton 2016)
Sicuro Azione
Progetti sicuri Limita i progetti con dati a quelli che sono etici
Persone sicure L'accesso è limitato alle persone che possono fidarsi dei dati (ad es. Persone che hanno seguito una formazione etica)
Dati sicuri I dati sono de-identificati e aggregati per quanto possibile
Impostazioni sicure I dati vengono archiviati in computer con protezione fisica appropriata (ad es. Stanza chiusa a chiave) e software (ad es. Protezione tramite password, crittografata)
Uscita sicura Il risultato della ricerca viene riesaminato per prevenire violazioni involontarie della privacy

Oltre a proteggere i dati mentre li stai utilizzando, un passo nel processo di ricerca in cui il rischio informativo è particolarmente rilevante è la condivisione dei dati con altri ricercatori. La condivisione dei dati tra gli scienziati è un valore fondamentale dello sforzo scientifico e facilita enormemente il progresso della conoscenza. Ecco come la Camera dei Comuni britannica ha descritto l'importanza della condivisione dei dati (Molloy 2011) :

"L'accesso ai dati è fondamentale se i ricercatori devono riprodurre, verificare e basarsi sui risultati riportati in letteratura. La presunzione deve essere quella, a meno che non ci sia una ragione forte altrimenti, i dati dovrebbero essere pienamente divulgati e resi disponibili al pubblico. "

Tuttavia, condividendo i tuoi dati con un altro ricercatore, potresti aumentare il rischio informativo per i tuoi partecipanti. Pertanto, può sembrare che la condivisione dei dati crei una tensione fondamentale tra l'obbligo di condividere i dati con altri scienziati e l'obbligo di minimizzare il rischio informativo per i partecipanti. Fortunatamente, questo dilemma non è così grave come sembra. Piuttosto, è meglio pensare alla condivisione dei dati come a un continuum, con ogni punto su quel continuum che fornisce un diverso mix di benefici per la società e il rischio per i partecipanti (figura 6.6).

Ad un estremo, puoi condividere i tuoi dati con nessuno, il che minimizza i rischi per i partecipanti, ma minimizza anche i guadagni per la società. All'altro estremo, puoi rilasciare e dimenticare , dove i dati sono "resi anonimi" e pubblicati per tutti. Relativo a non rilasciare dati, rilasciare e dimenticare offre sia maggiori benefici per la società e maggiori rischi per i partecipanti. Tra questi due casi estremi ci sono una serie di ibridi, incluso quello che chiamerò un approccio al giardino recintato . Secondo questo approccio, i dati sono condivisi con persone che soddisfano determinati criteri e che accettano di essere vincolati da determinate regole (ad esempio, la supervisione di un IRB e un piano di protezione dei dati). L'approccio al giardino recintato offre molti dei vantaggi del rilascio e si dimentica con meno rischi. Naturalmente, un tale approccio crea molte domande: chi dovrebbe avere accesso, a quali condizioni e per quanto tempo, chi dovrebbe pagare per mantenere e sorvegliare il giardino recintato, ecc., Ma queste non sono insormontabili. In realtà, ci sono già dei giardini murari funzionanti che i ricercatori possono usare in questo momento, come l'archivio dei dati del Consorzio interuniversitario per la ricerca politica e sociale dell'Università del Michigan.

Figura 6.6: le strategie di rilascio dei dati possono cadere lungo un continuum. Il luogo in cui ti trovi in ​​questo continuum dipende dai dettagli specifici dei tuoi dati e la revisione da parte di terzi può aiutarti a decidere il giusto equilibrio di rischi e benefici nel tuo caso. La forma esatta di questa curva dipende dalle specifiche dei dati e degli obiettivi di ricerca (Goroff 2015).

Figura 6.6: le strategie di rilascio dei dati possono cadere lungo un continuum. Il luogo in cui ti trovi in ​​questo continuum dipende dai dettagli specifici dei tuoi dati e la revisione da parte di terzi può aiutarti a decidere il giusto equilibrio di rischi e benefici nel tuo caso. La forma esatta di questa curva dipende dalle specifiche dei dati e degli obiettivi di ricerca (Goroff 2015) .

Quindi, dove dovrebbero essere i dati del tuo studio sul continuum di non condividere, walled garden, e rilasciare e dimenticare? Ciò dipende dai dettagli dei dati: i ricercatori devono bilanciare il rispetto per le persone, la beneficenza, la giustizia e il rispetto della legge e dell'interesse pubblico. Visto da questa prospettiva, la condivisione dei dati non è un enigma etico distintivo; è solo uno dei tanti aspetti della ricerca in cui i ricercatori devono trovare un giusto equilibrio etico.

Alcuni critici sono generalmente contrari alla condivisione dei dati perché, a mio parere, sono concentrati sui suoi rischi - che sono senza dubbio reali - e ne ignorano i benefici. Quindi, al fine di incoraggiare la concentrazione su entrambi i rischi e benefici, mi piacerebbe offrire un'analogia. Ogni anno, le automobili sono responsabili di migliaia di morti, ma non tentiamo di vietare la guida. In effetti, una chiamata a vietare la guida sarebbe assurda perché la guida consente molte cose meravigliose. Piuttosto, la società pone restrizioni su chi può guidare (ad esempio, la necessità di essere una certa età e di aver superato determinati test) e su come possono guidare (ad esempio, sotto il limite di velocità). La società ha anche persone che hanno il compito di far rispettare queste regole (ad esempio, la polizia), e puniamo le persone che vengono scoperte a violarle. Questo stesso tipo di pensiero equilibrato che la società applica alla regolamentazione della guida può essere applicato anche alla condivisione dei dati. Cioè, piuttosto che fare argomenti assolutisti a favore o contro la condivisione dei dati, penso che faremo il massimo progresso concentrandoci su come possiamo ridurre i rischi e aumentare i benefici della condivisione dei dati.

Per concludere, il rischio informativo è aumentato drasticamente, ed è molto difficile prevederlo e quantificarlo. Pertanto, è meglio assumere che tutti i dati siano potenzialmente identificabili e potenzialmente sensibili. Per ridurre il rischio informativo durante la ricerca, i ricercatori possono creare e seguire un piano di protezione dei dati. Inoltre, il rischio informativo non impedisce ai ricercatori di condividere i dati con altri scienziati.