6.6.2 Comprendre et gérer le risque informationnel

Cette traduction a été créé par un ordinateur. ×

6.6.2 Comprendre et gérer le risque informationnel

Le risque informationnel est le risque le plus courant en recherche sociale. il a augmenté de façon spectaculaire; et c'est le plus grand risque à comprendre.

Le deuxième défi éthique pour la recherche sur l'âge numérique est le risque informationnel , le risque de préjudice découlant de la divulgation de l'information (National Research Council 2014) . Les préjudices informationnels découlant de la divulgation de renseignements personnels pourraient être économiques (p. Ex. Perdre un emploi), sociaux (p. Ex. Embarras), psychologiques (p. Ex., Dépression) ou criminels (p. Ex. Arrestation pour comportement illégal). Malheureusement, l'ère numérique augmente considérablement le risque informationnel - il y a tellement plus d'informations sur notre comportement. Et le risque informationnel s'est avéré très difficile à comprendre et à gérer par rapport aux risques qui étaient préoccupants dans la recherche sociale d'âge analogue, comme le risque physique.

Une façon que les chercheurs sociaux diminuent le risque informationnel est «anonymisation» des données. "Anonymisation" est le processus d'élimination des identificateurs personnels évidents tels que le nom, l'adresse et le numéro de téléphone à partir des données. Cependant, cette approche est beaucoup moins efficace que beaucoup de gens se rendent compte, et il est, en fait, profondément et fondamentalement limitée. Pour cette raison, chaque fois que je décris "anonymisation" Je vais utiliser des guillemets pour vous rappeler que ce processus crée l'apparence de l'anonymat, mais pas vrai anonymat.

Un exemple frappant de l'échec de «l'anonymisation» vient de la fin des années 1990 au Massachusetts (Sweeney 2002) . La Commission d'assurance collective (GIC) était un organisme gouvernemental responsable de l'achat d'assurance-maladie pour tous les employés de l'État. Grâce à ce travail, le gouverneur en conseil a recueilli des dossiers médicaux détaillés sur des milliers d'employés de l'État. Dans un effort pour stimuler la recherche, le gouverneur en conseil a décidé de diffuser ces documents aux chercheurs. Cependant, ils n'ont pas partagé toutes leurs données; ils ont plutôt "anonymisé" ces données en supprimant des informations telles que les noms et les adresses. Cependant, ils ont laissé d'autres informations qu'ils pensaient utiles pour les chercheurs telles que les informations démographiques (code postal, date de naissance, origine ethnique et sexe) et médicales (données de visite, diagnostic, procédure) (figure 6.4) (Ohm 2010) . Malheureusement, cette "anonymisation" n'était pas suffisante pour protéger les données.

Figure 6.4: L'anonymisation est le processus de suppression des informations d'identification évidente. Par exemple, lors de la publication des dossiers d'assurance médicale des employés de l'État, la Commission d'assurance collective du Massachusetts (GIC) a supprimé les noms et adresses des fichiers. J'utilise les guillemets autour du mot anonymisation parce que le processus donne l'apparence de l'anonymat mais pas de l'anonymat réel.

Figure 6.4: «Anonymisation» est le processus consistant à supprimer des informations d'identification évidente. Par exemple, lors de la publication des dossiers d'assurance médicale des employés de l'État, la Commission d'assurance collective du Massachusetts (GIC) a supprimé les noms et adresses des fichiers. J'utilise les guillemets autour du mot "anonymisation" parce que le processus donne l'apparence de l'anonymat mais pas de l'anonymat réel.

Pour illustrer les lacunes de l'anonymisation du GIC, Latanya Sweeney, alors étudiante diplômée du MIT, a payé 20 dollars pour acquérir les bulletins de vote de la ville de Cambridge, la ville natale du gouverneur du Massachusetts, William Weld. Ces registres de vote comprenaient des informations telles que le nom, l'adresse, le code postal, la date de naissance et le sexe. Le fait que le fichier de données médicales et le fichier des électeurs partageaient des champs - code postal, date de naissance et sexe - signifiait que Sweeney pouvait les relier. Sweeney savait que l'anniversaire de Weld était le 31 juillet 1945, et les dossiers de vote comprenaient seulement six personnes à Cambridge avec cet anniversaire. De plus, sur ces six personnes, seulement trois étaient des hommes. Et, parmi ces trois hommes, un seul partageait le code postal de Weld. Ainsi, les données de vote ont montré que n'importe qui dans les données médicales avec la combinaison de Weld de la date de naissance, le sexe, et le code postal était William Weld. En substance, ces trois éléments d'information lui ont fourni une empreinte unique dans les données. En utilisant ce fait, Sweeney a pu localiser les dossiers médicaux de Weld, et, pour l'informer de son exploit, elle lui a envoyé une copie de ses dossiers (Ohm 2010) .

Figure 6.5: Ré-identification des données "anonymisées". Latanya Sweeney a combiné les dossiers de santé «anonymisés» avec les dossiers de vote afin de trouver les dossiers médicaux du gouverneur William Weld Adapté de Sweeney (2002) , figure 1.

Le travail de Sweeney illustre la structure de base des attaques de ré-identification - pour adopter un terme de la communauté de sécurité informatique. Dans ces attaques, deux ensembles de données, dont aucun ne révèle à lui seul des informations sensibles, sont liés et, grâce à ce lien, des informations sensibles sont exposées.

En réponse au travail de Sweeney, et à d'autres travaux connexes, les chercheurs retirent généralement beaucoup plus d'informations - toutes les soi-disant «informations d'identification personnelle» (Narayanan and Shmatikov 2010) pendant le processus d '«anonymisation». On se rend compte maintenant que certaines données - dossiers médicaux, dossiers financiers, réponses aux questions d'enquête sur les comportements illégaux - sont probablement trop sensibles pour être publiées même après «anonymisation». Cependant, les exemples que je vais donner suggèrent que les chercheurs en sciences sociales ont besoin changer leur façon de penser. Dans un premier temps, il est sage de supposer que toutes les données sont potentiellement identifiables et que toutes les données sont potentiellement sensibles. En d'autres termes, plutôt que de penser que le risque informationnel s'applique à un petit sous-ensemble de projets, nous devrions supposer qu'il s'applique - dans une certaine mesure - à tous les projets.

Les deux aspects de cette réorientation sont illustrés par le prix Netflix. Comme décrit dans le chapitre 5, Netflix a publié 100 millions de classements de films fournis par près de 500 000 membres et a lancé un appel ouvert où des personnes du monde entier soumettaient des algorithmes susceptibles d'améliorer la capacité de Netflix à recommander des films. Avant de publier les données, Netflix a supprimé toute information d'identification personnelle évidente, telle que les noms. Ils ont également fait un pas de plus et introduit de légères perturbations dans certains enregistrements (par exemple, en changeant certaines notes de 4 étoiles à 3 étoiles). Ils ont cependant rapidement découvert que, malgré leurs efforts, les données n'étaient toujours pas anonymes.

Deux semaines seulement après la publication des données, Arvind Narayanan et Vitaly Shmatikov (2008) ont montré qu'il était possible de connaître les préférences cinématographiques de certaines personnes. L'astuce de leur attaque de ré-identification était similaire à celle de Sweeney: fusionner deux sources d'informations, une avec des informations potentiellement sensibles et aucune information d'identification évidente, et une qui contient les identités des personnes. Chacune de ces sources de données peut être individuellement sûre, mais lorsqu'elles sont combinées, l'ensemble de données fusionné peut créer un risque informationnel. Dans le cas des données Netflix, voici comment cela pourrait se produire. Imaginez que je choisis de partager mes réflexions sur les films d'action et de comédie avec mes collègues, mais que je préfère ne pas partager mon opinion sur les films religieux et politiques. Mes collègues pourraient utiliser les informations que j'ai partagées avec eux pour trouver mes enregistrements dans les données Netflix; l'information que je partage pourrait être une empreinte digitale unique, tout comme la date de naissance, le code postal et le sexe de William Weld. Ensuite, s'ils ont trouvé mon empreinte digitale unique dans les données, ils pourraient apprendre mes notes sur tous les films, y compris les films que j'ai choisi de ne pas partager. En plus de ce type d' attaque ciblée sur une seule personne, Narayanan et Shmatikov ont également montré qu'il était possible de faire une attaque large - impliquant beaucoup de gens - en fusionnant les données de Netflix avec des données personnelles et de films que certaines personnes ont choisies publier sur Internet Movie Database (IMDb). Tout simplement, toute information qui est une empreinte digitale unique à une personne spécifique - même l'ensemble des évaluations de films - peut être utilisée pour les identifier.

Même si les données Netflix peuvent être réidentifiées dans le cadre d'une attaque ciblée ou d'une attaque générale, elles peuvent néanmoins sembler présenter un faible risque. Après tout, les évaluations de films ne semblent pas très sensibles. Bien que cela puisse être vrai en général, pour certaines des 500 000 personnes de l'ensemble de données, les évaluations de films peuvent être assez sensibles. En fait, en réponse à la ré-identification, une femme lesbienne enfermée a rejoint une action en recours collectif contre Netflix. Voici comment le problème a été exprimé dans leur procès (Singel 2009) :

"[M] ovie et les données de notation contiennent des informations de nature ... hautement personnelle et sensible. Les données cinématographiques du membre exposent l'intérêt personnel d'un membre Netflix et / ou luttent contre divers problèmes hautement personnels, y compris la sexualité, la maladie mentale, le rétablissement de l'alcoolisme et la victimisation par l'inceste, la violence domestique, l'adultère et le viol.

La réidentification des données du Prix Netflix illustre à la fois que toutes les données sont potentiellement identifiables et que toutes les données sont potentiellement sensibles. À ce stade, vous pourriez penser que cela s'applique uniquement aux données qui prétendent être sur les gens. Étonnamment, ce n'est pas le cas. En réponse à une demande de loi sur l'accès à l'information, le gouvernement de la ville de New York a publié des enregistrements de tous les trajets en taxi à New York en 2013, y compris les heures de ramassage, les lieux et les tarifs Farber (2015) utilisé des données similaires pour tester des théories importantes en économie du travail). Ces données sur les voyages en taxi peuvent sembler bénignes car elles ne semblent pas fournir d'informations sur les personnes, mais Anthony Tockar s'est rendu compte que ce jeu de données de taxi contenait en réalité beaucoup d'informations potentiellement sensibles sur les personnes. Pour illustrer, il a regardé tous les voyages en commençant par le Hustler Club - un grand club de strip-tease à New York - entre minuit et 6h du matin et a ensuite trouvé leurs emplacements de débarquement. Cette recherche a révélé - en substance - une liste d'adresses de certaines personnes qui fréquentaient le Hustler Club (Tockar 2014) . Il est difficile d'imaginer que le gouvernement de la ville ait eu cela à l'esprit quand il a publié les données. En fait, cette même technique pourrait être utilisée pour trouver les adresses des personnes qui visitent n'importe quel endroit de la ville - une clinique médicale, un bâtiment gouvernemental ou une institution religieuse.

Ces deux cas du Netflix Prize et des données de taxi de New York montrent que des personnes relativement qualifiées peuvent ne pas estimer correctement le risque informationnel dans les données qu'elles publient - et ces cas ne sont en aucun cas uniques (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . En outre, dans de nombreux cas, les données problématiques sont toujours disponibles gratuitement en ligne, ce qui indique qu'il est difficile d'annuler une libération de données. Collectivement, ces exemples - ainsi que la recherche en informatique sur la vie privée - mènent à une conclusion importante. Les chercheurs devraient supposer que toutes les données sont potentiellement identifiables et que toutes les données sont potentiellement sensibles.

Malheureusement, il n'y a pas de solution simple aux faits que toutes les données sont potentiellement identifiables et que toutes les données sont potentiellement sensibles. Cependant, une façon de réduire le risque informationnel pendant que vous travaillez avec des données est de créer et de suivre un plan de protection des données . Ce plan réduira les risques de fuite de vos données et réduira les dommages si une fuite se produit d'une manière ou d'une autre. Les spécificités des plans de protection des données, telles que la forme de chiffrement à utiliser, changeront au fil du temps, mais UK Data Services organise utilement les éléments d'un plan de protection des données en cinq catégories qu'ils appellent les cinq coffres - forts : paramètres de sécurité, données sécurisées et sorties sûres (tableau 6.2) (Desai, Ritchie, and Welpton 2016) . Aucun des cinq coffres-forts n'offre individuellement une protection parfaite. Mais ensemble, ils forment un ensemble puissant de facteurs qui peuvent réduire le risque informationnel.

Tableau 6.2: Les «cinq coffres-forts» sont des principes pour la conception et l'exécution d'un plan de protection des données (Desai, Ritchie, and Welpton 2016)
Sûr	action
Projets sécurisés	Limite les projets avec des données à ceux qui sont éthiques
Des gens sûrs	L'accès est réservé aux personnes auxquelles on peut faire confiance pour les données (p. Ex., Les personnes qui ont suivi une formation éthique)
Données sécurisées	Les données sont anonymisées et agrégées dans la mesure du possible
Paramètres de sécurité	Les données sont stockées dans des ordinateurs avec une protection physique appropriée (par exemple, une salle verrouillée) et logicielle (par exemple, une protection par mot de passe, cryptée)
Sortie sécurisée	Les résultats de la recherche sont examinés pour prévenir les atteintes à la vie privée accidentelles

En plus de protéger vos données pendant que vous les utilisez, une étape du processus de recherche où le risque informationnel est particulièrement important est le partage de données avec d'autres chercheurs. Le partage de données entre scientifiques est une valeur fondamentale de l'effort scientifique, et il facilite grandement l'avancement des connaissances. Voici comment la Chambre des communes du Royaume-Uni a décrit l'importance du partage de données (Molloy 2011) :

«L'accès aux données est fondamental si les chercheurs doivent reproduire, vérifier et s'appuyer sur les résultats rapportés dans la littérature. La présomption doit être que, à moins d'une forte raison, les données doivent être entièrement divulguées et rendues publiques. "

Cependant, en partageant vos données avec un autre chercheur, vous risquez d'accroître le risque informationnel pour vos participants. Ainsi, il peut sembler que le partage de données crée une tension fondamentale entre l'obligation de partager des données avec d'autres scientifiques et l'obligation de minimiser le risque informationnel pour les participants. Heureusement, ce dilemme n'est pas aussi grave qu'il semble. Au contraire, il vaut mieux considérer le partage de données comme un continuum, chaque point de ce continuum offrant une combinaison différente d'avantages pour la société et de risques pour les participants (figure 6.6).

À un extrême, vous pouvez partager vos données avec personne, ce qui minimise les risques pour les participants, mais minimise également les gains pour la société. À l'autre extrême, vous pouvez libérer et oublier , où les données sont «anonymisées» et affichées pour tout le monde. Relatif à ne pas divulguer des données, libérer et oublier offre des avantages plus élevés pour la société et un risque plus élevé pour les participants. Entre ces deux cas extrêmes sont une gamme d'hybrides, y compris ce que j'appellerai une approche de jardin clos . Selon cette approche, les données sont partagées avec des personnes qui répondent à certains critères et qui acceptent d'être liées par certaines règles (par exemple, la supervision d'un IRB et d'un plan de protection des données). L'approche de jardin clos offre de nombreux avantages de la libération et d'oublier avec moins de risques. Bien sûr, une telle approche soulève de nombreuses questions - qui devrait avoir accès, dans quelles conditions, et pour combien de temps, qui devrait payer pour entretenir et surveiller le jardin clos, etc. - mais ce n'est pas insurmontable. En fait, il existe déjà des jardins murés fonctionnels que les chercheurs peuvent utiliser en ce moment, comme les archives de données du Consortium interuniversitaire pour la recherche politique et sociale de l'Université du Michigan.

Figure 6.6: Les stratégies de diffusion de données peuvent suivre un continuum. L'endroit où vous devriez être sur ce continuum dépend des détails spécifiques de vos données, et l'examen par une tierce partie peut vous aider à déterminer l'équilibre approprié des risques et des avantages dans votre cas. La forme exacte de cette courbe dépend des spécificités des données et des objectifs de recherche (Goroff 2015) .

Alors, où les données de votre étude devraient-elles être sur le continuum du non-partage, du jardin clos et de la libération et oublier? Cela dépend des détails de vos données: les chercheurs doivent établir un équilibre entre le respect des personnes, la bienfaisance, la justice et le respect de la loi et de l'intérêt public. Vu sous cet angle, le partage de données n'est pas une énigme éthique distinctive; ce n'est que l'un des nombreux aspects de la recherche dans lesquels les chercheurs doivent trouver un équilibre éthique approprié.

Certains critiques s'opposent généralement au partage de données car, à mon avis, ils se concentrent sur ses risques - qui sont sans aucun doute réels - et ignorent ses avantages. Donc, afin d'encourager la concentration sur les risques et les avantages, j'aimerais offrir une analogie. Chaque année, les voitures sont responsables de milliers de morts, mais nous n'essayons pas d'interdire la conduite. En fait, un appel à interdire la conduite serait absurde parce que la conduite permet de nombreuses choses merveilleuses. Au lieu de cela, la société impose des restrictions sur qui peut conduire (par exemple, le besoin d'avoir un certain âge et d'avoir réussi certains tests) et la façon dont ils peuvent conduire (par exemple, sous la limite de vitesse). La société a aussi des gens chargés d'appliquer ces règles (par exemple, la police), et nous punissons les personnes qui sont prises en les violant. Ce même genre de pensée équilibrée que la société applique à la régulation de la conduite peut également s'appliquer au partage de données. Autrement dit, plutôt que de faire des arguments absolutistes pour ou contre le partage de données, je pense que nous ferons le plus de progrès en nous concentrant sur la façon dont nous pouvons réduire les risques et augmenter les avantages du partage de données.

En conclusion, le risque informationnel a considérablement augmenté et il est très difficile de le prévoir et de le quantifier. Par conséquent, il est préférable de supposer que toutes les données sont potentiellement identifiables et potentiellement sensibles. Pour réduire le risque informationnel tout en faisant de la recherche, les chercheurs peuvent créer et suivre un plan de protection des données. De plus, le risque informationnel n'empêche pas les chercheurs de partager des données avec d'autres scientifiques.