6.6.2 Comprendre et gérer le risque informationnel

Cette traduction a été créé par un ordinateur. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

6.6.2 Comprendre et gérer le risque informationnel

Le risque de l' information est le risque le plus commun dans la recherche sociale; il a augmenté de façon spectaculaire; et il est le risque le plus difficile à comprendre.

Le deuxième défi éthique pour la recherche numérique d'âge sociale risque informationnel, le potentiel de nuisance de la divulgation de l' information (Council 2014) . méfaits informationnels de la divulgation de renseignements personnels pourraient être économique (par exemple, perte d'un emploi), (par exemple, l'embarras) social, psychologique (par exemple, la dépression), ou même criminelle (par exemple, l'arrestation d'un comportement illégal). Malheureusement, l'ère numérique augmente le risque de l'information de façon spectaculaire, il y a tellement plus d'informations sur notre comportement. Et, risque informationnel est avéré très difficile à comprendre et à gérer par rapport aux risques qui étaient les préoccupations en matière de recherche sociale de l'âge analogique, tels que le risque physique. Pour voir comment l'ère numérique augmente le risque informationnel, considérer le passage du papier à des dossiers médicaux électroniques. Les deux types de dossiers créent un risque, mais les dossiers électroniques créent beaucoup plus de risques parce que, à une échelle massive, ils peuvent être transmis à un tiers non autorisé ou fusionnés avec d'autres dossiers. chercheurs sociaux à l'ère numérique ont déjà des ennuis avec le risque informationnel, en partie parce qu'ils ne comprenaient pas pleinement la façon de quantifier et de le gérer. Donc, je vais offrir un moyen utile de penser à risque informationnel, et puis je vais vous donner quelques conseils sur la façon de gérer le risque informationnel dans votre recherche et dans la diffusion des données à d'autres chercheurs.

Une façon que les chercheurs sociaux diminuent le risque informationnel est «anonymisation» des données. "Anonymisation" est le processus d'élimination des identificateurs personnels évidents tels que le nom, l'adresse et le numéro de téléphone à partir des données. Cependant, cette approche est beaucoup moins efficace que beaucoup de gens se rendent compte, et il est, en fait, profondément et fondamentalement limitée. Pour cette raison, chaque fois que je décris "anonymisation" Je vais utiliser des guillemets pour vous rappeler que ce processus crée l'apparence de l'anonymat, mais pas vrai anonymat.

Un exemple frappant de l'échec de «anonymisation» vient de la fin des années 1990 dans le Massachusetts (Sweeney 2002) . La Commission des assurances de groupe (GIC) est un organisme chargé de l'achat d'assurance santé pour tous les employés de l'État du gouvernement. Grâce à ce travail, le CPG a recueilli des registres détaillés de la santé sur des milliers d'employés de l'État. Dans un effort pour stimuler la recherche sur les moyens d'améliorer la santé, GIC a décidé de libérer ces documents aux chercheurs. Cependant, ils ne partagent pas toutes leurs données; plutôt, ils «anonymisées» en supprimant des informations telles que le nom et l'adresse. Cependant, ils ont laissé d' autres informations qu'ils pensaient pourrait être utile pour les chercheurs tels que des informations démographiques (code postal, date de naissance, l' origine ethnique et le sexe) et de l' information médicale (données de visite, le diagnostic, la procédure) (Figure 6.4) (Ohm 2010) . Malheureusement, cette "anonymisation" n'a pas été suffisante pour protéger les données.

Figure 6.4: "anonymisation" est le processus d'élimination de toute évidence des informations d'identification. Par exemple, lors de la publication des dossiers d'assurance-maladie des employés de l'État de la Commission de l'assurance Groupe Massachusetts (GIC) retiré le nom et l'adresse des fichiers. J'utilise des guillemets autour du mot «anonymisation» parce que le processus donne l'apparence de l'anonymat, mais pas l'anonymat réelle.

Pour illustrer les lacunes du "anonymisation" CPG, Latanya Sweeney-puis un étudiant diplômé du MIT-payé 20 $ pour acquérir les dossiers de vote de la ville de Cambridge, la ville natale du gouverneur du Massachusetts William Weld. Ces documents de vote inclus des informations telles que nom, adresse, code postal, date de naissance et le sexe. Le fait que le dossier médical de données et le code des champs-zip fichier des électeurs partagé, date de naissance et le sexe signifiait que Sweeney pourrait les relier. Sweeney savait que l'anniversaire de soudure était de 31 Juillet 1945, et les dossiers de vote ne comprenait que six personnes à Cambridge avec cet anniversaire. En outre, ces six personnes, trois seulement étaient de sexe masculin. Et, de ces trois hommes, un seul a partagé le code postal de Weld. Ainsi, les données de vote ont montré que quiconque dans les données médicales avec la combinaison de soudure de la date de naissance, le sexe, et le code postal était William Weld. En substance, ces trois éléments d'information fournis une empreinte digitale unique pour lui dans les données. L' utilisation de ce fait, Sweeney a été en mesure de localiser les dossiers médicaux de soudure, et pour l'informer de son exploit, elle lui a envoyé une copie de son dossier (Ohm 2010) .

Figure 6.5: Re-idenification des données anonymisées. Latanya Sweeney a combiné les dossiers de santé anonymisées avec les dossiers de vote, afin de trouver les dossiers médicaux du gouverneur William Weld (Sweeney, 2002).

Figure 6.5: Re-idenification de données «anonymisées». Latanya Sweeney a combiné les «anonymisées» dossiers de santé avec les dossiers de vote, afin de trouver les dossiers médicaux du gouverneur William Weld (Sweeney 2002) , (Sweeney 2002) .

Le travail de Sweeney illustre la structure de base des attaques de-anonymisation -à adopter un terme de la communauté de la sécurité informatique. Dans ces attaques, deux ensembles de données, qui ne révèle par lui-même des informations sensibles, sont liés, et à travers ce lien, l'information sensible est exposée. À certains égards, ce processus est similaire à la façon dont le bicarbonate de soude et de vinaigre, deux substances qui sont par eux-mêmes en toute sécurité, peuvent être combinés pour produire un résultat méchant.

En réponse au travail de Sweeney, et d' autres travaux connexes, les chercheurs maintenant supprimer généralement beaucoup plus d' informations, tous les soi - disant "informations d' identification personnelle" (PII) (Narayanan and Shmatikov 2010) -pendant le processus de «anonymisation». En outre, de nombreux chercheurs maintenant se rendre compte que certaines données telles que les dossiers médicaux, les dossiers financiers, des réponses aux questions de l'enquête au sujet illégale comportement est probablement trop sensible pour libérer même après «anonymisation». Cependant, des exemples plus récents que je vais vous décrire ci-dessous indiquent que les chercheurs sociaux doivent changer leur façon de penser. Dans un premier temps, il est sage de supposer que toutes les données sont potentiellement identifiables et toutes les données sont potentiellement sensibles. En d'autres termes, plutôt que de penser que le risque informationnel applique à un petit sous-ensemble de projets, nous devons supposer qu'il applique à un certain degré à tous les projets.

Les deux aspects de cette réorientation sont illustrés par le Prix Netflix. Comme décrit dans le chapitre 5, Netflix libéré 100 millions de classement des films fournis par près de 500.000 membres, et a eu un appel ouvert où les gens de partout dans le monde soumis algorithmes qui pourraient améliorer la capacité de Netflix à recommander des films. Avant de libérer les données, Netflix retiré toute information d'identification personnelle de toute évidence, comme les noms. Netflix a également une étape supplémentaire et introduit de légères perturbations dans certains des documents (par exemple, l'évolution des notes à partir de 4 étoiles à 3 étoiles). Netflix bientôt découvert, cependant, que malgré leurs efforts, les données ne sont nullement anonymes.

Deux semaines seulement après les données ont été publiées Narayanan and Shmatikov (2008) ont montré qu'il était possible d' en apprendre davantage sur les préférences des films de personnes spécifiques. L'astuce pour leur attaque ré-identification était similaire à Sweeney: fusionner deux sources d'information, l'une avec des informations potentiellement sensibles et aucune information d'identification de toute évidence et qui contient l'identité des personnes. Chacune de ces sources de données peut être sûr individuellement, mais quand ils sont combinés l'ensemble de données fusionnée peut créer un risque informationnel. Dans le cas des données Netflix, voici comment cela pourrait arriver. Imaginez que je choisis de partager mes réflexions sur l'action et les films de comédie avec mes collègues, mais je préfère ne pas partager mon opinion sur les films religieux et politiques. Mes collègues pourraient utiliser les informations que j'ai partagé avec eux pour trouver mes dossiers dans les données Netflix; les informations que je partage pourrait être une empreinte digitale unique , tout comme la date de naissance, le code postal, et le sexe de William Weld. Ensuite, s'ils trouvent mon empreinte digitale unique dans les données, ils pourraient apprendre mes notes à propos de tous les films, y compris les films où je choisis de ne pas partager. En plus de ce genre d'attaque ciblée axée sur une seule personne, Narayanan and Shmatikov (2008) ont également montré qu'il était possible de faire un large -one d'attaque impliquant de nombreuses personnes-en fusionnant les données Netflix avec des données de notation personnelles et de films que certains les gens ont choisi d'afficher sur la base de données Internet Movie (IMDb). Toute information qui est empreinte unique à une personne spécifique, même de leur jeu de cinéma notes peut être utilisée pour les identifier.

Même si les données de Netflix peuvent être ré-identifiés soit dans une attaque ciblée ou large, il pourrait encore sembler faible risque. Après tout, le classement des films ne semblent pas très sensibles. Bien que cela puisse être vrai en général, pour quelques-uns des 500.000 personnes dans l'ensemble de données, la classification des films pourraient être très sensibles. En fait, en réponse à la de-anonymisation une femme lesbienne closeted rejoint un recours collectif contre Netflix. Voici comment le problème a été exprimé dans leur poursuite (Singel 2009) :

"[M] ovie et notes données contient des informations de nature plus très personnelle et sensible [sic]. Les données de film du membre expose les intérêts et / ou les luttes personnelles d'un membre Netflix avec diverses questions très personnelles, y compris la sexualité, la maladie mentale, rétablissement de l'alcoolisme et de la victimisation de l'inceste, la violence physique, la violence domestique, l'adultère et le viol ".

Le de-anonymisation des données Prix Netflix illustre à la fois que toutes les données est potentiellement identifiable et que toutes les données potentiellement sensibles. À ce stade, vous pourriez penser que cela ne concerne que les données qui prétend être des gens. Étonnamment, ce n'est pas le cas. En réponse à une liberté de droit de l' information demande, le gouvernement de la ville de New York a publié des enregistrements de chaque trajet en taxi à New York en 2013, y compris le ramassage et déposer les temps, les lieux, et les montants des tarifs (rappel du chapitre 2 que Farber (2015) utilisé ces données pour tester les théories importantes dans l'économie du travail). Bien que ces données sur les voyages de taxi peut sembler bénigne, car il ne semble pas avoir des informations sur les gens, Anthony Tockar rendu compte que ce taxi ensemble de données contenait effectivement beaucoup d'informations potentiellement sensibles sur les personnes. Pour illustrer, il a regardé tous les voyages à partir de The Hustler Club-un grand club de strip à New York entre minuit et 6 heures, puis trouvé leurs points de chute. Cette recherche a révélé en essence-une liste d'adresses de certaines personnes qui fréquentent le Club Hustler (Tockar 2014) . Il est difficile d'imaginer que le gouvernement de la ville avait cela à l'esprit quand il a publié les données. En fait, cette même technique pourrait être utilisée pour trouver les adresses personnelles des personnes qui visitent un lieu dans la ville-une clinique médicale, un bâtiment du gouvernement, ou une institution religieuse.

Ces deux cas-le Prix Netflix et le New York City Taxi données montrent que des personnes relativement qualifiés ont échoué à estimer correctement le risque informationnel dans les données qu'ils ont sorti, et ces cas sont loin d' être unique (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . En outre, dans de nombreux cas, les données problématique est toujours disponible gratuitement en ligne, ce qui indique la difficulté de jamais défaire un communiqué de données. Collectivement, ces exemples-ainsi que la recherche en informatique à propos de la vie privée-conduit à une conclusion importante. Les chercheurs devraient supposer que toutes les données sont potentiellement identifiables et toutes les données sont potentiellement sensibles.

Malheureusement, il n'y a pas de solution simple au fait que toutes les données sont potentiellement identifiables et toutes les données sont potentiellement sensibles. Cependant, une façon de réduire les risques d'information pendant que vous travaillez avec des données est de créer et de suivre un plan de protection des données. Ce plan diminue la chance que vos données seront fuir et diminueront le mal si une fuite se produit en quelque sorte. Les détails de plans de protection des données, comme celle qui forme de chiffrement à utiliser, va changer au fil du temps, mais les services de données du Royaume - Uni organise utilement les éléments d'un plan de protection des données en 5 catégories qu'ils appellent les 5 coffres - forts: les projets de sécurité, les personnes sûres , les paramètres de sécurité, les données de sécurité et sorties de sécurité (tableau 6.2) (Desai, Ritchie, and Welpton 2016) . Aucun des cinq coffres-forts fournir individuellement une protection parfaite. Mais, ensemble, ils forment un ensemble puissant de facteurs qui peuvent diminuer le risque informationnel.

Tableau 6.2: Les 5 coffres - forts sont des principes pour la conception et l' exécution d' un plan de protection des données (Desai, Ritchie, and Welpton 2016) .
Sûr	action
projets sécuritaires	limite des projets avec des données à ceux qui sont éthiques
personnes sûres	l'accès est limité aux personnes qui peuvent faire confiance à des données (par exemple, la formation éthique, les gens ont subi)
Data Safe	les données sont anonymisées et agrégées dans la mesure du possible
paramètres sécuritaires	les données sont stockées dans les ordinateurs avec physique approprié (par exemple, pièce fermée à clé) et des logiciels (par exemple, la protection par mot de passe, crypté) protections
sortie de sécurité	résultats de la recherche est examinée pour éviter accidentellement des violations de la vie privée

En plus de protéger vos données pendant que vous utilisez, une étape dans le processus de recherche où le risque informationnel est particulièrement saillant est le partage des données avec d'autres chercheurs. Le partage des données entre les scientifiques est une valeur fondamentale de l'effort scientifique, et il grandement facilités l'avancement des connaissances. Voici comment la Chambre des communes britannique a décrit l'importance du partage des données:

"L'accès aux données est fondamentale si les chercheurs sont à reproduire, de vérifier et de construire sur les résultats qui sont rapportés dans la littérature. La présomption doit être que, à moins qu'il existe une bonne raison contraire, les données doivent être entièrement divulgués et mis à la disposition du public. Conformément à ce principe, si possible, les données associées à toutes les recherches financées publiquement devraient être largement et librement disponibles. " (Molloy 2011)

Pourtant, en partageant vos données avec un autre chercheur, vous pouvez être l'augmentation du risque d'information à vos participants. Ainsi, il peut sembler que les chercheurs qui souhaitent partager leurs données ou sont tenus de partager leurs données sont confrontées à une tension fondamentale. D'une part, ils ont une obligation morale de partager leurs données avec d'autres scientifiques, surtout si la recherche initiale est financée par l'État. Pourtant, dans le même temps, les chercheurs ont une obligation éthique pour minimiser, autant que possible, le risque de l'information à leurs participants.

Heureusement, ce dilemme est pas aussi grave qu'il n'y paraît. Il est important de penser à l' échange de données sur un continuum allant pas de partage de données pour libérer et oublier, où les données sont «anonymisées» et affiché pour quiconque d'accéder (Figure 6.6). Ces deux positions extrêmes présentent des risques et des avantages. Autrement dit, il est pas automatiquement la chose la plus éthique de ne pas partager vos données; une telle approche élimine de nombreux avantages potentiels pour la société. De retour au goût, cravates, et le temps, un exemple discuté plus tôt dans le chapitre, les arguments contre la diffusion des données qui se concentrent uniquement sur les préjudices possibles et qui ignorent les avantages possibles sont trop unilatérale; Je vais vous décrire les problèmes avec cette approche unilatérale, trop protecteur plus en détail dans ci-dessous lorsque je vous offre des conseils sur la prise de décisions face à l'incertitude (section 6.6.4).

Figure 6.6: Données stratégies de sortie peuvent tomber le long d'un continuum. Où vous devriez être le long de ce continuum dépend des détails spécifiques de vos données. Dans ce cas, l'examen d'un tiers peut vous aider à décider l'équilibre approprié des risques et des avantages dans votre cas.

En outre, dans ces deux cas extrêmes , est ce que je vais appeler une approche de jardin clos où les données sont partagées avec des personnes qui répondent à certains critères et qui acceptent d'être liés par certaines règles (par exemple, la surveillance d'une CISR et un plan de protection des données) . Cette approche de jardin clos offre de nombreux avantages de la libération et oublier avec moins de risques. Bien sûr, une approche de jardin clos crée de nombreuses questions-qui devraient avoir accès, dans quelles conditions, pour combien de temps, qui doit payer pour maintenir et surveiller le jardin clos etc., mais ceux-ci ne sont pas insurmontables. En fait, il y travaillent déjà des jardins clos en place que les chercheurs peuvent utiliser dès maintenant, comme les archives de données du Consortium interuniversitaire pour la recherche politique et sociale à l'Université du Michigan.

Alors, où devraient les données de votre étude est sur le continuum sans partage, jardin clos, et de libérer et d'oublier? Il dépend des détails de vos données; les chercheurs doivent concilier le respect des personnes, Bienfaisance, Justice, et le respect du droit et de l'intérêt public. Lors de l'évaluation équilibre approprié pour d'autres décisions chercheurs demander l'avis et l'approbation des RIR, et la libération de données peuvent être juste une autre partie de ce processus. En d'autres termes, bien que certaines personnes pensent que la libération de données comme un bourbier éthique sans espoir, nous avons déjà des systèmes en place pour aider les chercheurs à équilibrer ce genre de dilemmes éthiques.

Une dernière façon de penser le partage des données est par analogie. Toutes les voitures de l'année sont responsables de milliers de morts, mais nous ne tentent pas d'interdire la conduite. En fait, un tel appel à l'interdiction de conduite serait absurde, car la conduite permet beaucoup de choses merveilleuses. Au contraire, la société impose des restrictions sur qui peut conduire (par exemple, besoin d'être un certain âge, ont besoin d'avoir passé certains tests) et comment ils peuvent conduire (par exemple, sous la limite de vitesse). La société a également des personnes chargées de faire respecter ces règles (par exemple, la police), et nous punir les gens qui sont pris les violer. Ce même type de réflexion équilibrée que la société applique à la régulation de la conduite peut également être appliquée au partage de données. Autrement dit, plutôt que de faire des arguments absolutistes pour ou contre le partage de données, je pense que les plus grands avantages viendront de déterminer comment nous pouvons partager plus de données en toute sécurité.

Pour conclure, le risque informationnel a augmenté de façon spectaculaire, et il est très difficile à prévoir et à quantifier. Par conséquent, il est préférable de supposer que toutes les données sont potentiellement identifiables et potentiellement sensibles. Pour diminuer le risque d'information en faisant des recherches, les chercheurs peuvent créer et suivre un plan de protection des données. En outre, le risque d'information ne fait pas obstacle aux chercheurs de partager des données avec d'autres scientifiques.