6.6.2 verstoen a Verwalte Informatioun Risiko

Informatiounste Risiko ass déi allgemeng Risiko an der sozialer Fuerschung; Et huet dramatesch vergréissert; an et ass deen härtste Risiko fir ze verstoen.

Déi zweet ethesch Erausfuerderung fir d'digitaler Alterskommissioun ass Informatiounsrisiko , de Potenzial fir Schued aus der Offenheet vun Informatioun (National Research Council 2014) . Informatiounschädigung aus der Verëffentlechung vun der perséinlecher Informatioun kéint ekonomesch sinn (zB Verlobung vun der Aarbecht), sozial (z. B. Verlegen), psychologesch (z. B. Depressioun), oder souguer kriminell (z. B. verhaft fir illegal Verhalen). Leider hëlleft d'Digital Age Informatiounsrisiko dramatesch - et ass just esou vill méi Informatiounen iwwer eise Verhalen. An Informatiounsrisiko huet bewisen, datt et schwéier ass ze verstoen an ze verwalten am Verglach mat Risiken déi sech an der sozialer analoger sozialer Fuerschung betrëfft, wéi zum Beispill de physikalesche Risiko.

Eng Manéier déi sozial Fuerscher Informatioun Risiko Verloscht ass "anonymization" vun Daten. "Anonymization" ass de Prozess kloer perséinlech Identifikatiounen vun Stoppen wéi den Numm, Adress, an Telefonsnummer aus der Daten. Allerdéngs ass dës Approche vill manner efficace wéi vill Leit wëssen, an et ass, an Tatsaach, déif an grondsätzlech limitéiert. Aus deem Grond, wann ech beschreiwen "anonymization," ech zréck Spuren benotzt Dir ze erënneren, dass dëse Prozess d'Opkommen vun Anonymitéit entsprécht awer net richteg Anonymitéit.

E klenge Beispill vum Ausfall vun "Anonymiséierung" vu spéide 1990er zu Massachusetts (Sweeney 2002) . De Grupp Versécherungskommissariat (GIC) war eng Regierungsbehörde fir d'Krankeversécherung fir all Staatsbeamte responsabel ze hunn. Duerch dës Aarbecht hunn de GIC detailléiert Gesondheetsrecords iwwer Tausende vu Staatsbeamten gesammelt. An engem Effort fir d'Fuerschung ze sichen, huet de GIC beschloss, dës Uweisunge fir Fuerscher ze verëffentlechen. Allerdéngs hunn se net all hir Daten deelen; éischter, se "anonymiséiert" dës Donnéeën andeems Dir Informatiounen wéi Nimm an Adressen benotzt. Si hunn awer aner Informatioune verschéckt, déi se als Fuerscher benotzt hunn, wéi demographesch Informatioune (zip code, Gebuertsdag, Ethnie a Sex) an medizinescher Informatioun (Besuch Daten, Diagnose, Prozedur) (6.4) (Ohm 2010) . Leider ass dës "Anonymiséierung" net genuch fir d'Donnéeën ze schützen.

Bild 6.4: Anonymiséierung ass de Prozess vum Offall ausdrécklech Identifikatioun. Zum Beispill, wann d'Medizin Versécherungsakteure vun de Staatsbeamten erméiglechen, huet d'Massachusetts Group Insurance Commission (GIC) Nimm an Adressen aus den Dateie geläscht. Ech benotzen d'Zitatiounskennzeichen ëm d'Wuert Anonymiséierung, well de Prozess d'Erscheinung vun der Anonymitéit ass awer net d'tatsächlech Anonymitéit.

Bild 6.4: "Anonymiséierung" ass de Prozess fir d'Offensichtlech Identifikatioun vun Informatiounen z'ernimmen. Zum Beispill, wann d'Medizin Versécherungsakteure vun de Staatsbeamten erméiglechen, huet d'Massachusetts Group Insurance Commission (GIC) Nimm an Adressen aus den Dateie geläscht. Ech benotzen d'Zitatiounskennzeichen ëm den Begrëff "Anonymiséierung", well de Prozess d'Erscheinung vun der Anonymitéit ass awer net d'tatsächlech Anonymitéit.

Fir d'Mängel vum GIC "Anonymiséierung" ze illustéiren, Latanya Sweeney-Dann ass en Diplom Student bei der MIT-bezuelten $ 20 fir d'Stëmeldëscher aus der Stad Cambridge z'ernimmen, d'Heemecht vu Massachusetts, Gouverneur William Weld. Dës Stëmmerie sinn Informatiounen wéi Numm, Adress, Zipcode, Gebuertsdatum a Geschlecht. D'Tatsaach, datt d'medizinesch Datendatei an d'Wählerfichier Felder-Postleitzuel, Gebuertsdatum a Sex hunn, bedeit datt Sweeney se kéint verlinkt hunn. Sweeney wousst datt de Gebuertsdag vum Weld de 31. Juli 1945 war, an d'Stëmmerie goufen nëmme sechs Leit an Cambridge mat deem Gebuertsdag beaflosst. Weider, vun deenen sechs Leit waren nëmmen dräi männlech. An, vun deenen dräi Männer, nëmmen e gemeinsame Weld's Zip Code. Dofir hunn d'Stëmeldaten datt jiddereen an de medizinesche Donnéeën mat Welds Gebitt vun der Gebuert, Geschlecht a Postleitzuel war William Weld. Am Westsechen hunn dës dräi Informatiounstécker e unique Fingerabdruck fir hien an den Daten. De Sweeney konnt mat Weld seng medizinesch Dateschutz fannen, an huet him d'Erënnerung vun hirem Feature informéiert a krut him eng Kopie vu senge Rekorder mailen (Ohm 2010) .

Figure 6.5: Re-idenung vun anonymiséierter Donnée. Latanya Sweeney kombinéiert d'anonymiséiert Gesondheetsrecords mat Stëmeldëscher fir d'Medikampe vu Gouverneur William Weld z'erfëllen aus Sweeney (2002), Figur 1.

Bild 6.5: Re-idenung vun "anonymiséierter" Donnéeën. Latanya Sweeney kombinéiert d'"anonymiséiert" Gesondheetsrecords mat Stëmeldeservicer fir de Gesondheetsdatum vum Gouverneur William Weld z'erfëllen aus Sweeney (2002) , Figur 1.

D'Firma Sweeney illustréiert d'Basisstruktur vun Neiwahlen - fir e Begrëff aus der Computersécherheet ze huelen. An dëser Attacke sinn zwee Datensätze, weder vu wou et selwer perséinlech sensibel Informatioun ze gesinn ass, verbonne sinn, a duerch dës Verknëppung empfänkt d'sensibel Informatioun.

Als Reaktioun op d'Aarbecht vu Sweeney an aner ähnlech Aarbechter fënnt d'Fuerscher normalerweis vill méi Informatioune - all déi sogenannte "perséinlech Identifikatioun" (PII) (Narayanan and Shmatikov 2010) - vun dem "Anonymiséierung" Prozess. Méi, vill Fuerscher Ech weess datt verschidde Daten - wéi Medizineschosser, Finanzrecords, Äntwerten zu Froen iwwer Froen iwwer illegal Verhalen - wahrscheinlech ze sensibel sinn, awer och nach "Anonymiséierung" ze liberéieren. Allerdings sinn déi Beispiller, déi ech proposéiere proposéieren datt sozial Fuerscher Äert Gedanken ze änneren. Als éischt Schrëtt ass et schlau fir ze soen datt all Daten potenziell identifizabel sinn an all Daten potentiell empfindlech sinn. An anere Wierder, anstatt datt den Informatiounsrisiko bei engem klengen Deel vun Projeten zoutrëfft, musse mir ugeholl datt et alles an all Projeten gëlt.

Béid Aspekter vun dëser Reorientéierung sinn illustréiert vum Netflix-Präis. Wéi am Kapitel 5 beschreift, huet Netflix 100 Milliounen Filmfersteller verëffentlecht, déi bal vu bal 500.000 Membere geliwwert goufen, an huet en Open Call, wou Leit aus der ganzer Welt representéiert Algorithmen, déi Netflix seng Fäegkeet verbesseren kéint fir Filmer ze recommandéieren. Virun de Release vun den Donnéeën huet Netflix eventuell offensichtlech perséinlech Identifikatioun informéiert, wéi d'Nimm. Si hunn och e extrae Schrëtt gemaach an e puer Stierfungen an e puer vun de Rekorder opgetaucht (zB Ännere vun Ratingsen vun 4 Stären op 3 Stären). Si hu séier entdeckt, datt trotz senge Bemierkungen d'Daten nach ëmmer net anonym waren.

Just zwou Wochen nodeems d'Daten publizéiert goufen, huet Arvind Narayanan a Vitaly Shmatikov (2008) gewisen, datt et méiglech ass iwwert verschidde Filmerpräferenzen vun de Leit ze léieren. Den Trick op hir Re-Identifikatioun Attack war ähnlech wéi Sweeney's: Verschiddener zwee Informatiounsquellen, eng mat potenziell sensibel Informatioun a keen offensichtlech Identifikatiounsinformatioun an ee, deen d'Identitéit vun de Leit enthält. Jiddwer dës Informatiounsquelle ginn individuell sécher, awer wann se kombinéiert sinn, kann de fusionéierte Dataset Informatiounsrisiko generéieren. Am Fall vun den Netflix Daten hei ass et da méiglech. Stellt Iech vir, datt ech meng Gedanken iwwer Aktiounen a Comedy Filmer mat mengen Mataarbechter ze teelen, awer datt ech net léiwer net meng Meenung iwwer religiéis a politesch Filmer ze partizipéieren. Meng Mataarbechter kënnen d'Informatioun benotzen, déi ech mat hinne gedeelt hunn fir meng Rekorder an den Netflix Daten ze fannen; D'Informatioun déi ech hunn kann e e unique Fingerabdruck sinn wéi d'Gebuertsdag vun William Weld, zip code an de sex. Dann, wann se meng eenzegaarteg Fangerofdréck an den Daten fonnt hunn, kënne se meng Bewäertungen iwwer all Filmer léieren, an och Filmer déi ech net wielen ze hunn. Zousätzlech zu dës Zort vun Target Attack, deen op enger eenzeger Persoun fokusséiert ass, huet Narayanan a Shmatikov och gewisen, datt et méiglech wier ass e breet Attack - eng Mataarbecht mat vill Leit - andeems d'Netflix Daten mat Personal- a Filmbezeechnend Daten zesummen hunn, déi e puer Leit gewielt hunn Post op der Internet Movie Database (IMDb). Genau einfach, all Informatioun déi e unique Fingerprint fir eng spezifesch Persoun - souguer säin Ensemble vun Filmbeamten - kann benotzt ginn fir se ze identifizéieren.

Och wann d'Netflix Daten an entweder e gezielten oder breede Attack identifizéiert ginn, kann et nach ëmmer e Risiko sinn. Nodeems d'Filmbevëlkerung net sou sensibel ass. Obwuel dat am allgemenge wier wier, fir e puer vun den 500.000 Leit am Dataset, sinn Filmbeërtunge sinn zimlech empfindlech. Tatsächlech, an der Äntwert op d'Re-Identifikatioun, ass eng Couche mat enger klenger lesbesche Fra eng Klassenaktioun am Netflix. Hei ass wéi de Problem an hirem Prozess (Singel 2009) ausgedréckt ass:

"[M] ovie an Rating Data enthält Informatioun vun engem ... héich perséinlechen a sensiblen Natur. D'Memberen vun den Memberen vun der Member hunn e perséinlechen Interessi vun de Netflix Memberen a / oder Kampf mat verschiddenen perséinlechen Themen, och Sexualitéit, mentale Krankheet, Erhuelung vum Alkoholismus, a Victimisatioun vum Inzest, de physeschen Mëssbrauch, Gewalt am Stot, Erjuelung a Vergewalttung.

D'Re-Identifikatioun vun den Netflix Prize-Daten illustréiert sou datt all Daten potenziell identifizéiert ginn an datt all Daten potenziell empfindlech sinn. Zu dësem Zäitpunkt kënnt Dir soen datt dat nëmme fir Daten gëtt, déi iwwer Leit sinn. Iwwerraschend ass et net de Fall. Als Reaktioun op enger Informatioun vum Freedom Law Informatioun huet d'New York City Regierung Reklamatioune vun all Taxi an New York 2013 erofgeluede, an och d'Pickup- a Verloschtzeechen, Locatioun an Tariffer (Réckruff aus Kapitel 2, datt Farber (2015) ähnlech Daten benotzt fir aner Theorien an der Arbechtswirtschaft ze testen). Dës Donnéeën iwwer Taxesreese schénge gutt wann se net d'Informatioun iwwer Leit leeschten, awer den Anthony Tockar realiséiere datt dësen Taxis-Dataset tatsächlech vill potenziell sensibel Informatioun iwwer Leit ass. Fir ze illustréieren, huet hien op all Reesen ugefaang mat dem Hustler Club e grousst Stripclub zu New York - tëscht Mëtternuecht an 6 Auer a giff dann hir Tropenzplaze fonnt hunn. Dës Recherche huet - am Wesens - eng Lëscht vun Adressen vun e puer Leit, déi den Hustler Club (Tockar 2014) . Et ass schwéier ze soen, datt d'Stad Regierung dës Fro an der Vergaangenheet huet, wann se d'Donnéeë verëffentlecht huet. Tatsächlech konnt dës selwecht Technik benotzt ginn fir d'Adress vun de Leit, déi all Plaz an der Stad besichen, ze fannen - eng medizinesch Klinik, e Regierungsgebitt oder eng religiéis Institutioun.

Déi zwee Fällen vum Netflix-Präis an den Taxisdaten vun der New York City weisen datt relativ kompetent Leit net falsch geschéien de Informatiounste Risiko an den Daten, déi se verëffentlecht hunn, korrekt schätzen. Et sinn nach net eenzegarteg (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Ausserdeem, an ville solch Fäll sinn d'problematësch Donnéeën nach ëmmer fräi online verfügbar, wat d'Schwieregkeete vun der Vergaangenheet vun enger Datebelei bezeechent. Zesumme mat dëse Beispiller - wéi och d'Fuerschung vun Informatik iwwer Privatsphär-zu engem wichtege Conclusioun. D'Fuerscher sollen ugeholl datt all Daten potenziell identifizéiert ginn an all Daten potentiell empfindlech sinn.

Leider gëtt et keng einfach Léisung fir d'Fakten déi all Daten potenziell identifizéiert ginn an datt all Daten potenziell empfindlech sinn. Mä eent Manéier Informatioun Risiko ze reduzéieren wann Dir mat Donnéeë schafft ass ze schafen an engem Dateschutz plangen verfollegen. Dëse Plang wäert d'Chance ginn, datt Är Donnéeen lecken an de Schued reduzéieren wann e Leck keeft. D'Spezifiken vu Dateschutzpläng, wéi z. B. Form vun der Verschlësselung ze benotzen, ännere mat der Zäit, mee d'UK Data Services organiséiert d'Elementer vun engem Datenschutzplan an fënnef Kategorien, déi si déi fënnef Safes nennen: Eng sécher Projeten, sëcher Leit , sécher Astellungen, sëcher Donnéeën a sécher Ausgänge (Tabelle 6.2) (Desai, Ritchie, and Welpton 2016) . Keen vun de fënnef Safes individuell perfekt Schutz. Mä zesummen sinn si e stabile Set vu Faktoren, déi den Informatiounsrisiko reduzéieren.

Table 6.2: D'"Fënnef Safes" sinn Prinzipien fir den Entwurf an den Auswertung vun engem Dateschutzplang (Desai, Ritchie, and Welpton 2016)
Safe Action
Safe Projeten Limitéiert Projeten mat Daten un déi déi ethesch sinn
Safe Leit Zougang ass limitéiert fir Leit déi vertraut mat Daten (zB Leit, déi ethesch Ausbildung gemaach hunn)
Safe Daten D'Daten ginn identifizéiert an aggregéiert wéi méiglech
Sécher Astellungen D'Daten ginn op Computeren mat passenden physëschen (z. B. zougespaarte Raum) a Software (zB Passwuert, verschlësselt) Schutz
Safe Output D'Fuerschungstext gëtt iwwerpréift fir onverfälschte Privatsphärverstéiss ze verhënneren

Zousätzlech fir Är Donnéeën ze schützen wann Dir se benotzt, ee Schrëtt am Fuerschungsprozess wou d'Informatioun vu Risiko ganz wichteg ass Datenaustausch mat aneren Fuerscher. D'Datenaustausch tëscht Wëssenschaftler ass e Grondwäert vun der wëssenschaftlecher Bemierkung, an et erliichtert de Fortschrëtt vum Wëssen erliichtert. Hei ass wéi d'UK House of Commons d'Wichtegkeet vun der Datenverletzung (Molloy 2011) :

"Zougank op Daten ass fundamental wann d'Fuerscher iwwerwannen, iwwerpréift a bauen op Resultater déi an der Literatur berichten. Déi Vermutung muss et sinn datt, ausser et enorm wichteg Saach ass, sollten d'Donnéeën ganz offenbart a publizéiert ginn. "

Awer, andeems Dir Är Donnéeën mat engem aneren Fuerscher benotzt, kënnt Dir Informatioun Risiko fir Är Participanten erhéijen. Dofir ass et villäicht Spannungen tëscht der Verpflichtung fir d'Daten mat anere Wëssenschaftler ze verdeelen an d'Verpflichtung fir d'Informatioun Risiko fir d'Participanten ze minimiséieren. Glécklech, dëst Dilemma ass net esou schwéier wéi et schéngt. Eischter ass et besser ze iwwer d'Datenaustausch ze drun, wéi an engem Kontinuum falen, mat all Punkt op dee Kontinuitum eng aner Mëschung vu Beneficer un d'Gesellschaft an Risiko fir d'Participanten ze kréien (6,6 Zoll).

Op enger enger extremer Säit kann Dir Är Donnéeën net matenee verbannen, wat d'Risiko fir d'Participanten reduzéiert, awer och d'Gewënn fir d'Gesellschaft miniméiert. Um aneren Extrem kënnt Dir vergiessen an ze vergiessen , wou Daten "anonymiséiert" sinn a fir jiddereen erauskomm ass. Relativ fir d'Verëffentlechung vun Donnéen, Verëffentlechung a Veräerunge bidd e bessere Virdeel fir d'Gesellschaft a méi héich Risiko fir d'Participanten. Zwëschen deenen zwee extrem Fälle sinn eng Rei vu Hybriden, och wat ech eng Mauergeriicht Appell nennen. Ënner dëser Approche ginn d'Donnéeën mat Leit zesummen geteelt, déi verschidde Kritären treffen an déi domat averstane sinn datt verschidde Regelen (z. B. Iwwerwaachung vun engem IRB a Dateschutzplang) sinn. De walled Gaart Approach bitt vill vun de Virdeeler vun der Verëffentlechung a vergiessen mat manner Risiko. Natierlech gëtt esou ee Succès vill Froen - wien hätt Zougang, ënnert wéi Bedingungen, a wéi laang, wien de Mindestloun gär hätte bezuelt a poliséiere muss - mä dat sinn net onméiglech. Tatsächlech sinn et scho scho walled Garderen an der Plaatz, wou d'Fuerscher elo direkt benotze kënnen, wéi dat Datenarchiv vum Inter-University Consortium fir Politesch a Sozialforschung an der University of Michigan.

Figure 6.6: D 'Release vu Strategien kann op e Kontinuitéit falen. Wou Dir sollt op dësem Kontinuum hänkt vun de spezifeschen Detailer vun Äre Daten hänkt, an der Iwwerpréifung vun Drëtt Parteien kann Iech hëllefen, den entspriechenden Bilanz vu Risiko an Profit am Fall ze entscheeden. Déi exakt Form vun dëser Curve hänkt vun de Besoinen vun den Donnéeën an de Fuerschungsziler (Goroff 2015).

Figure 6.6: D 'Release vu Strategien kann op e Kontinuitéit falen. Wou Dir sollt op dësem Kontinuum hänkt vun de spezifeschen Detailer vun Äre Daten hänkt, an der Iwwerpréifung vun Drëtt Parteien kann Iech hëllefen, den entspriechenden Bilanz vu Risiko an Profit am Fall ze entscheeden. Déi exakt Form vun dëser Curve hänkt vun de Besoinen vun den Donnéeën an de Fuerschungsziler (Goroff 2015) .

Also, wou sollten d'Donnéeë vun Ärer Studie op dem Kontinuum net deelhuelen, Mauergarten, a verëffentlechen a vergiessen? Dëst hänkt vun den Detailer vun Äre Daten un: D'Fuerscher musse Respect for Persons, Benefice, Justice a Respekt fir Gesetz a Public Interesse respektéieren. Aus dëser Perspektiv kuckt d'Datenaustausch net eens de etheschen Conundrum; Et ass just ee vun de villen Aspekter vun der Fuerschung, wou d'Fuerscher e passende ethesch Balance fannen.

E puer Kritiker sinn normalerweis géint d'Datebeschreiwung, well se menger Meenung no se op seng Risiken fokusséieren - déi sech zweiflech realcht sinn an hir Virdeeler ignoréieren. Also, fir de Fokus op zwou Risiken a Virdeeler ze motivéieren, wëll ech eng Analogie ubidden. All Joer si Autoen responsabel fir Dausende vu Doudesfäll, awer mir probéieren net ze förderen. Tatsächlech ass e Ruff fir de Fangeren ze banéieren, wäerte absurd sinn, well de Fuert erlaabt vill wonnerschéi Saachen. D'Gesellschaft plangt eng Restriktioun op déi sech kann drécken (z. B. d'Notwendegkeet fir e gewëssen Alter ze ginn a fir verschidde Tester ze verlaangen) a wéi se kënne féieren (zB ënnert der Geschwindigkeitsgrenze). D'Gesellschaft huet och Leit gemaach, déi dës Regele verstäerkt hunn (zB Polizei), a si bestrooft Leit, déi se verletzen hunn. Dës selwëcht Aart equilibréiert Denken datt d'Gesellschaft gëlt fir de Fuerderung ze féieren ass och fir d'Datenaustausch applizéiert. Dat heescht, anstatt absolutistesch Argumenter fir oder géint d'Datenaustausch ze maachen, denken ech, datt mir de gréissten Fortschrëtt maachen, andeems et d'Fokussioun op déi wéi mir kënnen d'Risiken reduzéieren an d'Virdeeler vun der Datenaustausch erhéijen.

Zum Schluss war Informatiounsrisiko dramatesch eropgaang an et ass schwéier ze predictéieren an quantifiéieren. Dofir ass et besser, datt all Daten potenziell identifizéieren an potenziell empfindlech sinn. Fir Informatiounsrisiko beim Ofbau ze falen, kënnen d'Fuerscher en Dateschutzplang erstellen a suivéieren. Weideren Informatiounsrisiko verhënnert keng Fuerscher aus Daten iwwert aner Wëssenschaftler ze ginn.