6.6.2 begrijpen en beheren van informatieve risico

Informatierisico is het meest voorkomende risico in sociaal onderzoek; het is dramatisch toegenomen; en het is het moeilijkste om te begrijpen.

De tweede ethische uitdaging voor onderzoek naar digitaal ouder worden is informatierisico , het potentieel voor schade door het vrijgeven van informatie (National Research Council 2014) . Informatieve schade door de openbaarmaking van persoonlijke informatie kan een economische oorzaak zijn (bijv. Een baan verliezen), sociaal (bijvoorbeeld schaamte), psychologisch (bijv. Depressie) of zelfs crimineel zijn (bijvoorbeeld arrestatie wegens illegaal gedrag). Helaas verhoogt het digitale tijdperk het informatierisico dramatisch - er is zoveel meer informatie over ons gedrag. En informatierisico's zijn erg moeilijk te begrijpen en te beheren in vergelijking met risico's die zorgen baren bij sociaal onderzoek in analoge tijden, zoals fysiek risico.

Een manier waarop sociale onderzoekers verminderen informatieve risico is "anoniem" van de gegevens. "Anonimiseren" is het proces van het verwijderen van de hand liggende persoonlijke identificatie zoals naam, adres en telefoonnummer van de gegevens. Deze benadering is veel minder effectief dan veel mensen beseffen, en het is in feite diep en fundamenteel beperkt. Om die reden, wanneer ik beschrijf "anoniem" Ik zal aanhalingstekens gebruiken om u eraan te herinneren dat dit proces leidt tot de verschijning van anonimiteit, maar niet waar anonimiteit.

Een levendig voorbeeld van het falen van "anonimisering" komt van de late jaren 90 in Massachusetts (Sweeney 2002) . De Group Insurance Commission (GIC) was een overheidsinstantie die verantwoordelijk is voor de aanschaf van een ziektekostenverzekering voor alle staatsmedewerkers. Door dit werk verzamelde de GIC gedetailleerde gezondheidsdossiers over duizenden overheidsmedewerkers. In een poging om onderzoek te stimuleren, heeft de GIC besloten om deze gegevens vrij te geven aan onderzoekers. Ze hebben echter niet al hun gegevens gedeeld; in plaats daarvan 'anonimiseerden' ze deze gegevens door informatie zoals namen en adressen te verwijderen. Ze lieten echter andere informatie achter die volgens hen nuttig zou kunnen zijn voor onderzoekers zoals demografische informatie (postcode, geboortedatum, etniciteit en geslacht) en medische informatie (bezoekgegevens, diagnose, procedure) (figuur 6.4) (Ohm 2010) . Helaas was deze "anonimisering" niet voldoende om de gegevens te beschermen.

Afbeelding 6.4: Anonimisering is het proces waarbij duidelijk herkenbare informatie wordt verwijderd. Toen de ziekteverzekeringsverslagen van overheidsmedewerkers werden vrijgegeven, verwijderde de Massachusetts Group Insurance Commission (GIC) namen en adressen uit de bestanden. Ik gebruik de aanhalingstekens rond het woord anonimisering omdat het proces het uiterlijk van anonimiteit geeft, maar niet de feitelijke anonimiteit.

Figuur 6.4: "Anonimisering" is het proces van het verwijderen van duidelijk identificerende informatie. Toen de ziekteverzekeringsverslagen van overheidsmedewerkers werden vrijgegeven, verwijderde de Massachusetts Group Insurance Commission (GIC) namen en adressen uit de bestanden. Ik gebruik de aanhalingstekens rond het woord 'anonimisering' omdat het proces het uiterlijk van anonimiteit geeft, maar niet de daadwerkelijke anonimiteit.

Om de tekortkomingen van de GIC "anonimisering" te illustreren, betaalde Latanya Sweeney - toen een afgestudeerde student aan het MIT - $ 20 voor het verwerven van de stemregisters van de stad Cambridge, de geboorteplaats van de gouverneur van Massachusetts, William Weld. Deze stemregisters bevatten informatie zoals naam, adres, postcode, geboortedatum en geslacht. Het feit dat het medische gegevensbestand en het kiezersbestand gedeelde velden - postcode, geboortedatum en geslacht - betekende dat Sweeney ze kon koppelen. Sweeney wist dat de verjaardag van Weld 31 juli 1945 was, en de stemmingsrapporten bevatten slechts zes mensen in Cambridge met die verjaardag. Verder waren van die zes personen er slechts drie mannelijk. En van die drie mannen, slechts één gedeelde Weld's postcode. De stemgegevens toonden dus aan dat iedereen in de medische gegevens met Weld's combinatie van geboortedatum, geslacht en postcode William Weld was. In wezen leverden deze drie delen van informatie een unieke vingerafdruk op in de gegevens. Met behulp van dit feit kon Sweeney de medische dossiers van Weld lokaliseren en, om hem te informeren over haar prestatie, stuurde ze hem een ​​kopie van zijn archieven (Ohm 2010) .

Figuur 6.5: Re-idenificatie van geanonimiseerde gegevens. Latanya Sweeney combineerde de geanonimiseerde gezondheidsdossiers met stemregisters om de medische dossiers van gouverneur William Weld Adapted from Sweeney (2002), figuur 1 te vinden.

Figuur 6.5: Re-idenificatie van "geanonimiseerde" gegevens. Latanya Sweeney combineerde de "geanonimiseerde" gezondheidsdossiers met stemregisters om de medische dossiers van gouverneur William Weld Adapted from Sweeney (2002) , figuur 1 te vinden.

Sweeney's werk illustreert de basisstructuur van re-identificatieaanvallen om een ​​term uit de computerbeveiligingsgemeenschap te adopteren. Bij deze aanvallen worden twee gegevenssets, die geen van beide zelf gevoelige informatie onthullen, gekoppeld en via deze koppeling wordt gevoelige informatie zichtbaar.

Als reactie op het werk van Sweeney en ander gerelateerd werk verwijderen onderzoekers nu over het algemeen veel meer informatie - alle zogenaamde 'persoonlijk identificeerbare informatie' (PII) (Narayanan and Shmatikov 2010) tijdens het proces van 'anonimisering'. Verder hebben veel onderzoekers beseffen nu dat bepaalde gegevens, zoals medische dossiers, financiële gegevens, antwoorden op vragen over illegaal gedrag, waarschijnlijk te gevoelig zijn om te worden vrijgegeven, zelfs na 'anonimisering'. De voorbeelden die ik ga geven, suggereren echter dat sociale onderzoekers behoefte hebben aan om hun denken te veranderen. Als eerste stap is het verstandig om te veronderstellen dat alle gegevens mogelijk identificeerbaar zijn en dat alle gegevens mogelijk gevoelig zijn. Met andere woorden, in plaats van te denken dat informatierisico van toepassing is op een kleine subset van projecten, moeten we ervan uitgaan dat het tot op zekere hoogte op alle projecten van toepassing is.

Beide aspecten van deze heroriëntatie worden geïllustreerd door de Netflix-prijs. Zoals beschreven in hoofdstuk 5, heeft Netflix 100 miljoen filmbeoordelingen vrijgegeven van bijna 500.000 leden en een open oproep gehad waarbij mensen van over de hele wereld algoritmen hebben ingediend die de mogelijkheid van Netflix om films aan te bevelen kunnen verbeteren. Voordat de gegevens werden vrijgegeven, verwijderde Netflix alle voor de hand liggende persoonlijk identificeerbare informatie, zoals namen. Ze gingen ook een extra stap en introduceerden kleine verstoringen in sommige records (bijvoorbeeld het wijzigen van een aantal beoordelingen van 4 naar 3 sterren). Ze ontdekten al snel dat de gegevens ondanks hun inspanningen nog steeds geenszins anoniem waren.

Slechts twee weken nadat de gegevens waren vrijgegeven, toonden Arvind Narayanan en Vitaly Shmatikov (2008) aan dat het mogelijk was om te leren over de voorkeuren van specifieke mensen. De truc voor hun re-identificatie aanval was vergelijkbaar met die van Sweeney: twee informatiebronnen samenvoegen, een met potentieel gevoelige informatie en geen duidelijk identificeerbare informatie en een die de identiteit van mensen bevat. Elk van deze gegevensbronnen kan afzonderlijk veilig zijn, maar wanneer ze worden gecombineerd, kan de samengevoegde gegevensreeks informatierisico's opleveren. In het geval van de Netflix-gegevens, hier is hoe het zou kunnen gebeuren. Stel je voor dat ik ervoor kies om mijn gedachten over actie en komische films te delen met mijn collega's, maar dat ik mijn mening over religieuze en politieke films liever niet deel. Mijn collega's kunnen de informatie gebruiken die ik met hen heb gedeeld om mijn gegevens in de Netflix-gegevens te vinden; de informatie die ik deel kan een unieke vingerafdruk zijn, net zoals de geboortedatum, postcode en seks van William Weld. Als ze vervolgens mijn unieke vingerafdruk in de gegevens vonden, konden ze mijn beoordelingen over alle films leren, inclusief films die ik niet deel. Naast dit soort gerichte aanvallen gericht op een persoon, hebben Narayanan en Shmatikov ook laten zien dat het mogelijk was om een brede aanval uit te voeren - waarbij veel mensen betrokken waren - door de Netflix-gegevens samen te voegen met persoonlijke en filmclassificatiegegevens die sommige mensen hebben gekozen om op het internet Movie Database (IMDb) te plaatsen. Eenvoudig gezegd, alle informatie die een unieke vingerafdruk is voor een specifieke persoon, zelfs hun reeks filmbeoordelingen, kan worden gebruikt om ze te identificeren.

Hoewel de Netflix-gegevens opnieuw kunnen worden geïdentificeerd in een gerichte of brede aanval, lijkt het nog steeds een laag risico. Immers, filmbeoordelingen lijken niet erg gevoelig. Hoewel dat in het algemeen waar kan zijn, kunnen filmbeoordelingen voor sommige van de 500.000 mensen in de dataset behoorlijk gevoelig zijn. Sterker nog, in reactie op de heridentificatie sloot een vrouw met een closeted lesbie zich aan bij een class-action-suit tegen Netflix. Hier is hoe het probleem werd uitgedrukt in hun rechtszaak (Singel 2009) :

"[M] ovie- en ratinggegevens bevatten informatie van een ... zeer persoonlijk en gevoelig karakter. De filmgegevens van het lid onthullen de persoonlijke interesse van een Netflix-lid en / of worstelt met verschillende zeer persoonlijke kwesties, zoals seksualiteit, psychische aandoeningen, herstel van alcoholisme, en slachtoffering van incest, fysieke mishandeling, huiselijk geweld, overspel en verkrachting. "

De heridentificatie van de Netflix-prijsgegevens illustreert dat alle gegevens mogelijk identificeerbaar zijn en dat alle gegevens mogelijk gevoelig zijn. Op dit moment zou je kunnen denken dat dit alleen van toepassing is op gegevens die beweren over mensen te gaan. Vreemd genoeg is dat niet het geval. In reactie op een verzoek om Vrijheid van informatierecht publiceerde de regering van New York de records van elke taxirit in New York in 2013, inclusief de ophaal- en uitlevertijden, locaties en tariefbedragen (herinner u aan hoofdstuk 2 dat Farber (2015) gebruikte vergelijkbare gegevens om belangrijke theorieën in arbeidseconomie te testen). Deze gegevens over taxiritten lijken misschien welwillend, omdat ze geen informatie lijken te geven over mensen, maar Anthony Tockar besefte dat deze taxataverzameling eigenlijk veel potentieel gevoelige informatie over mensen bevatte. Ter illustratie, hij bekeek alle tochten vanaf de Hustler Club - een grote stripclub in New York - tussen middernacht en 6 uur 's ochtends en vond vervolgens hun drop-off locaties. Deze zoekopdracht onthulde (Tockar 2014) essentie- een lijst met adressen van sommige mensen die de Hustler Club (Tockar 2014) . Het is moeilijk voor te stellen dat het stadsbestuur hier rekening mee had gehouden toen het de gegevens vrijgaf. In feite kan dezelfde techniek worden gebruikt om de woonadressen te vinden van mensen die een plaats in de stad bezoeken: een medische kliniek, een overheidsgebouw of een religieuze instelling.

Deze twee gevallen van de Netflix-prijs en de taxidata uit New York City tonen aan dat relatief bekwame mensen het informatierisico in de gegevens die ze vrijgeven niet correct kunnen schatten - en deze gevallen zijn zeker niet uniek (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Verder zijn in veel van dergelijke gevallen de problematische gegevens nog steeds vrij online beschikbaar, wat aangeeft hoe moeilijk het is om ooit een datapublicatie ongedaan te maken. Gezamenlijk leiden deze voorbeelden - evenals onderzoek in de informatica over privacy - tot een belangrijke conclusie. Onderzoekers moeten ervan uitgaan dat alle gegevens mogelijk identificeerbaar zijn en dat alle gegevens potentieel gevoelig zijn.

Helaas is er geen eenvoudige oplossing voor de feiten dat alle gegevens mogelijk identificeerbaar zijn en dat alle gegevens potentieel gevoelig zijn. Een manier om informatierisico's te verminderen terwijl u met gegevens werkt, is het maken en volgen van een gegevensbeschermingsplan . Dit plan zal de kans verkleinen dat uw gegevens zullen lekken en de schade verminderen als een lek op de een of andere manier optreedt. De bijzonderheden van gegevensbeschermingsplannen, zoals welke vorm van codering te gebruiken, zullen in de loop van de tijd veranderen, maar de Britse datadiensten organiseren de elementen van een gegevensbeschermingsplan nuttig in vijf categorieën die zij de vijf brandkasten noemen: veilige projecten, veilige mensen , veilige instellingen, veilige gegevens en veilige uitgangen (tabel 6.2) (Desai, Ritchie, and Welpton 2016) . Geen van de vijf kluizen biedt individueel een perfecte bescherming. Maar samen vormen ze een krachtige reeks factoren die het informatierisico kunnen verminderen.

Tabel 6.2: "Five Safes" zijn beginselen voor het ontwerpen en uitvoeren van een gegevensbeschermingsplan (Desai, Ritchie, and Welpton 2016)
Veilig Actie
Veilige projecten Beperkt projecten met gegevens tot gegevens die ethisch zijn
Veilige mensen Toegang is beperkt tot mensen die kunnen worden vertrouwd met gegevens (bijvoorbeeld mensen die een ethische training hebben gevolgd)
Veilige gegevens Gegevens worden zoveel mogelijk geanonimiseerd en geaggregeerd
Veilige instellingen Gegevens worden opgeslagen op computers met de juiste fysieke (bijv. Vergrendelde ruimte) en software (bijv. Wachtwoordbeveiliging, gecodeerde) bescherming
Veilige uitvoer Onderzoeksoutput wordt beoordeeld om onbedoelde inbreuken op de privacy te voorkomen

Naast het beschermen van uw gegevens terwijl u ze gebruikt, is een stap in het onderzoeksproces waarbij informatierisico's in het bijzonder opvallen, het delen van gegevens met andere onderzoekers. Het delen van gegevens tussen wetenschappers is een kernwaarde van het wetenschappelijke streven en het vergemakkelijkt de vooruitgang van kennis enorm. Hier is hoe het UK House of Commons het belang van het delen van gegevens beschreef (Molloy 2011) :

"Toegang tot gegevens is van fundamenteel belang voor het reproduceren, verifiëren en voortbouwen van resultaten die in de literatuur worden vermeld. Het vermoeden moet zijn dat, tenzij er een sterke reden anders is, de gegevens volledig openbaar moeten worden gemaakt en openbaar moeten worden gemaakt. "

Maar door uw gegevens met een andere onderzoeker te delen, verhoogt u mogelijk het informatierisico voor uw deelnemers. Het lijkt er dus op dat gegevensuitwisseling een fundamentele spanning creëert tussen de verplichting om gegevens te delen met andere wetenschappers en de verplichting om informatierisico's voor deelnemers te minimaliseren. Gelukkig is dit dilemma niet zo ernstig als het lijkt. Het is beter om na te denken over het delen van gegevens als langs een continuüm te vallen, waarbij elk punt op dat continuüm een ​​andere mix van voordelen voor de maatschappij en risico voor deelnemers oplevert (figuur 6.6).

Aan de ene kant kunt u uw gegevens met niemand delen, waardoor de risico's voor de deelnemers tot een minimum worden beperkt, maar ook de winst voor de samenleving tot een minimum wordt beperkt. Aan de andere kant kun je vrijgeven en vergeten , waar gegevens "geanonimiseerd" zijn en voor iedereen worden gepost. Ten opzichte van het niet vrijgeven van gegevens, vrijgeven en vergeten biedt zowel hogere maatschappelijke voordelen als een hoger risico voor deelnemers. Tussen deze twee extreme gevallen bevinden zich een reeks hybriden, waaronder wat ik een ommuurde tuinbenadering zal noemen. In deze benadering worden gegevens gedeeld met mensen die aan bepaalde criteria voldoen en die ermee instemmen gebonden te zijn aan bepaalde regels (bijvoorbeeld toezicht door een IRB en een gegevensbeschermingsplan). De ommuurde tuinbenadering biedt veel van de voordelen van vrijgave en vergeet met minder risico. Natuurlijk roept een dergelijke benadering veel vragen op - wie moet toegang hebben, onder welke voorwaarden, en voor hoelang, wie moet betalen om de ommuurde tuin te onderhouden en te controleren, enz. - maar deze zijn niet onoverkomelijk. In feite zijn er al werkende ommuurde tuinen die onderzoekers nu kunnen gebruiken, zoals het gegevensarchief van het Interuniversitaire Consortium voor Politiek en Sociaal Onderzoek aan de Universiteit van Michigan.

Figuur 6.6: Strategieën voor het vrijgeven van gegevens kunnen langs een continuüm vallen. Waar u zich in dit continuüm zou moeten bevinden, is afhankelijk van de specifieke details van uw gegevens en de beoordeling door derden kan u helpen bij het bepalen van de juiste balans tussen risico en voordeel in uw geval. De exacte vorm van deze curve hangt af van de details van de data en onderzoeksdoelen (Goroff 2015).

Figuur 6.6: Strategieën voor het vrijgeven van gegevens kunnen langs een continuüm vallen. Waar u zich in dit continuüm zou moeten bevinden, is afhankelijk van de specifieke details van uw gegevens en de beoordeling door derden kan u helpen bij het bepalen van de juiste balans tussen risico en voordeel in uw geval. De exacte vorm van deze curve hangt af van de details van de data en onderzoeksdoelen (Goroff 2015) .

Waar zouden de gegevens uit je studie dus moeten zijn over het continuüm van niet delen, ommuurde tuin en vrijgeven en vergeten? Dit is afhankelijk van de details van uw gegevens: onderzoekers moeten het respect voor de persoon, de welwillendheid, de rechtvaardigheid en het respect voor de wet en het algemeen belang met elkaar in evenwicht brengen. Vanuit dit perspectief gezien, is het delen van gegevens geen onderscheidend ethisch raadsel; het is slechts een van de vele aspecten van onderzoek waarin onderzoekers een passend ethisch evenwicht moeten vinden.

Sommige critici zijn over het algemeen gekant tegen het delen van gegevens, omdat ze naar mijn mening zijn gefocust op de risico's - die ongetwijfeld reëel zijn - en de voordelen ervan negeren. Dus, om de aandacht op zowel risico's als voordelen aan te moedigen, wil ik een analogie aanbieden. Elk jaar zijn auto's verantwoordelijk voor duizenden doden, maar we proberen het autorijden niet te verbieden. In feite zou een oproep om het rijden te verbieden absurd zijn omdat rijden veel prachtige dingen mogelijk maakt. In plaats daarvan legt de maatschappij beperkingen op aan wie kan rijden (bijvoorbeeld de noodzaak om een ​​bepaalde leeftijd te hebben en bepaalde tests te hebben doorstaan) en hoe ze kunnen rijden (bijvoorbeeld onder de snelheidslimiet). De maatschappij heeft ook mensen die belast zijn met het afdwingen van deze regels (bijvoorbeeld politie) en we straffen mensen die betrapt worden op het overtreden van deze regels. Ditzelfde soort van evenwichtig denken dat de maatschappij toepast op het reguleren van autorijden, kan ook worden toegepast op het delen van gegevens. Dat wil zeggen, in plaats van het maken van absolutistische argumenten voor of tegen het delen van gegevens, ik denk dat we de meeste vooruitgang zullen boeken door ons te concentreren op hoe we de risico's kunnen verminderen en de voordelen van gegevensuitwisseling kunnen vergroten.

Tot slot is het informatierisico dramatisch toegenomen en is het erg moeilijk te voorspellen en te kwantificeren. Daarom is het het beste om te veronderstellen dat alle gegevens potentieel identificeerbaar en mogelijk gevoelig zijn. Om informatierisico's te verminderen tijdens het doen van onderzoek, kunnen onderzoekers een gegevensbeschermingsplan opstellen en volgen. Bovendien belet informatierisico onderzoekers niet om gegevens met andere wetenschappers te delen.