6.6.2 förstå och hantera informationsrisken

Denna översättning skapades av en dator. ×

6.6.2 förstå och hantera informationsrisken

Informationsrisk är den vanligaste risken i social forskning; den har ökat dramatiskt och det är den svåraste risken att förstå.

Den andra etiska utmaningen för digital-åldersforskning är informationsrisk , potentialen för skada vid informationsutbyte (National Research Council 2014) . Informationsskador vid offentliggörandet av personuppgifter kan vara ekonomiska (t.ex. förlora jobb), socialt (t.ex. förlägenhet), psykologisk (t.ex. depression) eller till och med brottslig (t.ex. gripande för olagligt beteende). Tyvärr ökar den digitala åldern informativt risk dramatiskt - det finns bara så mycket mer information om vårt beteende. Informationsrisk har visat sig vara mycket svår att förstå och hantera jämfört med risker som var oroliga för social forskning i analogt ålder, till exempel fysisk risk.

Ett sätt att sociala forskare minskar informations risk är "anonymisering" av data. "Anonymisering" är processen att avlägsna uppenbara personliga identifierare såsom namn, adress och telefonnummer från data. Emellertid är detta tillvägagångssätt mycket mindre effektiv än många tror, och det är i själva verket, djupt och fundamentalt begränsad. Av den anledningen, när jag beskriva "anonymisering" Jag ska använda citattecken för att påminna er om att den här processen skapar intryck av anonymitet men inte sant anonymitet.

Ett levande exempel på misslyckandet med "anonymisering" kommer från slutet av 1990-talet i Massachusetts (Sweeney 2002) . Gruppförsäkringskommissionen (GIC) var en statlig myndighet med ansvar för att köpa sjukförsäkring för alla statliga anställda. Genom detta arbete samlade GIC detaljerade journaler om tusentals statliga anställda. I ett försök att stimulera forskning beslutade GIC att släppa dessa poster till forskare. De delade emellertid inte alla sina uppgifter. snarare "anonymiserade" dessa data genom att ta bort information som namn och adresser. De lämnade emellertid andra uppgifter som de tyckte kunde vara användbara för forskare som demografisk information (postnummer, födelsedatum, etnicitet och kön) och medicinsk information (besökdata, diagnos, procedur) (figur 6.4) (Ohm 2010) . Tyvärr var denna "anonymisering" inte tillräcklig för att skydda data.

Figur 6.4: "Anonymisering" är processen att ta bort tydligt identifierande information. Till exempel, när man släppte sjukförsäkringsskivorna för statliga anställda, tog Massachusetts Group Insurance Commission (GIC) bort namn och adresser från filerna. Jag använder citattecken runt ordet "anonymisering" eftersom processen ger utseende anonymitet men inte faktisk anonymitet.

För att illustrera bristerna i GIC "anonymization", Latanya Sweeney-då en doktorand vid MIT-betalda $ 20 för att förvärva rösträtten från staden Cambridge, hemstaden Massachusetts guvernör William Weld. Dessa röstningsuppgifter innehöll information som namn, adress, postnummer, födelsedatum och kön. Det faktum att den medicinska datafilen och väljarefilen delade fält-postnummer, födelsedatum och kön-innebar att Sweeney kunde länka dem. Sweeney visste att Welds födelsedag var 31 juli 1945, och rösträtten inkluderade endast sex personer i Cambridge med den födelsedagen. Vidare av de sex personerna var endast tre män. Och av de tre männen delade bara en Welds postnummer. Således visade röstningsuppgifterna att alla i medicinsk data med Welds kombination av födelsedatum, kön och postnummer var William Weld. I huvudsak gav dessa tre bitar information ett unikt fingeravtryck till honom i data. Med detta faktum kunde Sweeney hitta Welds journaler, och för att informera honom om sin prestation, skickade hon honom en kopia av sina poster (Ohm 2010) .

Figur 6.5: Återidentifiering av anonymiserade data. Latanya Sweeney kombinerade de anonyma journalerna med röstningsrekord för att hitta medicinska journaler av guvernör William Weld Anpassad från Sweeney (2002), figur 1.

Figur 6.5: Re-identifiering av "anonymiserad" data. Latanya Sweeney kombinerade de "anonymiserade" hälsopapperna med röstningsrekord för att hitta medicinska journaler av guvernör William Weld Anpassad från Sweeney (2002) , figur 1.

Sweeneys arbete illustrerar den grundläggande strukturen för återidentifieringsattacker - för att anta en term från datasäkerhetsgemenskapen. I dessa attacker är två datasatser, som inte av sig själv avslöjar känslig information, kopplade, och genom denna koppling utsätts känslig information.

Som svar på Sweeneys arbete och andra relaterade arbeten tar forskare nu i allmänhet mycket mer information - all så kallad "personidentifierande information" (PII) (Narayanan and Shmatikov 2010) genom processen för "anonymisering". Dessutom har många forskare inser nu att vissa uppgifter, till exempel medicinska journaler, finansiella register, svar på att undersöka frågor om olagligt beteende, är förmodligen för känsliga för att släppas även efter "anonymisering". De exempel som jag håller på att ge tyder på att sociala forskare behöver att förändra sitt tänkande. Som ett första steg är det klokt att anta att all data är potentiellt identifierbara och all data är potentiellt känsliga. Med andra ord, snarare än att tänka på att informationsrisken gäller en liten delmängd av projekt, bör vi anta att det gäller, i viss utsträckning, för alla projekt.

Båda aspekterna av denna omorientering illustreras av Netflix-priset. Som beskrivits i kapitel 5 släppte Netflix 100 miljoner filmbetyg från nästan 500 000 medlemmar och hade ett öppet samtal där människor från hela världen skickade in algoritmer som skulle kunna förbättra Netflix förmåga att rekommendera filmer. Innan data släpptes tog Netflix bort någon uppenbar personidentifierande information, till exempel namn. De gick också ett extra steg och introducerade små störningar i vissa poster (till exempel ändra några betyg från 4 stjärnor till 3 stjärnor). De upptäckte dock snart att uppgifterna trots sina ansträngningar fortfarande inte var anonyma.

Bara två veckor efter det att uppgifterna släpptes visade Arvind Narayanan och Vitaly Shmatikov (2008) att det var möjligt att lära sig specifika folks filmpreferenser. Tricket till deras identifieringsattack liknade Sweeneys: sammanfoga två informationskällor, en med potentiellt känslig information och ingen självklart identifierande information och en som innehåller människors identiteter. Var och en av dessa datakällor kan vara individuellt säker, men när de kombineras kan den sammanslagna datasatsen skapa informationsrisk. När det gäller Netflix data, så här kan det hända. Tänk dig att jag väljer att dela mina tankar om action- och komedifilmer med mina medarbetare, men att jag föredrar att inte dela med mig av min åsikt om religiösa och politiska filmer. Mina medarbetare kan använda den information som jag har delat med dem för att hitta mina poster i Netflix-data. Den information som jag delar kan vara ett unikt fingeravtryck precis som William Welds födelsedatum, postnummer och kön. Om de hittade mitt unika fingeravtryck i data kunde de lära mig mina betyg om alla filmer, inklusive filmer som jag väljer att inte dela. Förutom den här typen av riktade attacker fokuserade på en enda person visade Narayanan och Shmatikov också att det var möjligt att göra en bred attack - med många människor - genom att slå samman Netflix-data med personliga och filmdata som vissa personer har valt att skicka på Internet Movie Database (IMDb). Helt enkelt kan all information som är ett unikt fingeravtryck till en viss person - även deras uppsättning filmbetyg - användas för att identifiera dem.

Även om Netflix-data kan identifieras i antingen en riktade eller bred attack, verkar det fortfarande vara låg risk. Trots allt verkar filmbetyg inte mycket känsligt. Medan det kan vara sant i allmänhet, för några av de 500 000 personerna i datasetet kan filmbetyg vara ganska känsliga. Faktum är att en closeted lesbisk kvinna till följd av omidentifikationen gick med i en klassdräkt mot Netflix. Så här har problemet uttryckts i deras rättegång (Singel 2009) :

"[M] ovie och rating data innehåller information av en ... mycket personlig och känslig natur. Medlemmens filmdata avslöjar ett Netflixmedlems personliga intresse och / eller kampar med olika mycket personliga problem, inklusive sexualitet, psykisk sjukdom, återhämtning från alkoholism och offer av incest, fysiskt missbruk, våld i hemmet, äktenskapsbrott och våldtäkt. "

Återidentifiering av Netflix-prisuppgifterna illustrerar både att alla data är potentiellt identifierbara och att alla data är potentiellt känsliga. Vid denna tidpunkt kanske du tror att detta bara gäller data som avser att handla om människor. Överraskande är det inte så. Som svar på en begäran om frihet från informationslagstiftning släppte New York City-regeringen ut register över varje taxitur i New York 2013, inklusive pickup- och avgångstider, platser och biljettpriser (återkallelse från kapitel 2 som Farber (2015) använde liknande data för att testa viktiga teorier i arbetsekonomi). Dessa uppgifter om taxiturer kan verka godaktiga eftersom de inte tycks ge information om människor, men Anthony Tockar insåg att det här taxidatasetet faktiskt innehöll mycket potentiellt känslig information om människor. För att illustrera såg han på alla resor som började på Hustler Club-en stor bandklubb i New York mellan midnatt och 6:00 och hittade sedan sina avlämningsplatser. Denna sökning avslöjade - i huvudsak - en lista över adresser till vissa personer som besökte Hustler Club (Tockar 2014) . Det är svårt att föreställa sig att stadsregeringen hade det i åtanke när det släppte uppgifterna. Faktum är att samma teknik kan användas för att hitta hemadresserna till personer som besöker någon plats i staden-en medicinsk klinik, en statsbyggnad eller en religiös institution.

Dessa två fall av Netflixpriset och taxibiliteten för New York City visar att relativt skickliga personer inte kan rätta till den informativa risken i de data som de släpper ut - och dessa fall är inte på något sätt unika (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Vidare är de problematiska uppgifterna i många sådana fall fortfarande fritt tillgängliga online, vilket indikerar svårigheten att någonsin ångra en datafrisättning. Sammanfattningsvis leder dessa exempel - såväl som forskning i datavetenskap om integritet - till en viktig slutsats. Forskare bör anta att alla data är potentiellt identifierbara och all data är potentiellt känsliga.

Tyvärr finns det ingen enkel lösning på fakta att alla data är potentiellt identifierbara och att alla data är potentiellt känsliga. Ett sätt att minska informationsrisken när du arbetar med data är dock att skapa och följa ett dataskyddsprogram . Denna plan minskar risken för att dina data kommer att läcka och kommer att minska skadan om en läcka uppstår på något sätt. Specifikationerna för dataskyddsplaner, till exempel vilken form av kryptering som ska användas, kommer att förändras över tiden, men UK Data Services organiserar organiseringselementen i en dataskyddsplan i fem kategorier som de kallar de fem kassaskåpen : säkra projekt, säkra människor , säkra inställningar, säkra data och säkra utgångar (tabell 6.2) (Desai, Ritchie, and Welpton 2016) . Ingen av de fem kassaskåpet ger ett perfekt skydd. Men tillsammans bildar de en kraftfull uppsättning faktorer som kan minska informationsrisken.

Tabell 6.2: "Fem Safes" är principer för att utforma och genomföra en dataskyddsplan (Desai, Ritchie, and Welpton 2016)
Säker	Handling
Säkra projekt	Begränser projekt med data till de som är etiska
Säkra människor	Åtkomst är begränsad till personer som kan lita på data (t.ex. personer som har genomgått etisk utbildning)
Säkra data	Data identifieras och aggregeras så långt det är möjligt
Säkra inställningar	Data lagras i datorer med lämpligt fysiskt (t.ex. låst rum) och programvara (t.ex. lösenordsskydd, krypterat) skydd
Säker utmatning	Forskningsproduktionen granskas för att förhindra oavsiktliga brott mot personuppgifter

Förutom att skydda dina data medan du använder dem är ett steg i forskningsprocessen där informationsrisker är särskilt viktiga, datadeling med andra forskare. Datadeling bland forskare är ett kärnvärde för den vetenskapliga strävan, och det underlättar i hög grad kunskapens framsteg. Så här beskrev Storbritanniens hus av betydelsen av datadeling (Molloy 2011) :

"Tillgång till data är grundläggande om forskare ska reproducera, verifiera och bygga på resultat som rapporteras i litteraturen. Förmodningen måste vara att, om inte det finns en stark orsak till något annat, bör uppgifterna offentliggöras och offentliggöras. "

Men genom att dela dina data med en annan forskare kan du öka informationsrisken för dina deltagare. Det kan således tyckas att datadeling skapar en grundläggande spänning mellan skyldigheten att dela data med andra forskare och skyldigheten att minimera informationsrisk för deltagarna. Lyckligtvis är detta dilemma inte så allvarligt som det verkar. Det är hellre bättre att tänka på datadeling som faller längs ett kontinuum, med varje punkt på det kontinuum som ger en annan blandning av samhällsfördelar och risk för deltagarna (figur 6.6).

I en extrem del kan du dela dina data med ingen, vilket minimerar risken för deltagare men minimerar också vinster till samhället. På andra sidan kan du släppa och glömma , där data är "anonymiserade" och publicerade för alla. I förhållande till att data inte släpps, släpps och glömmer erbjuds både högre fördelar för samhället och högre risk för deltagarna. Mellan dessa två extrema fall finns en rad hybrider, inklusive vad jag kallar en muromgärdad trädgårdsmetod . Enligt denna metod delas data med personer som uppfyller vissa kriterier och som accepterar att vara bundna av vissa regler (t.ex. övervakning från en IRB och en dataskyddsplan). Den murade trädgården tillvägagångssätt ger många fördelar med frisättning och glömmer med mindre risk. Naturligtvis skapar ett sådant tillvägagångssätt många frågor - vem bör ha tillgång, under vilka förutsättningar och hur länge, vem bör betala för att behålla och polisera den muromgärdade trädgården etc. - men det är inte oöverstigliga. Faktum är att det redan finns fungerande muromgärdade trädgårdar på plats som forskare kan använda just nu, såsom datarkivet för Interuniversitetskonsortiet för politisk och social forskning vid University of Michigan.

Figur 6.6: Data frisättningsstrategier kan falla längs ett kontinuum. Var du borde vara på detta kontinuum beror på de specifika detaljerna i dina data, och tredjepartsgranskning kan hjälpa dig att bestämma lämplig balans mellan risk och nytta i ditt fall. Den exakta formen av denna kurva beror på uppgifterna för (Goroff 2015) och forskningsmålen (Goroff 2015) .

Så, var borde uppgifterna från din studie vara på kontinuum av ingen delning, muromgärdad trädgård och släppa och glömma? Detta beror på detaljerna i dina uppgifter: Forskare måste balansera respekt för personer, förmån, rättvisa och respekt för lag och allmänintresse. Sett från det här perspektivet är datadeling inte ett distinkt etiskt sammandrag. Det är bara en av de många aspekterna av forskning där forskare måste hitta en lämplig etisk balans.

Vissa kritiker står i allmänhet emot datadeling, eftersom de enligt min mening är inriktade på sina risker - vilket utan tvekan är verkliga - och ignorerar dess fördelar. Så, för att uppmuntra fokus på både risker och fördelar, skulle jag vilja erbjuda en analogi. Varje år är bilar ansvariga för tusentals dödsfall, men vi försöker inte förbyta körning. Faktum är att ett samtal att förbuda körning skulle vara absurt eftersom körning möjliggör många underbara saker. Snarare ställer samhället restriktioner på vem som kan köra (t.ex. behovet av att vara viss ålder och ha passerat vissa tester) och hur de kan köra (t.ex. under fartgränsen). Samhället har också uppgift att genomdriva dessa regler (t.ex. polisen), och vi straffar människor som är fångade och brutit mot dem. Samma typ av balanserat tänkande som samhället gäller för att reglera körning kan också tillämpas på datadeling. Det är snarare än att göra absolutistiska argument för eller mot datadelning, jag tror att vi kommer att göra mest framsteg genom att fokusera på hur vi kan minska riskerna och öka fördelarna med datadelning.

Sammanfattningsvis har informationsrisken ökat dramatiskt, och det är mycket svårt att förutsäga och kvantifiera. Därför är det bäst att anta att all data är potentiellt identifierbara och potentiellt känsliga. För att minska informationsrisken vid forskning, kan forskare skapa och följa ett dataskyddsprogram. Vidare förhindrar informationsrisk inte forskare att dela data med andra forskare.