6.6.2 förstå och hantera informationsrisken

Denna översättning skapades av en dator. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

6.6.2 förstå och hantera informationsrisken

Riskinformation är den vanligaste risken i social forskning, det har ökat dramatiskt; och det är den svåraste risken att förstå.

Den andra etisk utmaning för social ålder digital forskning är informations risk, risken för skador från utlämnande av information (Council 2014) . Informations skador från utlämnande av personuppgifter kan vara ekonomiska (t.ex. förlora ett jobb), sociala (t.ex. förlägenhet), psykologiska (t.ex. depression), eller till och med brottsligt (t.ex. gripande för olagliga beteenden). Tyvärr ökar den digitala tidsåldern riskinformation dramatiskt-det är bara så mycket mer information om vårt beteende. Och har informations risk visat sig vara mycket svårt att förstå och hantera jämfört med risker som var oro i analog ålder social forskning, såsom fysisk risk. Att se hur den digitala tidsåldern ökar informations risk, anser övergången från papper till elektroniska journaler. Båda typerna av register skapar risk, men elektroniska register skapar mycket större risker på grund på en stor skala de kan överföras till en obehörig eller slås samman med andra poster. Sociala forskare i den digitala tidsåldern har redan stött på problem med informations risk, delvis eftersom de inte till fullo förstå hur man kan kvantifiera och hantera det. Så jag kommer att erbjuda ett bra sätt att tänka på informations risk, och sedan kommer jag att ge dig några råd för hur man ska hantera informations risken i din forskning och släppa data till andra forskare.

Ett sätt att sociala forskare minskar informations risk är "anonymisering" av data. "Anonymisering" är processen att avlägsna uppenbara personliga identifierare såsom namn, adress och telefonnummer från data. Emellertid är detta tillvägagångssätt mycket mindre effektiv än många tror, och det är i själva verket, djupt och fundamentalt begränsad. Av den anledningen, när jag beskriva "anonymisering" Jag ska använda citattecken för att påminna er om att den här processen skapar intryck av anonymitet men inte sant anonymitet.

Ett levande exempel på misslyckande "anonymisering" kommer från det sena 1990-talet i Massachusetts (Sweeney 2002) . Koncernen försäkringkommissionen (GIC) var en statlig myndighet med ansvar för inköp av sjukförsäkring för alla statligt anställda. Genom detta arbete, samlade GIC detaljerade patientjournaler om tusentals statligt anställda. I ett försök att sporra forskning om olika sätt att förbättra hälsan, beslutade GIC att frigöra dessa register för forskare. Men de inte delar alla sina uppgifter; snarare, de "anonyma" det genom att ta bort information såsom namn och adress. Men lämnade de övriga uppgifter som de trodde skulle kunna vara användbar för forskare såsom demografisk information (postnummer, födelsedatum, etnicitet och kön) och medicinsk information (besöksdata, diagnos, förfarande) (Figur 6.4) (Ohm 2010) . Tyvärr har detta "anonymisering" var inte tillräcklig för att skydda data.

Figur 6.4: "anonymisering" är processen att avlägsna naturligtvis identifierande information. Till exempel, när du släpper sjukförsäkring register över statligt anställda Massachusetts Group Insurance Commission (GIC) bort namn och adress från filerna. Jag använder citattecken runt ordet "anonymisering" eftersom processen ger uppkomsten av anonymitet, men inte själva anonymitet.

För att åskådliggöra bristerna i GIC "anonymisering", Latanya Sweeney-sedan en doktorand vid MIT-paid $ 20 att förvärva omröstningar från staden Cambridge, hemstad Massachusetts guvernör William Weld. Dessa röstande poster ingår information såsom namn, adress, postnummer, födelsedatum och kön. Det faktum att den medicinska datafilen och väljare fil som delas fält-postnummer, födelsedatum, och köns innebar att Sweeney kunde länka dem. Sweeney visste att Weld födelsedag var 31 juli 1945, och omröstningar ingår endast sex personer i Cambridge med det födelsedag. Vidare, av dessa sex personer, bara tre var män. Och dessa tre män, bara en delad Weld s postnummer. Således data röst visade att någon i den medicinska data med Weld kombination av födelsedatum, kön och postnummer var William Weld. I huvudsak dessa tre bitar av information som en unik fingeravtryck till honom i data. Med hjälp av detta faktum, var Sweeney kunna hitta Weld journal, och informera honom om sin bedrift, postade hon honom en kopia av hans skivor (Ohm 2010) .

Figur 6.5: Åter idenification av anonymiserade data. Latanya Sweeney kombinerat anonymiserade patientjournaler med omröstnings för att hitta de journaler från Governor William Weld (Sweeney 2002).

Figur 6.5: Åter idenification av "anonyma" data. Latanya Sweeney kombinerat "anonymiserade" patientjournaler med omröstnings för att hitta de journaler från Governor William Weld (Sweeney 2002) .

Sweeney arbete visar den grundläggande strukturen i de-anonymiseringstjänster attacker -Att anta en term från datorn säkerhetsgemenskap. I dessa attacker, två datauppsättningar, varav ingen i sig avslöjar känslig information, är kopplade, och genom denna koppling är känslig information exponeras. På sätt och vis denna process är på samma sätt som bakpulver och vinäger, två ämnen som är själva säkra, kan kombineras för att producera en otäck resultat.

Som svar på Sweeney arbete och därmed sammanhängande arbete, forskare nu allmänt bort mycket mer information, alla så kallade "personligt identifierbar information" (PII) (Narayanan and Shmatikov 2010) -under processen med "anonymisering." Vidare många forskare nu inse att vissa data såsom journaler, bokföring, svar på enkätfrågor om olagligt beteende är förmodligen alltför känslig för att släppa även efter "anonymisering." Men senare exempel som jag ska beskriva nedan tyder på att sociala forskare behöver ändra sitt tänkande. Som ett första steg, är det klokt att anta att alla uppgifter är potentiellt identifieras och alla uppgifter är potentiellt känslig. Med andra ord, istället för att tänka att informations risken gäller en liten delmängd av projekt, bör vi anta att det gäller till viss del till alla projekt.

Båda aspekterna av denna omorientering illustreras av Netflix Priset. Som beskrivs i kapitel 5, Netflix släppt 100 miljoner film betyg tillhandahålls av nästan 500.000 medlemmar, och hade en öppen samtal där människor från hela världen har lagt fram algoritmer som skulle kunna förbättra Netflix förmåga att rekommendera filmer. Innan du släpper data bort Netflix någon uppenbart personlig information, såsom namn. Netflix gick också ett extra steg och infört smärre störningar i några av posterna (t.ex. ändra några betyg från 4 stjärnor till 3 stjärnor). Netflix upptäckte snart dock att trots deras ansträngningar, inte på något data betyder anonym.

Bara två veckor efter det att uppgifterna släpptes Narayanan and Shmatikov (2008) visade att det var möjligt att lära sig om specifika människors filminställningar. Tricket att på nytt identifiera attack liknade Sweeneys: gå samman två informationskällor, en med potentiellt känslig information och ingen uppenbart identifierande information och en som innehåller identiteten av människor. Var och en av dessa datakällor kan vara individuellt säker, men när de kombineras den sammanslagna dataset kan skapa informations risk. I fallet med Netflix uppgifter, här är hur det kunde hända. Föreställ dig att jag väljer att dela mina tankar om åtgärder och komedi filmer med mina medarbetare, men att jag föredrar att inte dela min åsikt om religiösa och politiska filmer. Mina medarbetare kan använda den information som jag har delat med dem för att hitta mina skivor i Netflix data; den information som jag delar kan vara ett unikt fingeravtryck precis som William Weld födelsedatum, postnummer och kön. Sedan, om de finner min unika fingeravtryck i data, kan de lära mina betyg om alla filmer, bland annat filmer där jag väljer att inte dela. Utöver denna typ av riktad attack fokuserad på en enda person, Narayanan and Shmatikov (2008) visade också att det var möjligt att göra en bred attack -on med många människor, genom att slå samman de Netflix data med personliga och filmmärkdata som en del människor har valt att lägga på Internet Movie Database (IMDb). All information som är unik fingeravtryck till en viss person, även deras uppsättning av filmklassificering kan användas för att identifiera dem.

Även om Netflix data kan åter identifieras i antingen riktade eller breda attack, den fortfarande kan tyckas vara låg risk. När allt film betyg verkar inte mycket känslig. Även om det kan vara sant i allmänhet, för en del av de 500.000 personer i datamängden, kan film betyg vara ganska känslig. I själva verket, som svar på de-anonymisering en garderobs lesbisk kvinna gick med i en grupptalan mot Netflix. Här är hur problemet uttrycktes i sin stämningsansökan (Singel 2009) :

"[M] Ovie och rating data innehåller information av en högre personlig och känslig natur [sic]. Medlemmen film uppgifter exponerar en Netflix medlems personliga intressen och / eller kamp med olika mycket personliga frågor, bland annat sexualitet, psykisk sjukdom, återhämtning från alkoholism, och utsatthet från incest, misshandel, våld i hemmet, äktenskapsbrott, och våldtäkt. "

DE-anonymisering av Netflix Prize uppgifter visar både att all data är potentiellt identifieras och att all data är potentiellt känslig. Vid det här laget, kanske du tror att detta endast gäller uppgifter som det utger sig för att vara om människor. Överraskande, är det inte fallet. Som svar på en Freedom of Information Law begäran släppte New York City regeringen register över varje taxiresa i New York i 2013, inklusive upphämtning och släpp ut tider, platser och biljett mängder (minns från kapitel 2 att Farber (2015) används dessa data för att testa viktiga teorier inom arbetsekonomi). Även om dessa data om taxiresor kan tyckas godartad, eftersom det inte verkar finnas information om folk insåg Anthony Tockar att taxi dataset innehöll faktiskt massor av potentiellt känslig information om personer. För att illustrera, tittade han på alla resor börjar på The Hustler Club-en stor strippklubb i New York-mellan midnatt och 06:00 och sedan fann deras drop-off platser. Denna sökning avslöjade-i huvudsak-en lista med adresser till vissa människor som besöker Hustler Club (Tockar 2014) . Det är svårt att föreställa sig att staden regeringen hade detta i åtanke när det släppte uppgifterna. I själva verket kan samma teknik användas för att hitta de hemadresser människor som besöker någon plats i staden, en medicinsk klinik, en regeringsbyggnad, eller en religiös institution.

Dessa två fall-Netflix Priset och New York taxi data visar att relativt skickliga människor misslyckats med att korrekt uppskatta informations risken i de uppgifter som de släpps, och dessa fall är ingalunda unik (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Vidare, i många av dessa fall är problematiska data fortfarande fritt tillgängliga på nätet, vilket indikerar att det är svårt att någonsin lossa en data release. Kollektivt dessa exempel-samt forskning i datavetenskap om privatlivet leder till en viktig slutsats. Forskare bör anta att alla uppgifter är potentiellt identifieras och alla uppgifter är potentiellt känslig.

Tyvärr finns det ingen enkel lösning på det faktum att all data är potentiellt identifieras och alla uppgifter är potentiellt känslig. Men är ett sätt att minska riskinformation medan du arbetar med data för att skapa och följa en dataskyddsplan. Denna plan kommer att minskar risken att dina data kommer att läcka och kommer att minska den skada om en läcka uppstår på något sätt. Detaljerna i planerna dataskydds, såsom vilken form av kryptering för att använda, kommer att förändras över tiden, men den brittiska Data Services villigt organiserar de delar av en dataskydds plan i 5 kategorier som de kallar 5 kassaskåp: säkra projekt, säkra människor , säkra inställningar, säkra data och säkra utgångar (tabell 6.2) (Desai, Ritchie, and Welpton 2016) . Ingen av de fem kassaskåp individuellt ger perfekt skydd. Men, tillsammans bildar de en kraftfull uppsättning faktorer som kan minska informations risk.

Tabell 6.2: De 5 kassaskåp är principer för att utforma och genomföra en dataskyddsplanen (Desai, Ritchie, and Welpton 2016) .
Säker	Handling
säkra projekt	begränsar projekt med data till de som är etiskt
säkra människor	tillgången är begränsad till personer som kan betrodda med data (t.ex. har man genomgått etisk utbildning)
säkra data som	data avidentifierade och aggregeras i möjligaste mån
säkra inställningar	data lagras i datorer med lämplig fysisk (t.ex. låst rum) och programvara (t.ex. lösenordsskydd, krypterade) skydd
säkra utgången	forskningsresultaten granskas för att förhindra oavsiktligt integritetsbrott

Förutom att skydda dina data när du använder det, är ett steg i forskningsprocessen där informations risk är särskilt framträdande datadelning med andra forskare. datadelning mellan forskare är ett grundläggande värde i den vetenskapliga strävan, och det kraftigt anläggningar kunskapsutveckling. Här är hur det brittiska underhuset beskrev vikten av att utbyta data:

"Tillgång till data är grundläggande om forskare att reproducera, kontrollera och bygga vidare på resultat som rapporteras i litteraturen. Presumtionen måste vara att, om det inte finns starka skäl annars data bör vara helt avslöjas och göras tillgänglig för allmänheten. I linje med denna princip, där så är möjligt, data som är associerade med alla offentligt finansierad forskning bör göras allmänt och fritt tillgängliga. " (Molloy 2011)

Men genom att dela data med en annan forskare, du kan öka informations risk för dina deltagare. Således kan det tyckas att forskare som vill dela sina data-eller krävs för att dela sina data står inför en grundläggande spänning. Å ena sidan har de en etisk skyldighet att utbyta information med andra forskare, särskilt om den ursprungliga forskningen offentligt finansierad. Men på samma gång, forskare har en etisk skyldighet att minimera så mycket som möjligt, risk information till sina deltagare.

Lyckligtvis är detta dilemma inte lika allvarlig som det verkar. Det är viktigt att tänka på datadelning längs ett kontinuum från någon datadelning för att frigöra och glömma, där data "anonyma" och publiceras för alla att få tillgång (Figur 6.6). Båda dessa extrema positioner har risker och fördelar. Det vill säga, det är inte automatiskt den mest etiska sak att inte dela data; ett sådant tillvägagångssätt eliminerar många potentiella fördelar för samhället. För att återgå till smak, slipsar, och tid, ett exempel diskuterats tidigare i kapitlet, argument mot uppgifter release som fokuserar bara på eventuella skador och att ignorera eventuella fördelarna är alltför ensidig; Jag ska beskriva problemen med denna ensidiga, alltför skyddande strategi mer i detalj i nedan när jag ger råd om att fatta beslut i ansiktet av osäkerhet (avsnitt 6.6.4).

Figur 6.6: Datasläpp strategier kan falla längs ett kontinuum. Där du ska vara längs denna kontinuum beror på de specifika detaljerna i dina data. I detta fall kan tredje part översyn hjälpa dig att bestämma en lämplig balans mellan risk och nytta i ditt fall.

Vidare, mellan dessa två extremfall är vad jag ska kallas en muromgärdad trädgård tillvägagångssätt där data delas med personer som uppfyller vissa kriterier och som accepterar att vara bunden av vissa regler (t.ex. tillsyn från en IRB och en dataskydds planer) . Denna muromgärdad trädgård metod ger många av fördelarna för övergång och glömma med mindre risk. Naturligtvis skapar en muromgärdad trädgård tillvägagångssätt många frågor-vem som ska ha tillgång, på vilka villkor, hur länge, vem som ska betala för att upprätthålla och övervaka den muromgärdade trädgården osv-men dessa är inte oöverstigliga. I själva verket finns det redan arbetar muromgärdad trädgård på plats som forskare kan använda just nu, såsom arkivera av Inter-universitetet Consortium för politisk och social forskning vid University of Michigan.

Så, där bör data från studien vara på kontinuum av ingen delning, muromgärdad trädgård, och lossa och glömma? Det beror på detaljerna i dina data; Forskarna måste balansera Respekt för människor, godhet, rättvisa och respekt för lag och Public Interest. Vid bedömningen av lämplig balans för andra beslut forskare söka råd och godkännande av IRBS och datameddelandet kan vara bara en del av denna process. Med andra ord, även om vissa människor tror datameddelandet som en hopplös etisk träsk, vi redan har system på plats för att hjälpa forskare att balansera denna typ av etiska dilemman.

En sista sätt att tänka på datadelning är på motsvarande sätt. Varje år bilar är ansvariga för tusentals dödsfall, men vi försöker inte förbjuda körning. I själva verket skulle en sådan uppmaning att förbjuda körning vara absurt eftersom körning ger många underbara saker. Snarare ställer samhället restriktioner avseende vem som kan köra (t.ex. måste vara en viss ålder, måste ha klarat vissa tester) och hur de kan köra (t.ex. under hastighetsgränsen). Samhället har också människor uppgift att genomdriva dessa regler (t.ex. polis), och vi straffa folk som fångas bryter mot dem. Samma typ av balanserad tänkande som samhället gäller att reglera körning kan också tillämpas på datadelning. Det är, snarare än att göra absolutistiska argument för eller emot datadelning, jag tror de största fördelarna kommer från att räkna ut hur vi kan dela mer data säkrare.

Avslutningsvis, har informations risk ökat dramatiskt, och det är mycket svårt att förutse och kvantifiera. Därför är det bäst att anta att alla uppgifter är potentiellt identifierbar och potentiellt känslig. För att minska informations risk samtidigt gör forskning, kan forskarna skapa och följa en dataskyddsplan. Vidare innebär informations risken inte hindra forskare från att dela data med andra forskare.