6.6.2 verstaan ​​en bestuur van inligting risiko

Inligting risiko is die mees algemene risiko in sosiale navorsing; dit het dramaties toegeneem; en dit is die hardste risiko om te verstaan.

Die tweede etiese uitdaging vir maatskaplike ouderdom digitale navorsing is inligting risiko, die potensiaal vir skade van die bekendmaking van inligting (Council 2014) . Inligting Harms van die bekendmaking van persoonlike inligting kan ekonomiese wees (bv, die verlies van 'n werk), sosiale (bv verleentheid), sielkundige (bv, depressie), of selfs kriminele (bv, in hegtenis geneem vir die onwettige gedrag). Ongelukkig is die digitale ouderdom verhoog inligting risiko dramaties-daar is net soveel meer inligting oor ons gedrag. En, het inligting risiko bewys baie moeilik om te verstaan ​​en te bestuur in vergelyking met risiko's wat kommer in analoog ouderdom sosiale navorsing, soos fisiese risiko was. Om te sien hoe die digitale ouderdom verhoog inligting risiko, oorweeg die oorgang van papier na elektroniese mediese rekords. Beide tipes rekords te skep risiko, maar die elektroniese rekords te skep veel groter risiko's, want op 'n massiewe skaal kan hulle aan 'n ongemagtigde partye oorgedra word of saamgesmelt met ander rekords. Sosiale navorsers in die digitale era het reeds hardloop in die moeilikheid met inligting risiko, deels omdat hulle nie ten volle verstaan ​​hoe om te kwantifiseer en te bestuur. So, ek gaan 'n nuttige manier om te dink oor die inligting risiko bied, en dan gaan ek jou 'n paar advies oor hoe om die inligting risiko in jou navorsing te bestuur en in die vrystelling van data om ander navorsers gee.

Een manier waarop sosiale navorsers verminder inligting risiko is "anonymization" van data. "Anonymization" is die proses van die verwydering van die hand liggend persoonlike identifikasie soos naam, adres en telefoonnommer van die data. Maar hierdie benadering is dit baie minder doeltreffend as wat baie mense besef, en dit is, in werklikheid, diep en fundamenteel beperk. Om dié rede, wanneer ek beskryf "anonymization," Ek sal aanhalingstekens gebruik om jou te herinner dat hierdie proses skep die voorkoms van anonimiteit, maar nie waar anonimiteit.

'N Duidelike voorbeeld van die mislukking van "anonymization" is afkomstig van die laat 1990's in Massachusetts (Sweeney 2002) . Die Groep Versekering Kommissie (GIC) was 'n regering agentskap wat verantwoordelik is vir die aankoop van gesondheid versekering vir alle staatsamptenare. Deur middel van hierdie werk, die GIC ingesamel gedetailleerde gesondheid rekords oor duisende staatsamptenare. In 'n poging om navorsing oor maniere om gesondheid te verbeter aanspoor, GIC besluit om hierdie rekords te stel aan navorsers. Maar hulle het nie al hul data te deel; Inteendeel, hulle "anoniem" dit deur die verwydering van inligting soos naam en adres. Maar hulle het ander inligting wat hulle gedink nuttig vir navorsers kan wees soos demografiese inligting (poskode, geboortedatum, etnisiteit, en geslag) en mediese inligting (besoek data, diagnose, prosedure) (Figuur 6.4) (Ohm 2010) . Ongelukkig is dit "anonymization" was nie voldoende om die data te beskerm.

Figuur 6.4: anonymization is die proses van die verwydering natuurlik die identifisering van inligting. Byvoorbeeld, wanneer die vrystelling van die mediese versekering rekords van staatsamptenare die Massachusetts Groep Versekering Kommissie (GIC) verwyder naam en adres van die lêers. Ek gebruik aanhalingstekens rondom die woord anonymization omdat die proses bied die voorkoms van anonimiteit, maar nie werklike anonimiteit.

Figuur 6.4: "anonymization" is die proses van die verwydering natuurlik die identifisering van inligting. Byvoorbeeld, wanneer die vrystelling van die mediese versekering rekords van staatsamptenare die Massachusetts Groep Versekering Kommissie (GIC) verwyder naam en adres van die lêers. Ek gebruik aanhalingstekens rondom die woord "anonymization" omdat die proses bied die voorkoms van anonimiteit, maar nie werklike anonimiteit.

Om die tekortkominge van die GIC "anonymization" illustreer, Latanya Sweeney-dan 'n nagraadse student aan die MIT-betaal $ 20 tot die stemming rekords verkry uit die stad van Cambridge, die tuisdorp van Massachusetts goewerneur Willem Weld. Hierdie stem rekords ingesluit inligting soos naam, adres, poskode, geboortedatum en geslag. Die feit dat die mediese data lêer en die kieser lêer gedeel velde-kode, geboortedatum en geslag beteken dat Sweeney hulle kon koppel. Sweeney het geweet dat Weld se verjaarsdag was 31 Julie 1945, en die stem rekords ingesluit net ses mense in Cambridge met dié verjaardag. Verder van die ses mense, net drie was manlike. En van daardie drie manne, net een gedeel Weld se poskode. So, die stem data het getoon dat enigiemand in die mediese data met 'n kombinasie Weld se geboorte datum, geslag, en poskode was William Weld. In wese, hierdie drie stukke van inligting voorsien 'n unieke vingerafdruk om hom in die data. Die gebruik van hierdie feit, Sweeney kon Weld se mediese rekords op te spoor, en om hom in te lig van haar prestasie, gepos sy hom 'n afskrif van sy rekords (Ohm 2010) .

Figuur 6.5: Re-idenification van anoniem data. Latanya Sweeney gekombineer die anoniem gesondheid rekords met stem rekords ten einde die mediese rekords van Goewerneur William Weld (Sweeney 2002) vind.

Figuur 6.5: Re-idenification van "anoniem" data. Latanya Sweeney gekombineer die "anoniem" gesondheid rekords met stem rekords ten einde die mediese rekords van Goewerneur William Weld vind (Sweeney 2002) .

Werk Sweeney se illustreer die basiese struktuur van de-anonymization aanvalle -tot 'n term uit die rekenaar sekuriteit gemeenskap aan te neem. In hierdie aanvalle, twee datastelle, nie een van wat op sigself openbaar sensitiewe inligting, gekoppel, en deur middel van hierdie koppeling, is sensitiewe inligting blootgestel. In sommige maniere hierdie proses is soortgelyk aan die manier waarop koeksoda en asyn, twee stowwe wat veilig is besonders kan gekombineer word om 'n nare uitkoms te produseer.

In reaksie op die werk Sweeney se, en ander verwante werk, navorsers nou algemeen verwyder veel meer inligting-al sogenaamde "Inligting persoonlike" (PII) (Narayanan and Shmatikov 2010) -during die proses van "anonymization." Verder, baie navorsers nou besef dat sekere data-soos mediese rekords, finansiële rekords, antwoorde op vrae oor onwettige opname gedrag-is waarskynlik te sensitief vir vry, selfs nadat "anonymization." Maar meer onlangse voorbeelde wat ek hieronder sal beskryf dui daarop dat sosiale navorsers moet verander hul denke. As 'n eerste stap, is dit verstandig om te aanvaar dat al die data is moontlik identifiseerbare en al die data is potensieel sensitiewe. Met ander woorde, eerder as om te dink dat inligting risiko van toepassing op 'n klein subset van projekte, moet ons aanvaar dat dit van toepassing is tot 'n mate tot alle projekte.

Beide aspekte van hierdie re-oriëntasie geïllustreer deur die Netflix-prys. Soos beskryf in Hoofstuk 5, Netflix vrygestel as 100 miljoen fliek graderings wat deur byna 500,000 lede, en het 'n oop gesprek waar mense van regoor die wêreld voorgelê algoritmes wat vermoë Netflix se aan te beveel films kan verbeter. Voor die vrystelling van die data, Netflix verwyder enige natuurlik persoonlik-identifisering van inligting, soos name. Netflix het ook 'n ekstra stap en bekendgestel effense versteurings in 'n paar van die rekords (bv, die verandering van 'n paar graderings van 4 sterre tot 3 sterre). Netflix gou ontdek egter dat ten spyte van hul pogings, die data is geensins anoniem.

Net twee weke nadat die data vrygestel Narayanan and Shmatikov (2008) het getoon dat dit moontlik was om te leer oor die film se voorkeure spesifieke mense. Die truuk om hul re-identifikasie aanval was soortgelyk aan Sweeney se: saamsmelt twee inligtingsbronne, een saam met potensieel sensitiewe inligting en geen natuurlik die identifisering van inligting en die een wat die identiteit van mense bevat. Elkeen van hierdie databronne kan individueel veilig wees, maar wanneer hulle gekombineer kan die saamgesmelte dataset inligting risiko skep. In die geval van die Netflix data, hier is hoe dit kan gebeur. Stel jou voor dat ek kies om my gedagtes oor aksie en komedie films met my mede-werkers te deel nie, maar dat ek verkies om nie my opinie oor godsdienstige en politieke flieks om te deel. My mede-werkers kan die inligting wat ek het met hulle gedeel met my rekords in die Netflix data vind gebruik; die inligting wat ek deel kon 'n unieke vingerafdruk wees net soos William Weld se geboortedatum, poskode, en seks. Dan, as hulle my unieke vingerafdruk vind in die data, hulle kon my graderings leer oor al die flieks, insluitend films waar ek kies om nie te deel. Benewens hierdie soort van geteikende aanval gefokus op 'n enkele persoon, Narayanan and Shmatikov (2008) het ook getoon dat dit moontlik is om 'n breë aanval -een wat baie doen mense-deur die samesmelting van die Netflix data met persoonlike en fliek gradering data dat sommige mense gekies het om te post op IMDB (IMDb). Enige inligting wat uniek vingerafdruk op 'n spesifieke persoon, selfs hul stel fliek graderings-gebruik kan word om hulle te identifiseer.

Selfs al is die Netflix data kan weer geïdentifiseer in óf 'n geteikende of breë aanval, steeds is dit dalk lyk of lae risiko wees. Na alles, moenie fliek graderings nie lyk baie sensitief. Terwyl dit waar kan wees in die algemeen, vir 'n paar van die 500,000 mense in die datastel, film graderings kan baie sensitief wees. Trouens, in reaksie op die de-anonymization n closeted lesbiese vrou by 'n klas-aksie pak teen Netflix. Hier is hoe die probleem is uitgespreek in hul regsgeding (Singel 2009) :

"[M] Ovie en gradering data bevat inligting van 'n meer hoogs persoonlike en sensitiewe aard [sic]. movie data die lid se ontbloot persoonlike belangstelling en / of stryd 'n Netflix lid se met verskeie hoogs persoonlike kwessies, insluitend seksualiteit, geestesongesteldheid, herstel van alkoholisme en viktimisasie van bloedskande, fisiese mishandeling, gesinsgeweld, egbreuk, en verkragting. "

Die de-anonymization van die Netflix prys data illustreer beide dat alle data is potensieel identifiseerbare en dat alle data is potensieel sensitiewe. Op hierdie punt, kan jy dink dat dit slegs van toepassing is op data wat dit voorgee om te wees oor mense. Verbasend, dit is nie die geval nie. In reaksie op 'n vryheid van inligting Wet versoek, die New York City Regering vrygestel rekords van elke taxi rit in New York in 2013, insluitend die bakkie en afstap keer, plekke, en kos bedrae (onthou uit Hoofstuk 2 dat Farber (2015) gebruik hierdie data belangrike teorieë in arbeidsekonomie) te toets. Alhoewel hierdie data oor taxi reise benigne lyk, want dit lyk nie of om inligting oor mense wees, Anthony Tockar besef dat hierdie taxi dataset eintlik vervat baie potensieel sensitiewe inligting oor mense. Om te illustreer, het hy glad reise begin by die Hustler Club-'n groot ontkleeklub in New York tussen middernag en 06:00 en toe bevind hulle drop-off plekke. Dit soek geopenbaar-in wese-'n lys van adresse van 'n paar mense wat gereeld die Hustler Club (Tockar 2014) . Dit is moeilik om te dink dat die stad regering het dit in gedagte wanneer dit die data vrygestel. Trouens, dit kan dieselfde tegniek gebruik om die huis adresse van mense wat 'n plek te besoek in die stad-'n mediese kliniek, 'n regering gebou, of 'n godsdienstige instelling vind.

Hierdie twee gevalle-die Netflix-prys en die New York City taxi data-show wat relatief geskoolde mense versuim het om korrek te skat die inligting risiko in die data wat hulle vrygestel, en hierdie gevalle is geensins uniek (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Verdere, in baie van hierdie gevalle, die problematiese data is steeds vrylik aanlyn beskikbaar, wat aandui hoe moeilik ooit verwydering n data vrylating. Gesamentlik hierdie voorbeelde-asook navorsing in rekenaarwetenskap oor privaatheid-lei tot 'n belangrike gevolgtrekking. Navorsers moet aanvaar dat alle data is potensieel identifiseerbare en al die data is potensieel sensitiewe.

Ongelukkig is daar nie 'n eenvoudige oplossing vir die feit dat al die data is moontlik identifiseerbare en al die data is potensieel sensitiewe. Maar een manier om inligting risiko te verminder, terwyl jy besig is met data is om te skep en volg 'n beskerming van data plan. Hierdie plan sal die kans dat jou data sal lek en sal die skade te verminder as 'n lek op 'n manier vind plaas af. Die besonderhede van planne beskerming van data, soos watter vorm van enkripsie om te gebruik, sal verander met verloop van tyd, maar die Verenigde Koninkryk Data Services organiseer hulpvaardig die elemente van 'n beskerming van data plan in 5 kategorieë wat hulle noem die 5 kluise: veilige projekte, veilige mense , veilige instellings, veilige data, en veilige uitsette (Tabel 6.2) (Desai, Ritchie, and Welpton 2016) . Nie een van die vyf kluise voorsien individueel perfekte beskerming. Maar, saam vorm hulle 'n kragtige stel faktore wat inligting risiko kan verminder.

Tabel 6.2: Die 5 kluise is beginsels vir die ontwerp en uitvoering van 'n beskerming van data plan (Desai, Ritchie, and Welpton 2016) .
Kluis Aksie
veilige projekte beperk projekte met data vir diegene wat etiese is
veilige mense toegang is beperk tot mense wat vertrou kan word met data (bv, het mense ondergaan etiese opleiding)
veilige data data word de-geïdentifiseer en saamgevoeg om sover moontlik
veilige instellings data word gestoor in rekenaars met toepaslike fisiese (bv, geslote kamer) en sagteware (bv, wagwoord beskerming, geïnkripteer) beskerming
veilige uitset navorsingsuitset is hersien om per ongeluk privaatheid oortredings te voorkom

Benewens die beskerming van jou data terwyl jy dit gebruik, 'n stap in die navorsingsproses waar inligting risiko is veral belangrike is deel van inligting met ander navorsers. deel van inligting tussen wetenskaplikes 'n kernwaarde van die wetenskaplike strewe, en dit grootliks fasiliteite die bevordering van kennis. Hier is hoe die Britse Laerhuis beskryf die belangrikheid van deel data:

"Toegang tot inligting is fundamenteel as navorsers is om voort te plant, te verifieer en te bou op die resultate wat in die literatuur gerapporteer. Die vermoede moet wees dat, tensy daar 'n sterk rede anders, data moet ten volle openbaar gemaak en in die openbaar beskikbaar gestel. In ooreenstemming met hierdie beginsel, waar moontlik, data wat verband hou met al die openbaar befonds navorsing wyd en vrylik beskikbaar gestel moet word. " (Molloy 2011)

Tog, deur die deel van jou data met 'n ander navorser, jy kan verhoog inligting risiko om jou deelnemers. So, mag dit blyk dat navorsers wat hul deel data-of vereis word om hulle te deel data-in die gesig staar 'n fundamentele spanning. Aan die een kant het hulle 'n etiese verpligting om hul data met ander wetenskaplikes deel, veral as die oorspronklike navorsing in die openbaar befonds. Tog, op dieselfde tyd, navorsers het 'n etiese verpligting om die minimum te beperk, so veel as moontlik, die inligting risiko om hul deelnemers.

Gelukkig hierdie dilemma is nie so erg soos dit lyk. Dit is belangrik om te dink aan die deel van data op 'n kontinuum van geen deel van data om vry te laat en te vergeet, waar data is "anoniem" en gepos vir enigiemand om toegang te verkry (Figuur 6.6). Beide van hierdie uiterste posisies het risiko's en voordele. Dit wil sê, dit is nie outomaties die mees etiese ding om jou data nie deel; so 'n benadering elimineer baie potensiële voordele vir die samelewing. Terugkeer na smaak, Ties, en tyd, 'n voorbeeld vroeër in die hoofstuk bespreek, argumente teen data release wat fokus net op moontlike Harms en dat moontlike voordele te ignoreer is té eensydig; Ek sal die probleme met hierdie eensydige, té beskermende benadering in hieronder beskryf in meer detail as ek bied advies oor die maak van besluite in die gesig van onsekerheid (Afdeling 6.6.4).

Figuur 6.6: Data vrylating strategieë kan op 'n kontinuum val. Waar jy moet wees op hierdie kontinuum hang af van die spesifieke besonderhede van jou data. In hierdie geval, kan 'n derde party hersiening help om te besluit die toepaslike balans van risiko en voordeel in jou geval.

Figuur 6.6: Data vrylating strategieë kan op 'n kontinuum val. Waar jy moet wees op hierdie kontinuum hang af van die spesifieke besonderhede van jou data. In hierdie geval, kan 'n derde party hersiening help om te besluit die toepaslike balans van risiko en voordeel in jou geval.

Verdere, in tussen hierdie twee uiterste gevalle is wat ek 'n ommuurde tuin benadering waar data word gedeel met mense wat aan sekere kriteria voldoen en wat saamstem om gebind te wees deur sekere reëls sal genoem (bv toesig van 'n IRR en 'n beskerming van data planne) . Dit ommuurde tuin benadering bied baie van die voordele van vrystelling en vergeet met minder risiko. Natuurlik, 'n ommuurde tuin benadering skep baie vrae-wat toegang moet hê, onder watter omstandighede, vir hoe lank, wie moet betaal om in stand te hou en die polisie die ommuurde tuin ens-maar dit is nie onoorkombaar. Trouens, daar reeds besig ommuurde tuine in plek wat navorsers nou kan gebruik, soos die data argief van die Inter-Universiteit Konsortium vir Politieke en Sosiale Navorsing aan die Universiteit van Michigan.

So, waar moet die data van jou studie op die kontinuum van geen deel, ommuurde tuin, en vry te laat en vergeet? Dit hang af van die besonderhede van jou data; navorsers moet partydig, goedwilligheid, Justisie, en respek te balanseer vir wet en openbare belang. By die beoordeling van gepaste balans vir ander besluite navorsers probeer om die raad en goedkeuring van IRBs, en data release kan net nog 'n deel van daardie proses wees. Met ander woorde, hoewel sommige mense dink van vrylating data as 'n hopelose etiese moeras, ons het reeds in plek om te help navorsers balanseer hierdie soort etiese dilemmas.

Een finale manier om te dink oor die deel van data is deur analogie. Elke jaar motors is verantwoordelik vir duisende sterftes, maar ons weet nie probeer om ry te verbied. Trouens, sou so 'n oproep om rijverbod absurd, want ry in staat stel om baie wonderlike dinge. Inteendeel, die samelewing plaas beperkings op wat kan ry (bv, moet 'n sekere ouderdom wees, moet sekere toetse geslaag het) en hoe hulle kan ry (bv onder die spoedgrens). Vereniging het ook mense wat getaak is met die handhawing van die reëls (bv, die polisie), en ons straf mense wat gevang word hulle skend. Dieselfde soort gebalanseerde denke wat die samelewing van toepassing is op die regulering van bestuur kan ook toegepas word op die deel van data. Dit wil sê, eerder as om absolutistiese argumente vir of teen deel data, ek dink die grootste voordele sal kom uit die uitzoeken hoe ons meer inligting meer veilig kan deel.

Om af te sluit, het inligting risiko dramaties toegeneem, en dit is baie moeilik om te voorspel en te kwantifiseer. Daarom is dit die beste om te aanvaar dat al die data is moontlik identifiseerbare en potensieel sensitiewe. Om inligting risiko te verminder, terwyl navorsing te doen, kan navorsers te skep en volg 'n beskerming van data plan. Verder het inligting risiko nie verhoed dat navorsers van die deel van data met ander wetenskaplikes.