6.6.2 Forståelse og administrerende informasjons risiko

Denne oversettelsen ble skapt av en datamaskin. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

6.6.2 Forståelse og administrerende informasjons risiko

Informasjon risiko er den vanligste risiko i samfunnsforskning; den har økt dramatisk; og det er den vanskeligste risiko for å forstå.

Den andre etisk utfordring for samfunns alder digital forskning er informasjons risiko, potensialet for skade fra offentliggjøring av informasjon (Council 2014) . Informasjons skader fra utlevering av personopplysninger kan være økonomisk (for eksempel, å miste en jobb), sosial (f.eks forlegenhet), psykologisk (f.eks depresjon), eller til og med kriminell (f.eks arrest for ulovlig atferd). Dessverre, øker den digitale tidsalder informasjonsrisiko dramatisk-det er bare så mye mer informasjon om vår atferd. Og, har informasjons risiko vist seg svært vanskelig å forstå og håndtere i forhold til risikoen som var bekymringer i analog alder samfunnsforskning, for eksempel fysisk risiko. For å se hvordan den digitale tidsalderen øker informasjons risiko, vurdere overgangen fra papir til elektronisk pasientjournal. Begge typer poster skaper risiko, men det elektroniske arkivet skape mye større risiko fordi på en massiv skala kan de overføres til en uautorisert part eller slått sammen med andre poster. Sosiale forskere i den digitale tidsalderen har allerede kjørt inn i problemer med informasjons risiko, blant annet fordi de ikke fullt ut forstår hvordan å kvantifisere og styre den. Så, jeg kommer til å tilby en nyttig måte å tenke på informasjons risiko, og da kommer jeg til å gi deg noen råd for hvordan man skal håndtere informasjons risiko i forskning og i å gi ut data til andre forskere.

En måte at samfunnsforskere redusere informasjons risiko er "anonymisering" av data. "Anonymisering" er prosessen med å fjerne åpenbare personlige identifikatorer som navn, adresse og telefonnummer fra dataene. Imidlertid er denne tilnærmingen mye mindre effektive enn mange er klar, og det er faktisk dypt og fundamentalt begrenset. Av den grunn, når jeg beskrive "anonymisering," jeg skal bruke anførselstegn for å minne deg på at denne prosessen skaper inntrykk av anonymitet, men ikke sant anonymitet.

Et levende eksempel på svikt i "anonymiserings" kommer fra slutten av 1990-tallet i Massachusetts (Sweeney 2002) . Konsernet Insurance Commission (GIC) var en statlig etat ansvarlig for innkjøp av helseforsikring for alle statsansatte. Gjennom dette arbeidet, GIC samlet detaljerte pasientjournaler om tusenvis av statsansatte. I et forsøk på å anspore forskning om måter å forbedre helse, bestemte GIC å frigi disse postene for forskere. Men de gjorde ikke dele alle sine data; heller, de "anonymisert" det ved å fjerne informasjon som navn og adresse. Men de forlot annen informasjon som de trodde kunne være nyttig for forskere som demografisk informasjon (postnummer, fødselsdato, etnisitet og kjønn) og medisinsk informasjon (besøks data, diagnose, prosedyre) (figur 6.4) (Ohm 2010) . Dessverre er denne "anonym" var ikke tilstrekkelig til å beskytte dataene.

Figur 6.4: "Anonymisering" er prosessen med å fjerne åpenbart identifiserende informasjon. For eksempel når slippe sykeforsikring registreringer av statlig ansatte i Massachusetts gruppeforsikrings Commission (GIC) fjernet navn og adresse fra filene. Jeg bruker anførselstegn rundt ordet "anonymiserings" fordi prosessen gir inntrykk av anonymitet, men ikke selve anonymitet.

For å illustrere svakhetene i GIC "anonymiserings", Latanya Sweeney-deretter en graduate student ved MIT-betalt $ 20 for å skaffe seg de stemmeberettigede poster fra byen Cambridge, hjembyen til Massachusetts guvernør William Weld. Disse stemme poster inkludert informasjon som navn, adresse, postnummer, fødselsdato og kjønn. Det faktum at den medisinske datafil og velgeren fil delt felt-postnummer, fødselsdato og kjønn-betydde at Sweeney kunne knytte dem. Sweeney visste at Weld bursdag var den 31 juli 1945, og de stemmeberettigede poster inkludert bare seks personer i Cambridge med det bursdag. Videre disse seks personer, bare tre var menn. Og av disse tre menn, bare én felles Weld postnummer. Dermed stemme data viste at noen i det medisinske data med Weld kombinasjon av fødselsdato, kjønn og postnummer var William Weld. I hovedsak disse tre biter av informasjon som gis et unikt fingeravtrykk av ham i dataene. Ved hjelp av dette faktum, Sweeney var i stand til å finne Weld medisinske poster, og for å informere ham om hennes prestasjon, hun sendte ham en kopi av hans poster (Ohm 2010) .

Figur 6.5: Re-idenification av anonymiserte data. Latanya Sweeney kombinert anonymiserte pasientjournaler med stemmerett poster for å finne de medisinske registreringer av guvernør William Weld (Sweeney 2002).

Figur 6.5: Re-idenification av "anonymiserte" data. Latanya Sweeney kombinert de "anonymiserte" pasientjournaler med stemmerett poster for å finne de medisinske registreringer av guvernør William Weld (Sweeney 2002) .

Sweeney arbeid illustrerer den grunnleggende strukturen i de-anonymiserings angrep -til adoptere et begrep fra datamaskinen sikkerhetsmiljøet. I disse angrepene, to datasett, verken som i seg selv avslører sensitiv informasjon, er knyttet sammen, og gjennom denne sammenhengen, er sensitiv informasjon eksponert. På noen måter denne fremgangsmåte er lik den måten at natron og eddik, to stoffer som er i seg selv sikkert, kan kombineres for å produsere en stygg resultat.

Som svar på Sweeney arbeid, og annet relatert arbeid, forskere nå generelt fjerne mye mer informasjon-all såkalt "personlig identifiserbar informasjon" (PII) (Narayanan and Shmatikov 2010) -under prosessen med "anonymisering." Videre, mange forskere nå innse at visse data, for eksempel medisinske journaler, finansielle poster, svar på undersøkelsen spørsmål om ulovlig atferd-er trolig for følsom for å slippe selv etter "anonymisering." Men, nyere eksempler som jeg beskriver nedenfor viser at samfunnsforskere må endre sin tenkning. Som et første skritt, er det lurt å anta at alle data er potensielt identifiserbare og alle data er potensielt sensitive. Med andre ord, i stedet for å tenke at informasjons risiko gjelder for en liten undergruppe av prosjekter, skal vi anta at det gjelder-til en viss grad til alle prosjekter.

Begge sider ved denne re-orientering er illustrert av Netflix-prisen. Som beskrevet i kapittel 5, utgitt Netflix 100 millioner film rangeringer levert av nesten 500 000 medlemmer, og hadde en åpen samtale der folk fra hele verden sendt algoritmer som kan forbedre Netflix evne til å anbefale filmer. Før du slipper dataene, Netflix fjernet noen åpenbart personlig identifiserbar informasjon, for eksempel navn. Netflix gikk også et ekstra steg og introduserte små forstyrrelser i noen av postene (f.eks endre noen karakterer fra 4 stjerner til 3 stjerner). Netflix snart oppdaget imidlertid at til tross for sin innsats, dataene var på ingen måte anonym.

Bare to uker etter at dataene ble løslatt Narayanan and Shmatikov (2008) viste at det var mulig å lære om spesifikke folks film preferanser. Trikset til sin re-identifisering angrepet var lik Sweeney tallet: flette sammen to informasjonskilder, en med potensielt sensitiv informasjon, og ingen åpenbart identifiserende informasjon og en som inneholder identiteten til folk. Hver av disse datakildene kan være individuelt trygg, men når de kombineres det fusjonerte datasettet kan opprette informasjons risiko. I tilfelle av Netflix data, her er hvordan det kunne skje. Tenk deg at jeg velger å dele mine tanker om handling og komedie filmer med mine kolleger, men jeg foretrekker ikke å dele min mening om religiøse og politiske filmer. Mine kolleger kunne bruke den informasjonen som jeg har delt med dem for å finne mine poster i Netflix data; den informasjonen som jeg deler kan være en unik fingeravtrykk akkurat som William Weld fødselsdato, postnummer og kjønn. Så, hvis de finner min unike fingeravtrykk i data, kan de lære mine vurderinger om alle filmer, inkludert filmer hvor jeg velger å ikke dele. I tillegg til denne typen målrettet angrep rettet mot en enkelt person, Narayanan and Shmatikov (2008) viste også at det var mulig å gjøre en bred angrep -en som involverer mange mennesker-ved sammenslåing av Netflix data med personlige og film vurdering data at noen folk har valgt å legge ut på Internet Movie Database (IMDb). All informasjon som er unike fingeravtrykk til en bestemt person, selv sine sett av film karakterer-kan brukes til å identifisere dem.

Selv om Netflix data kan bli re-identifisert i enten en målrettet eller bred angrep, det fortsatt kan synes å være lav risiko. Tross alt, film karakterer ikke synes veldig følsom. Selv om det kan være sant generelt, for noen av de 500.000 menneskene i datasettet, kan film karakterer være ganske følsom. Faktisk, som svar på de-anonymiserings en hemmelighets lesbisk kvinne ble med en class-action søksmål mot Netflix. Her er hvordan problemet ble uttrykt i deres sak (Singel 2009) :

"[M] ovie og fra data inneholder informasjon av mer høyst personlig og sensitiv karakter [sic]. Medlemmet film data avslører en Netflix medlem personlige interesse og / eller sliter med ulike svært personlige problemer, inkludert seksualitet, psykiske lidelser, utvinning fra alkoholisme og mobbing fra incest, mishandling, vold, utroskap, og voldtekt. "

Det de-anonymisering av Netflix Prisen data illustrerer både at alle data er potensielt identifiserbare og at alle data er potensielt sensitive. På dette punktet, kan du tror at dette bare gjelder for data som som hensikt å være om mennesker. Overraskende nok er det ikke tilfelle. Som svar på en Freedom of Information Law forespørsel, utgitt New York Byrådet registreringer av hver taxitur i New York i 2013, inkludert henting og bringing, steder og fare mengder (tilbakekalling fra kapittel 2 at Farber (2015) brukt disse dataene til å teste viktige teorier i arbeid økonomi). Selv om denne informasjonen om taxi turer kan virke godartet fordi det ikke synes å være informasjon om personer, Anthony Tockar innså at dette taxi datasettet faktisk inneholdt mange potensielt sensitiv informasjon om personer. For å illustrere, så han på alle turer starter på The Hustler Club-en stor strippeklubb i New York mellom midnatt og 6am og deretter funnet sin drop-off steder. Dette søket avdekket i hovedsak-en liste over adresser til noen folk som hyppig The Hustler Club (Tockar 2014) . Det er vanskelig å forestille seg at byrådet hadde dette i tankene når det slippes dataene. Faktisk kan den samme teknikken brukes til å finne hjem adressene til folk som besøker et sted i byen-en medisinsk klinikk, en offentlig bygning, eller en religiøs institusjon.

Disse to sakene-Netflix-prisen og New York City Taxi data viser at relativt dyktige folk ikke klarte å korrekt anslå informasjons risiko i dataene som de ga ut, og disse sakene er på ingen måte unik (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Videre, i mange av disse tilfellene, er det problematisk data fortsatt fritt tilgjengelig på nettet, noe som indikerer hvor vanskelig det noensinne angre en data utgivelse. Sammen disse eksemplene-samt forskning i informatikk om personvern-fører til en viktig konklusjon. Forskere skal anta at alle data er potensielt identifiserbare og alle data er potensielt sensitive.

Dessverre, er det ingen enkel løsning på det faktum at alle data er potensielt identifiseres og alle data er potensielt følsom. Men det er en måte å redusere informasjonsrisiko mens du jobber med data til å lage og følge en data verneplan. Denne planen vil reduserer sjansen for at dine data vil lekke og vil redusere skade hvis en lekkasje eller annen måte oppstår. Detaljene i data verneplaner, for eksempel hvilke form for kryptering skal brukes, vil endre seg over tid, men den britiske datatjeneste organiserer fully elementene i en data verneplan inn i 5 kategorier som de kaller de 5 safer: trygge prosjekter, trygge mennesker , trygge innstillinger, trygge data og sikre utganger (tabell 6.2) (Desai, Ritchie, and Welpton 2016) . Ingen av de fem safer hver gir perfekt beskyttelse. Men, sammen danner de et kraftig sett med faktorer som kan redusere informasjons risiko.

Tabell 6.2: De 5 safer er prinsipper for utforming og gjennomføring av en data verneplan (Desai, Ritchie, and Welpton 2016) .
Sikker	Handling
trygge prosjekter	begrenser prosjekter med data til de som er etisk
trygge mennesker	tilgangen er begrenset til personer som kan være klarert med data (f.eks, har folk gjennomgått etisk opplæring)
trygge data	dataene er avidentifisert og aggregert i den grad det er mulig
trygge innstillinger	Dataene lagres i datamaskiner med nødvendige fysiske (f.eks låst rom) og programvare (for eksempel, passordbeskyttelse, kryptert) beskyttelse
sikker utgang	forskning utgang er anmeldt for å hindre uhell brudd på personvernet

I tillegg til å beskytte dataene dine mens du bruker den, ett trinn i forskningsprosessen der informasjons Risikoen er spesielt fremtredende er deling av data med andre forskere. Datadeling blant forskere er en kjerneverdi av den vitenskapelige bestrebelser, og det i stor grad fasiliteter fremme av kunnskap. Her er hvordan det britiske House of Commons beskrev betydningen av data deling:

"Tilgang til data er vesentlig dersom forskerne er å reprodusere, verifisere og bygge videre på resultatene som er rapportert i litteraturen. Antakelsen må være det, med mindre det er en sterk grunn til noe annet, data bør være fullt avslørt og gjort offentlig tilgjengelig. I tråd med dette prinsippet, der det er mulig, data knyttet til all offentlig finansiert forskning skal gjøres allment og fritt tilgjengelig. " (Molloy 2011)

Likevel, ved å dele dine data med en annen forsker, du kan være økende informasjons risiko for deltakerne. Dermed kan det virke som forskere som ønsker å dele sine data-eller kreves for å dele sine data-står overfor en grunnleggende spenning. På den ene siden de har en etisk forpliktelse til å dele sine data med andre forskere, spesielt hvis den opprinnelige forskningen er offentlig finansiert. Men på samme tid, forskere har en etisk forpliktelse til å redusere så mye som mulig, er informasjonen i fare for sine deltakere.

Heldigvis er dette dilemmaet ikke så alvorlig som det ser ut. Det er viktig å tenke på datadeling langs et kontinuum fra ingen datadeling for å frigjøre og glemme, hvor data er "anonymisert" og lagt ut for alle å få tilgang (figur 6.6). Begge disse ekstreme posisjoner har risiko og fordeler. Det vil si, det er ikke automatisk det mest etiske ting å ikke dele data; en slik tilnærming eliminerer mange potensielle fordeler for samfunnet. Retur til Smak, Slips, og Time, et eksempel omtalt tidligere i kapitlet, argumenter mot data utgivelse som fokuserer kun på mulige skader og som ignorerer mulige fordelene er altfor ensidig; Jeg vil beskrive problemene med dette ensidig, altfor beskyttende tilnærming nærmere i nedenfor når jeg gi råd om å ta avgjørelser i møte med usikkerhet (avsnitt 6.6.4).

Figur 6.6: Data utslipp strategier kan falle sammen et kontinuum. Der du skal være sammen dette kontinuum avhenger av spesifikke detaljer om dine data. I dette tilfellet kan tredjepart gjennomgang hjelpe deg å bestemme den riktige balansen mellom risiko og nytte i ditt tilfelle.

Videre i mellom disse to ekstreme tilfeller er det jeg vil kalles en inngjerdet hage tilnærming der data deles med folk som oppfyller visse kriterier, og som aksepterer å være bundet av visse regler (for eksempel tilsyn fra en IRB og en data verneplaner) . Dette inngjerdet hage tilnærmingen gir mange av fordelene med utgivelsen og glemme med mindre risiko. Selvfølgelig, skaper en inngjerdet hage tilnærming mange spørsmål-som skal ha tilgang, under hvilke betingelser, for hvor lenge, hvem som skal betale for å opprettholde og politiet walled garden osv-men disse er ikke uoverkommelig. Faktisk er det allerede arbeider inngjerdede hager på plass som forskerne kan bruke akkurat nå, for eksempel arkivet på Inter-universitetet Consortium for Political and Social Research ved University of Michigan.

Så, hvor skal dataene fra studien være på den kontinuum av ingen deling, inngjerdet hage, og slipp og glemme? Det avhenger av detaljene i din data; Forskerne må balansere Respekt for mennesker, velgjørenhet, Justice, og respekt for lov og offentlig interesse. Ved vurdering av hensiktsmessig balanse for andre avgjørelser forskere søke råd og godkjenning av IRBs, og data utgivelsen kan være bare en del av denne prosessen. Med andre ord, selv om noen mennesker tenker på data utgivelsen som en håpløs etisk hengemyr, vi allerede har systemer på plass for å hjelpe forskere å balansere disse slags etiske dilemmaer.

En siste måte å tenke på datadeling er ved analogi. Hvert år biler er ansvarlig for tusenvis av dødsfall, men vi prøver ikke å forby kjøring. Faktisk ville en slik samtale å forby kjøring være absurd fordi kjøre gjør mange fantastiske ting. Snarere legger samfunn begrensninger på hvem som kan kjøre (for eksempel må være en viss alder, må ha bestått visse tester), og hvordan de kan drive (for eksempel under fartsgrensen). Samfunnet har også folk i oppgave å håndheve disse reglene (f.eks politi), og vi straffe folk som er fanget av brudd på dem. Den samme type balansert tenkning som samfunnet gjelder å regulere kjøring kan også brukes til deling av data. Det vil si, heller enn å gjøre eneveldige argumenter for eller mot datadeling, tror jeg de største fordelene vil komme fra å finne ut hvordan vi kan dele mer data på en tryggere måte.

For å konkludere, har informasjons risiko økt dramatisk, og det er svært vanskelig å forutsi og kvantifisere. Derfor er det best å anta at alle data er potensielt identifiserbare og potensielt sensitive. For å redusere informasjons risiko mens gjøre undersøkelser, kan forskerne lage og følge en data verneplan. Ytterligere, informasjons risiko ikke hindre forskere fra å dele data med andre forskere.