6.6.2 ymmärtäminen ja hallinta kattava riskien

Informaatioriski on yhteiskunnallisessa tutkimuksessa yleisimpiä riskejä; se on lisääntynyt dramaattisesti; ja se on vaikein riski ymmärtää.

Toinen digitaalisen ikäluokituksen eettinen haaste on informaatioriski , joka saattaa haitata tietojen paljastamista (National Research Council 2014) . Henkilötietojen paljastamisesta aiheutuvat haitalliset vaikutukset voivat olla taloudellisia (esim. Työn menettäminen), sosiaaliset (esim. Hämmennykset), psykologiset (esim. Masennus) tai jopa rikolliset (esim. Pidättäminen laittomasta käyttäytymisestä). Valitettavasti digitaalinen aikakausi lisää informaatioriskiä dramaattisesti - vain paljon enemmän tietoa käyttäytymisestämme. Informaatioriski on osoittautunut erittäin vaikeaksi ymmärtää ja hallita verrattuna analogisiin yhteiskunnallisiin tutkimuksiin, kuten fyysiseen riskiin, liittyvistä riskeistä.

Yksi tapa, että sosiaalinen tutkijat pienentää kattava riski on "nimettömäksi" tietoja. "Nimettömäksi" on prosessi poistaa ilmeinen henkilökohtaisten tunnisteiden, kuten nimi, osoite, ja puhelinnumero tiedoista. Tämä lähestymistapa on paljon vähemmän tehokas kuin monet ihmiset ymmärtävät, ja se on itse asiassa syvästi ja pohjimmiltaan rajoitettu. Tästä syystä aina kun kuvaan "nimettömäksi," minä käytän lainausmerkkejä muistuttaa, että tämä prosessi luo ulkonäkö nimettömänä, mutta ei ole totta anonymiteetin.

Elävä esimerkki epäonnistumisesta on peräisin 1990-luvun lopulta Massachusettsissa (Sweeney 2002) . Konsernin vakuutuskomissio (GIC) oli valtion virasto, joka on vastuussa kaikkien valtion työntekijöiden sairausvakuutuksen ostamisesta. Tämän työn kautta GIC keräsi yksityiskohtaisia ​​terveysrekistereitä tuhansista valtion työntekijöistä. Tutkimuksen edistämiseksi GIC päätti julkaista nämä tiedot tutkijoille. He eivät kuitenkaan jakaneet kaikkia tietojaan; pikemminkin he "anonyyroivat" nämä tiedot poistamalla tietoja, kuten nimiä ja osoitteita. He luopuivat kuitenkin muista tiedoista, joita he ajattelivat voivan olla hyödyllisiä tutkijoille, kuten väestötieteellisille tiedoille (postinumero, syntymäpäivä, etnisyys ja sukupuoli) sekä lääketieteelliset tiedot (vierailutiedot, diagnoosi, menettely) (kuva 6.4) (Ohm 2010) . Valitettavasti tämä "nimettömyys" ei riittänyt suojaamaan tietoja.

Kuva 6.4: Anonymisaatio on prosessi, jolla poistetaan ilmeisesti tunnistet- tavat tiedot. Esimerkiksi julkisten työntekijöiden sairausvakuutustodistusten vapauttamisen yhteydessä Massachusetts Group Insurance Commission (GIC) poistasi tiedostojen nimet ja osoitteet. Käytän lainausmerkkejä sanan nimettömyyden ympärille, koska prosessi antaa nimettömyyden ulkoasun mutta ei varsinaista nimettömyyttä.

Kuva 6.4: "Anonymisaatio" on prosessi, jolla poistetaan ilmeisesti tunnistettavat tiedot. Esimerkiksi julkisten työntekijöiden sairausvakuutustodistusten vapauttamisen yhteydessä Massachusetts Group Insurance Commission (GIC) poistasi tiedostojen nimet ja osoitteet. Käytän lainausmerkkejä sanan "anonymisaation" ympärille, koska prosessi antaa nimettömyyden ulkoasun mutta ei varsinaista nimettömyyttä.

GIC: n "anonymisoinnin" puutteiden havainnollistamiseksi Latanya Sweeney - sitten MIT: n jatko-opiskelija - maksoi 20 dollaria äänestysrekisteristä Massachusettsin kuvernöörin William Weldin kotikaupungista Cambridgesta. Nämä äänestystiedot sisälsivät tietoja, kuten nimi, osoite, postinumero, syntymäaika ja sukupuoli. Sillä, että lääketieteellisen datatiedoston ja äänestystiedoston jakamat kentät - postinumero, syntymäpäivä ja sukupuoli - merkitsivät sitä, että Sweeney voisi yhdistää ne. Sweeney tiesi, että Weldin syntymäpäivä oli 31. heinäkuuta 1945, ja äänestystulokset sisälsivät vain kuusi henkilöä Cambridgen kanssa syntymäpäivänä. Lisäksi kuudesta henkilöstä vain kolme oli miespuolisia. Ja näistä kolmesta miehestä vain yksi yhteinen Weldin postinumero. Siten äänestystiedot osoittivat, että Weldin syntymäpäivä, sukupuoli ja postinumero olivat kaikki William Weldin lääketieteellisissä tiedoissa. Pohjimmiltaan nämä kolme informaatiota antoivat hänelle yksilöllisen sormenjäljen . Käyttämällä tätä tosiasiaa, Sweeney pystyi paikantamaan Weldin lääketieteelliset tietueet ja kertoi hänelle hänen esityksestään hänelle jäljennöksen rekisteristä (Ohm 2010) .

Kuva 6.5: Anonymisoitujen tietojen uudelleenidentifiointi. Latanya Sweeney yhdistää nimettömät terveyskirjat äänestysrekisteriin, jotta löydettäisiin Sweeney (2002), kuva 1, kuvernöörin William Weld Adaptedin lääketieteelliset tiedot.

Kuva 6.5: Anonymisoitujen tietojen uudelleen tunnistaminen. Latanya Sweeney yhdistää "nimettömät" terveystiedot äänestysrekisteriin, jotta löytäisi Sweeney (2002) kuvernöörin William Weld Adaptedin lääketieteelliset tiedot Sweeney (2002) kuva 1).

Sweeney työ havainnollistaa perusrakennetta uudella tunnisteella hyökkäyksiä -To hyväksyä termin tietoturva yhteisössä. Näissä hyökkäyksissä kaksi tietojoukkoa, joista kumpikaan ei yksin paljasta arkaluonteisia tietoja, liitetään yhteen, ja tämän yhteyden kautta arkaluonteiset tiedot ovat alttiina.

Vastauksena Sweeneyn työhön ja muuhun siihen liittyvään työhön tutkijat nyt yleensä poistavat paljon enemmän tietoa - kaikki ns. "Henkilökohtaisesti tunnistettavat tiedot" (Narayanan and Shmatikov 2010) - "anonymisoinnin" aikana. Lisäksi monet tutkijat nyt ymmärtää, että tietyt tiedot - kuten lääketieteelliset tietueet, taloudelliset tiedot, vastaukset kyselyihin laittomasta käyttäytymisestä - ovat todennäköisesti liian herkkiä vapauttamaan myös "anonymisoinnin" jälkeen. Kuitenkin esimerkit, jotka aion antaa, viittaavat siihen, että sosiaaliset tutkijat tarvitsevat muuttaa ajatteluaan. Ensimmäisenä vaiheena on järkevää olettaa, että kaikki tiedot ovat mahdollisesti tunnistettavissa ja kaikki tiedot ovat mahdollisesti herkkiä. Toisin sanoen sen sijaan, että ajattelemme, että informaatioriski koskee pieniä projektihankkeita, meidän pitäisi olettaa, että sitä sovelletaan jossain määrin kaikkiin hankkeisiin.

Molempia näkökulmia tässä uudelleensuuntaamisessa on kuvattu Netflix-palkinnolla. Kuten luvussa 5 on kuvattu, Netflix julkaisi lähes 100 000 elokuvan arvosteluja lähes 500 000 jäsenestä ja kävi avoimen puhelun, jossa ihmiset ympäri maailmaa lähettivät algoritmeja, jotka voisivat parantaa Netflixin suosimista. Ennen tietojen luovuttamista Netflix poisti kaikki ilmeiset henkilökohtaiset tunnistetiedot, kuten nimet. He myös menivät ylimääräisen askeleen ja lisäsivät hieman levytyksiä joihinkin tietueisiin (esim. Muuttamalla luokkia 4 tähteä 3 tähteä). He havaitsivat kuitenkin pian, että huolimatta ponnisteluistaan ​​tiedot eivät olleet missään nimettöminä.

Vain kaksi viikkoa tietojen julkaisemisen jälkeen Arvind Narayanan ja Vitaly Shmatikov (2008) osoittivat, että oli mahdollista oppia tiettyjen ihmisten elokuvan mieltymyksistä. Niiden uudelleenidentifikaation hyökkäyksen temppu oli samanlainen kuin Sweeney'sin: yhdistää kaksi tietolähdettä, joista toinen on mahdollisesti arkaluonteisia tietoja eikä tietenkään tunnisteta tietoa ja joka sisältää ihmisten identiteetit. Jokainen näistä tietolähteistä voi olla erikseen turvallinen, mutta kun ne yhdistetään, sulautunut tietojoukko voi muodostaa informaatioriskiä. Netflix-tietojen tapauksessa tässä on se, miten se voisi tapahtua. Kuvittele, että haluan jakaa ajatukseni toiminta- ja komediaelosteista työtovereiden kanssa, mutta en halua mieluummin jakaa mielipiteeni uskonnollisista ja poliittisista elokuvista. Yhteistyökumppanit voisivat käyttää niitä tietoja, jotka olen jakanut heidän kanssaan etsimään tietojani Netflix-tietoihin; ostamani tiedot voivat olla ainutlaatuinen sormenjälki aivan kuten William Weldin syntymäpäivä, postinumero ja sukupuoli. Sitten, jos he löysivät ainutlaatuisen sormenjälkeni tietoihin, he voisivat oppia luokitteluni kaikista elokuvista, mukaan lukien elokuvista, joita en valinnut jakamasta. Sen lisäksi, että Narayanan ja Shmatikov kohdistivat kohderyhmään kohdistuvan kohdennetun hyökkäyksen lisäksi, Narayanan ja Shmatikov osoittivat myös, että oli mahdollista tehdä laajamittainen hyökkäys - yksi, johon kuului monia ihmisiä - yhdistämällä Netflix-tiedot henkilökohtaisten ja elokuvien luokitustietoihin, jotka jotkut ihmiset ovat valinneet julkaista Internet Movie Database (IMDb). Yksinkertaisesti, mikä tahansa tieto, joka on ainutlaatuinen sormenjälki tietylle henkilölle - jopa niiden elokuvamäärityksiä - voidaan käyttää niiden tunnistamiseen.

Vaikka Netflix-tiedot voidaan tunnistaa uudelleen kohdennetulla tai laajalla hyökkäyksellä, siltä voi silti olla pieni riski. Loppujen lopuksi elokuvien arviot eivät näytä kovin herkiltä. Vaikka tämä saattaa olla totta yleisesti, joitain 500 000 ihmistä tietokokonaisuudessa elokuva-arvot voivat olla melko herkkiä. Itse asiassa vastauksen uudelleen tunnistamiseen, suljettu lesbo nainen liittyi luokan toimia vastaan ​​Netflix. Näin ongelmasta (Singel 2009) oikeusjuttu (Singel 2009) :

"[M] ovie ja luokitustiedot sisältävät tietoja ... erittäin henkilökohtaisesta ja arkaluonteisesta luonteesta. Jäsenen elokuva-aineisto paljastaa Netflixin jäsenen henkilökohtaisen kiinnostuksen ja / tai kamppailun erilaisilla erittäin henkilökohtaisilla kysymyksillä, kuten seksuaalisuudella, mielenterveydellisellä sairaudella, alkoholiolääkityksestä ja uhriksi incestistä, fyysisestä hyväksikäytöstä, perheväkivallasta, aviorikoksesta ja raiskauksesta. "

Netflix-palkintotietojen uudelleen tunnistaminen osoittaa, että kaikki tiedot ovat mahdollisesti tunnistettavissa ja että kaikki tiedot ovat mahdollisesti herkkiä. Tässä vaiheessa saatat ajatella, että tämä koskee vain tietoja, jotka koskevat ihmisiä. Yllättäen, näin ei ole. Vastauksena Freedom of Information Law -pyyntöön New Yorkin hallitus julkaisi tiedot jokaisesta taksimatkasta New Yorkissa vuonna 2013, mukaan lukien nouto- ja pudotusaikoja, paikkoja ja hintamääriä (muistakaa, että Farber (2015) käytti samankaltaisia ​​tietoja laboratoriotalouden tärkeiden teorioiden testaamiseen). Nämä tiedot taksimatkoista saattavat tuntua hyvältä, koska he eivät näytä tarjoavan tietoa ihmisistä, mutta Anthony Tockar tajusi, että tämä taksitietokanta sisälsi todella paljon arkaluonteisia tietoja ihmisistä. Havainnollistamiseksi hän katsoi kaikkia Hustler Club -tapahtumaa - suurta kaistaleita New Yorkissa - keskiyön ja kello 6 välillä ja löysi sitten pudotuspisteet. Tämä haku paljasti lähinnä luettelon niistä henkilöistä, jotka kävivät Hustler Clubissa (Tockar 2014) . On vaikea kuvitella, että kaupungin hallitus oli sitä mieltä, kun se julkaisi tiedot. Itse asiassa tätä samaa tekniikkaa voitaisiin käyttää etsimään ihmisten kotisoitoja, jotka käyvät missä tahansa kaupungissa - lääkärikeskuksessa, valtion rakennuksessa tai uskonnollisessa laitoksessa.

Nämä kaksi Netflix-palkinnon ja New York Cityn taksiin liittyvää tapausta osoittavat, että suhteellisen ammattitaitoiset henkilöt eivät pysty arvioimaan oikein tietojenvaihdosta niiden vapauttamissa tiedoissa - ja nämä tapaukset eivät ole ainutlaatuisia (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Lisäksi monissa tällaisissa tapauksissa ongelmalliset tiedot ovat edelleen vapaasti saatavilla verkossa, mikä viittaa siihen, että tiedon vapauttamista ei ole koskaan purettu. Yhteenvetona nämä esimerkit - samoin kuin tietojenkäsittelytieteellinen tutkimus tietosuojasta - johtavat tärkeään lopputulokseen. Tutkijoiden tulisi olettaa, että kaikki tiedot ovat mahdollisesti tunnistettavissa ja kaikki tiedot voivat olla herkkiä.

Valitettavasti ei ole olemassa yksinkertaista ratkaisua tosiasioihin, että kaikki tiedot ovat mahdollisesti tunnistettavissa ja että kaikki tiedot ovat mahdollisesti arkaluonteisia. Yksi tapa vähentää informaatioriskiä, ​​kun työskentelet tietojen kanssa, on luoda ja noudattaa tietosuojasuunnitelmaa . Tämä suunnitelma vähentää mahdollisuutta, että tietosi vuotavat ja vähentää haittaa, jos vuoto jotenkin tapahtuu. Tietosuojasuunnitelmien erityispiirteet, kuten käyttämättömän salauksen muoto, muuttuvat ajan myötä, mutta Yhdistyneen kuningaskunnan tietopalvelut auttavat järjestämään tietosuojasuunnitelman elementit viiteen luokkaan, joita he kutsuvat viideksi kassakaapiksi : turvalliset projektit, turvalliset henkilöt , turvalliset asetukset, turvalliset tiedot ja turvalliset lähdöt (taulukko 6.2) (Desai, Ritchie, and Welpton 2016) . Mikään viidestä kassasta erikseen antaa täydellisen suojan. Mutta yhdessä ne muodostavat voimakkaan joukon tekijöitä, jotka voivat vähentää informaatioriskiä.

Taulukko 6.2: "Viisi kassakaapelia" ovat periaatteet tietosuojasuunnitelman suunnittelulle ja toteuttamiselle (Desai, Ritchie, and Welpton 2016)
turvallinen Toiminta
Turvallisia hankkeita Rajoittaa projekteja, joissa on tietoja eettisiin tietoihin
Turvallisia ihmisiä Pääsy rajoittuu henkilöihin, joille voidaan luottaa tietoihin (esim. Ihmiset, jotka ovat eettisen koulutuksen alaisia)
Turvalliset tiedot Tiedot erotellaan ja aggregoidaan siinä määrin kuin mahdollista
Turvalliset asetukset Tiedot tallennetaan tietokoneisiin, joissa on asianmukainen fyysinen (esim. Lukittu huone) ja ohjelmistot (esim. Salasanasuojaus, salattu)
Turvallinen lähtö Tutkimustuloksia tarkastellaan, jotta vältetään vahingossa tapahtuva yksityisyyden rikkominen

Sen lisäksi, että suojaat tietojasi käyttäessäsi niitä, yksi vaihe tutkimusprosessissa, jossa informaatioriski on erityisen tärkeä, on tiedon jakaminen muiden tutkijoiden kanssa. Tiedon jakaminen tutkijoiden joukossa on tieteellisen toiminnan ydinarvo, ja se helpottaa huomattavasti tietämyksen lisäämistä. Yhdistyneen kuningaskunnan parlamentin alahuone kuvasi tietojen jakamisen tärkeyttä (Molloy 2011) :

"Tietojen saatavuus on olennaisen tärkeää, jos tutkijat haluavat toistaa, tarkistaa ja kehittää kirjallisuudessa raportoituja tuloksia. Oletuksena on, että ellei ole muuta syytä, tietojen on oltava täysin julkisia ja julkisesti saatavilla. "

Kuitenkin, jakamalla tietosi toisen tutkijan kanssa, saatat lisätä tiedonhankintavaaraa osallistujille. Näin ollen voi tuntua, että tiedon jakaminen luo perustavanlaatuisen jännitteen velvollisuudesta jakaa tietoja muiden tutkijoiden kanssa ja velvollisuudesta minimoida informaatioriski osallistujille. Onneksi tämä ongelma ei ole niin vakava kuin se näyttää. Pikemminkin on parempi ajatella tiedon jakamista pitkin jatkumoa, ja jokainen kohta siitä jatkumosta antaa erilaisen yhteiskunnallisen edun ja osallistujien riskin (kuva 6.6).

Yhdessä ääripäässä voit jakaa tietoja kenenkään kanssa, mikä minimoi osallistujien riskin, mutta minimoi myös yhteiskunnallistulot. Toisessa ääripäässä voit vapauttaa ja unohtaa , jos tiedot "anonyyvät" ja lähetetään kaikille. Suhteessa tietojen vapauttamiseen, vapauttamiseen ja unohtamiseen tarjoaa sekä yhteiskunnan suuremmat hyödyt että osallistujille korkeammat riskit. Näiden kahden ääritapauksen välillä on useita hybridejä, mukaan lukien kutsuttu aidattu puutarha- lähestymistapa. Tämän lähestymistavan mukaan tietoja jaetaan tietyille kriteereille, jotka sitoutuvat noudattamaan tiettyjä sääntöjä (esim. Valvonta IRB: stä ja tietosuojasuunnitelmasta). Seinäpuutarhan lähestymistapa tarjoaa monia vapautuksen ja unohtamisen edut pienemmällä riskillä. Tietenkin tällainen lähestymistapa luo monia kysymyksiä - kenen pitäisi päästä käsiksi, millä edellytyksillä ja kuinka kauan, kenen pitäisi maksaa pitämään puutarhoja ja poliiseja jne. - mutta ne eivät ole ylitsepääsemättömiä. Itse asiassa jo toimivat aidattuja puutarhoja, joita tutkijat voivat käyttää juuri nyt, kuten Michiganin yliopiston poliittisen ja sosiaalisen tutkimuksen yliopistojen välisen yhteenliittymän tietovarasto.

Kuva 6.6: Tiedonsiirtostrategiat voivat pudota jatkuvuutta pitkin. Jos haluat jatkaa kyseistä jatkumoa, riippuu tietojesi täsmällisistä yksityiskohdista ja kolmannen osapuolen tarkistus voi auttaa sinua valitsemaan asianmukainen riski- ja etuusraja. Tämän käyrän tarkka muoto riippuu tietojen ja tutkimustavoitteiden erityisistä ominaisuuksista (Goroff 2015).

Kuva 6.6: Tiedonsiirtostrategiat voivat pudota jatkuvuutta pitkin. Jos haluat jatkaa kyseistä jatkumoa, riippuu tietojesi täsmällisistä yksityiskohdista ja kolmannen osapuolen tarkistus voi auttaa sinua valitsemaan asianmukainen riski- ja etuusraja. Tämän käyrän tarkka muoto riippuu tietojen ja tutkimustavoitteiden erityisistä ominaisuuksista (Goroff 2015) .

Joten, mikäli tutkimustesi tiedot olisivat jatkuvaa jakamattomien, aidattujen puutarhojen jatkuvuutta ja vapauttamaan ja unohtamaan? Tämä riippuu tietojen yksityiskohdista: tutkijoiden on tasapainotettava henkilöiden kunnioittaminen, hyvinvointi, oikeudenmukaisuus ja lain ja yleisen edun kunnioittaminen. Tätä näkökulmasta katsottuna tietojen jakaminen ei ole erottamiskykyinen etiikka; se on vain yksi monista tutkimuksen osa-alueista, joissa tutkijoiden on löydettävä sopiva eettinen tasapaino.

Jotkut arvostelijat vastustavat yleensä tietojen jakamista, koska mielestäni he ovat keskittyneet sen epäilemättä todellisiin riskeihin ja jättävät huomiotta sen edut. Joten haluaisin keskittyä sekä riskeihin että hyötyihin, haluan tarjota analogian. Joka vuosi autot ovat vastuussa tuhansista kuolemantapauksista, mutta emme yritä kieltää ajamista. Itse asiassa kiellon ajaminen olisi järjetöntä, koska ajaminen mahdollistaa monia ihmeellisiä asioita. Pikemminkin yhteiskunta asettaa rajoituksia siihen, kuka voi ajaa (esim. Tarve olla tietty ikä ja läpäissyt tietyt testit) ja miten he voivat ajaa (esim. Nopeusrajalla). Yhteiskunnalla on myös ihmisiä, joiden tehtävänä on noudattaa näitä sääntöjä (esim. Poliisi) ja rangaista ihmisiä, jotka joutuvat rikkomaan heitä. Samaa tasapainoista ajattelutapaa, jota yhteiskunta soveltaa ajon ohjaukseen, voidaan soveltaa myös tietojen jakamiseen. Se tarkoittaa, että sen sijaan, että annettaisiin absolutistisia perusteluja tietojen jakamiseen tai sitä vastaan, mielestäni voimme edistyä parhaiten keskittymällä siihen, miten voimme vähentää riskejä ja lisätä tietojen jakamisen hyötyjä.

Lopuksi tietoriski on kasvanut dramaattisesti, ja sitä on hyvin vaikea ennustaa ja kvantifioida. Siksi on parasta olettaa, että kaikki tiedot ovat mahdollisesti tunnistettavissa ja mahdollisesti herkkiä. Informaation riskin vähentämiseksi tutkimustyön aikana tutkijat voivat luoda tietosuojasuunnitelman ja noudattaa sitä. Lisäksi informaatioriski ei estä tutkijoita jakamasta tietoja muiden tutkijoiden kanssa.