6.6.2 ymmärtäminen ja hallinta kattava riskien

Tämä käännös on luotu tietokoneella. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

6.6.2 ymmärtäminen ja hallinta kattava riskien

Tiedot riski on yleisin riski yhteiskuntatutkimuksen; se on lisääntynyt dramaattisesti; ja se on vaikein riski ymmärtää.

Toinen eettinen haaste sosiaalista ikää digitaalisen tutkimus on kattava riski, mahdollisesti haittaa siitä ilmoittaminen (Council 2014) . Kattava haittoja päässä henkilötietojen luovuttamiseen voi olla taloudellisia (esim työn menettämisen), sosiaalinen (esim hämmennystä), psykologinen (esim masennus), tai jopa rikollinen (esim pidätys laittoman käyttäytymisen). Valitettavasti digitaaliaikaan lisää tietoa riskiä huomattavasti-on vain niin paljon enemmän tietoa käyttäytymisestä. Ja kattava riski on osoittautunut hyvin vaikea ymmärtää ja hallita verrattuna riskejä, jotka olivat huolenaiheet analoginen ikä sosiaalisen tutkimuksen, kuten fyysinen riski. Nähdä, miten digitaaliaikaan kasvaa kattava riskiä, harkitse siirtymistä paperista sähköiseen potilastiedot. Molemmat kirjaa luoda riskin, mutta sähköisiä tallenteita luoda paljon enemmän riskejä koska massiivisesti ne voidaan välittää luvatonta osapuolelle ja yhdistetty muihin kirjaa. Sosiaalinen tutkijat digitaaliaikaan on jo joutunut vaikeuksiin kattava riski, osittain koska ne eivät täysin ymmärrä, miten määrällisesti ja hallita sitä. Joten, aion tarjota hyödyllinen tapa ajatella kattava riski, ja sitten aion antaa teille joitakin neuvoja miten hallita kattava riski oman tutkimuksen ja vapauttamalla tietoja muille tutkijoille.

Yksi tapa, että sosiaalinen tutkijat pienentää kattava riski on "nimettömäksi" tietoja. "Nimettömäksi" on prosessi poistaa ilmeinen henkilökohtaisten tunnisteiden, kuten nimi, osoite, ja puhelinnumero tiedoista. Tämä lähestymistapa on paljon vähemmän tehokas kuin monet ihmiset ymmärtävät, ja se on itse asiassa syvästi ja pohjimmiltaan rajoitettu. Tästä syystä aina kun kuvaan "nimettömäksi," minä käytän lainausmerkkejä muistuttaa, että tämä prosessi luo ulkonäkö nimettömänä, mutta ei ole totta anonymiteetin.

Elävä esimerkki epäonnistumisesta "nimettömäksi" tulee 1990-luvun lopulla Massachusettsissa (Sweeney 2002) . Ryhmävakuutukseen komissio (GIC) oli valtion virasto, joka vastaa osto sairausvakuutus kaikille valtion työntekijöille. Tämän työn GIC kerätään yksityiskohtaista potilastiedot noin tuhansia valtion työntekijöitä. Kun pyritään kannustamaan tutkimusta tavoista parantaa terveyttä, GIC päätti vapauttaa nämä tiedot tutkijoille. Kuitenkin, he eivät jakaa kaikki tietonsa; vaan ne "nimettömiksi" se poistamalla tietoja, kuten nimi ja osoite. Kuitenkin he jättivät muita tietoja, jotka heidän mielestään voisi olla hyödyllinen tutkijoille kuten demografisia tietoja (postinumero, syntymäaika, kansallisuus ja sukupuoli) sekä lääketieteellistä tietoa (vierailu data, diagnoosi, menettely) (kuva 6.4) (Ohm 2010) . Valitettavasti tämä "anonymisoin-" ei ole riittävä suojaamaan tietoja.

Kuva 6.4: "nimettömäksi" on prosessi poistaa ilmeisesti tunnistetietoja. Esimerkiksi kun vapauttaen sairausvakuutus kirjaa valtion työntekijöiden Massachusetts Ryhmävakuutus komission (GIC) poistettiin nimi ja osoite tiedostoista. Käytän lainausmerkkejä noin sana "nimettömäksi", koska prosessi tarjoaa ulkonäkö nimettömänä, mutta ei varsinainen anonymiteetin.

Havainnollistamiseksi puutteita GIC "nimettömäksi", Latanya Sweeney-sitten jatko-opiskelija MIT-maksanut $ 20 hankkia äänestysrekistereistä kaupungin Cambridge, kotikaupunki Massachusettsin kuvernööri William Weld. Nämä äänestysrekistereistä sisältyvät tiedot, kuten nimi, osoite, postinumero, syntymäaika, ja sukupuoli. Se seikka, että lääketieteelliset tiedot tiedostoon ja äänestäjä tiedosto jaetun kentät-postinumero, syntymäaika, ja sukupuoli-tarkoitti sitä, että Sweeney voisi linkittää ne. Sweeney tiesi Weld syntymäpäivä oli 31 heinäkuu 1945, ja äänestysrekistereistä mukana vain kuusi ihmistä Cambridge kanssa syntymäpäivä. Edelleen, nämä kuusi ihmistä, vain kolme oli miehiä. Ja näistä kolme miestä, vain yksi yhteinen Weld postinumeron. Siten äänestys tiedot osoittivat, että kuka tahansa lääketieteen tietoja Weld n yhdistelmä syntymäaika, sukupuoli, ja postinumero oli William Weld. Varsinaisesti nämä kolme tietoa tarjosi ainutlaatuisen sormenjäljen hänelle tietoja. Käyttämällä tämän tosiasian, Sweeney oli löytänyt Weld potilastiedot, ja ilmoittamaan hänelle hänen feat, hän postitetaan hänelle kopion hänen kirjaa (Ohm 2010) .

Kuva 6.5: Re-idenification Nimettömien tietojen. Latanya Sweeney yhdisti anonymisoidaan potilaskertomukseen kanssa äänestysrekistereistä jotta löydettäisiin potilaskertomus Governor William Weld (Sweeney 2002).

Kuva 6.5: Re-idenification of "anonymisoidaan" data. Latanya Sweeney yhdisti "nimettömiksi" potilastiedot kanssa äänestysrekistereistä jotta löydettäisiin potilaskertomus Governor William Weld (Sweeney 2002) .

Sweeney työ havainnollistaa perusrakennetta de-nimettömäksi hyökkäyksiä -to hyväksyä termin tietoturva yhteisössä. Näissä iskut, kaksi tiedostoa, joista kumpikaan ei itse paljastaa arkaluontoisia tietoja, ovat yhteydessä toisiinsa, ja kautta tämä yhteys, arkaluonteisia tietoja on alttiina. Jollain tavalla tämä prosessi on samanlainen siten, että ruokasoodaa ja etikka, kaksi aineita, jotka ovat sinänsä turvallisia, voidaan yhdistää tuottaa ikävä lopputulos.

Vastauksena Sweeney työtä ja muuta siihen liittyvää toimintaa, tutkijat nyt yleisesti poistaa paljon enemmän tietoa kaikille niin sanottu "yksilöivät tiedot" (PII) (Narayanan and Shmatikov 2010) odotustemme prosessi "nimettömäksi." Edelleen, monet tutkijat nyt ymmärtää, että tietyt tiedot, kuten potilastiedot, kirjanpitoa, vastauksia kyselyihin noin laiton toiminta-on luultavasti liian herkkä vapauttamaan jälkeenkin "nimettömäksi." kuitenkin, uudempi esimerkkejä, minä alla kuvatut osoittavat, että sosiaalinen tutkijoiden on muutettava asennettaan. Ensimmäisessä vaiheessa, se on järkevää olettaa, että kaikki tiedot on mahdollisesti tunnistaa ja kaikki data on mahdollisesti herkkä. Toisin sanoen, sen sijaan ajatella, että kattava riski koskee pieni joukko hankkeita, meidän pitäisi olettaa, että se pätee-jossain määrin-kaikkiin hankkeisiin.

Molemmat näkökohdat Tämän uudelleen suuntautumisen havainnollistetaan Netflix palkinnon. Kuten luvussa 5, Netflix julkaistiin 100 miljoonaa arvostelun joukkoon, jonka lähes 500000 jäsentä, ja oli avoin kutsu, jossa ihmiset eri puolilta maailmaa esitti algoritmeja, jotka voisivat parantaa Netflix kykyä suositella elokuvia. Varmista ennen tietojen, Netflix poistanut ilmeisesti henkilökohtaisesti tunnistetietoja, kuten nimiä. Netflix meni myös yksi vaihe ja käyttöön vähäisiä häiriöitä joidenkin kirjaa (esim muuttaa joitakin luokitukset 4 tähteä 3 tähteä). Netflix pian havaittiin kuitenkin, että yrityksistään huolimatta, tiedot eivät olleet mitenkään anonyymi.

Vain kahden viikon kuluttua tietojen vapautettiin Narayanan and Shmatikov (2008) osoitti, että oli mahdollista oppia tiettyjä ihmisten elokuva mieltymykset. Temppu heidän uudella tunnisteella hyökkäys oli samanlainen Sweeney n: yhdistää yhteen kaksi tietolähteitä, joista mahdollisesti arkaluonteisia tietoja, eikä ilmeisesti tunnistetietoja ja joka sisältää ihmisten identiteettiä. Kukin näistä tietolähteistä voi olla erikseen turvallista, mutta kun ne yhdistetään sulautunut aineisto voidaan luoda kattava riskiä. Kun kyseessä on Netflix tietojen tässä miten se voisi tapahtua. Kuvittele, että päätän jakaa ajatuksia toiminta ja komedia elokuvia työtoverini, mutta en halua jakaa mielipiteeni uskonnollisia ja poliittisia elokuvia. Työtoverini voisivat käyttää tietoja, jotka Olen jakanut heidän löytää oma kirjaa Netflix data; tiedot, jotka jaan voi olla ainutlaatuinen sormenjälki kuten William Weld syntymäaika, postinumero ja sukupuoli. Sitten, jos he löydä ainutlaatuisen sormenjäljen tiedot, he voivat oppia minun arvosanat kaikista elokuvista, kuten elokuvia missä en halua jakaa. Tämän lisäksi täsmäpolitiikkaa hyökkäys keskittyi yksi henkilö, Narayanan and Shmatikov (2008) osoittivat myös, että oli mahdollista tehdä laaja hyökkäys onin mukana monet ihmiset yhdistämällä Netflix tietoja henkilökohtaisen ja elokuva nimellisarvot että jotkut ihmiset ovat päättäneet lähettää Internetissä Movie Database (IMDb). Kaikki tiedot, jotka on ainutlaatuinen sormenjälki tietylle henkilölle-jopa niiden joukko elokuvan asiakasriskiluokituksiin voidaan käyttää tunnistamaan niitä.

Vaikka Netflix data voidaan uudelleen tunnistettu joko kohdennetusti tai laaja hyökkäys, se saattaa silti näyttää olevan vähäinen riski. Loppujen lopuksi elokuva luokitukset eivät näytä kovin herkkä. Vaikka se saattaisi olla totta yleensä joillekin 500000 ihmistä aineisto, elokuva arvosanat saattavat olla varsin herkkä. Itse vastauksena de-nimettömäksi kaapissa lesbo nainen liittynyt ryhmäkanteisiin puku vastaan Netflix. Näin ongelma ilmaistiin niiden oikeusjuttu (Singel 2009) :

"[M] Ovie ja luokitus tiedot sisältävät tietoja entistä hyvin henkilökohtainen ja arkaluonteisia [sic]. Jäsenen elokuva data paljastaa Netflix jäsenen henkilökohtaista etua ja / tai kamppailut erilaisilla erittäin henkilökohtaisista asioista, kuten seksuaalisuuteen, mielisairaus, toipuminen alkoholismista ja uhriutumisesta alkaen insesti, fyysistä väkivaltaa, perheväkivalta, aviorikos, ja raiskaus. "

De-nimettömäksi Netflix palkinnon tiedot havaintomalli että kaikki data on mahdollisesti tunnistettavissa ja että kaikki tiedot on mahdollisesti herkkä. Tässä vaiheessa, saatat ajatella, että tämä koskee vain tietoja, jotka väittää olevansa ihmisistä. Yllättävää kyllä, näin ei ole asia. Vastauksena Freedom of Information Law pyynnöstä New Yorkin hallituksen julkaissut kirjaa jokaisen taksimatkan New Yorkissa vuonna 2013, mukaan lukien pickup ja pudota pois kertaa, paikat, ja hinta määrät (recall luvun 2 että Farber (2015) käytti tätä tietoa testata tärkeitä teorioiden työn taloustieteen). Vaikka tämä tietoa taksi matkat voi tuntua hyvänlaatuinen, koska se ei näytä olevan tietoja henkilöistä, Anthony Tockar huomasi, että tämä taksi aineisto todella sisälsi paljon mahdollisesti arkaluonteisia tietoja ihmisistä. Asian havainnollistamiseksi hän katsoi kaikki matkat alkavat The Hustler Club-suuri strippiklubi New York-välillä keskiyön ja klo 6 ja sen jälkeen löysivät drop-off paikkoja. Tämä haku paljasti-pohjimmiltaan-listan osoitteista joitakin ihmisiä, jotka usein Hustler Club (Tockar 2014) . On vaikea kuvitella, että kaupungin hallitus oli tämä mielessään julkaisi tiedot. Itse asiassa tätä samaa tekniikkaa voitaisiin käyttää löytää kotiosoite ihmiset käydä mitään paikka kaupungissa, lääkäriasema, hallituksen rakennuksen tai uskonnollinen järjestö.

Nämä kaksi tapausta-Netflix palkinnon sekä New Yorkin taksi data-osoittavat, että suhteellisen osaajia ole oikein arvioida kattava riskiä tietoja, joita ne julkaistiin, ja nämä tapaukset eivät ole mitenkään ainutlaatuinen (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Edelleen, monissa näissä tapauksissa ongelmallinen data on edelleen vapaasti saatavilla verkossa, joka osoittaa vaikeus koskaan avaamalla tietokannan julkaisu. Yhdessä nämä esimerkit-sekä tutkimus tietotekniikassa tietosuoja-johtaa tärkeä johtopäätös. Tutkijoiden pitäisi olettaa, että kaikki tiedot on mahdollisesti tunnistaa ja kaikki data on mahdollisesti herkkä.

Valitettavasti ei ole olemassa yksinkertaista ratkaisua siihen, että kaikki tiedot on mahdollisesti tunnistaa ja kaikki data on mahdollisesti herkkä. Kuitenkin yksi tapa vähentää tietojen riskiä, kun käsittelet on luoda ja seurata tietosuojan suunnitelma. Tämä suunnitelma vähentää mahdollisuutta, että tiedot vuotaa ja vähentävät haittaa, jos vuoto jotenkin tapahtuu. Yksityiskohtien tietosuojan suunnitelmia, kuten mikä salausta käyttää, muuttuvat ajan myötä, mutta Britannian Data Services avuliaasti järjestää elementit tietosuojan suunnitelman 5 luokkaa, että he kutsuvat 5 kassakaapit: turvallinen projekteja, turvallinen ihmisille , turvallinen asetukset, turvallinen tietojen ja lähdöllä (taulukko 6.2) (Desai, Ritchie, and Welpton 2016) . Mikään viidestä kassakaapit yksilöllisesti tarjoamaan täydellisen suojan. Mutta yhdessä ne muodostavat tehokas joukko tekijöitä, jotka voivat pienentää kattava riskiä.

Taulukko 6.2: 5 kassakaapit ovat periaatteita suunnitteluun ja toteutukseen tietosuojan suunnitelma (Desai, Ritchie, and Welpton 2016) .
turvallinen	Toiminta
turvallinen projekteja	rajoitetaan hankkeiden tiedot, jotka ovat eettisiä
turvallinen ihmiset	Pääsy rajoittuu ihmisiä, jotka voi luottaa tietoja (esimerkiksi ihmiset ovat läpikäyneet eettinen koulutus)
turvallinen data	data on de-tunnistetaan ja yhdistetään mahdollisuuksien
turvallinen asetukset	Tiedot tallennetaan tietokoneille asianmukaiset fyysiset (esim lukittuun huoneeseen) ja ohjelmiston (esim salasanasuojaus, salattu) suojaukset
turvallinen ulostulo	tutkimustuotoksista tarkistetaan estää vahingossa yksityisyyden loukkauksista

Lisäksi suojaa tietoja, kun käytät sitä, yksi askel tutkimuksessa prosessi, jossa kattava riski on erityisen merkittävä on tietojen jakaminen muiden tutkijoiden. Tietojen jakaminen tutkijoiden on perusarvo tieteellisten pyrkimysten ja se suuresti tilat tietämyksen. Näin Britannian alahuoneen kuvattujen tietojen tärkeys jakaminen:

"Tietojen saanti on olennaisen tutkijat ovat lisääntymään, todentaa ja hyödyntää tuloksia, jotka raportoidaan kirjallisuudessa. Olettama on, että jos ei ole vahva syy toisin, tiedot olisi julkistettava kokonaisuudessaan ja julkisesti saatavilla. Tämän mukaisesti periaatteen mahdollisuuksien mukaan liittyvät tiedot kaikkien julkisrahoitteisen tutkimuksen olisi laajasti ja vapaasti käytettävissä. " (Molloy 2011)

Silti, jakamalla tietoja toisen tutkijan, voi olla kasvamassa kattava riski osallistujille. Siten se voi tuntua, että tutkijat, jotka haluavat jakaa tietonsa-tai vaaditaan jakamaan tietoa-kohtaavat perustavanlaatuisen jännitteen. Toisaalta niillä on eettinen velvollisuus jakaa tietoja muiden tutkijoiden, varsinkin jos alkuperäinen tutkimus on julkisesti rahoitettua. Kuitenkin samaan aikaan, tutkijat on eettinen velvollisuus minimoida, niin paljon kuin mahdollista, tiedot vaaran heidän osallistujille.

Onneksi tämä ongelma ei ole niin vakava kuin se näkyy. On tärkeää ajatella tietojen jakamisen pitkin jatkumo ei tietojen jakamiseen vapauttamaan ja unohtaa, missä data on "anonymisoidaan" ja lähetetty kenenkään päästä (Kuva 6.6). Molemmat ääriasennot ovat riskit ja hyödyt. Eli se ei ole automaattisesti kaikkein eettinen asia ei jaa tietoja; tällainen lähestymistapa poistaa monia mahdollisia etuja yhteiskunnalle. Palattuaan Maku, Solmiot, ja aika, esimerkkinä käsitelty aiemmin luvussa, argumentteja tietojen julkaisu, joka keskittyy ainoastaan mahdollisia haittoja ja joka sivuuttaa mahdolliset hyödyt ovat liian yksipuolisia; Minä kuvata ongelmia tämän yksipuolinen, liian suojaava lähestymistapa yksityiskohtaisemmin alla, kun antaa neuvoja päätöksiä edessä epävarmuutta (kohta 6.6.4).

Kuva 6.6: Tietojen julkaisu strategiat voivat pudota pitkin jatkumon. Missä sinun pitäisi olla mukana tämän jatkumon riippuu yksityiskohdista tietoja. Tällöin kolmas osapuoli tarkastelu voi auttaa sinua päättämään sopiva tasapaino riskin ja hyödyn sinun tapauksessa.

Edelleen näiden kahden ääritapauksessa on mitä minä kutsutaan sisäpiiri lähestymistapaa, jossa data jaetaan ihmisille, jotka täyttävät tietyt kriteerit ja jotka sitoutuvat noudattamaan tiettyjä sääntöjä (esim valvonnan peräisin IRB ja tietosuojan suunnitelmat) . Tämä aidattuun lähestymistapa tarjoaa monia etuja vapautumisen ja unohtaa riski on pienempi. Tietenkin, aidattuun lähestymistapa luo monia kysymyksiä-, jolla on oltava, millä ehdoilla, kuinka kauan, kuka maksaa ylläpitää ja valvoa aidattuun jne-, mutta nämä eivät ole ylitsepääsemättömiä. Itse asiassa jo työskentelevät aidatussa puutarhassa paikallaan, että tutkijat voivat käyttää nyt, kuten data-arkisto Inter-yliopiston Consortium for Political ja Social Research at Michiganin yliopistossa.

Joten, jos olisi tietoja oman tutkimuksen olla jatkumo ei jakamiseen, sisäpiiri, ja vapauta ja unohtaa? Se riippuu yksityiskohtia tiedot; Tutkijoiden on tasapainotettava kunnioittaminen Henkilöt, Beneficence oikeus- ja lain noudattaminen ja Public Interest. Arvioidessaan sopiva tasapaino muiden päätösten tutkijoille pyytää neuvoa ja hyväksyminen Sisäiset asiakasriskiluokitukset, ja data vapautuminen voi olla vain yksi osa tätä prosessia. Toisin sanoen, vaikka jotkut ihmiset ajattelevat datan vapautumisen toivoton eettinen suo, meillä on jo järjestelmät paikka auttaa tutkijoita tasapainottamaan tällaisia eettisiä ongelmia.

Viimeinen tapa ajatella tietojen jakaminen on analogisesti. Joka vuosi autot ovat vastuussa tuhansien ihmisten kuoleman, mutta emme yritä kieltää ajo. Itse asiassa, niin puhelu kieltää ajaminen olisi järjetöntä, koska ajo mahdollistaa monia ihania asioita. Pikemminkin, yhteiskunta asettaa rajoituksia, jotka voivat ajaa (esim tarvitse olla tietyn iän, täytyy läpäistä tietyt testit) ja miten he voivat ajaa (esim alle nopeusrajoitus). Yhteiskunta on myös ihmisiä, joiden tehtävänä on varmistaa näiden sääntöjen (esim poliisi), ja me rangaista ihmisiä, jotka ovat kiinni riko niitä. Tämä samanlaista tasapainoisen ajatella, että yhteiskunta koskee säännellään ajo voidaan soveltaa myös tietojen yhteiskäyttöä. Eli sen sijaan että absolutistinen argumentteja puolesta tai vastaan tietojen jakaminen, uskon, että suurimmat hyödyt tulevat mietitään, miten voimme jakaa enemmän tietoa turvallisemmin.

Lopuksi kattava riski on kasvanut huomattavasti, ja se on erittäin vaikea ennustaa ja määrällisesti. Siksi on parasta olettaa, että kaikki tiedot on potentiaalisesti tunnistettavissa ja mahdollisesti herkkä. Voit vähentää kattava riskien kun tekee tutkimusta, tutkijat voivat luoda ja seurata tietosuojan suunnitelma. Lisäksi kattava riski ei estä tutkijoita jakamasta tietoja muiden tutkijoiden.