6.6.2 razumijevanje i upravljanje informacijsko rizika

Rizik Informacija je najčešći rizik u društvenim istraživanjima; to dramatično se povećao; i to je najteži rizik razumjeti.

Drugi etički izazov za socijalnu dob digitalni istraživanja je informativna rizik, potencijal za štetu od otkrivanja informacija (Council 2014) . Informativne Harms iz objavljivanje osobnih podataka mogu biti ekonomske (npr izgubiti posao), socijalna (npr sramote), psihološko (npr depresija), ili čak i kazneno (npr uhićenje zbog nezakonitog ponašanja). Nažalost, digitalno doba povećava informacije rizik dramatično-postoji samo toliko više informacija o našem ponašanju. I, informativne rizik se pokazao vrlo teško razumjeti i upravljati u odnosu na rizike koji su problemi u analogni dobi društvenih istraživanja, kao što su fizičke opasnosti. Da biste vidjeli kako digitalno doba povećava informativnu rizik, smatra da je prijelaz od papira do elektroničkih medicinskih zapisa. Obje vrste zapisa stvaraju rizik, ali su elektronički zapisi stvaraju mnogo veće rizike, jer u masovno ih se može prenijeti na neovlaštene osobe ili spojen s drugim zapisima. Socijalni znanstvenici u digitalno doba već su naišli na poteškoće s informacijskom riziku, dijelom i zbog toga što nisu u potpunosti razumjeti kako kvantificirati i upravljati njime. Dakle, ja ću ponuditi koristan način razmišljanja o informacijskom riziku, a onda ću ti dati neki savjet za kako upravljati informativnu rizik u svom istraživanju i objavljivanju podataka s drugim istraživačima.

Jedan od načina da se društveni znanstvenici smanjuju informativnu rizik je "skrivanja" podataka. "Skrivanje" je proces uklanjanja očite osobne identifikatore kao što su ime, adresa i broj telefona sa podacima. Međutim, ovaj pristup je mnogo manje učinkovita nego što mnogi ljudi shvatiti, a to je, u stvari, duboko i fundamentalno ograničena. Iz tog razloga, kad god sam opisao "skrivanje" Ja ću koristiti navodnike da vas podsjetim da je taj proces stvara dojam anonimnosti, ali nije istina anonimnost.

Zoran primjer neuspjeha "skrivanja" dolazi od kasnih 1990-ih u Massachusettsu (Sweeney 2002) . O osiguranju Komisija Group (GIC) je vladina agencija odgovorna za kupnju zdravstveno osiguranje za sve državne službenike. Kroz ovaj rad, GIC prikupio detaljne zdravstvene evidencije o tisućama državnih službenika. U nastojanju da se potaknula istraživanja o načinima za poboljšanje zdravlja, GIC odlučio objaviti ovih zapisa istraživačima. Međutim, oni ne dijele sve svoje podatke; naprotiv, oni "u anonimne" to uklanjanjem podatke kao što su ime i adresu. Međutim, oni napustili druge informacije koje su mislili da bi moglo biti korisno za istraživače, kao što su demografski podaci (poštanski broj, datum rođenja, nacionalnost, spol i) i medicinskih informacija (podataka posjet, dijagnozu, postupka) (Slika 6.4) (Ohm 2010) . Nažalost, ovaj "skrivanja" nije bila dovoljna za zaštitu podataka.

Slika 6.4: Skrivanje je proces uklanjanja očito podatke za identifikaciju. Na primjer, kada objavljivanju zdravstveno osiguranje evidenciju državnih službenika Massachusetts Grupa Osiguranje komisija (GIC) ukloniti ime i adresu iz spisa. Koristim navodnike oko riječi skrivanja jer je proces daje izgled anonimnosti, ali ne i stvarnu anonimnost.

Slika 6.4: "Skrivanje" je proces uklanjanja očito podatke za identifikaciju. Na primjer, kada objavljivanju zdravstveno osiguranje evidenciju državnih službenika Massachusetts Grupa Osiguranje komisija (GIC) ukloniti ime i adresu iz spisa. Koristim navodnike riječ "skrivanja", jer je proces daje izgled anonimnosti, ali ne i stvarnu anonimnost.

Za ilustraciju nedostatke GIC "skrivanja", Latanya Sweeney-tada student na MIT-paid 20 $ za kupnju zapisa glasa od grada Cambridge, rodni Massachusetts guverner William Weld. Ove glasuju zapisi uključuju podatke kao što su ime, adresa, poštanski broj, datum rođenja i spol. Činjenica da je medicinski podaci datoteka i Birač datoteka dijeli polja-poštanski broj, datum rođenja, spol i-značilo da ih Sweeney mogao povezati. Sweeney je znao da Weld je rođendan bio je 31. srpnja 1945, a glasovanje zapisi uključeni samo šest ljudi u Cambridge s tim rođendan. Nadalje, od tih šest ljudi, a samo tri su bili muškarci. A od tih triju muškaraca, samo jedna zajednička Weld je poštanski broj. Dakle, podaci glasovanja pokazali da je bilo tko u medicinske podatke s Weld je kombinacija datum rođenja, spol i poštanski broj bio je William Weld. U biti, ova tri komada informacija pruža jedinstveni otisak prsta kako bi mu u podacima. Koristeći tu činjenicu, Sweeney je bio u mogućnosti da biste pronašli Weld je medicinsku dokumentaciju i da ga obavijesti o njezinoj podvig, ona mu poslali kopiju svojih evidencija (Ohm 2010) .

Slika 6.5: Ponovno idenification anonimnih podataka. Latanya Sweeney kombinaciji anonimne zdravstvenog zapisa s pravom evidencije kako bi se pronašli medicinske evidencije guverner William spajanje (Sweeney 2002).

Slika 6.5: Ponovno idenification od "anonimnih" podataka. Latanya Sweeney kombinaciji "anonimne" zdravstvenog zapisa s pravom evidencije kako bi se pronašli medicinske evidencije guverner William Weld (Sweeney 2002) .

Sweeney rad ilustrira osnovnu strukturu de-skrivanja napada -to usvojiti pojam iz računalne sigurnosti zajednice. U tim napadima, dva skupa podataka, od kojih je samo po sebi ne otkriva osjetljive informacije, su povezani, a kroz tu vezu, osjetljive informacije izložena. Na neki način taj proces je sličan način na koji sode bikarbone i octa, dvije supstance koje su sami po sebi sigurno, može se kombinirati za proizvodnju gadan ishod.

Kao odgovor na Sweeney radu, te drugih srodnih rad, istraživači sada uglavnom ukloniti mnogo više informacija-sve takozvane "osobne identifikacijske podatke" (PII) (Narayanan and Shmatikov 2010) -tijekom proces "skrivanja". Nadalje, mnogi istraživači sada shvatiti da određeni podaci kao što su medicinske dokumentacije, financijske evidencije, odgovore na anketna pitanja o nezakonitom ponašanju-vjerojatno je previše osjetljiv za oslobađanje čak i nakon "skrivanja". Međutim, novije primjere koji ću opisati u nastavku pokazuju da su socijalni znanstvenici trebaju promijeniti svoje mišljenje. Kao prvi korak, to je pametno pretpostaviti da su svi podaci potencijalno može identificirati i sve podatke je potencijalno osjetljiva. Drugim riječima, umjesto da misle da informativnu rizik odnosi se na mali podskup projekata, treba pretpostaviti da vrijedi za neki stupanj za sve projekte.

Oba aspekta ovog preusmjeravanje ilustrira Netflix nagradu. Kao što je opisano u poglavlju 5, Netflix izdao 100 milijuna filmske ocjene koje pruža gotovo 500.000 članova, i imao otvoren poziv gdje ljudi iz cijelog svijeta podnosi algoritme koje bi mogle poboljšati Netflix sposobnost preporučiti filmove. Prije objavljivanju podataka, Netflix ukloniti bilo očito osobno identifikacijske podatke, poput imena. Netflix je otišao još jedan korak i uvela male perturbacije u neki od zapisa (npr mijenjaju neke ocjene iz 4 zvjezdice 3 zvjezdice). Netflix je ubrzo otkrio, međutim, da usprkos svim njihovim nastojanjima, podaci su nipošto anonimni.

Samo dva tjedna nakon što su podaci pušteni Narayanan and Shmatikov (2008) su pokazali da je moguće saznati o određenim ljudima filma sklonosti. Trik njihovom ponovnom označavanju napada bila je slična Sweeney-a: spojiti zajedno dva izvora informacija, jedan s potencijalno osjetljivih informacija, a bez očito identifikacijske podatke i onaj koji sadrži identitet osobe. Svaki od tih izvora podataka mogu biti pojedinačno sigurno, ali kada su u kombinaciji spojeni skupa podataka može stvoriti informacijsku rizik. U slučaju da su podaci o Netflix, evo kako se to moglo dogoditi. Zamislite da sam se odlučio podijeliti svoje misli o djelovanju i komedije filmova s ​​mojim suradnicima, ali da ne žele dijeliti moje mišljenje o političkim i religioznim filmovima. Moji kolege mogli koristiti informacije koje sam dijelio s njima kako pronaći svoje zapise u podacima Netflix; informacije koje dijelim mogao biti jedinstven otisak prsta kao i William Weld je datum rođenja, poštanski broj i spol. Zatim, ako smatraju moj jedinstveni otisak prsta u podacima, oni mogu naučiti svoje ocjene o svim filmovima, uključujući i filmovima u kojima sam se odlučio ne dijeliti. Uz ovu vrstu ciljanog napada usmjerena na jednu osobu, Narayanan and Shmatikov (2008) također su pokazali da je moguće napraviti široki napad -ona koja uključuje mnoge ljude-spajanjem podataka Netflix s osobnim i filmskih podataka rejting da su neki ljudi su odlučili objaviti na Internet Movie Database (IMDb). Sve informacije koje je jedinstven otisak prsta na određenu osobu, čak i njihov set filmskih gostiju-može se koristiti kako bi ih identificirati.

Iako podaci Netflix mogu biti ponovno identificirati u bilo ciljano ili široki napad, to još uvijek može pojaviti se biti niskog rizika. Uostalom, filmske ocjene ne čini vrlo osjetljivo. Dok se to može biti istina u cjelini, za neke od 500.000 ljudi u skupu podataka, filmske ocjene mogu biti vrlo osjetljivi. Naime, u odgovoru na de-skrivanja tajnosti lezbijka žena pridružio klasa-akcija tužbu protiv Netflix. Evo kako je problem bio izražen u njihovoj parnici (Singel 2009) :

"[M] ovie i ocjena podataka sadrži informacije o više vrlo osobne i osjetljive prirode [sic]. Film Podaci člana izlaže osobni interes član Netflix-a i / ili se bori s raznim vrlo osobnim pitanjima, uključujući i seksualnosti, duševne bolesti, oporavak od alkoholizma, i viktimizacije od incesta, fizičko zlostavljanje, nasilje u obitelji, preljuba, i silovanja. "

De-skrivanja podataka o Netflix nagrada pokazuje kako se svi podaci potencijalno utvrditi i da su svi podaci potencijalno osjetljiva. U ovom trenutku, možda mislite da se to odnosi samo na podatke da je taj tvrdi da se o ljudima. Začudo, to nije slučaj. Kao odgovor na slobodi zahtjev Informacije Law, New York City vlada je objavila podatke o svakom vožnje taksijem u New Yorku 2013. godine, uključujući i kurva i odvesti puta, lokacije i Fare količine (povlačenje iz poglavlja 2 da Farber (2015) koristi te podatke za testiranje važne teorije u ekonomiji rada). Iako je ovaj podatak o taxi brodom može činiti benigna jer ne čini da se informacije o ljudima, Anthony Tockar shvatio da je to taxi skup podataka zapravo sadržavala puno potencijalno osjetljivih informacija o ljudima. Za ilustraciju, on je pogledao na svim putovanjima s početkom u Hazarder Club-veliki striptiz klubu u New Yorku-između ponoći i 6 sati ujutro, a zatim pronašao svoj drop-off mjesta. Ovo pretraživanje otkrila-u biti-liste adresa nekih ljudi koji posjećuju Hazarder Club (Tockar 2014) . Teško je zamisliti da bi gradska vlast imala to na umu kada je objavio podatke. U stvari, ta ista tehnika može se koristiti kako bi pronašli kućne adrese osoba koje posjetiti bilo koje mjesto u gradu-medicinske klinike, vladine zgrade, ili vjerske institucije.

Ta dva slučaja-Netflix nagrada, a New York City taxi podataka pokazuju da relativno kvalificirani ljudi nije ispravno procijeniti informativni rizik u podacima koji su izdali, a ovi slučajevi su nipošto jedinstvena (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Nadalje, u mnogim od tih slučajeva, problematična su podaci i dalje slobodno dostupan na internetu, što ukazuje na poteškoće ikada poništiti izdanje podataka. Zajedno ovi primjeri-kao i istraživanja u računalnoj znanosti o privatnosti, dovodi do važnog zaključka. Istraživači bi trebali pretpostaviti da su svi podaci potencijalno može identificirati i sve podatke je potencijalno osjetljiva.

Nažalost, ne postoji jednostavno rješenje na činjenicu da su svi podaci potencijalno utvrditi i svi podaci su potencijalno osjetljive. Međutim, jedan od načina da se smanji rizik informacija dok radite s podacima je stvaranje i slijedite plan za zaštitu podataka. Ovaj plan će smanjiti vjerojatnost da će vaši podaci curenje će smanjiti štetu ako na neki način dođe do propuštanja. Specifičnosti planova zaštite podataka, kao što su koji oblik enkripcije za korištenje, s vremenom se mijenjaju, ali u Velikoj Britaniji podatkovnih usluga susretljivo organizira elemente plana zaštite podataka u 5 kategorija koje oni nazivaju 5 sefovi: sef projekata, sigurno ljudi , sigurno postavke, sef podataka, i sigurno izlazi (Tablica 6.2) (Desai, Ritchie, and Welpton 2016) . Niti jedan od pet sefova pojedinačno pružaju savršenu zaštitu. No, oni zajedno čine snažan skup čimbenika koji mogu smanjiti informacijsku rizik.

Tablica 6.2: The 5 sefovi su načela za projektiranje i izvođenje plan za zaštitu podataka (Desai, Ritchie, and Welpton 2016) .
Sef Akcijski
Sigurni projekti ograničava projekte s podacima na one koji su etički
Sigurni ljudi Pristup je ograničen na ljude koji mogu biti pouzdana s podacima (primjerice, ljudi su kroz etički trening)
Sigurni podaci Podaci de-identificirani i objedinjene u najvećoj mogućoj mjeri
Sigurni postavke Podaci se pohranjuju u računalima s odgovarajuće fizičke (npr zaključana soba) i softvera (npr, zaštita lozinkom, kodiran) zaštita
Siguran izlaz Istraživanje izlaz pregledava kako bi se spriječilo slučajno privatnosti povrede

Osim zaštite podataka, dok ga koristite, jedan korak u procesu istraživanja u kojem informativno Rizik je posebno istaknut je dijeljenje podataka s drugim istraživačima. dijeljenje podataka među znanstvenicima je suštinska vrijednost znanstvenog poduhvata, a to uvelike objekti unapređenje znanja. Evo kako je Velika Britanija dom Parlamenta opisao važnost dijeljenja podataka:

"Pristup podacima je temelj istraživači su se reproducirati, provjeriti i graditi na rezultatima koji su objavljeni u literaturi. Pretpostavka mora biti da, osim ako ne postoji jak razlog inače, podaci bi trebali biti u potpunosti objaviti i javno dostupni. U skladu s tim načelom, gdje je to moguće, podatke povezane sa svim javno financiranim istraživanjima treba vršiti široko i besplatno dostupni. " (Molloy 2011)

Ipak, dijeljenjem podataka s drugim istraživačem, vi svibanj biti povećanje informacijske rizik za svoje sudionike. Dakle, to se može činiti da su istraživači koji žele dijeliti svoje podatke ili su potrebni da dijele svoje podatke-suočavaju temeljnu napetost. S jedne strane oni imaju etičku obvezu dijeliti svoje podatke s drugim znanstvenicima, osobito ako je izvorna istraživanja javno financira. Ipak, u isto vrijeme, znanstvenici imaju etičku obvezu kako bi se smanjili, koliko god je to moguće, informacije rizik za njihove sudionike.

Srećom, ova dilema nije tako teška kao što se čini. Važno je sjetiti dijele na kontinuumu od nemogućnosti dijeljenje podataka objaviti i zaboraviti, ako se podaci "u anonimne" i objavili za svakoga za pristup podacima (slika 6.6). Oba ova krajnja položaja imaju rizike i koristi. To jest, to nije automatski najviše etička stvar ne dijele svoje podatke; Takav pristup eliminira mnoge potencijalne prednosti za društvo. Povrat na okus, kravate, i vrijeme, kao primjer ranije u poglavlju raspravlja, argumenti protiv objavljivanja podataka koji se fokusiraju samo na eventualne štete i da ignoriraju moguće koristi pretjerano jednostrana; Ja ću opisati probleme s ovog jednostranog, pretjerano zaštitni pristupa detaljnije u nastavku, kada sam ponuditi savjet o donošenju odluka u lice nesigurnosti (točka 6.6.4).

Slika 6.6: Podaci strategije izlaska može pasti uzduž kontinuuma. Gdje bi trebali biti zajedno to kontinuum ovisi o specifičnim detaljima podataka. U tom slučaju, treća strana pregled može vam pomoći da odlučite odgovarajuću ravnotežu rizika i koristi u svom slučaju.

Slika 6.6: Podaci strategije izlaska može pasti uzduž kontinuuma. Gdje bi trebali biti zajedno to kontinuum ovisi o specifičnim detaljima podataka. U tom slučaju, treća strana pregled može vam pomoći da odlučite odgovarajuću ravnotežu rizika i koristi u svom slučaju.

Nadalje, između ta dva ekstremna slučaja je što ću se zove ograđeni vrt pristup gdje se podaci dijele s ljudima koji ispunjavaju određene kriterije i koji pristanu biti vezana određenim pravilima (npr nadzor iz IRB-a a planovi za zaštitu podataka) , Taj ograđeni vrt pristup pruža mnoge prednosti objavljivanja i zaboraviti s manje rizika. Naravno, ograđeni vrt pristup stvara mnoga pitanja-koji bi trebali imati pristup, pod kojim uvjetima, koliko dugo, tko bi trebao platiti za održavanje i policije na ograđeni vrt itd-ali to nisu nepremostivi. U stvari, postoje već rade stijenki vrt u mjesto koje znanstvenici mogu koristiti odmah, kao što su arhivi podataka Interuniverzitetskog konzorcija za politička i društvena istraživanja Sveučilišta u Michiganu.

Dakle, gdje bi se podaci iz svog studija biti na kontinuumu bez dijeljenja, ograđenim vrtom, a pusti i zaboravi? To ovisi o pojedinostima Vaše podatke; Istraživači moraju uravnotežiti poštivanje osoba, dobročinstva, pravde, poštivanje prava i javnog interesa. Pri procjeni odgovarajuće ravnoteže za sve druge odluke istraživači tražiti savjet i odobrenje IRBs i objavljivanje podataka može biti samo još jedan dio tog procesa. Drugim riječima, iako neki ljudi misle puštanje podataka u bezizlaznu etičkog zbrku, već imamo sustave za pomoći istraživačima uravnotežiti ove vrste etičkih dilema.

Jedna konačna način da misle o razmjeni podataka je po analogiji. Svake godine automobili su odgovorni za tisuće smrti, ali ne pokušavajte zabraniti vožnju. U stvari, kao što je poziv na zabranu vožnje bi bilo apsurdno, jer u vožnji omogućuje mnoge divne stvari. Umjesto toga, društvo stavlja ograničenja na koje se može voziti (npr moraju biti određene dobi, potrebno je prošlo određene testove) i kako oni mogu voziti (npr, ispod ograničenja brzine). Društvo također ima osoba zaduženih za provedbu tih pravila (npr, policija), a mi smo kazniti ljude koji su uhvaćeni njihovo kršenje. Ova ista vrsta uravnoteženog razmišljanja da se društvo odnosi na reguliranje vožnju također se može primijeniti na dijeljenje podataka. To je, prije nego što apsolutističke argumente za ili protiv dijeljenje podataka, mislim da su najveće prednosti će doći iz figuring out kako možemo podijeliti više podataka sigurnije.

Da zaključimo, informativno rizik dramatično se povećao, i to je vrlo teško predvidjeti i kvantificirati. Stoga, najbolje je pretpostaviti da su svi podaci potencijalno može identificirati i potencijalno osjetljivi. Za smanjenje informativnu rizik, dok radi istraživanja, istraživači mogu stvoriti i slijediti plan o zaštiti podataka. Nadalje, informativne rizik ne sprječava znanstvenike dijeljenje podataka s drugim znanstvenicima.