6.6.2 Razumijevanje i upravljanje informativne rizik

Ovaj prevod je kreiran od strane kompjutera. ×

6.6.2 Razumijevanje i upravljanje informativne rizik

Informativni rizik je najčešći rizik u društvenim istraživanjima; dramatično se povećao; i to je najteži rizik za razumevanje.

Drugi etički izazov za istraživanje digitalnog doba je informativni rizik , potencijal za štetu od otkrivanja informacija (National Research Council 2014) . Informativne štete od otkrivanja ličnih podataka mogu biti ekonomske (npr. Gubljenje posla), društvene (npr. Sramota), psihološke (npr. Depresije) ili čak kriminalne (npr. Hapšenje za nezakonito ponašanje). Nažalost, digitalno doba dramatično povećava informacioni rizik - tu je samo mnogo više informacija o našem ponašanju. I informativni rizik se pokazao veoma teškim za razumevanje i upravljanje u poređenju sa rizicima koji su bili zabrinjavajući u socijalnim istraživanjima u analognom dobu, kao što je fizički rizik.

Jedan od načina da se socijalna istraživači smanjiti informativne rizik je "anonimizaciji" podataka. "Anonimizacija" je proces uklanjanja očigledno lične identifikatore kao što su ime, adresa i broj telefona iz podataka. Međutim, ovaj pristup je mnogo manje efikasna nego mnogi ljudi shvate, a to je, u stvari, duboko i fundamentalno ograničena. Iz tog razloga, kad god opisati "anonimizacije," Ja ću koristiti navodnike da vas podsjetim da je taj proces stvara pojavu anonimnosti, ali nije istina anonimnost.

Živi primer neuspjeha "anonimizacije" potiče od kraja 1990-ih u Masačusetsu (Sweeney 2002) . Komisija za osiguranje Grupe (GIC) bila je državna agencija odgovorna za kupovinu zdravstvenog osiguranja za sve državne službenike. Ovim radom, GIC je prikupio detaljne zdravstvene podatke o hiljadama državnih službenika. U nastojanju da podstakne istraživanje, GIC je odlučio objaviti ove zapise istraživačima. Međutim, oni nisu podelili sve svoje podatke; već su "anonimizovali" ove podatke uklanjanjem informacija kao što su imena i adrese. Međutim, ostavili su druge informacije koje su smatrali korisnim za istraživače kao što su demografske informacije (poštanski broj, datum rođenja, etnička pripadnost i pol) i medicinske informacije (posjetite podatke, dijagnozu, proceduru) (slika 6.4) (Ohm 2010) . Nažalost, ova "anonimizacija" nije bila dovoljna za zaštitu podataka.

Slika 6.4: "Anonimizacija" je proces uklanjanja očigledno identifikacije informacija. Na primjer, kada je objavio evidenciju zdravstvenog osiguranja državnih službenika, Komisija za osiguranje Masačusets grupe (GIC) uklonila je imena i adrese iz dosijea. Koristim oznake oko reči "anonimizacija" jer proces pruža pojavu anonimnosti, ali ne i stvarne anonimnosti.

Da bi ilustrovala nedostatke GIC-a "anonimizacije", Latanya Sweeney-onda je diplomirala na MIT-uplatila 20 dolara za dobijanje glasačkih zapisa iz grada Kembridža, rodnog grada guvernera Masačusetsa Williama Welda. Ovi zapisi o glasanju uključivali su informacije kao što su ime, adresa, poštanski broj, datum rođenja i pol. Činjenica da su podaci o medicinskim podacima i podacima o glasačima deljeni zip-kod, datum rođenja i pol-znači da ih Sweeney može povezati. Svini je znao da je rođendan Welda bio 31. jula 1945. godine, a zapisi o glasanju uključivali su samo šest ljudi u Kembridžu tog rođendana. Nadalje, od tih šest ljudi, samo su tri muškarca. I, od tih trojice, samo jedan je dijelio Zeldov zip kod. Prema tome, podaci o glasanju pokazali su da je bilo ko u medicinskim podacima sa Weldovom kombinacijom rođenja, pola i poštanskog koda bio William Weld. U suštini, ove tri informacije pružile su mu jedinstveni otisak prsta u podacima. Koristeći ovu činjenicu, Sweeney je uspela da locira Weldovu medicinsku dokumentaciju, a da bi ga obavijestila o svom poduhvatu, poslao mu je kopiju svojih zapisa (Ohm 2010) .

Slika 6.5: Ponovno idenifikovanje anonimnih podataka. Latanya Sweeney kombinirala je anonimne zdravstvene podatke sa evidencijom glasanja kako bi pronašli medicinsku dokumentaciju guvernera William Welda. Prilagođena od Sweeney (2002), slika 1.

Slika 6.5: Ponovno idenifikovanje "anonimnih" podataka. Latanya Sweeney kombinirala je "anonimizovane" zdravstvene rekorde sa evidencijom glasanja kako bi pronašli zdravstvenu dokumentaciju guvernera Williama Welda. Prilagođeno od Sweeney (2002) , slika 1.

Rad Sweeneya ilustruje osnovnu strukturu napada za ponovno identifikovanje - da usvoji termin iz bezbednosne zajednice računara. U ovim napadima dva seta podataka, od kojih nijedna od njih ne otkriva osjetljive informacije, su povezana, a putem ove veze osjetljive informacije su izložene.

Kao odgovor na Sweeney-ov rad i druge povezane radove, istraživači generalno uklanjaju mnogo više informacija - sve takozvane "lične informacije identifikacije" (PII) (Narayanan and Shmatikov 2010) - tokom procesa "anonimizacije". Dalje, mnogi istraživači sada shvataju da su određeni podaci - kao što su medicinska dokumentacija, finansijska evidencija, odgovori na anketna pitanja o ilegalnom ponašanju - verovatno suviše osetljivi na oslobađanje čak i posle "anonimizacije". Međutim, primeri koje ću dati sugerišu da su socijalni istraživači potrebni da promene svoje mišljenje. Kao prvi korak, mudro je pretpostaviti da su svi podaci potencijalno prepoznati i da su svi podaci potencijalno osetljivi. Drugim riječima, umjesto razmišljanja da se informativni rizik primjenjuje na mali dio projekata, trebali bi pretpostaviti da se u određenoj meri odnosi na sve projekte.

Oba aspekta ove preorijentacije ilustruju Netflix nagrada. Kao što je opisano u poglavlju 5, Netflix je objavio 100 miliona filmskih ocjena koje je obezbedilo gotovo 500.000 članova i otvoreno je poziv na kojem su ljudi iz celog sveta podneli algoritme koji bi poboljšali sposobnost Netflixa da preporučuje filmove. Pre nego što je objavio podatke, Netflix je uklonio sve očigledne lične identifikacije, kao što su imena. Takođe su išli dodatni korak i uvedli su male perturbacije u nekim zapisima (npr. Mijenjanje nekih ocjena od 4 zvezde do 3 zvezde). Ubrzo su otkrili da, uprkos njihovim naporima, podaci i dalje nikako nisu anonimni.

Samo dve nedelje nakon što su podaci pušteni, Arvind Narayanan i Vitaly Shmatikov (2008) su pokazali da je moguće naučiti o specifičnim ljudskim filmskim preferencama. Trik njihovog napada na ponovno identifikaciju bio je sličan Sweeney-u: spojiti dva izvora informacija, jedan sa potencijalno osjetljivim informacijama i bez očigledno identificiranih informacija, a onaj koji sadrži identitete ljudi. Svaki od ovih izvora podataka može biti individualno siguran, ali kada se kombinuju, spojeni skup podataka može stvoriti informacioni rizik. U slučaju podataka Netflix-a, evo kako bi to moglo da se desi. Zamislite da se odlučujem da s mojim saradnicima podijelim svoje misli o akciji i komedijskim filmovima, ali da više ne dijelim svoje mišljenje o religioznim i političkim filmovima. Moji saradnici mogu da koriste informacije koje sam podelio sa njima kako bi pronašli svoje podatke u Netflix podacima; informacije koje ja podelim mogu biti jedinstveni otisak prsta kao što je datum rođenja William Weld-a, poštanski broj i pol. Zatim, ako su pronašli moju jedinstvenu otisku prstiju u podacima, mogli bi saznati moje ocene o svim filmovima, uključujući i filmove za koje ne želim dijeliti. Pored ove vrste ciljanog napada usmjerenog na jednu osobu, Narayanan i Shmatikov su također pokazali da je moguće napraviti širok napad - onaj koji uključuje mnoge ljude - spajanjem Netflix podataka s ličnim i filmskim podacima koje su neki ljudi odabrali objaviti na Internet Movie Database (IMDb). Sasvim jednostavno, svaka informacija koja je jedinstveni otisak prsta određenoj osobi - čak i njihov skup ocjena filmova - može se koristiti za identifikaciju.

Iako podaci Netflix-a mogu biti ponovo identifikovani ili u ciljanom ili širokom napadu, i dalje se može činiti malim rizikom. Na kraju krajeva, ocene filmova ne izgledaju vrlo osetljive. Iako to može biti istinito uopšte, za neke od 500.000 ljudi u skupu podataka, ocjena filmova može biti prilično osetljiva. Zapravo, u odgovoru na ponovno identifikaciju, jedna lezbejka koja je zatvorena pristupila je tužbi protiv Netflix-a. Evo kako je problem iskazan u njihovoj tužbi (Singel 2009) :

"Ovi i podaci o rejtingu sadrže informacije o ... vrlo ličnoj i osetljivoj prirodi. Podaci o članovima filma otkrivaju lični interes članova Netflix-a i / ili se bore sa različitim veoma ličnim problemima, uključujući seksualnost, mentalne bolesti, oporavak od alkohola i viktimizaciju od incesta, fizičkog zlostavljanja, nasilja u porodici, preljube i silovanja. "

Ponovna identifikacija podataka Netflix Prize ilustruje kako su svi podaci potencijalno prepoznati i da su svi podaci potencijalno osetljivi. U ovom trenutku, možda mislite da se to odnosi samo na podatke koji se odnose na ljude. Iznenađujuće, to nije slučaj. U odgovoru na zahtev Zakona o slobodi informisanja, Vlada Njujorka objavila je podatke o svakoj vožnji taksijem u New Yorku 2013. godine, uključujući i pikawe i pada vremena, lokacija i iznosa prevoza (podsetimo iz poglavlja 2 da Farber (2015) koriste slične podatke za testiranje važnih teorija u ekonomiji rada). Ovi podaci o taksijskim putevima mogu izgledati dobroćudni jer ne vide informacije o ljudima, ali Anthony Tockar je shvatio da ovaj skup podataka za taksi zapravo sadrži puno potencijalno osjetljivih informacija o ljudima. Za ilustraciju, pogledao je sve izlete od Hustler Club-a velik striptiz klub u Njujorku - između ponoći i 6 ujutru, a potom pronašli svoje odmore. Ova pretraga je otkrila - u suštini - spisak adresa nekih ljudi koji su posjetili Hustler Club (Tockar 2014) . Teško je zamisliti da je gradska vlada to imala na umu kada je objavila podatke. Zapravo, ova ista tehnika mogla bi se koristiti za pronalaženje kućnih adresa ljudi koji posjećuju bilo koje mjesto u gradu - medicinsku kliniku, zgradu vlade ili vjersku ustanovu.

Ova dva slučaja Netflix nagrade i taksi podaci iz New York City-a pokazuju da relativno kvalifikovani ljudi ne mogu pravilno procijeniti informativni rizik u podacima koje objavljuju - a ti slučajevi nikako nisu jedinstveni (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Štaviše, u mnogim takvim slučajevima, problematični podaci su i dalje slobodno dostupni na internetu, što ukazuje na poteškoće da se ikada poništi objavljivanje podataka. Kolektivno, ovi primeri - kao i istraživanja u računarstvu o privatnosti - dovode do važnog zaključka. Istraživači trebaju pretpostaviti da su svi podaci potencijalno prepoznati i da su svi podaci potencijalno osjetljivi.

Nažalost, ne postoji jednostavno rješenje za činjenice da su svi podaci potencijalno prepoznati i da su svi podaci potencijalno osjetljivi. Međutim, jedan način smanjenja informativnog rizika dok radite sa podacima je kreiranje i praćenje plana zaštite podataka . Ovaj plan će smanjiti mogućnost da će vaši podaci curiti i smanjiti štetu ako se nečistoće javljaju. Specifičnost planova za zaštitu podataka, kao što je koji oblik šifrovanja za korištenje, će se vremenom promeniti, ali UK Data Services pomoćno organizuje elemente plana zaštite podataka u pet kategorija koje nazivaju pet sefova : sigurni projekti, sigurni ljudi , bezbedna podešavanja, sigurni podaci i sigurni izlazi (tabela 6.2) (Desai, Ritchie, and Welpton 2016) . Nijedan od pet sefova pojedinačno ne pruža savršenu zaštitu. Ali zajedno oni predstavljaju moćni skup faktora koji mogu smanjiti informacioni rizik.

Tabela 6.2: "Five Safes" su Principi za projektovanje i izvršenje plana zaštite podataka (Desai, Ritchie, and Welpton 2016)
Sigurno	Akcija
Sigurni projekti	Ograničava projekte sa podacima onima koji su etički
Sigurni ljudi	Pristup je ograničen na ljude kojima se može vjerovati sa podacima (npr. Ljudi koji su prošli etičku obuku)
Sigurni podaci	Podaci se ne identifikuju i agregiraju u meri u kojoj je to moguće
Sigurna podešavanja	Podaci se čuvaju na računarima sa odgovarajućim fizičkim (npr. Zaključanim prostorom) i softverom (npr. Zaštitom lozinkom, šifriranjem)
Siguran izlaz	Istraživački rezultat je pregledan kako bi se spriječilo slučajno kršenje privatnosti

Osim zaštite vaših podataka dok ih koristite, jedan korak u istraživačkom procesu gdje je informativni rizik posebno važan je dijeljenje podataka sa drugim istraživačima. Razmjena podataka između naučnika je osnovna vrijednost naučnog poduhvata i značajno olakšava napredak znanja. Evo kako je UK House of Commons opisao važnost podele podataka (Molloy 2011) :

"Pristup podacima je od suštinskog značaja ako istraživači reprodukuju, verifikuju i nadograđuju rezultate koji su objavljeni u literaturi. Pretpostavka mora biti da, ukoliko nema drugog razloga, podaci bi trebali biti potpuno objelodanjeni i javno dostupni. "

Ipak, deljenjem podataka sa drugim istraživačem, možda ćete povećati informacioni rizik za svoje učesnike. Stoga, čini se da dijeljenje podataka stvara osnovnu tenziju između obaveze podjele podataka sa drugim naučnicima i obaveze da se minimiziraju informativni rizici za učesnike. Srećom, ova dilema nije toliko ozbiljna kao što se čini. Umjesto toga, bolje je razmišljati o dijeljenju podataka kako se spada po kontinuumu, pri čemu svaka tačka na tom kontinuumu pruža drugačiju kombinaciju koristi za društvo i rizik za učesnike (slika 6.6).

U jednoj ekstremi, možete podijeliti svoje podatke ni sa jednim, što minimizira rizik za učesnike, ali i minimizira dobit društva. U drugom ekstremu, možete puštati i zaboraviti , gdje su podaci "anonimni" i objavljeni za sve. U odnosu na objavljivanje podataka, objavljivanje i zaboravljenje nudi i veće koristi društvu i veći rizik za učesnike. Između ova dva ekstremna slučaja nalazi se niz hibrida, uključujući i ono što ću nazvati zidanim pristupom vrtu . Pod ovim pristupom, podaci se dele sa ljudima koji ispunjavaju određene kriterijume i koji se slažu da budu vezani određenim pravilima (npr. Nadgledanje iz IRB-a i plana zaštite podataka). Pristup zidnim baštama pruža mnoge od prednosti oslobađanja i zaboravi sa manje rizika. Naravno, ovakav pristup stvara mnogo pitanja - ko treba da ima pristup, pod kojim uslovima i koliko dugo ko treba da plati da održava i policira zidnu baštu itd. - ali to nije nepremostivo. U stvari, već postoje radne zidane bašte koje istraživači mogu koristiti sada, kao što je arhiv podataka Interuniverzitetskog konzorcija za politička i društvena istraživanja na Univerzitetu u Michiganu.

Slika 6.6: Strategije ispuštanja podataka mogu pasti duž kontinuuma. Gde biste trebali biti na ovom kontinuumu zavisi od specifičnih detalja vaših podataka, a pregled treće strane može vam pomoći da odlučite o odgovarajućem balansu rizika i koristi u vašem slučaju. Tačan oblik ove krivine zavisi od specifičnosti podataka i istraživačkih ciljeva (Goroff 2015) .

Dakle, gde bi trebalo da podaci iz vaše studije budu na kontinuumu bez deljenja, zidane bašte i oslobađanja i zaboravi? To zavisi od detalja vaših podataka: istraživači moraju uravnotežiti poštovanje osoba, koristi, pravde i poštovanja zakona i javnog interesa. Gledano iz ove perspektive, razmjena podataka nije posebna etička zagonetka; to je samo jedan od mnogih aspekata istraživanja u kojem istraživači moraju pronaći odgovarajuću etičku ravnotežu.

Neki kritičari se generalno suprotstavljaju razmjeni podataka, jer su, po mom mišljenju, fokusirani na svoje rizike - koji su nesumnjivo stvarni - i ignorišu njegove prednosti. Dakle, kako bih podstakao fokus na rizike i koristi, želio bih ponuditi analogiju. Svake godine automobili su odgovorni za hiljade smrtnih slučajeva, ali ne pokušavamo da zabranimo vožnju. U stvari, poziv za zabranu vožnje bi bio apsurdan jer vožnja omogućava mnogo divnih stvari. Umjesto toga, društvo stavlja ograničenja na to ko može voziti (npr. Potreba da bude određena starost i da prođu određene testove) i kako mogu da voze (npr., Pod ograničenjem brzine). Društvo takođe ima ljude koji imaju zadatak da primenjuju ova pravila (npr. Policiju), a mi kažnjavamo ljude koji su uhvaćeni da ih krše. Ovo isto uravnoteženo razmišljanje koje društvo primenjuje za regulisanje vožnje takođe se može primeniti na razmenu podataka. To jest, umjesto da napravim apsolutističke argumente za ili protiv podele podataka, mislim da ćemo najviše napredovati fokusiranjem na to kako možemo smanjiti rizike i povećati koristi od dijeljenja podataka.

Da zaključimo, informativni rizik je dramatično porastao i veoma je teško predvidjeti i kvantifikovati. Prema tome, najbolje je pretpostaviti da su svi podaci potencijalno prepoznati i potencijalno osetljivi. Da bi smanjili informativni rizik tokom istraživanja, istraživači mogu kreirati i pratiti plan zaštite podataka. Nadalje, informativni rizik ne sprečava istraživače da dele podatke sa drugim naučnicima.