6.6.2 Razumijevanje i upravljanje informativne rizik

Rizik informacija je najčešći rizik u društvenim istraživanjima; to je dramatično povećao; a to je najteže rizik da shvati.

Drugi etički izazov za socijalnu dob digitalni istraživanja je informativnog rizik, potencijal za štetu od otkrivanja informacija (Council 2014) . Informativni štete iz otkrivanje ličnih informacija može biti ekonomski (npr gubitka posla), društvene (npr sramota), psihološki (npr, depresija), ili čak i krivično (npr hapšenje za nezakonito ponašanje). Nažalost, digitalnom dobu povećava informacije rizik dramatično-tu je tako mnogo više informacija o našim ponašanjem. I, informativna rizik se pokazao vrlo teško razumjeti i upravljanje u odnosu na rizike koji su zabrinutosti u analognom dobu društvenih istraživanja, kao što su fizička opasnost. Da vidimo kako digitalnom dobu povećava informativne rizik, razmotriti prelazak iz papira na elektronske medicinsku dokumentaciju. Obje vrste zapisa stvaraju rizik, ali elektronske evidencije stvoriti mnogo veći rizik, jer na masovno se mogu prenositi na neovlaštenog stranci ili spojene s drugim podacima. Socijalna istraživači u digitalnom dobu su već pokrenuti u nevolju sa informativne rizika, dijelom zbog toga što nisu u potpunosti razumiju kako kvantificirati i upravljati njime. Dakle, ja ću ponuditi koristan način razmišljanja o informativne rizik, a onda ću vam dati neke savjete o tome kako da upravlja informativne rizik u istraživanju i puštanja podataka drugih istraživača.

Jedan od načina da se socijalna istraživači smanjiti informativne rizik je "anonimizaciji" podataka. "Anonimizacija" je proces uklanjanja očigledno lične identifikatore kao što su ime, adresa i broj telefona iz podataka. Međutim, ovaj pristup je mnogo manje efikasna nego mnogi ljudi shvate, a to je, u stvari, duboko i fundamentalno ograničena. Iz tog razloga, kad god opisati "anonimizacije," Ja ću koristiti navodnike da vas podsjetim da je taj proces stvara pojavu anonimnosti, ali nije istina anonimnost.

A živopisan primjer neuspjeha "anonimizacije" dolazi od kasnih 1990-ih u Massachusetts (Sweeney 2002) . Komisija za Insurance Group (GIC) je vladina agencija odgovorna za kupovinu zdravstveno osiguranje za sve državne službenike. Kroz ovaj rad, GIC prikupljaju detaljne zdravstvene evidencije o hiljadama državnih službenika. U nastojanju da podstakne istraživanja o načinima za poboljšanje zdravlja, GIC je odlučio da oslobodi ove evidencije za istraživače. Međutim, oni ne dijele sve svoje podatke; Umjesto toga, oni "anonimnih" to uklanjanjem informacije kao što su ime i adresa. Međutim, oni su otišli druge informacije koje su mislili da mogu biti korisni za istraživače, kao što su demografski podaci (poštanski broj, datum rođenja, nacionalnosti, i pol) i medicinskih informacija (posjete podataka, dijagnoza, postupak) (Slika 6.4) (Ohm 2010) . Na žalost, ova "anonimizaciju" nije bio dovoljan za zaštitu podataka.

Slika 6.4: Anonimizacija je proces uklanjanja očigledno identifikaciju informacije. Na primjer, kada oslobađajući medicinsku dokumentaciju osiguranja državnih službenika Komisije Massachusetts Insurance Group (GIC) ukloniti ime i adresu iz spisa. Koristim navodnike oko riječi anonimizaciji jer proces predviđa pojavu anonimnost, ali ne i stvarnu anonimnost.

Slika 6.4: "Anonimizacija" je proces uklanjanja očigledno identifikaciju informacije. Na primjer, kada oslobađajući medicinsku dokumentaciju osiguranja državnih službenika Komisije Massachusetts Insurance Group (GIC) ukloniti ime i adresu iz spisa. Koristim navodnike oko riječi "anonimizaciji" jer je proces predviđa pojavu anonimnost, ali ne i stvarnu anonimnost.

Za ilustraciju nedostatke "anonimizacije" GIC, Latanya Sweeney-tada apsolvent na MIT-platio $ 20 do steknu evidencije glasanja od grada Cambridge, rodni grad Massachusetts guverner William vara. Ovi glasanje evidencije uključene informacije kao što su ime, adresa, poštanski broj, datum rođenja, i pol. Činjenica da su medicinski podaci datoteka i birača datoteku zajednički polja-poštanski broj, datum rođenja, i seks-značilo da Sweeney bi ih povezati. Sweeney je znao da vara rođendan bio juli 31, 1945. godine, a glasanje evidencije uključeni samo šest osoba u Cambridge s tim rođendan. Nadalje, od tih šest ljudi, samo tri su bili muškarci. A, ta tri muškarca, samo jedno zajedničko vara je poštanski broj. Dakle, podaci glasanja pokazali da svako u medicinskih podataka sa Weld je kombinacijom datum rođenja, spol, i poštanski broj je bio William vara. U suštini, ova tri komada informacija jedinstveni otisak prsta da ga u podacima. Koristeći tu činjenicu, Sweeney je u stanju da lociraju medicinsku dokumentaciju za zavarivanje, a da ga obavijesti o njoj feat, ona ga je poslao kopiju svoje evidencije (Ohm 2010) .

Slika 6.5: Re-idenification anonimnih podataka. Latanya Sweeney kombinovao anonimne zdravstvene kartone s pravom evidencije kako bi se pronašli medicinsku dokumentaciju guvernera William Weld (Sweeney 2002).

Slika 6.5: Re-idenification od "anonimnih" podataka. Latanya Sweeney u kombinaciji sa "anonimne" zdravstvenih kartona s pravom evidencije kako bi se pronašli medicinsku dokumentaciju guvernera William Weld (Sweeney 2002) .

Sweeney rad ilustrira osnovnu strukturu de-anonimizacije napade -da usvojiti pojam iz računalne sigurnosti zajednice. U tim napadima, dva seta podataka, niti od kojih je samo po sebi otkriva osjetljive informacije, su povezani, i kroz ovaj spoj, osjetljive informacije je izložena. Na neki način ovaj proces je sličan način na koji sode bikarbone i octa, dva supstance koje su same po sebi sigurno, može se kombinirati za proizvodnju, a zamijenio ishod.

Kao odgovor na Sweeney rad, i drugih srodnih rad, istraživači sada uglavnom ukloniti mnogo više informacija-sve tzv "Lično Identificiranje informacija" (PII) (Narayanan and Shmatikov 2010) -U proces "anonimizacije." Osim toga, mnogi istraživači sada shvatiti da su određeni podaci kao što su medicinska dokumentacija, finansijsku evidenciju, odgovore na ankete pitanja o nezakonito ponašanje-je vjerojatno previše osjetljiva na oslobodili, čak i nakon "anonimizaciju." Međutim, više nedavnih primjera da ću opisati u nastavku ukazuju na to da socijalna istraživači treba da promijeniti svoje razmišljanje. Kao prvi korak, mudro je pretpostaviti da su svi podaci potencijalno identifikovati i sve podatke je potencijalno osjetljive. Drugim riječima, umjesto da misle da informativne rizik se odnosi na mali podskup projekata, trebalo bi pretpostaviti da se to odnosi-u određenoj mjeri-u sve projekte.

Oba aspekta ovog ponovnog orijentacije ilustruje Netflix nagradu. Kao što je opisano u poglavlju 5, Netflix objavio 100 miliona ocjene film pruža gotovo 500.000 članova, i imao otvoren poziv, gdje ljudi iz cijelog svijeta dostavio algoritme koje bi mogle poboljšati sposobnost Netflix da preporuči filmova. Prije puštanja podataka, Netflix ukloniti bilo kakvu informaciju očigledno lično-identifikaciju, kao što su imena. Netflix također je dodatni korak i predstavio blagog poremećaja u nekim od evidencije (npr mijenja neke ocjene od 4 zvjezdice do 3). Netflix ubrzo otkrili, međutim, da je uprkos naporima, podaci su koje nikako anonimni.

Samo dvije sedmice nakon što su podaci pušteni Narayanan and Shmatikov (2008) su pokazali da je moguće da se upoznaju o filmu preferencijama specifičnim ljudi. Trik da njihovo ponovno identifikacija napad je bio sličan Sweeney: spajaju dva izvora informacija, jedan s potencijalno osjetljivih informacija i nema očito identifikacione informacije i koji sadrži identitet ljudi. Svaki od tih izvora podataka mogu biti pojedinačno sigurno, ali kada su u kombinaciji objedinjene skup može stvoriti informativne rizik. U slučaju podataka Netflix, evo kako se moglo dogoditi. Zamislite da biram da podelim moje misli o akciji i komedija filmovi sa mojim kolegama, ali da ne žele da dijele moje mišljenje o vjerskim i političkim filmovima. Moje kolege mogli koristiti informacije koje sam dijeli s njima da nađem zapise u podacima Netflix; informacije koje delim mogao biti jedinstven otisak prsta kao William Weld datum rođenja, poštanski broj, i seks. Zatim, ako se nađem jedinstveni otisak prsta u podacima, mogli naučiti moje ocjene o svim filmovima, uključujući i filmove gdje sam odabrati da ne dijele. Osim ove vrste na meti napada usmjerena na jednu osobu, Narayanan and Shmatikov (2008) su pokazali da je moguće napraviti širok napad -one koji uključuje mnoge ljude-spajanjem podataka Netflix sa ličnim i film rejting podaci da su neki ljudi su izabrali da postavite na baze podataka Internet Movie (IMDb). Sve informacije koje je jedinstven otisak prsta na određenu osobu-čak i skup film ocjena-može se koristiti da ih identifikuje.

Iako podaci o Netflix može biti ponovo identifikovani u bilo ciljano ili širok napad, i dalje se mogu pojaviti na nizak rizik. Na kraju krajeva, ocjene film ne izgledaju vrlo osjetljivi. Iako to može biti istina u cjelini, za neke od 500.000 ljudi u skup, ocjene film može biti prilično osjetljive. U stvari, kao odgovor na de-anonimizaciji a closet lezbejka žena pridružio u klasi tužbu protiv Netflix. Evo kako je problem izražen u njihove tužbe (Singel 2009) :

"[M] Ovie i ocjenu podataka sadrži informacije o više visoko lični i osjetljive prirode [sic]. film podaci korisnikovih otkriva lični interes član je Netflix i / ili borbe s raznim visoko ličnim pitanjima, uključujući seksualnost, mentalne bolesti, oporavak od alkoholizma, i viktimizacije od incest, fizičko zlostavljanje, nasilje u porodici, preljuba, i silovanja. "

De-anonimizacije podataka Netflix nagradu pokazuje kako da se svi podaci potencijalno prepoznatljiv i da su svi podaci potencijalno osjetljive. U ovom trenutku, možda mislite da se to odnosi samo na podatke koji to tvrdi da se o ljudima. Iznenađujuće, to nije slučaj. Kao odgovor na slobodi informacija Zakona zahtjev, New York City Vlada objavila evidencije svake vožnje taksijem u New Yorku 2013. godine, uključujući uvlačenje i odvesti vremena, lokacija, i ​​fare iznosi (povrat od Poglavlje 2 da Farber (2015) koristi ove podatke za testiranje važne teorije u radu ekonomije). Iako je ovaj podatak o taksi brodom može izgledati benigno, jer izgleda da ne bude informacije o ljudima, Anthony Tockar shvatio da je to taksi skup zapravo sadrži puno potencijalno osjetljivih informacija o ljudima. Za ilustraciju, pogledao je na svim putovanjima početkom u The Hustler Club-veliki striptiz klubu u New York-između ponoći i 6:00, a zatim našlo drop-off lokacije. Ova pretraga otkriva-u suštini-listu adresa nekih ljudi koji posecuju The Hustler Club (Tockar 2014) . Teško je zamisliti da je gradska vlast imao u vidu kada je objavio podatke. U stvari, ta ista tehnika se može koristiti za pronalaženje kućne adrese ljudi koji posjećuju bilo koje mjesto u gradu-a ambulanta, a zgrada Vlade, ili vjerskih institucija.

Ova dva slučaja-Netflix nagradu i New York City Taxi podataka pokazuju da relativno sposobnih ljudi nije ispravno procijeniti informativne rizik u podacima koji su izdali, a ovi slučajevi su nipošto jedinstveno (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Nadalje, u mnogim od ovih slučajeva, problematične podaci i dalje slobodno dostupan na internetu, što ukazuje na poteškoće ikada poništavajući oslobađanje podataka. Zajedno ovi primjeri-kao i istraživanja u računarstvu o privatnosti-vodi ka važan zaključak. Istraživači treba pretpostaviti da su svi podaci potencijalno identifikovati i sve podatke je potencijalno osjetljive.

Nažalost, ne postoji jednostavno rješenje na činjenicu da su svi podaci potencijalno identifikovati i sve podatke je potencijalno osjetljive. Međutim, jedan od načina da se smanji rizik informacije dok radite sa podacima je stvaranje i pratiti plan za zaštitu podataka. Ovaj plan će smanjuje šanse da će vaši podaci procure i smanjiti štete ako nekako dođe do curenja. Specifičnosti planova za zaštitu podataka, kao što je koji oblik enkripcije za korištenje, će se promijeniti s vremenom, ali u Velikoj Britaniji Data Services uslužno organizira elemenata plana zaštite podataka u 5 kategorija koje oni zovu 5 sefovi: sigurno projekata, sigurno ljudi , sigurno postavke, sigurno podataka, i sigurno izlazi (Tabela 6.2) (Desai, Ritchie, and Welpton 2016) . Nijedan od pet sefovi pojedinačno pruža savršenu zaštitu. Ali, zajedno čine moćan niz faktora koji mogu smanjiti informativne rizik.

Tabela 6.2: The 5 sefovi su principi za izradu i izvršavanje plana za zaštitu podataka (Desai, Ritchie, and Welpton 2016) .
sef Akcija
Sigurno projekti ograničava projekata s podacima na one koje su etički
Sigurno ljudi pristup je ograničen na ljude koji se može vjerovati podacima (npr ljudi su prošli etičke trening)
Sigurno podataka podaci se de-identificirani i agregirani koliko je to moguće
Sigurno postavke podaci se čuvaju u kompjuterima sa odgovarajućim fizičkim (npr zaključana soba) i softvera (npr, zaštita lozinkom, šifrirane) zaštite
Sigurno izlaz izlaz istraživanja se razmatra da spriječi slučajno povrede privatnosti

Pored zaštite vaših podataka, dok ga koristite, jedan korak u procesu istraživanja, gdje je posebno istaknuta informativnog rizik je dijeljenje podataka s drugim istraživačima. dijeljenje podataka među znanstvenicima je osnovna vrijednost naučnih poduhvata, i to u velikoj mjeri objekata unapređenje znanja. Evo kako u Velikoj Britaniji domu opisao je važnost razmjene podataka:

"Pristup podacima je osnova ako istraživači su da reprodukuju, provjerite i graditi na rezultatima koji su iskazani u literaturi. Pretpostavka mora biti da, osim ako ne postoji jak razlog inače, podatke treba u potpunosti objavljeni i dostupni javnosti. U skladu sa ovim principom, gdje bi trebalo biti moguće, podaci u vezi sa svim istraživanjima javno finansira široko i slobodno na raspolaganju. " (Molloy 2011)

Ipak, dijeleći svoje podatke sa drugim istraživač, možda se povećava informativne rizik za učesnike. Dakle, to može izgledati da su istraživači koji žele da podijele svoje podataka ili se traži da dijele svoje podatke-suočavaju osnovni napetost. S jedne strane oni imaju etičku obavezu da podijele svoje podatke s drugim naučnicima, posebno ako je originalno istraživanje je javno finansira. Ipak, u isto vrijeme, istraživači su etičku obavezu da se smanji, koliko god je to moguće, informacije rizik za njihove učesnike.

Srećom, ova dilema nije toliko teška kao što se čini. Važno je da mislim podataka dijeljenje duž kontinuuma od no dijeljenje podataka da oslobodi i zaboraviti, gdje se podaci "anonimne" i pisao za svakoga za pristup (Slika 6.6). Oba ova ekstremne pozicije imaju rizike i koristi. To je, to nije automatski najviše etičke stvar ne podijeliti svoje podatke; takav pristup eliminira mnoge potencijalne koristi za društvo. Vrativši se Taste, vezice, i vremena, primjer je ranije rečeno u poglavlju, argumente protiv oslobađanja podataka koji se fokusiraju samo na moguće štete i da ignorišu moguće prednosti su previše jednostrana; Ja ću opisati problem sa ovom jednostrano, pretjerano zaštitnički pristup detaljnije u nastavku, kada sam ponuditi savjete o donošenju odluka u lice nesigurnosti (Odjeljak 6.6.4).

Slika 6.6: strategije oslobađanje podataka može pasti duž kontinuuma. Gdje bi trebao biti na tom kontinuumu ovisi o konkretnim detaljima vaših podataka. U ovom slučaju, treća strana pregled može vam pomoći da odlučite na odgovarajući balans rizika i koristi u vašem slučaju.

Slika 6.6: strategije oslobađanje podataka može pasti duž kontinuuma. Gdje bi trebao biti na tom kontinuumu ovisi o konkretnim detaljima vaših podataka. U ovom slučaju, treća strana pregled može vam pomoći da odlučite na odgovarajući balans rizika i koristi u vašem slučaju.

Nadalje, između ova dva ekstremna slučaja je ono što ću nazvati ograđenim vrtom pristup, gdje se podaci dijeli sa ljudima koji ispunjavaju određene kriterije i koji se slažu da će se pridržavati određenih pravila (npr, nadzor iz IRB i planove zaštite podataka) . Ovaj ograđenim vrtom pristup pruža mnoge prednosti oslobađanja i zaboraviti s manje rizika. Naravno, ograđenim vrtom pristup stvara mnoga pitanja-koji bi trebali imati pristup, pod kojim uvjetima, koliko dugo, koji treba da plati za održavanje i policije ograđeni vrt i sl ali to nisu nepremostive. U stvari, postoje već rade zidom vrtovima na mjestu koje istraživači mogu koristiti odmah, kao što je arhiva podataka Inter-univerzitetskom Konzorcijum za politička i društvena istraživanja na University of Michigan.

Dakle, gdje bi trebalo da se podaci iz vašeg studija biti na kontinuumu bez dijeljenja, ograđenim vrtom, i osloboditi i zaboraviti? To ovisi o detaljima vaših podataka; Istraživači moraju balansirati Poštovanje osobe, Beneficence, pravde i poštovanje zakona i javnog interesa. Prilikom procjene odgovarajuću ravnotežu za druge odluke istraživači traže savjet i odobrenje IRBs, i puštanje podaci mogu biti samo još jedan dio tog procesa. Drugim riječima, iako neki ljudi misle izdanja podataka kao beznadežna etički močvare, već imamo sisteme za pomoć istraživačima uravnoteži takve etičke dileme.

Jedan konačni način razmišljanja o dijeljenje podataka je po analogiji. Svake godine automobili su odgovorni za hiljade mrtvih, ali ne pokušavajte da zabrani vožnje. U stvari, kao što je poziv na zabranu vožnje bi bilo apsurdno, jer u vožnji omogućuje mnoge divne stvari. Umjesto toga, društvo postavlja ograničenja na koji mogu voziti (npr moraju biti određene dobi, potrebno je da su prošli određene testove) i kako oni mogu voziti (npr, pod ograničenje brzine). Društvo također ima ljudi zaduženi za provođenje tih pravila (npr, policija), i mi smo kazniti ljude koji su uhvaćeni ih krše. Ova ista vrsta uravnoteženog razmišljanja tog društva odnosi na regulisanje vožnje može se primijeniti na dijeljenje podataka. To je, prije nego što apsolutističke argumente za ili protiv dijeljenje podataka, mislim da je najveća korist će doći iz smisli kako možemo još sa sigurnošću dijeliti više podataka.

Da zaključimo, informativna rizik dramatično povećao, a to je vrlo teško predvidjeti i kvantificirati. Stoga, najbolje je pretpostaviti da su svi podaci potencijalno prepoznatljiv i potencijalno osjetljive. Da biste smanjili informativne rizik dok radi istraživanja, istraživači mogu stvoriti i pratiti plan za zaštitu podataka. Nadalje, informativna rizik ne sprečava istraživači dijele podatke s drugim naučnicima.