6.6.2 Razumevanje in upravljanje informativne tveganja

Tveganje informacije je najpogostejša tveganja socialne raziskave; se je dramatično povečalo; in to je najtežje tveganje za razumevanje.

Drugi etični izziv za socialno starosti digitalno raziskave je informativna tveganje, potencial za škodo zaradi razkritja informacij (Council 2014) . Informacijske škoduje iz razkritja osebnih podatkov je lahko gospodarska (npr, izguba službe), socialne (npr zadrega), psihološko (npr depresije), ali celo kazensko (npr prijetje za nezakonito ravnanje). Na žalost, digitalna doba povečuje informacije o tveganju dramatično, je prav tako veliko več informacij o našem obnašanju. In, je informacijska tveganja izkazala za zelo težko razumeti in upravljati v primerjavi s tveganjem, da so bili pomisleki v analogni starostni družboslovnega raziskovanja, kot fizičnim tveganjem. Da bi videli, kako se digitalna doba povečuje informacijsko tveganje, menijo, prehod iz papirja za elektronske zdravstvene kartoteke. Obe vrsti zapisov ustvarjajo tveganje, vendar so elektronski zapisi ustvarjajo večje tveganje, saj lahko v velikem obsegu se prenašajo na nepooblaščene osebe ali združena z drugimi evidencami. Družboslovni raziskovalci v digitalni dobi že naletite na težave z informacijsko tveganje, deloma zato, ker niso v celoti razumeli, kako izmeriti in ga upravljati. Torej, bom ponuditi koristen način, da razmišljajo o informacijski tveganja, in potem bom dal nekaj nasvetov, kako upravljati z informacijsko tveganje v svojem raziskovanju in pri objavljanju podatkov drugim raziskovalcem.

Eden od načinov, da socialne raziskovalci zmanjša informacijsko tveganje je "anonimne" podatkov. "Anonimizacija" je postopek odstranitve očitne osebne identifikatorje, kot so ime, naslov in telefonsko številko iz podatkov. Vendar pa je ta pristop veliko manj učinkovit kot mnogi ljudje zavedajo, in je v bistvu zelo in bistveno omejena. Zaradi tega, ko sem opisati "anonimizacijo," bom uporabil narekovaje, da vas spomnim, da je ta proces ustvarja videz anonimnosti, vendar ni res anonimnosti.

Živahni primer neuspeha "anonimizacijo" izvira iz poznih 1990-ih v Massachusettsu (Sweeney 2002) . Insurance Komisija Group (GIC) je vladna agencija, odgovorna za nakup zdravstvenega zavarovanja za vse državne uslužbence. Preko tega dela, GIC zbirajo podrobne zdravstvenih evidenc o tisoč državnih uslužbencev. V prizadevanju, da bi pospešila raziskave o načinih za izboljšanje zdravja, GIC odločila za sprostitev te zapise za raziskovalce. Vendar pa niso delili vse svoje podatke; ne, so "anonimni" je z odstranitvijo informacije, kot so ime in naslov. Vendar pa so zapustili druge informacije, ki so mislili, bi bilo koristno za raziskovalce, kot so demografski podatki (poštna številka, datum rojstva, etničnosti in spola) in zdravstvenih podatkov (podatki obisk, diagnostike, postopek) (slika 6.4) (Ohm 2010) . Na žalost pa je to "anonimne" ni bilo dovolj za zaščito podatkov.

Slika 6.4: Anonimizacija je postopek odstranitve očitno identifikacijske podatke. Na primer, ko sprošča zavarovanja evidence zdravstvene državnih zaposlenih Massachusetts Skupina Zavarovalnica komisija (GIC) odstrani ime in naslov iz datotek. Uporabljam narekovaje besedo anonimizacijo, ker je proces zagotavlja videz anonimnosti, ne pa dejanskega anonimnost.

Slika 6.4: "Anonimizacija" je postopek odstranitve očitno identifikacijske podatke. Na primer, ko sprošča zavarovanja evidence zdravstvene državnih zaposlenih Massachusetts Skupina Zavarovalnica komisija (GIC) odstrani ime in naslov iz datotek. Uporabljam narekovaje besedo "anonimizacijo«, ker je proces zagotavlja videz anonimnosti, ne pa dejanskega anonimnost.

Za ponazoritev pomanjkljivosti GIC "anonimizacijo", Latanya Sweeney, nato pa podiplomski študent na MIT-plača 20 $ za pridobitev zapisov glasovalne od mesta Cambridge, rojstni kraj Massachusetts guverner William zvarov. Ta glasovalna evidence vključene informacije, kot so ime, naslov, poštno številko, datum rojstva in spol. Dejstvo, da je zdravstveni podatki datotek in volivcev datoteka v skupni rabi polja-zip kodo, datum rojstva in spol pomenilo, da bi Sweeney jih povežejo. Sweeney je vedel, da je zvar rojstni dan 31. julij 1945, in zapisi o glasovanju vključeni le šest ljudi v Cambridgeu s tem rojstni dan. Nadalje, od teh šest oseb, so bili moški le trije. In od teh treh moških, le ena skupna poštno številko zvar je. Tako so podatki o glasovanju pokazala, da je kdo v zdravstvenih podatkov s kombinacijo zvar dne datum rojstva, spol in poštno številko William Weld. V bistvu so ti trije deli informacij, ki so edinstven prstni odtis, ki mu v podatkih. Uporaba tega dejstva, je Sweeney sposoben poiskati zdravstveno kartoteko zvar je, in da ga obvesti o svojem podvigu, ona mu poslali kopijo svoje evidence (Ohm 2010) .

Slika 6.5: Re-idenification anonimnih podatkov. Latanya Sweeney kombinaciji anonimizirani zdravstvenih zapisov z evidenco volilne da bi našli zdravstvenih evidenc guverner William Weld (Sweeney, 2002).

Slika 6.5: Re-idenification o "anonimnih" podatkov. Latanya Sweeney združili "v anonimizirani" zdravstvenih zapisov z evidenco volilne da bi našli zdravstvenih evidenc guverner William Weld (Sweeney 2002) .

Delo Sweeney se prikazuje osnovno strukturo de-anonimne napade -to sprejme izraz iz računalniško varnost skupnosti. V teh napadih, dva podatkovna niza, od katerih samo po sebi ne razkriva občutljivih podatkov, so povezani, in skozi te povezave, se občutljive informacije izpostavljena. V nekaterih pogledih je ta proces podoben način, pecilni soda in kis, dve snovi, ki so same po sebi varna lahko kombiniramo, da dobimo grdo izid.

V odgovor na delu Sweeney je, in druge s tem povezane delo, raziskovalci zdaj na splošno odstraniti veliko več informacij, vse ti "osebne podatke" (zavarovanje poklicne odgovornosti) (Narayanan and Shmatikov 2010) sproženjem proces "anonimizacijo." Poleg tega mnoge raziskovalce zdaj Zavedam se, da je vedenje,-ti podatki za nekatere kot medicinske dokumentacije, finančnih evidenc, odgovorov na raziskavo vprašanja o nezakoniti verjetno preveč občutljiva, da javnost tudi po "anonimizacijo." Vendar pa več nedavnih primerov, da bom opisal spodaj, kažejo, da je treba socialne raziskovalci spremenijo svoje mišljenje. Kot prvi korak, je pametno, da predpostavimo, da so vsi podatki, lahko prepoznavni in vsi podatki so lahko občutljivi. Z drugimi besedami, ne razmišljam, da informativno tveganje velja za majhno podskupino projektov, moramo domnevati, da velja do neke mere, za vse projekte.

Oba vidika tega preusmerjanja ilustrira nagrado Netflix. Kot je opisano v poglavju 5, Netflix sprostila 100 milijonov filmske ocene, ki jih je skoraj 500.000 članov, in je javni razpis, kjer se ljudje iz vsega sveta predložil algoritme, ki bi lahko izboljšali sposobnost Netflix, da priporoči filmov. Pred sprostitvijo podatke, Netflix odstranili vsako očitno osebnimi podatki, kot so imena. Netflix se je tudi dodaten korak in uvedli manjše motnje v nekaterih zapisov (npr spreminjajoče se nekatere ocene od 4 zvezdice 3 zvezdice). Netflix kmalu odkrili, pa je, da kljub njihovim prizadevanjem, so podatki, ki jih nikakor ni anonimen.

Le dva tedna po podatkih ni sproščena Narayanan and Shmatikov (2008) je pokazala, da je bilo mogoče, da spoznajo specifične ljudi filmskih preferenc. Trik za njihovo ponovno identifikacijsko napadu je bilo podobno Sweeney je: združitev dveh informacijskih virov, eno potencialno občutljivih podatkov in ni očitno podatke za ugotavljanje istovetnosti in enega, ki vsebuje identiteto ljudi. Vsak od teh virov podatkov se lahko individualno varno, ko pa so v kombinaciji lahko združeni nabor podatkov ustvariti informacijsko tveganje. V primeru podatkov za Netflix, tukaj je, kako bi se lahko zgodilo. Predstavljajte si, da sem se odločil, da delim svoje misli o ukrepih in komičnih filmov z mojimi sodelavci, ampak da raje ne delite svoje mnenje o verskih in političnih filmov. Moji sodelavci bi lahko uporabili informacije, ki sem jih delijo z njimi, da bi našli svoje zapise v podatkih Netflix; informacije, da se strinjam bi lahko edinstven prstni odtis, tako kot William zvar datumom rojstva, poštno številko in spola. Potem, če so našli svoj edinstven prstni odtis v podatkih, bi se lahko učijo svoje ocene o vseh filmih, vključno s filmi, kjer sem se ne odločijo za skupno rabo. Poleg te vrste ciljnega napadu osredotočil na eno samo osebo, Narayanan and Shmatikov (2008) je tudi pokazala, da je bilo mogoče narediti širok napad on, ki vključuje veliko ljudi, z združitvijo podatkov Netflix z osebnimi in film podatkov ocenjevanja, da so nekateri ljudje so se odločili za objavo na spletni filmski podatkovni zbirki (IMDb). Vse informacije, ki je edinstvena prstnih odtisov na določeno osebo, tudi njihov nabor filmskih ocen, se lahko uporabljajo za njihovo identifikacijo.

Čeprav se podatki Netflix lahko ponovno opredeliti, bodisi ciljno ali široko napada, še vedno lahko prikaže le neznatno tveganje. Konec koncev, filmske ocene ne zdi zelo občutljiva. Medtem ko bi to bilo res, na splošno, za nekaj 500.000 ljudi v naboru podatkov, lahko film ocene precej občutljiva. V resnici, v odgovor na de-anonimizacijo zaprla lezbijka ženska pridružila razredu akcijski tožbo proti Netflix. Tukaj je, kako je problem, izraženo v svoji tožbi (Singel 2009) :

"[M] ovie in ocenjevanje podatkov vsebuje informacije o bolj izrazito osebne in občutljive narave [sic]. Film Podatki člana izpostavlja član Netflix je osebni interes in / ali bojev z različnimi zelo osebnih vprašanj, vključno s spolnostjo, duševne bolezni, okrevanje od alkoholizma, in viktimizaciji iz incesta, fizične zlorabe, nasilje v družini, prešuštva in posilstva. "

De-anonimizacijo podatkov o Netflix nagrade kaže tako, da so vsi podatki, lahko prepoznavni in da so vsi podatki lahko občutljivi. Na tej točki, bi si lahko mislili, da to velja le za podatke, ki da naj bi ga bilo za ljudi. Presenetljivo je, da ni tako. V odgovor na svobodi zahtevo Information Law, New York City vlada sprostila evidenco vseh taksijem v New Yorku leta 2013, vključno s pickup in spustite off-krat, lokacije in količine vozovnica (odpoklic iz poglavja 2, ki Farber (2015) uporablja te podatke za testiranje pomembne teorije v delovno ekonomije). Čeprav se ti podatki o taksi potovanjih zdi neškodljiva, ker se ne zdi, da so informacije o ljudeh, Anthony Tockar spoznal, da je to taxi nabor podatkov dejansko vsebujejo veliko potencialno občutljivih informacij o ljudeh. Za ponazoritev, je pogledal na vseh potovanjih z začetkom ob The Hustler Club-veliki strip klubu v New Yorku-med polnočjo in 6. ure zjutraj, nato pa najde svoje drop-off lokacijah. To iskanje je pokazala, v bistvu-seznam naslovov nekaterih ljudi, ki so pogoste Hustler Club (Tockar 2014) . Težko si je predstavljati, da je mesto vlada to v mislih, ko je izdal podatke. Pravzaprav bi lahko to isto tehniko lahko uporablja, da bi našli domače naslove ljudi, ki obiščejo katero koli mesto v city-a kliniko, vladne stavbe ali verske institucije.

Ta dva primera-Netflix nagrado in New York City taxi podatki, kažejo, da relativno usposobljenih ljudi ni pravilno oceniti informacijska tveganja v podatke, ki se sprosti, in ti primeri nikakor niso enotna (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Poleg tega v mnogih od teh primerov je problematična podatkov je še vedno brezplačno na voljo na spletu, kar pomeni, da je težko kdaj razveljavili sproščanje podatkov. Skupaj ti primeri-kot tudi raziskave na področju računalništva o zasebnosti-vodi do pomembnega zaključka. Raziskovalci morajo domnevati, da so vsi podatki, lahko prepoznavni in vsi podatki so lahko občutljivi.

Žal ne obstaja preprosta rešitev z dejstvom, da je vse podatke potencialno določljivi in ​​vsi podatki se lahko občutljivi. Vendar pa je eden od načinov za zmanjšanje informacijske tveganje, medtem ko delate s podatki je oblikovanje in spremljanje načrta za varstvo podatkov. Ta načrt bo zmanjšuje možnost, da bodo vaši podatki, pušča pa bo zmanjšanje škode, če nekako pride do puščanja. Posebnosti načrtov za varstvo podatkov, na primer, katera oblika šifriranja za uporabo, se bo sčasoma spremenilo, vendar UK Data Services koristno organizira elemente načrta za varstvo osebnih podatkov v 5 kategorij, ki jih imenujemo tudi 5 sefov: varnih projektov, varnih ljudi varne nastavitve, varne podatkov in varnih izhodov (tabela 6.2) (Desai, Ritchie, and Welpton 2016) . Nobeden od petih sefov posamično zagotavljajo popolno zaščito. Ampak, skupaj tvorijo močan nabor dejavnikov, ki lahko zmanjšujejo informacijsko tveganje.

Tabela 6.2: The 5 sefi so načela za oblikovanje in izvajanje načrta za varstvo podatkov (Desai, Ritchie, and Welpton 2016) .
Safe Ukrep
varne projekti omejuje projektov s podatki na tiste, ki so etično
varne ljudi Dostop je omejen na osebe, ki lahko zaupate s podatki (na primer, ljudje so bili opravljeni etični usposabljanje)
Varni podatki Podatki se odpravi ugotovljene in združene v največji možni meri
varne nastavitve podatki so shranjeni v računalnikih z ustreznimi fizikalnimi (npr zaklenjena soba) in programske opreme (na primer zaščita z geslom, šifrirano) zaščite
varen izhod Raziskava izhod je pregledal, da preprečite nehoteno kršitev zasebnosti

Poleg zaščite podatkov, medtem ko ga uporabljate, en korak v raziskovalnem procesu, kjer je informacijska tveganja, še posebej pereče je izmenjava podatkov z drugimi raziskovalci. izmenjava podatkov med znanstveniki je osnovna vrednost znanstvenih prizadevanj, in v veliki meri objektov napredek znanja. Takole UK House of Commons opisal pomen izmenjave podatkov:

"Dostop do podatkov je bistvenega pomena, če so raziskovalci za razmnoževanje, preverjanje in graditi na rezultatih, ki so poročali v literaturi. Domneva, da je treba, če obstaja močna razlog drugače, podatki morajo biti v celoti razkrite in javno dostopni. V skladu s tem načelom, kjer je treba to mogoče, podatke, povezane z vsemi javno financiranih raziskav na široko in svobodno voljo, ki. « (Molloy 2011)

Vendar, z izmenjavo podatkov z drugimi raziskovalci, lahko se povečuje informacijsko tveganje za vaše udeležence. Tako se zdi, da raziskovalci, ki želijo deliti svoje podatke, ali se zahteva, da delijo svoje podatke, se soočajo s temeljno napetost. Na eni strani imajo etično dolžnost, da predstavijo svoje podatke z drugimi znanstveniki, še posebej, če je izvirna javno financiranih raziskav. Še, hkrati pa so raziskovalci imajo etične obveznost, da se zmanjša, kolikor je mogoče, informacije tveganje njihovih udeležencev.

Na srečo je ta dilema ni tako hudo, kot se zdi. Pomembno je, da razmišljajo o delijo po kontinuumu od nobenem izmenjavo podatkov za sprostitev in pozabi, kjer se podatki "anonimni" in objavil za vsakogar, za dostop do podatkov (slika 6.6). Oba skrajnih položajih imajo tveganja in koristi. To pomeni, da ni avtomatično najbolj etično stvar, da ne delite svoje podatke; tak pristop odpravlja številne potencialne koristi za družbo. Se vračate na Okus, kravate, in čas, primer že rečeno v poglavju, argumenti proti izdaji podatkov, ki se osredotočajo le na morebitne škode, in da prezreti možne koristi so preveč enostranski; Bom opisala težave s to enostransko, preveč zaščitniškega odnosa podrobneje predstavljena v nadaljevanju, ko sem svetujejo o odločanju v primeru negotovosti (oddelek 6.6.4).

Slika 6.6: Strategije za javnost podatkov lahko pade vzdolž kontinuuma. Kjer bi morali biti ob tem kontinuum je odvisna od posebnih podrobnostih podatkov. V tem primeru lahko pregled tretja oseba, se boste lažje odločili za ustrezno ravnovesje tveganja in koristi v vašem primeru.

Slika 6.6: Strategije za javnost podatkov lahko pade vzdolž kontinuuma. Kjer bi morali biti ob tem kontinuum je odvisna od posebnih podrobnostih podatkov. V tem primeru lahko pregled tretja oseba, se boste lažje odločili za ustrezno ravnovesje tveganja in koristi v vašem primeru.

Poleg tega je v teh dveh skrajnih primerih je tisto, kar bom poklical obzidan vrt pristop, kjer se podatki v skupni rabi z osebami, ki izpolnjujejo določene pogoje in ki se strinjajo, da jih zavezuje določenih pravil (npr nadzor iz IRB in načrti za varstvo podatkov) . To stenami vrt pristop zagotavlja številne prednosti za javnost in pozabi z manj tveganja. Seveda, stenami vrt pristop ustvarja veliko vprašanj-, ki bi morali imeti dostop, pod kakšnimi pogoji, za koliko časa, kdo bi moral plačati za vzdrževanje in policija je obzidan vrt itd, vendar ti niso nepremostljive. Dejstvo je, da že delajo stenami vrtov v mestu, da lahko raziskovalci uporabljajo zdaj, kot je arhiv podatkov o Inter-univerzitetnem Consortium for Political in družbene raziskave na Univerzi v Michiganu.

Torej, kje je treba podatke iz vašega študija se na kontinuumu brez delitve, stenami vrt, in sprostiti in pozabiti? To je odvisno od podrobnosti o vaši podatki; Raziskovalci morajo uravnotežiti Spoštovanje oseb, dobrodelnosti, pravosodje in Spoštovanje zakona in javnega interesa. Pri ocenjevanju ustreznega ravnovesja za druge odločitve, raziskovalci iščejo nasvet in odobritev IRBs in sprostitev podatki so lahko samo še en del tega procesa. Z drugimi besedami, čeprav so nekateri ljudje mislijo o sprostitvi podatkov kot brezupne etično morass že imamo vzpostavljene sisteme, ki raziskovalcem pomagajo uravnotežiti te vrste etičnih dilem.

Še zadnja način, da razmišljajo o izmenjavi podatkov, je po analogiji. Vsako leto avtomobili so odgovorni za tisoče smrtnih žrtev, vendar ne bomo poskušali prepovedati vožnjo. V bistvu, bi tak poziv za prepoved vožnje je nesmiselno, ker vožnja omogoča veliko čudovitih stvari. Nasprotno, družba postavlja omejitve, ki lahko vozi (npr morajo biti določeni starosti, morali so opravili določene teste) in kako lahko vozi (na primer, v okviru omejitev hitrosti). Društvo ima tudi ljudi, zadolžene za uveljavljanje teh pravil (na primer, policija), in kaznovati ljudi, ki so ujete jih kršijo. To isto vrsto uravnotežene razmišljanja, ki jih družba uporablja za urejanje vožnjo se lahko uporablja tudi za izmenjavo podatkov. To pomeni, da namesto da bi absolutistična argumente za ali proti izmenjavo podatkov, mislim, da so največje prednosti bodo iz ugotoviti, kako lahko delimo več podatkov varneje.

Za zaključek je informacijska tveganja dramatično povečalo, in je zelo težko napovedati in količinsko. Zato je najbolje, da domnevati, da so vsi podatki, lahko prepoznavni in potencialno občutljive. Za zmanjšanje informacijsko tveganje, medtem ko delaš raziskave, lahko raziskovalci izdelati in upoštevati načrt za varstvo podatkov. Poleg tega informacijska tveganja ne preprečuje raziskovalci izmenjavo podatkov z drugimi znanstveniki.