6.6.2 ulertu eta kudeatzea informatzailea arriskua

Informazioa arrisku ikerketa sozialean arrisku ohikoena da; nabarmen handitu da; eta arrisku gogorrena da ulertzen.

Social adina ikerketa digitalaren Bigarren erronka etikoak informatzailea arriskua, informazio dibulgazioa from kalte potentziala da (Council 2014) . informazio pertsonala dibulgazioa batetik Informazio kalteak ekonomikoa izan daiteke (adibidez, lan bat galtzea), soziala (adibidez, lotsa), psikologikoak (adibidez, depresioa), edo baita penala (adibidez, legez kanpoko atxiloketa protestaka). Zoritxarrez, aro digitala handitzen informazio arriskua nabarmen-ez hainbeste gure portaera buruzko informazio gehiago dago. Eta, arrisku informatzailea oso zaila ulertzeko eta kudeatzeko frogatu du aldean arrisku hori analogikoa adina ikerketa gizarte kezka, hala nola, arrisku fisiko gisa izan ziren. nola aro digitalean informatzailea arriskua handitzen ikusteko, har paper trantsizioa elektronikoak historia klinikoa. Biak erregistro mota sortu arriskua, baina erregistro elektronikoen arriskuak askoz handiagoa sortu masiboki at baimenik gabe festa bat izango dute transmititu edo beste erregistro batzuk batu ahal izango delako. aro digitalean Gizarte ikertzaileek dagoeneko arriskua informatzailea dituzten arazoak exekutatu, hein handi batean, ez zuten guztiz ulertzen nola zenbatzeko eta kudeatu delako. Beraz, arrisku informatzailea pentsatzeko era lagungarria eskaintzen noa, eta ondoren, naiz duzu zure ikerketan informatzailea arriskua nola kudeatu eta datu askatuz beste ikertzaileei ere zenbait aholku eman nahi zaio.

Hori lortzeko, gizarte ikertzaile informatzailea arriskua txikitzeko "izengabeak" datuen da. "Izengabeak", besteak beste, izena, helbidea, eta datuak telefono zenbaki bezala identifikadore pertsonala bistako kentzeko prozesua da. Hala ere, planteamendu hau askoz gutxiago eraginkorra jende askok baino konturatzen da, eta horixe da, hain zuzen ere, sakon eta funtsean mugatua. Hori dela-eta, betiere, azalduko ditut "izengabeak," komatxo erabili dut gogoraztea prozesu hori anonimotasuna itxura baina ez da egia anonimotasuna sortzen.

"Izengabeak" porrota adibide biziak 1990eko amaieran dator Massachusetts ere (Sweeney 2002) . The Group Aseguruak Batzordeak (GIC) gobernu-agentzia batek osasun asegurua erosteko egoera langile guztien ardura zuen. Lan honen bitartez, GIC bildutako zehatza osasun egoera langileen milaka erregistro. Garaipena osasun hobetzeko moduak buruzko ikerketa bultzatzeko ere, GIC erabaki erregistro horiek askatzeko ikertzaileei. Hala ere, ez zuten beren datu guztiak partekatzeko; baizik eta, dute "anonimoki" hura, izen eta helbidea informazioa kenduz. Hala ere, pentsatu dute ikertzaileek oso erabilgarria izan daiteke, hala nola, informazio demografikoa (kodea, jaiotze data, etnia, eta sexua) eta mediku-informazioa (bisita datuak, diagnostikoa, prozedura) (6.4 irudia), beste informazio utzi zuten (Ohm 2010) . Zoritxarrez, "izengabeak" hau ez zen nahikoa datuak babesteko.

6.4 irudia: izengabeak jakina kendu informazioa identifikatzeko prozesua da. Esate baterako, aseguru medikoa egoera langileen erregistro askatuz Massachusetts Group Aseguruak Batzordeak (GIC) kendu izena eta helbidea fitxategiak from. komatxorik erabiltzen dut hitza izengabeak inguruan prozesuan anonimotasuna itxura benetako anonimotasuna ematen duelako, baina ez.

6.4 irudia: "izengabeak" jakina kendu informazioa identifikatzeko prozesua da. Esate baterako, aseguru medikoa egoera langileen erregistro askatuz Massachusetts Group Aseguruak Batzordeak (GIC) kendu izena eta helbidea fitxategiak from. hitza "izengabeak" komatxo erabili dut prozesua anonimotasuna itxura benetako anonimotasuna ematen duelako, baina ez.

du GIC "izengabeak" gabeziak azaltzeko, Latanya Sweeney-ondoren graduondoko MIT-ordaindu $ 20 boto erregistro eskuratzeko Cambridge, Massachusetts gobernadore William Weld jaioterrian hiritik ikaslea. boto erregistro horiek barne, hala nola, informazioa izena, helbidea, posta kodea, jaiotze data, eta genero gisa. Izan ere, datu mediku fitxategia eta hautesleak fitxategia elkarbanatu fields-zip kodea, jaiotze data, eta sexu-ekarri Sweeney duten horiek lotzeko zezakeela. Sweeney bazekien Weld en urtebetetzea, uztailaren 31, 1945 zen, eta boto-erregistro barne Cambridge sei pertsona urtebetetzea horrekin. Are gehiago, sei pertsona horiek, soilik hiru gizonezko izan ziren. Eta, hiru gizon horiek, bakarrik bat elkarbanatu Weld en zip kodea. Horrela, boto datuak erakutsi Weld jaioteguna, sexua, eta posta kodea konbinazio mediku datuak Edozeinek William Weld zen. Funtsean, hiru informazio pieza horiek hatz-marka berezia eman zion datuetan ere. Izan ere, hau erabiliz, Sweeney Weld en mediku Erregistro aurkitzea, eta berarekin informatzeko bere balentria gai izan zen, hura bere erregistro liburuaren kopia bat bidali zuen (Ohm 2010) .

Irudikatu 6.5: Re-idenification anonimoki datuen. Latanya Sweeney konbinatzen anonimoki osasun boto erregistro erregistro ordena gobernadorea William Weld Erregistro mediku du (Sweeney 2002) aurkitzeko.

Irudikatu 6.5: Re-idenification "anonimoki" datuen. Latanya Sweeney konbinatu "anonimoki" osasun boto erregistro erregistro ordena gobernadorea William Weld Erregistro mediku aurkitzeko ere (Sweeney 2002) .

Sweeney en lana de-izengabeak erasoak oinarrizko egitura ilustratzen -to segurtasun informatikoa komunitatearen batetik, epe bat hartzea. eraso horietan, bi datu multzoak, ez berez horietatik informazio sentikorra agerian uzten, lotuta daude, eta lotura hori bidez, informazio sentikorra jasan. Nolabait prozesu hau modu gozogintza soda eta ozpina, hori seguru beraiek dira bi substantzia hori, konbinatu daiteke gaizto emaitza bat sortzeko antzekoa da.

Sweeney-en lana, eta antzeko lan erantzunez, ikertzaileek orokorrean kendu askoz gehiago informazio-guztiak deituriko "informazio pertsonala" (PII) (Narayanan and Shmatikov 2010) prozesua -during "izengabeak." Are gehiago, ikertzaile askok orain konturatzen zenbait datu-erregistro mediku, finantza-erregistroak, erantzun legez kanpoko galdera gainbegiratzeko gisa duten portaera-da ziurrenik oso sentikorra da, nahiz eta ondoren askatu "izengabeak." Hala ere, hori azaltzen dut adierazi sozial ikertzaileek behar gehiago azken adibide bere pentsamendua aldatu. Lehen urrats gisa, komeni da datu guztiak gerta identifikagarri eta datu guztiak potentzialki sentikorrak bereganatzeko. Beste era batera esanda, baino arrisku informatzailea dela pentsatzen proiektuak azpimultzo txiki bat aplikatzen da, bere gain hartu behar dugu aplikatzen-to duela zenbait maila-to proiektu guztiak.

Biak hau re-orientazio alderdiak dira Netflix Saria ilustratua. 5. kapituluan zehazten den bezala, Netflix kaleratu 100 milioi movie ia 500.000 kidek emandako balorazioak, eta deialdi ireki bat, non mundu osoko pertsonak aurkeztu duten Netflix filmak gomendatzen gaitasuna hobetzeko izan algoritmoak izan. Datu askatuz aurretik, Netflix kendu edozein jakina pertsonalki identifikatzeko informazioa, hala nola, izenak bezala. Netflix, gainera, aparteko urrats bat joan eta erregistro batzuk perturbazioak arina (adibidez, balorazioak batzuk aldatuz 4 izar 3 izar) sartu. Netflix Laster ohartu, ordea, beren ahaleginak egin arren, datuak ez ziren esan anonimoak.

Just bi datuak ondoren aste kaleratu ziren Narayanan and Shmatikov (2008) erakutsi zuen posible zela jendearen partida movie lehentasunei buruz ikasteko. bere re-identifikazio eraso trikimailu Sweeney en antzekoa izan zen: batu elkarrekin bi informazio iturri, inork informazio sentikorra potentzialki eta jakina identifikatzeko informazio ez eta inork pertsonen nortasuna dauka horretan. datu-iturri horietako bakoitza banaka segurua izan daiteke, baina, konbinatzen dira Batutako multzoaren informatzailea arriskua sor dezake. Netflix datuen kasuan, hona hemen nola gerta zitekeen. Imajinatu nire ekintza eta komedia filmak nire lankideekin buruzko pentsamenduak partekatzeko aukeratu dut, baina nahiago dut hori ez da nire iritzia filmak erlijiosoa eta politikoa partekatzeko. Nire lankideekin haiekin dut partekatutako Netflix datuak nire erregistro aurkitu informazioa erabil liteke; I informazioa partekatzeko duten hatz-marka paregabea izan daiteke, besterik gabe, William Weld jaioteguna, posta kodea, eta sexua bezala. Orduan, nire hatz-marka berezia aurkituko dute datuak ere bada, nire balorazioak ikasi ahal izan zuten filmak, filmak non ez aukeratu dut partekatzeko barne. Norakoak eraso pertsona bakar batek bideratuta, mota honetako gain, Narayanan and Shmatikov (2008) ere erakutsi zen posible dela zabala eraso -bat a asko inplikatu egin behar pertsonal eta filma puntuazioa datuekin Netflix datuak batuz pertsona-ek duten batzuk jende aukeratu dute Internet Movie Database (IMDb) iruzkin. horiek identifikatzeko duten partida Pertsona-are beren film multzo bat hatz-marka berezia da edozein informazio balorazioak-erabil daiteke.

Nahiz Netflix datuak daitezke bai norakoak edo zabala eraso batean berriro identifikatu, oraindik arrisku txikia izan agertzen da agian. Azken finean, filma balorazioak ez dirudi oso sentikorra. duten bitartean, egia izan daiteke, oro har, 500.000 multzoaren batean pertsona batzuk, movie balorazioak nahiko sentikorrak izan daitezke. Izan ere, de-izengabeak erantzunez closeted lesbiana emakume bat fitxatu klase-ekintza palo Netflix aurka. Hona hemen nola arazoa bere auzia ere adierazi zuten (Singel 2009) :

"[M] ovie eta puntuazioa datuak izaera oso pertsonala eta sentikorra [sic] informazio dauka. kidearen movie datuak Netflix kide baten interes pertsonal eta / edo borrokak hainbat gai oso pertsonala, sexualitatea, gaixotasun mentala, alkoholismoa berreskuratzeko, eta biktimizazio intzestua, tratu txar fisiko, etxeko indarkeria, adulterioak, eta bortxaketa barne azaltzen. "

Netflix Saria datuen de-izengabeak ilustratzen datu guztiak bi gerta identifikagarri eta datu guztiak hori da sentikorra potentzialki. Puntu honetan, agian, hori bakarrik hori gura jendeaz izan datu aplikatzen uste duzu. Harrigarria bada ere, hori ez da kasua. Informazioa Legearen eskaera askatasuna erantzunez, New York City Jaurlaritzak kaleratu taxi New York ibilaldi bakoitzaren erregistro 2013an, bilketa barne eta jaregin off aldiz, kokapen eta tarifa-zenbatekoak (abisuaren 2. kapitulua batetik Farber (2015) datu haiek lan-ekonomiako teoriek garrantzitsua) probatzeko. taxi ibilaldiei buruzko datu hau Benigno dirudi agian arren ez duelako badirudi pertsonei buruzko informazioa izan, Anthony Tockar konturatu taxi multzoaren hau benetan jasotako pertsonen informazio potentzialki sentikorrak asko. To ilustratzeko, begiratu bidaiak guztietan zuen Hustler Club-a banda New klub handi gauerdian eta 6am eta gero York-arteko bere tanta-off kokapenak hasita topatu. Bilaketa hori agerian-en esentzia-a maiz The Hustler Club pertsona batzuen helbideak zerrenda (Tockar 2014) . Zaila da hiriko gobernuak zuela Hori kontuan datuak kaleratu imajinatzea. Izan ere, teknika hori bera erabili ahal izango dira, edozein leku bisitatuko duten hiri-mediku klinika, gobernuaren eraikin bat, edo erakunde erlijioso bat pertsona helbideak etxean aurkitu.

Bi kasu-Netflix saria eta New York City taxi datu-show nahiko kualifikatua pertsona huts egin dutela kaleratu datuak ere informatzailea arriskua behar bezala balioesteko, eta kasu horiek hauek dira inola berezia (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Are gehiago, kasu askotan ere, problematikoa datuek bere libreki eskuragarri online, inoiz datu-oharra bat desegin zailtasuna adieraziz. Kolektiboki adibide-gisa horiek baita ondorio garrantzitsu bat pribatutasun-sorrarazten buruz informatika ikerketa. Ikertzaileak suposatuko luke datu guztiak gerta identifikagarri eta datu guztiak isilpekoak izan daitezkeen.

Tamalez, simple, hain zuzen, datu guztiak gerta identifikagarri eta datu guztiak isilpekoak izan daitezkeen irtenbide da. Hala ere, informazio arriskua murrizteko ari zaren datuak duten bitartean modu bat sortzea da eta datuak babesteko plan bat jarraitu. Plan honek aukera dagoela zure datuak leak izango eta kalte murriztu egingo leak bat gertatzen bada, nolabait gutxitzen dira. Datuak babesteko planak berezitasunak, besteak beste, bertan enkriptazio modu erabili, denboran zehar aldatzen, baina UK Datu zerbitzuak helpfully datuak babesteko plan baten elementuak antolatzen 5 kategoria 5 kutxa gotorrak deitu dutela sartu: proiektu seguru, pertsona segurua , ezarpenak seguru, datuak seguru eta irteerak segurua (6.2 taula) (Desai, Ritchie, and Welpton 2016) . bost kutxa bat ere ez banaka perfektua babesa ematen. Baina, elkarrekin duten informazio-arriskua murriztu daiteke faktore multzo indartsu bat osatzen dute.

6.2 taula: 5 kutxa gotorrak diseinatzea eta datuak babesteko plan bat gauzatzea printzipioak dira (Desai, Ritchie, and Welpton 2016) .
Safe Ekintza
proiektuak Safe proiektuak mugatzen horiek etikoak datuekin
jende Safe sarbidea nor den datu fidagarria daiteke jendearentzat soilik (adibidez, jendeak pairatu dute prestakuntza etiko)
datu Safe Datu-ko identifikatzen da eta ahal den neurrian agrega
ezarpenak Safe Datu fisiko egokia (adibidez, blokeatuta gela) eta software (adibidez, pasahitza babesa, enkriptatutako) babesak ordenadoreak gordetako da
irteera Safe ikerketa irteera berrikusten da ustekabean pribatutasun-hauste saihesteko

Zure datuak babesteko erabiltzen ari zaren bitartean gain, ikerketa-prozesua non informatzailea arriskua da bereziki garrantzizko urrats bat beste ikertzaile batzuekin datuak partekatzea da. zientzialarien artean datuak partekatzea muina Ikerketa zientifikoen balio-kopuruak izugarri instalazio ezagutza aurrerapena da, eta. Hona nola UK Commons Etxea datuak partekatzeko garrantziaz deskribatu:

"Datuetarako sarbidea funtsezkoa da ikertzaile erreproduzitu, egiaztatzeko eta diren literaturan emaitzak gainean eraikitzeko badira. presuntzioa, hau egiteko arrazoi sendoa da, bestela, datuak erabat kontuetarako behar eta edonoren eskura izan behar du. Printzipio hori, ahal den neurrian, publikoki finantzatutako ikerketa guztiak lotutako datuak jarri beharko lirateke zabalduena eta libreki eskuragarri ildotik. " (Molloy 2011)

Hala ere, beste ikertzaile batzuekin zure datuak partekatuz, gero eta beharbada zeure informazio-arriskua zure parte-hartzaileei. Horrela, beren partekatu nahi dituzten datu-edo beharrezkoak dira beren partekatzeko ikertzaileek datu-ari funtsezko tentsio baten aurrean badirudi ere. Batetik betebehar etiko bat beste zientzialari datuak partekatu behar dute, jatorrizko ikerketa publikoki finantzatutako badago bereziki. Hala ere, aldi berean, ikertzaileek betebehar etiko bat minimizatu dute, ahalik eta gehien, bere parte-hartzaileei arriskua.

Zorionez, dilema hori ez da larria agertzen den moduan. Garrantzitsua da datuak askatu eta ahaztu, non datuak dago "anonimo bihurtu" eta posted edonork sartzeko continuum bat batera partekatzen datuak partekatzea ez da (6.6 irudia) pentsatzea. muturreko posizioak horiek bai arriskuak eta onurak. Hau da, ez da automatikoki gauzarik etiko zure datuak ez partekatzeko; Ikuspuntu horretan gizarteari balizko onura asko ekiditen. Itzulera dastatzeko, Ties, eta ordua, adibide bat Kapitulu hasieran eztabaidatu, datuak askatu aurkako argudioak kalteak posible bakarra ardatz duten eta hori posible onurak alde batetara gehiegi bat-aldeko; bat-aldeko, gehiegi babes planteamendu honekin arazo deskribatuko dut xehetasun gehiago beheko Erabakiak hartzeko ziurgabetasuna (6.6.4 atala) aurpegia buruzko aholkularitza eskaintzen dut.

6.6 irudia: Data oharra estrategiak continuum bat batera erori daiteke. Non zehar continuum hau zure datuak zehaztasun jakin araberakoa izan behar duzu. Kasu honetan, hirugarren berrikuspena arriskua oreka egokia eta prestazioa zure kasuan erabakitzen baduzu lagun dezake.

6.6 irudia: Data oharra estrategiak continuum bat batera erori daiteke. Non zehar continuum hau zure datuak zehaztasun jakin araberakoa izan behar duzu. Kasu honetan, hirugarren berrikuspena arriskua oreka egokia eta prestazioa zure kasuan erabakitzen baduzu lagun dezake.

Are gehiago, muturreko bi kasu horien artean dago zer harresitu lorategi hurbilketa bat non datuak dago irizpide batzuk betetzen duten eta zenbait arau onartuko duten pertsonekin partekatutako deitu dut (adibidez, IRB batetik oversight eta datuak babesteko planak a) . harresitu lorategi Planteamendu honek oharra onurak asko ematen du eta arrisku gutxiagorekin ahaztu. Jakina, harresi-lorategi hurbilketa bat sortzen galdera-nor askoren sarbidea izan behar dute, zer-nolako baldintzatan, zenbat denbora eutsi, eta harresiz lorategia zaintzen duten ordaindu beharko da ea-baina horiek ez dira gaindiezinak. Izan ere, ez harresitu lorategiak dagoeneko lanean ari dira leku hori ikertzaile oraintxe erabil daiteke, besteak beste, datu Unibertsitate arteko Partzuergoko artxiboko Gizarte eta Politika Ikerketarako Michigan Unibertsitatean gisa.

Beraz, non behar duzu zure azterketa datuen partekatzea ez harresiz lorategi continuum izango da, eta askatzeko eta ahaztu? mendekoak dira, zure datuak xehetasunen berri da; Ikertzaileek pertsonak, Ongintzaren, Justizia errespetatzea, eta errespetatzea orekatu behar Legearen eta interes publikoa da. Noiz bestelako erabakiak balantzea egokia ebaluatzeko ikertzaile aholkularitza eta IRBs onespena bilatzen, eta datu-oharra prozesu hori beste zati bat besterik ez da izan daiteke. Beste era batera esanda, pertsona batzuek datu-oharra morass etiko hopeless gisa uste arren, dagoeneko sistemak leku ikertzaile orekatzeko dilema etiko mota horiek laguntzeko.

One final buruz datuak partekatzeko uste bide analogiaz da. Urte autoak orok dira heriotzak milaka ardura, baina ez dugu saiatuko gidatze debekatu. Izan ere, dei bat, hala nola gidatzeko debekatu burugabekeria litzateke gidatzeko aukera ematen wonderful gauza asko duelako. Izan ere, gizarteak jartzen duten gidatzeko dezakezu jarritako murrizpenak (adibidez, behar adina jakin bat izan nahi du, zenbait probak gainditu dituzten behar) eta nola gidatu ahal izango dute (adibidez, abiadura muga azpian). Gizarteak ere, arau horiek (adibidez, polizia) behartu tasked pertsona ditu, eta nork harrapatu horiek hausten zigortzen dugu jendea. Pentsamendu orekatua mota hau gizartearen gidatzeko arautzen aplikatzen ere egin daiteke, datuak partekatzeko aplikatu. Hau da, baizik eta absolutista argumentuak egiteko edo datuak partekatzea aurka baino, onura handienetako egingo kalkulatzen datu gehiago nola partekatu ahal izango dugu gehiago segurtasunez etorriko dela uste dut.

Amaitzeko, informatzailea arriskua nabarmen igo da, eta oso zaila da aurreikusteko eta kuantifikatzeko. Beraz, hobe da datu guztiak gerta identifikagarri eta potentzialki sentikorrak bereganatzeko. informatzailea arriskua jaisteko, berriz, ikerketa egiteko, ikertzaileek sortu eta datuak babesteko plan bat jarraitu. Are gehiago, informazio-arriskua ez du eragotzi ikertzaile zientzialariek beste datuak partekatzea.