6.6.2 ulertu eta kudeatzea informatzailea arriskua

Informazioaren arriskua ikerketa sozialeko arriskurik ohikoena da; nabarmen handitu da; eta ulertzeko arriskurik zailena da.

Bigarren erronka etikoan, adin digitaleko ikerketarako informaziorako arriskua dago , informazioaren dibulgazioaren kaltearen potentziala (National Research Council 2014) . Informazio pertsonalaren dibulgaziorako informazio kaltegarriak ekonomikoak izan daitezke (adibidez, lan bat galtzea), gizarte (adibidez, lotsa), psikologikoa (adibidez, depresioa), edo are delitu (adibidez, jokabide legez kanpokoa). Zoritxarrez, adin digitalak arrisku informatikoa areagotzen du nabarmen -beste gure portaerari buruzko informazio askoz gehiago dago. Arrisku informatikoak oso antzekoak izan dira analogiko adineko gizarte ikerketan kezkatzen diren arriskuekin alderatuta, eta arrisku fisikoa bezain zaila.

Hori lortzeko, gizarte ikertzaile informatzailea arriskua txikitzeko "izengabeak" datuen da. "Izengabeak", besteak beste, izena, helbidea, eta datuak telefono zenbaki bezala identifikadore pertsonala bistako kentzeko prozesua da. Hala ere, planteamendu hau askoz gutxiago eraginkorra jende askok baino konturatzen da, eta horixe da, hain zuzen ere, sakon eta funtsean mugatua. Hori dela-eta, betiere, azalduko ditut "izengabeak," komatxo erabili dut gogoraztea prozesu hori anonimotasuna itxura baina ez da egia anonimotasuna sortzen.

"Anonimizazio" porrota adibide biziak Massachusettsen 1990eko hamarkadaren amaieratik dator (Sweeney 2002) . Taldearen Segurtasun Batzordea (GIC) gobernu agentzia bat izan zen, aseguru-asegurua erosteko estatu-langile guztiei. Lan honen bidez, GICk milaka estataleko langileei buruzko osasun erregistroak bildu zituen. Ikerketa bultzatzeko ahaleginean, GICek erregistro hauek askatu zituen ikertzaileentzat. Hala ere, ez zuten datu guztiak partekatu; baizik eta "anonimizatu" datu horiek informazioa, hala nola izenak eta helbideak ezabatuz. Hala ere, informazio demografikoa (zip kodea, jaiotze eguna, etnia eta sexua) eta informazio medikoa (bisitatu datuak, diagnostikoa, prozedura) (6.4 irudia) (Ohm 2010) ikertzaileentzat baliagarria iruditzen (Ohm 2010) . Zoritxarrez, "anonimizazioa" hau ez zen nahikoa datuak babesteko.

6.4 irudia: Anonimazioa jakina da informazio identifikazioa ezabatzea. Esate baterako, egoera-langileen aseguru medikoen erregistroa askatzen denean, Massachusettseko Taldeko Aseguruen Batzordeak (GIC) fitxategien izenak eta helbideak ezabatu zituen. Anonimizazioari dagokionez, komatxoak erabiltzen ditut, prozesuak anonimotasuna ager dakioke baina ez du anonimotasuna.

6.4 irudia: "Anonimizazioa", jakina, identifikatzeko informazioa ezabatzeko prozesua da. Esate baterako, egoera-langileen aseguru medikoen erregistroa askatzen denean, Massachusettseko Taldeko Aseguruen Batzordeak (GIC) fitxategien izenak eta helbideak ezabatu zituen. "Anonimizazio" hitzaren komatxoak erabiltzen ditut, prozesuak anonimotasuna agerrarazten baitu baina ez da anonimotasuna.

GIC "anonimizazio" gabeziak, Latanya Sweeney-eta, ondoren, MIT-ordaindutako $ 20 ikasle lizentziatua Cambridge hiriaren boto erregistroak lortzeko, Massachusetts gobernadoreak William Weld jaioterrian. Boto erregistro hauek, hala nola izena, helbidea, zip kodea, jaiotze data eta generoa bezalako informazioa barne. Datu medikuaren eta hautesleen artxiboaren fitxategiak eremu-zip kodea, jaiotze-data eta sexua partekatzen dutenez, Sweeney-ek lotura izan ditzake. Sweeneyk bazekien Weld-en urtebetetzea 1945eko uztailaren 31a zela, eta hauteskunde-erregistroak Cambridgeko sei pertsona bakarrik zeuden urtebetetzean. Gainera, sei pertsona horiei dagokienez, hiru bakarrik ziren gizonezkoak. Eta, horietako hiru gizonek, Welden zip kode bakarra partekatu zuten. Horrela, boto-datuek frogatu zuten Weld-en jaiotze-dataren, generoaren eta zip kodeen arteko datu medikuen artean William Weld-ena zela. Esate baterako, hiru informazio-zati horiek hatz-marka bakarra eman zioten datuetan. Izan ere, Sweeney-k Weld-en mediku erregistroak aurkitu ahal izan zituen eta, horri buruzko informazioa emateko, bere disko kopiak (Ohm 2010) bidali zizkion.

6.5 irudia: datu anonimoak berriro identifikatzea. Latanya Sweeney-k idatzitako botere erregistro anonimoak bateratzen ditu gobernu William Weld-ek (Sweeney, 2002) egokitua, 1. irudia.

6.5 irudia: "anonimizatu" datuak berriz identifikatzeko. Latanya Sweeney-k "anonimatu" osasun erregistroak konbinatu zituen boto erregistroarekin, gobernu William Weld Sweeney (2002) egokitua, 1. irudia aurkitu ahal izateko.

Sweeneyren lanak identifikazio identifikatzaileen oinarrizko egitura ilustratzen du, ordenagailuaren segurtasuneko komunitatearen epe bat hartzeko. Eraso hauetan, datu bi multzoak, eta horrek ez du inongo informazio sentikorra agerian uzten, lotura estua dago eta loturaren bidez informazio sentikorra da.

Sweeneyren lanari eta beste lan batzuei erantzunez, ikertzaileek, oro har, askoz ere informazio gehiago jasotzen dute; "informazio pertsonala identifikatzeko" (PII) (Narayanan and Shmatikov 2010) "anonimizazioan" prozesuan zehar. Gainera, ikertzaile askok Orain konturatzen zara datu batzuk (mediku erregistroak, finantza erregistroak, jokabide legez kanpoko galdeketei buruzko galderak erantzutea) ziurrenik gehiegi sentikorrak "anonimizazio" ondoren askatzeko. Hala eta guztiz ere, iradokitzen dudan adibideek iradokitzen dute ikertzaile sozialek behar dutela beren pentsamendua aldatzeko. Lehen urrats gisa, jakintsua da, datu guztiak potentzialki dira identifikagarri eta datu guztiak dira sentikorrak izan daitezkeen bereganatzeko. Beste era batera esanda, informazio-arriskua proiektu azpimultzo txikietara aplikatzen dela pentsatzea baino, proiektu guztiei aplikatzen zaie, neurri batean.

Netflix sariaren bidez ilustratzen diren bi berrorientatze alderdiak. 5. kapituluan deskribatu den moduan, Netflix-ek 100 milioi film inguru argitaratu zituen ia 500.000 bazkidek, eta mundu osoko jendea aurkeztu zuten Netflix-en filmak gomendatzeko gaitasuna hobetzeko algoritmoak. Datuak askatu aurretik, Netflix-ek informazio pertsonal bistako identifikazioa kendu du, esate baterako, izenak. Beste urrats bat ere egin zuten eta erregistro batzuetan zenbait perturbazio sartu zituzten (adibidez, 4 izarretik 3 izar dituzten kalifikazio batzuk aldatuz). Dute laster aurkitu dute, ordea, beren ahalegin arren, datuak ez ziren inola ere ez.

Datuak ateratako bi aste igaro ondoren, Arvind Narayanan eta Vitaly Shmatikovek (2008) erakutsi zuten pertsonen zinemaren hobespenak ezagutu ahal izan zirela. Berrerabiltzeko erronkak Sweeney-ren antzekoak ziren: bi informazio-iturriak bateratzen ditu, informazio potentzialki sentikorra duena, eta, jakina, informazio identifikatuz eta norberaren nortasuna dutenak. Datu-iturri horietako bakoitzak banaka seguru egon daitezke, baina konbinatuta daudenean, datu multzo bateratuek informazio-arriskua sor dezakete. Netflix datuen kasuan, hemen nola gertatuko litzatekeen. Imajinatu nire lankideekin ekintza eta komedia filmei buruzko nire pentsamenduak partekatzea aukeratzen dudala, baina nire filme erlijioso eta politikoei buruzko nire iritzia partekatzea nahiago dut. Nire lankideek haiekin partekatu duten informazioa erabil dezaket nire erregistroak Netflix datuetan aurkitzeko; Partekatu dudan informazioa hatz-marka bakarra izan daiteke William Welden jaiotze-data, zip kodea eta sexua bezalakoak. Orduan, datu hatz-marka bakarra aurkitu badute, nire film guztiei buruzko balorazioak ikasi ditut, partekatzen ez dudan filmak barne. Pertsona bakar bati zuzendutako eraso mota horretaz gain, Narayananek eta Shmatikovek ere erakutsi zuten eraso zabal bat egin zela, jende askok parte hartu zuela Netflix datu pertsonalak eta filmak datu pertsonalak aukeratuz. Internet Movie Database-n argitaratzeko (IMDb). Zalantzarik gabe, pertsona jakin bati hatz-marka berezia ematen duen edozein informazio -ez ere beren film-balorazio multzoak- erabil daitezke identifikatzeko.

Nahiz Netflix datuak berrerabili edo eraso zehaztugabea edo zabal bat izan, baliteke arrisku txikia izatea ere. Azken finean, filmen balorazioak ez dira oso sentikorrak. Hori egia izan daitekeen bitartean, 500.000 pertsona inguru datu-multzoan, pelikula-balorazioak oso sentikorrak izan daitezke. Izan ere, berrantolaketa berreskuratzeko, lautada izkutuen emakumea Netflix-en kontrako ekintza klasean sartu zen. Hona hemen nola sortu zen arazoa beren auzian (Singel 2009) :

"[M] ovie eta puntuazioen datuek oso informazio pertsonala eta sentikorra dute. Bazkideen filmeen datuak Netflix-eko kideen interes pertsonalak edo / eta gai pertsonal oso desberdinekin, sexuarekin, buruko gaixotasunekin, alkoholismoarekin berreskuratzea eta indarkeriaren biktimak, abusu fisikoak, etxeko indarkeria, adulterioa eta bortxaketa barne hartzen ditu.

Netflix sariaren datuen berrerabilpena datu guztiak identifikagarriak direla eta datu guztiak potentzialki sentikorrak direla erakusten du. Une honetan, pentsa liteke hori dela pertsona horiei buruzko datuak soilik. Harrigarria bada, hori ez da kasua. Informazioaren Zuzenbidearen Askatasunaren Eskariari erantzunez, New Yorkeko Gobernuak 2013ko New Yorkeko taxi bakoitzeko erregistroak argitaratu zituen, hala nola, ordutegiak, kokapena eta tarifak ordaintzea eta uztea Farber (2015) antzeko datuak erabiltzen ditu lanaren ekonomian teoria garrantzitsuak probatzeko). Taxi-bidaiei buruzko datu hauek onak dirudite, jendeak ez dutelako informazioa ematen, baina Anthony Tockar konturatu zen taxi-datuen datuek pertsonaien inguruko informazio sentikor asko eduki zutela. Ilustratzeko, Hustler Club-en New Yorkeko strip club handi bat hasten den bidaietan begiratu zuen, gauerdira arte eta 6: 00etatik aurrera, eta bertan behera utzi zituzten kokapenak. Bilaketa hau funtsean agerian geratu zen: Hustler Club (Tockar 2014) maiz jende askoren helbideen zerrenda. Zaila da iruditu zitzaion hiriko gobernuak kontuan hartu zituen datuak kaleratzea. Izan ere, teknika bera erabili ahal izango litzateke hirian edozein tokitara bisitatzen duten pertsonen etxeko helbideak: mediku-klinika, gobernu-eraikina edo erakunde erlijiosoa.

Netflix Sariaren eta New Yorkeko taxien datuen bi kasu horiek erakusten dute jende askok trebatzen dutela datu informatikoa arriskuan jartzen dutela eta kasu horiek ez direla bitxiak (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Gainera, kasu askotan, datu problematikoak oraindik libreki linean daude eskuragarri, datu-oharra desegiteko zailtasuna adierazteko. Kolektiboki, adibide hauek, baita pribatutasunari buruzko informazio informatikoan ere, ondorio garrantzitsu bat ekarriko dute. Ikertzaileek datu guztiak potentzialki identifikagarriak direla suposatu beharko lukete eta datu guztiak sentikorrak izan daitezke .

Zoritxarrez, datu guztiak potentzialki identifikagarriak diren gertaeren soluzio sinple bat da eta datu guztiak sentikorrak izan daitezke. Hala ere, informazio-arriskua murrizteko modu bat datuak erabiltzen ari zaren bitartean datu-babeseko plan bat sortu eta jarraitu behar da. Plan honek zure datuak leak izango duen aukera murriztuko du eta kalteak gutxituko ditu leak nolabait gertatzen bada. Datuen babeseko planen zehaztapenak, esaterako, erabiltzeko enkriptatze-modua aldatu egingo da denboran zehar, baina UK Datuen Zerbitzuak datuen babeseko planaren elementuak antolatzen ditu bost kategorietako batean, bost kutxapean deitzen dituztenak: proiektu seguruak, pertsona seguruak , seguru ezarpenak, datu segurua eta irteera segurua (taula 6.2) (Desai, Ritchie, and Welpton 2016) . Bainugaineko kaxa bakoitzak ez du inolako babesik ematen. Baina elkarrekin arrisku informala gutxitzeko faktore multzo indartsuak osatzen dute.

6.2 taula: "Bost (Desai, Ritchie, and Welpton 2016) " Datuen Babeserako Plan bat diseinatzeko (Desai, Ritchie, and Welpton 2016) oinarriak dira (Desai, Ritchie, and Welpton 2016)
Safe Ekintza
Proiektu seguruak Proiektuak datu etikoak dituztenak mugatzen ditu
Pertsona seguruak Datuen fidagarria duten pertsonentzako sarbidea dago (adibidez, etikako prestakuntzako pertsonak)
Datu seguruak Datuak desidentifikatzen eta agregatzen dira ahalik eta gehien
Ezarpen seguruak Datuak ordenagailuetan gordetzen dira (adibidez, blokeatutako gela) eta softwarea (adibidez, pasahitzen babesa, zifratua) babestea
Irteera segurua Iragarkiaren irteera berrikusten da istripuzko pribatutasunak urratzen ez uzteko

Zure datuak babesten ez badituzu ere, hausnarketa-arriskua bereziki nabarmena den ikerketaren prozesuan urrats bat dago beste ikertzaileekin datuak partekatzeko. Zientzialarien artean datuak partekatzea zientzia-ahaleginaren funtsezko balioa da, eta ezagutzaren aurrerapena errazten du. Hona hemen Erresuma Batuko Etxea nola deskribatu datuen banaketaren garrantzia (Molloy 2011) :

"Datuetara sarbidea funtsezkoa da ikertzaileek literaturan adierazten dituzten emaitzak erreproduzitu, egiaztatzea eta eraikitzea. Lehendakaritza izan beharko luke, beste arrazoi sendo bat izan ezean, datuak guztiz ezagutzera eman eta publikoki eskuragarri egongo direla ".

Hala ere, zure datuak beste ikertzaile batzuekin partekatuz gero, zure parte-hartzaileentzako informazio-arriskua handitu ahal izango duzu. Horrela, badirudi datuak partekatzea zientzialariei datuak partekatzeko betebeharra eta parte-hartzaileentzako informazio-arriskua minimizatzeko betebeharra oinarrizko tentsioa sortzen duela. Zorionez, dilema hau ez da agertzen bezain larria. Izan ere, hobe da datuen banaketa etengabean erortzea pentsatzea, etengabeko puntu bakoitzarekin, gizartearentzako onura nahasketa desberdinak eta parte-hartzaileentzat arriskua (6.6 irudia).

Muturreko batean, zure datuak inorekin partekatzeko aukera duzu, partaideentzat arriskua minimizatzen duena, baina gizarteak irabaziak minimizatzen ditu. Beste muturrean, askatu eta ahaztu egin dezakezu, "anonimoki" datuak argitaratu eta guztientzat. Datuak ez askatzeari dagokionez, askatu eta ahaztu, gizartearentzako prestazio handiagoa eta parte-hartzaileentzako arrisku handiagoa eskaintzen ditu. Bi muturreko kasu hauen artean, hibrido sorta bat dago, horma lorategiko ikuspegi bati deitzen diotenak barne. Ikuspegi horren arabera, datu batzuk irizpide jakin batzuk betetzen dituzten eta norberaren erregimen jakin batzuekin lotzen dituztenak (adibidez, IRB baten gainbegiratzea eta datuen babeserako plana) bateratzen dira. Horma-lorategiko ikuspegiak askapenaren onura asko eskaintzen ditu eta arrisku gutxiago ahaztu. Noski, planteamendu horrek galdera askok sortzen ditu: norbaiti sarbidea izan beharko lioke, zein baldintzetan eta zenbat denbora behar duten horma-lorategian mantendu eta polizak ordaindu beharko lituzkete ... baina hauek ez dira gaindiezinak. Izan ere, dagoeneko lan egiten duten horma-lorategiak daude ikertzaileek gaur egun erabiltzen dituztenak, hala nola, Michigan Unibertsitatearen Ikerketa Politiko eta Sozialerako Unibertsitate arteko Partzuergoko datuen artxiboa.

6.6 irudia: Datu-oharren estrategiak etengabean erori daitezke. Kontu elektroniko honetan egon behar duzu zure datuen xehetasun zehatzen araberakoa eta hirugarrenen berrikuspena zure kasuko arrisku eta onurarako saldo egokia erabakitzen lagunduko dizu. Kurba horren forma zehatza datuen eta ikerketaren helburuen araberakoa da (Goroff 2015).

6.6 irudia: Datu-oharren estrategiak etengabean erori daitezke. Kontu elektroniko honetan egon behar duzu zure datuen xehetasun zehatzen araberakoa eta hirugarrenen berrikuspena zure kasuko arrisku eta onurarako saldo egokia erabakitzen lagunduko dizu. Kurba horren forma zehatza datuen eta ikerketaren helburuen araberakoa da (Goroff 2015) .

Hortaz, non zure ikerketaren datuak partekatzea, horma lorategia, eta askatu eta ahaztu gabe jarraitu behar? Hau zure datuen xehetasunen araberakoa izango da: ikertzaileak Pertsonen, ongizatearen, justiziaren eta errespetuaren eta interes publikoaren errespetua salbatu behar du. Ikuspegitik ikusita, datuak partekatzea ez da konstituzio etiko bereizgarria; ikerketa-alderdi askorengoa da, ikertzaileek oreka etikoa egokia aurkitzeko.

Kritikari batzuek, oro har, datuen partekatzearekin kontrajartzen dira, nire iritziz, bere arriskuetan oinarritzen direlako, eta horrek, zalantzarik gabe, benetakoak dira. Beraz, arriskuak eta onurak bideratzeko asmoz, analogia bat eskaini nahi dut. Urtero, autoek milaka heriotzaz arduratzen dira, baina ez dugu gidatzerik debekatzen. Izan ere, gidatzea debekatzeko deia zentzugabea litzateke gidatzeak gauza zoragarriak ahalbidetzen dituelako. Baizik eta gizarteak mugak murrizten ditu (adibidez, adin jakin bat izatea eta zenbait proba gainditu behar izatea) eta gidatzea (adibidez, abiadura muga). Gizartea arau hauen betearazpenean aritzen da (adibidez, polizia), eta haiei urratzen zaizkien jendea zigortzen dugu. Pribatutasun erregulatzailea aplikatzen zaion pentsamendu orekatu hori datuen trukean ere aplikatu daiteke. Hori dela eta, datuak partekatzeko edo aurkaratzeko argumentu absolutistak egitea baino, uste dut aurrerapen handiena egingo dugula, datuen trukeak nola murriztu eta datuak partekatzeko onurak handitzeko.

Amaitzeko, informazioaren arriskua handitu egin da nabarmen, eta oso zaila da aurreikustea eta kuantifikatzea. Hori dela eta, hobe da datu guztiak identifikagarriak eta potentzialki sentiberak direla. Ikerketa egiten ari den arrisku informala gutxitzeko, ikertzaileek datuak babesteko plan bat sortu eta jarrai dezakete. Gainera, informaziorako arriskuak ez die ikerlariei zientzialariei datuak partekatzen uzten.