6.6.2 Suprasti ir valdyti informacinėje rizika

Informacinė rizika yra labiausiai paplitusi socialinių tyrimų rizika; jis smarkiai išaugo; ir tai yra sunkiausia rizika suprasti.

Antrasis etninis skaitmeninio amžiaus tyrimų uždavinys yra informacijos rizika , žalos dėl informacijos atskleidimo galimybė (National Research Council 2014) . (National Research Council 2014) . Informacinė žala, kylanti dėl asmeninės informacijos atskleidimo, gali būti ekonominė (pvz., Prarasti darbą), socialinė (pvz., Nepatogumų), psichologinė (pvz., Depresija) ar net nusikalstama (pvz., Areštas už neteisėtą elgesį). Deja, skaitmeninis amžius dramatiškai didina informacinę riziką - yra tik tiek daug informacijos apie mūsų elgesį. Informacinė rizika pasirodė labai sunku suprasti ir valdyti, palyginti su rizika, kuri buvo susirūpinta analoginiais socialiniais tyrimais, pvz., Fizine rizika.

Vienas iš būdų, kad socialiniai mokslininkai sumažinti informacinę riziką yra "anoniminio" duomenų. "Anoniminio" yra pašalinti akivaizdžių asmeninių identifikatorių, pavyzdžiui, pavadinimą, adresą, ir telefono numerį iš duomenų procesas. Tačiau šis metodas yra daug mažiau veiksmingas, nei daugelis žmonių suvokia, ir tai yra iš tikrųjų, giliai ir iš esmės ribotas. Dėl šios priežasties, kai aš apibūdinti "anoniminio" Aš naudoti kabutes jums priminti, kad šis procesas sukuria anonimiškumo išvaizdą, bet ne tiesa anonimiškumą.

Gyvus "anonimizacijos" nepakankamumo pavyzdys yra praėjusio amžiaus dešimtojo dešimtmečio Masačiusetse (Sweeney 2002) . Grupės draudimo komisija (GIC) buvo vyriausybės agentūra, atsakinga už visų valstybės tarnautojų sveikatos draudimo pirkimą. Per šį darbą GIC surinko išsamius sveikatos įrašus apie tūkstančius valstybės darbuotojų. Siekdama paskatinti mokslinius tyrimus, GIC nusprendė išlaisvinti šiuos įrašus mokslininkams. Tačiau jie nepaskyrė visų savo duomenų; o jie "anonimizavo" šiuos duomenis, pašalindami tokią informaciją kaip vardai ir adresai. Tačiau jie paliko kitą informaciją, kuri, jų manymu, galėtų būti naudinga mokslininkams, pvz., Demografinės informacijos (pašto kodas, gimimo data, etninė kilmė ir lytis) bei medicininės informacijos (apsilankymo duomenys, diagnozė, procedūra) (6.4 pav.) (Ohm 2010) . Deja, ši "anonimizacija" nepakako duomenų apsaugai.

6.4 pav. Anonimizavimas - akivaizdžiai identifikuojančios informacijos šalinimo procesas. Pavyzdžiui, kai išleidžiant valstybinių darbuotojų sveikatos draudimo įrašus, Masačusetso grupės draudimo komisija (GIC) pašalino iš bylos esančius vardus ir adresus. Aš naudoju žodžius apie žodį anonimizaciją, nes procesas suteikia anonimiškumo išvaizdą, bet ne faktinį anonimiškumą.

6.4 pav. "Anonimizavimas" - akivaizdžiai identifikuojančios informacijos šalinimo procesas. Pavyzdžiui, kai išleidžiant valstybinių darbuotojų sveikatos draudimo įrašus, Masačusetso grupės draudimo komisija (GIC) pašalino iš bylos esančius vardus ir adresus. Aš naudoju kabutes po žodžiu "anonimizavimas", nes šis procesas suteikia anonimiškumo išvaizdą, bet ne faktinį anonimiškumą.

Norėdami parodyti GIC "anonimizacijos" trūkumus, "Latanya Sweeney", tada MIT studijos studentas sumokėjo 20 JAV dolerių, kad įsigytų balso įrašų iš Kembridžo miesto, Massachusettso gubernatoriaus William Weld miesto. Šie balso įrašai apima tokią informaciją kaip vardas, adresas, pašto indeksas, gimimo data ir lytis. Tai, kad medicininių duomenų rinkmena ir rinkėjo rinkmenos bendrinami laukai-pašto kodas, gimimo data ir seksas, reiškia, kad "Sweeney" galėtų juos susieti. Sweeney žinojo, kad Weldo gimtadienis buvo 1945 m. Liepos 31 d., O balsavimo įrašuose buvo tik šeši žmonės Kembridže su tuo gimtadieniu. Be to, iš tų šešių žmonių tik trys buvo vyrai. Ir iš tų trijų vyrų, tik vienas bendras Weldo pašto kodas. Taigi, balsavimo duomenys parodė, kad bet kuris iš medicininių duomenų su Weldo gimimo datos, lyties ir pašto kodo deriniu buvo Williamas Weldas. Iš esmės šie trys informacijos elementai jam suteikė unikalų duomenų atspaudą . Naudodamas šį faktą, Sweeney sugebėjo surasti Weldo medicininius įrašus, ir, norėdamas informuoti jį apie savo featą, ji atsiuntė jam savo įrašų kopiją (Ohm 2010) .

6.5 pav. Anonimizuotų duomenų pakartotinis identifikavimas. "Latanya Sweeney" sujungė anoniminius sveikatos įrašus su balso įrašais, kad surastų medicinos įrašus apie valdytoją Williamą Weldą, adaptuotą iš Sweeney (2002 m.) 1 paveikslo.

6.5 pav. Anonimizuotų duomenų pakartotinis identifikavimas. "Latanya Sweeney" sujungė "anoniminius" sveikatos įrašus su balsavimo įrašais, kad surastų medicinos įrašus apie valdytoją Williamą Weldą, adaptuotą iš Sweeney (2002) 1 paveikslo.

"Sweeney" darbas iliustruoja bazinę atributų pakartotinio identifikavimo struktūrą - vartoti terminą iš kompiuterių saugumo bendruomenės. Šiuose išpuoliuose yra susieti du duomenų rinkiniai, iš kurių nė vienas iš jų nerodo slaptos informacijos, ir per šią sąsają atsiranda jautri informacija.

Atsakydamas į Sweeney darbą ir kitus susijusius darbus, tyrėjai paprastai "anonimizacijos" procese paprastai pašalina daug daugiau informacijos - visą vadinamą "asmeninę informaciją" (PII) (Narayanan and Shmatikov 2010) . Daugelis tyrėjų dabar suprantu, kad tam tikri duomenys, tokie kaip medicininiai įrašai, finansiniai įrašai, atsakymai į apklausos klausimus apie neteisėtą elgesį, tikriausiai yra pernelyg jautrūs paleidžiant net po "anonimizavimo". Tačiau pavyzdžiai, kuriuos aš noriu daryti, rodo, kad reikia socialinių mokslininkų pakeisti savo mąstymą. Pirmiausia reikėtų suprasti, kad visi duomenys gali būti identifikuojami, o visi duomenys yra potencialiai jautrūs. Kitaip tariant, turint omenyje, kad informacinė rizika yra susijusi su nedidele dalimi projektų, turėtume suprasti, kad ji taikoma tam tikru mastu visiems projektams.

Abu šio perorientavimo aspektai iliustruoja "Netflix" premija. Kaip aprašyta 5 skyriuje, "Netflix" išleido 100 milijonų filmų reitingų, kuriuos pateikė beveik 500 000 narių, ir atviras pokalbis, kuriame žmonės iš viso pasaulio pateikė algoritmus, kurie galėtų pagerinti "Netflix" sugebėjimą rekomenduoti filmus. Prieš paleidžiant duomenis "Netflix" pašalino bet kokią akivaizdžiai asmeniškai identifikuojančią informaciją, pvz., Vardus. Jie taip pat nuėjo papildomą žingsnį ir kai kuriuose įrašuose sukėlė nedidelių sutrikimų (pvz., Keisdami kai kuriuos įvertinimus nuo 4 žvaigždučių iki 3 žvaigždučių). Tačiau jie netgi atrado, kad, nepaisant jų pastangų, duomenys vis tiek nebuvo anonimiški.

Praėjus dviem savaitėms po duomenų išleidimo, Arvindas Narayananas ir Vitalijus Šmatikovas (2008) parodė, kad buvo įmanoma sužinoti apie konkrečių žmonių kino pageidavimus. Pavasaris jų atpažinimo užpuolimui buvo panašus į Sweeney: sujungti du informacijos šaltinius, vieną su potencialiai jautrią informaciją, be akivaizdžios informacijos ir asmens, kuriame yra žmonių tapatybės. Kiekvienas iš šių duomenų šaltinių gali būti individualiai saugus, tačiau kai jie sujungti, susijungęs duomenų rinkinys gali sukelti informacinę riziką. Jei naudojate "Netflix" duomenis, kaip tai gali nutikti. Įsivaizduok, kad nusprendžiau pasidalyti savo mintimis apie veiksmo ir komedijos filmus su savo kolegomis, bet aš norėčiau nepasakyti savo nuomonės apie religinius ir politinius filmus. Mano darbuotojai galėjo naudotis informacija, kurią su jais bendraudavau, kad surastu savo įrašus "Netflix" duomenimis; informacija, kurią aš bendrinu, gali būti unikalus pirštų atspaudas, kaip ir William Weld gimimo data, pašto kodas ir seksas. Tada, jei jie surastų mano unikalų duomenų pirštų atspaudą, jie galėjo išmokti vertinti apie visus filmus, įskaitant filmus, kuriuos nusprendžiau nesidalyti. Be tokio tikslingo ataka, nukreipto į vieną asmenį, Narayananas ir Šmatikovas taip pat parodė, kad buvo įmanoma plačiai atakuoti - tai apima daugybę žmonių - sujungiant "Netflix" duomenis su asmeniniais ir kino reitingais, kuriuos pasirinko kai kurie žmonės paskelbti internetinių filmų duomenų bazėje (IMDb). Paprasčiausiai juos identifikuojant galima naudoti bet kokią informaciją, kuri yra unikalus konkrečiam asmeniui skirtas pirštų atspaudas (net jų filmų reitingų rinkinys).

Nors "Netflix" duomenys gali būti iš naujo identifikuojami taikiniu ar plataus užpuolimo metu, vis tiek gali būti mažos rizikos. Galų gale, filmo reitingai neatrodo labai jautrūs. Nors tai gali būti tiesa apskritai, kai kurie iš 500 000 žmonių duomenų rinkinyje, filmų reitingai gali būti gana jautri. Iš tikrųjų, atsakydama į pakartotinį identifikavimą, uždaroji lesbiečių moteris prisijungė prie "Netflix" ieškinio dėl klasės veiksmų. Štai kaip problema buvo išreikšta ieškinyje (Singel 2009) :

"[M] ovie ir reitingų duomenys yra informacija apie ... labai asmenišką ir jautrią prigimtį. Nario filmo duomenys atskleidžia "Netflix" nario asmeninį interesą ir / ar kova su įvairiomis labai asmeninėmis problemomis, įskaitant seksualumą, psichinę ligą, atsigavimą nuo alkoholizmo ir viktimizaciją nuo incesto, fizinio smurto, šeiminio smurto, svetimavimo ir išprievartavimo ".

Netflix premijos duomenų pakartotinis identifikavimas parodo, kad visi duomenys gali būti identifikuojami ir kad visi duomenys yra potencialiai jautrūs. Šiuo metu galbūt manote, kad tai taikoma tik tiems duomenims, kurie yra susiję su žmonėmis. Keista, kad taip nėra. Atsakydama į Informacijos laisvės įstatymo prašymą, Niujorko miesto vyriausybė 2013 m. Išleido įrašus apie kiekvieną taksi kelionę Niujorke, įskaitant laiką ir vietą, bilietų kainas ir bilietų kainas (atšaukti iš 2 skyriaus " Farber (2015) naudojami panašūs duomenys, skirti išbandyti svarbias darbo ekonomikos teorijas). Šie taksi reisų duomenys gali pasirodyti nepatogūs, nes jie, atrodo, neteikia informacijos apie žmones, bet Anthony Tockar suprato, kad šiuo taksi duomenų rinkinyje iš tikrųjų buvo daug potencialiai jautrios informacijos apie žmones. Pavyzdžiui, jis pažvelgė į visas keliones, prasidedančias "Hustler Club" - didžiuliu juostiniu klubu Niujorke - nuo vidurnakčio iki 6 valandos ryto, o tada atrado jų atostogas. Ši paieška iš esmės parodė kai kurių žmonių, kurie lankėsi "Hustler Club" (Tockar 2014) , adresų sąrašą. Sunku įsivaizduoti, kad miesto valdžia tai atsiminė, kai išleido duomenis. Tiesą sakant, tas pats metodas gali būti naudojamas ieškant namų adresų žmonių, kurie aplanko bet kurią miesto vietą - medicinos kliniką, vyriausybės pastatą ar religinę įstaigą.

Šie du "Netflix" premijos ir "Niujorko" taksi duomenys rodo, kad palyginti kvalifikuotų žmonių duomenys gali būti neteisingai įvertintos, ir šie atvejai jokiu būdu nėra unikalūs (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Be to, daugeliu atvejų problemiški duomenys vis dar yra laisvai prieinami internete, o tai rodo, kad sunku niekada panaikinti duomenų išleidimą. Kartu šie pavyzdžiai, taip pat kompiuterių mokslo tyrimai apie privatumą, leidžia padaryti svarbią išvadą. Tyrėjai turėtų manyti, kad visi duomenys gali būti identifikuojami, o visi duomenys yra potencialiai jautrūs.

Deja, nėra paprasto faktų sprendimo, kad visi duomenys gali būti identifikuojami ir kad visi duomenys yra potencialiai jautrūs. Tačiau vienas būdas mažinti informacijos riziką dirbant su duomenimis - sukurti ir laikytis duomenų apsaugos plano . Šis planas sumažins tikimybę, kad jūsų duomenys nutekės, ir sumažins žalą, jei kokiu nors būdu atsiras nutekėjimas. Duomenų apsaugos planų specifika, pavyzdžiui, kokia šifravimo forma bus naudojama, laikui bėgant pasikeis, tačiau "UK Data Services" naudingai organizuoja duomenų apsaugos plano elementus į penkias kategorijas, kurias jie vadina penkiais seifais : saugūs projektai, saugūs žmonės , saugūs nustatymai, saugūs duomenys ir saugūs išėjimai (6.2 lentelė) (Desai, Ritchie, and Welpton 2016) . Nė vienas iš penkių seifų individualiai neprilygsta apsaugai. Tačiau kartu jie sudaro galingą veiksnių rinkinį, kuris gali sumažinti informacinę riziką.

6.2 lentelė. "Penki seifai" yra duomenų apsaugos plano projektavimo ir vykdymo principai (Desai, Ritchie, and Welpton 2016)
Saugus Veiksmas
Saugūs projektai Riboja projektus su duomenimis, kurie yra etiški
Saugūs žmonės Prieiga prieinama tik tiems žmonėms, kuriems galima pasitikėti duomenimis (pvz., Žmonės, kuriems buvo atliktas etikos mokymas)
Saugūs duomenys Duomenys atpažįstami ir sujungiami kiek įmanoma
Saugūs nustatymai Duomenys saugomi kompiuteriuose, kuriuose yra tinkamas fizinis (pvz., Užrakintas kambarys) ir programinė įranga (pvz., Apsauga slaptažodžiu, užkoduota)
Saugus produktas Mokslinių tyrimų rezultatų peržiūra siekiama išvengti netyčinių privatumo pažeidimų

Be to, kad apsaugote savo duomenis, kol naudojate jas, vienas tyrimo proceso žingsnis, kai informacinė rizika yra ypač svarbi, yra dalijimasis duomenimis su kitais tyrėjais. Dalijimasis duomenimis tarp mokslininkų yra pagrindinė mokslinės veiklos vertybė, ir tai labai palengvina žinių pažangą. Štai kaip JK Bendruomenių rūmai apibūdino dalijimosi duomenimis svarbą (Molloy 2011) :

"Prieiga prie duomenų yra labai svarbi, jei mokslininkai atkuria, tikrina ir remiasi rezultatais, kurie yra pateikti literatūroje. Prielaida turi būti ta, kad, išskyrus atvejus, kai kitaip yra rimta priežastis, duomenys turėtų būti visapusiškai atskleisti ir viešai paskelbti. "

Vis dėlto, dalydamiesi savo duomenimis su kitu tyrėju, gali padidėti jūsų dalyvių informacinė rizika. Taigi gali atrodyti, kad dalijimasis duomenimis sukuria esminę įtampą tarp įsipareigojimo dalytis duomenimis su kitais mokslininkais ir pareiga sumažinti dalyviams informacijos riziką. Laimei, ši dilema nėra tokia sunki, kaip atrodo. Priešingai, geriau galvoti apie keitimąsi duomenimis, nes jie yra nuoseklūs, o kiekvienas šio kontinuumo taškas suteikia skirtingą naudą visuomenei ir riziką dalyviams (6,6 pav.).

Vienu kraštutiniu atveju jūs galite dalintis savo duomenimis su niekuo, kuris sumažina dalyvių riziką, bet taip pat sumažina naudą visuomenei. Kitame kraštutiniame krašte galite paleisti ir pamiršti , kur duomenys "anonimizuoti" ir paskelbti visiems. Priklausomai nuo duomenų neišleidimo, išleidimo ir pamiršimo teikia didesnę naudą visuomenei ir didesnę riziką dalyviams. Tarp šių dviejų kraštutinių atvejų yra įvairių hibridų, įskaitant tai, ką vadinsiu sieniniais sodo metodais. Pagal šį požiūrį, duomenys yra prieinami žmonėms, kurie atitinka tam tikrus kriterijus ir sutinka laikytis tam tikrų taisyklių (pvz., Prižiūrėti IRB ir duomenų apsaugos planą). Sieno sodo metodas suteikia daugybę išlaisvinimo privalumų ir pamiršta su mažesne rizika. Žinoma, toks požiūris kelia daug klausimų - kam turėtų būti suteikta prieiga, kokiomis sąlygomis ir kiek laiko, kas turėtų sumokėti, kad palaikytų ir užstatytų sieninį sodą ir kt., Tačiau jie nėra neišsprendžiami. Tiesą sakant, jau yra dirbtinių sieninių sodų, kuriuos mokslininkai gali naudoti dabar, pvz., Michigano universiteto tarpuniversitetinių konservatorių politikos ir socialinių tyrimų duomenų archyvas.

Pav. 6.6: Duomenų išleidimo strategijos gali nukristi kartu. Kur jūs turėtumėte dalyvauti šiame tęstiniame gyvenime, priklauso nuo konkrečios jūsų duomenų detalės, o trečiosios šalies peržiūra gali padėti jums nuspręsti, kokia rizika ir nauda yra tinkama. Tiksli šios kreivės forma priklauso nuo duomenų ir mokslinių tyrimų tikslų ("Goroff 2015").

Pav. 6.6: Duomenų išleidimo strategijos gali nukristi kartu. Kur jūs turėtumėte būti šiame kontekste, priklauso nuo konkrečios jūsų duomenų detalės, o trečiosios šalies peržiūra gali padėti jums nuspręsti, kokią riziką ir naudą turėtumėte rasti. Tiksli šios kreivės forma priklauso nuo duomenų ir mokslinių tyrimų tikslų (Goroff 2015) .

Taigi, kur turėtų būti jūsų studijų duomenys apie nepertraukiamą pasidalijimą, sieninį sodą ir paleidimą bei pamirštimą? Tai priklauso nuo jūsų duomenų detalių: mokslininkai privalo subalansuoti pagarbą asmenims, naudą, teisingumą ir teisės bei visuomenės interesų laikymąsi. Žvelgiant iš šios perspektyvos, dalijimasis duomenimis nėra išskirtinis etikos rūpestis; tai tik vienas iš daugelio mokslinių tyrimų aspektų, kurio metu mokslininkai turi rasti tinkamą etinį pusiausvyrą.

Kai kurie kritikai paprastai priešinasi duomenų dalijimui, nes, mano nuomone, jie yra orientuoti į jo keliamą riziką, kuri, be abejo, yra reali ir ignoruoja jos naudą. Taigi norėdamas sutelkti dėmesį į riziką ir naudą, norėčiau pasiūlyti analogiją. Kiekvienais metais automobiliai yra atsakingi už tūkstančius mirčių, tačiau mes neketiname uždrausti vairuoti. Iš tiesų, raginimas uždrausti važiuoti būtų absurdas, nes vairavimas leidžia daugybę puikių dalykų. Vietoj to, visuomenė nustato apribojimus, kurie gali vairuoti (pvz., Reikia būti tam tikram amžiui ir išlaikius tam tikrus testus) ir kaip jie gali vairuoti (pvz., Pagal greičio apribojimą). Visuomenei taip pat yra žmonių, kuriems pavesta vykdyti šias taisykles (pvz., Policija), ir mes baudžiame žmones, kurie juos sužlugdo. Toks patį subalansuotą mąstymą, kad visuomenė taiko vairavimo reguliavimui, taip pat gali būti taikomas dalijimasis duomenimis. Tai yra, o ne absoliutų argumentai dėl duomenų ar jų dalijimosi, manau, kad mes padarysime didžiausią pažangą, daugiausia dėmesio skirdami tai, kaip mes galime sumažinti riziką ir didinti duomenų dalijimosi naudą.

Apibendrinant, informacinė rizika smarkiai išaugo, ir ją sunku prognozuoti ir kiekybiškai įvertinti. Todėl geriausia manyti, kad visi duomenys yra potencialiai identifikuojami ir potencialiai jautrūs. Siekdami sumažinti informacijos riziką atliekant tyrimus, mokslininkai gali sukurti ir laikytis duomenų apsaugos plano. Be to, informacinė rizika netrukdo mokslininkams dalytis duomenimis su kitais mokslo darbuotojais.