6.6.2 Suprasti ir valdyti informacinėje rizika

Informacijos rizika yra labiausiai paplitusi rizika socialinių tyrimų; ji smarkiai padidėjo; ir tai yra sunkiausia rizikos suprasti.

Antrasis etikos iššūkis socialinio amžiaus skaitmeninių tyrimų yra informacinėje rizika, dėl žalos nuo informacijos atskleidimo galimybės (Council 2014) . Informaciniai Harms nuo asmeninės informacijos atskleidimas galėtų ekonominė (pvz, prarasti darbą), socialinių (pvz, varžymasis), psichologinės (pvz, nuo depresijos), ar net baudžiamoji (pvz arešto už neteisėtą elgesį). Deja, skaitmeninis amžius padidina informacija rizika dramatiškai-yra tik tiek daug daugiau informacijos apie mūsų elgesį. Ir informacinėje rizikos įrodė labai sunku suprasti ir valdyti palyginti su rizika, kurios buvo išreikštas susirūpinimas analoginis amžiaus socialinių tyrimų, pavyzdžiui, fizinės rizikos. Norėdami pamatyti, kaip skaitmeninis amžius padidina informacinę riziką, apsvarstyti perėjimą iš popieriaus prie elektroninių medicininių įrašų. Abi įrašų tipų sukurti riziką, tačiau elektroninių įrašų sukurti daug didesnę riziką, nes ne masiškai, jie gali būti perduodami neteisėto šalis arba susijungė su kitais įrašais. Socialiniai mokslininkai skaitmeniniame amžiuje jau į bėdą su informacinių rizika, iš dalies todėl, kad jie ne visiškai suprasti, kaip įvertinti ir valdyti. Taigi, aš ruošiuosi pasiūlyti naudingą būdas galvoti apie informacinę riziką, ir tada aš ruošiuosi duoti jums keletą patarimų, kaip valdyti informacinę riziką savo mokslinių tyrimų ir atleidžiantis duomenis kitiems tyrėjams.

Vienas iš būdų, kad socialiniai mokslininkai sumažinti informacinę riziką yra "anoniminio" duomenų. "Anoniminio" yra pašalinti akivaizdžių asmeninių identifikatorių, pavyzdžiui, pavadinimą, adresą, ir telefono numerį iš duomenų procesas. Tačiau šis metodas yra daug mažiau veiksmingas, nei daugelis žmonių suvokia, ir tai yra iš tikrųjų, giliai ir iš esmės ribotas. Dėl šios priežasties, kai aš apibūdinti "anoniminio" Aš naudoti kabutes jums priminti, kad šis procesas sukuria anonimiškumo išvaizdą, bet ne tiesa anonimiškumą.

Ryškus pavyzdys "anonimizavimą" nesėkmės ateina iš 1990-ųjų pabaigoje, Massachusetts (Sweeney 2002) . Grupė draudimas Komisija (GIC) buvo vyriausybinė agentūra, atsakinga už pirkimo sveikatos draudimą visiems valstybės tarnautojams. Per šį darbą, GIC surinkti išsamias sveikatos įrašų apie tūkstančius valstybės tarnautojų. Siekdama paskatinti mokslinius tyrimus apie tai, kaip pagerinti sveikatą, GIC nusprendė išleisti šiuos įrašus mokslininkams. Tačiau, jie nesidalijo visus jų duomenis; o jie "yra anoniminės" jį pašalinti informaciją, pavyzdžiui, pavadinimą ir adresą. Tačiau jie paliko kitą informaciją, kad jie manė, galėtų būti naudinga mokslininkams, pavyzdžiui, demografinius duomenis (zip kodas, gimimo datą, tautybę ir lytį) ir medicinos informacija (Apsilankymų duomenys, diagnozės, procedūra) (6.4 paveikslas) (Ohm 2010) . Deja, šis "anoniminio" nebuvo pakankamai apsaugoti duomenis.

6.4 pav Anoniminio yra pašalinti akivaizdžiai identifikuojančios informacijos procesas. Pavyzdžiui, kai atleidžiantis sveikatos draudimo apskaitą valstybės tarnautojų Masačiusetso Grupė draudimas Komisija (GIC) pašalinta pavadinimą ir adresą iš failų. Aš naudoju kabutes žodį anonimizavimą nes procesas suteikia anonimiškumo išvaizdą, bet ne faktinį anonimiškumą.

6.4 pav "Anoniminio" yra pašalinti akivaizdžiai identifikuojančios informacijos procesas. Pavyzdžiui, kai atleidžiantis sveikatos draudimo apskaitą valstybės tarnautojų Masačiusetso Grupė draudimas Komisija (GIC) pašalinta pavadinimą ir adresą iš failų. Aš naudoju kabutes žodis "anonimizavimą", nes šis procesas suteikia anonimiškumo išvaizdą, bet ne faktinį anonimiškumą.

Kad būtų aiškiau, GIC "anonimizavimą" trūkumus, Latanya Svynis-tada magistrantas MIT-sumokėjo $ 20 iki įgyja balsavimo įrašus iš Cambridge, Massachusetts gubernatorius William virinti gimtajame mieste. Šie balsavimo įrašų įtraukti informaciją, pavyzdžiui, pavadinimą, adresą, pašto kodą, gimimo datą ir lytį. Tas faktas, kad medicinos duomenų failas ir rinkėjas failą pasidalino laukai-pašto kodas, gimimo data ir lytis-reiškė, kad Svynis gali juos susieti. Svynis žinojo, kad virinti gimtadienis buvo liepos 31, 1945, ir balsavimo įrašų įtraukti tik šeši žmonės, Cambridge su tuo gimtadienį. Be to, iš tų šešių žmonių, tik trys vyrai. Ir iš tų trijų vyrų, tik viena bendra virinti pašto kodą. Taigi, balsavimo duomenys parodė, kad kas nors medicininių duomenų su Weld anketa derinys gimimo datą, lytį ir pašto kodą buvo Williamas suvirinti. Iš esmės, šie trys vienetų informacijos su sąlyga, unikalų pirštų atspaudų jam į duomenų. Naudojant šį faktą, Svynis galėjo rasti virinti medicininius įrašus ir informuoti jį apie savo feat, ji išsiųstas jam iš savo rekordų kopiją (Ohm 2010) .

6.5 pav Re idenification anonimiškų duomenų. Latanya Svynis sujungė anoniminius sveikatos įrašus su balsavimo įrašų, siekiant rasti medicininius įrašus gubernatoriaus William virinti (Sweeney, 2002).

6.5 pav Re idenification iš "anonimiškų" duomenis. Latanya Svynis sujungė "anoniminius" Sveikata įrašus su balsavimo įrašų, siekiant rasti medicininius įrašus gubernatoriaus William virinti (Sweeney 2002) .

Svynis darbas iliustruoja pagrindinę struktūrą de Anoniminio išpuolių -į priimti terminą nuo kompiuterio saugumo bendruomenės. Be šių išpuolių, du duomenų rinkiniai, iš kurių nė viena pati atskleidžia slaptą informaciją, yra susiję, ir per šį ryšį, slapto pobūdžio informacija yra veikiami. Tam tikrais būdais šis procesas yra panašus į taip, kad soda ir acto, du medžiagų, kurios yra patys saugus, gali būti derinamos siekiant pagaminti bjaurus rezultatus.

Atsakydama į Sweeney darbo ir kitų su darbu, mokslininkai dabar apskritai pašalinti daug daugiau informacijos ir visą vadinamąjį "asmenį identifikuojančios informacijos (PII) (Narayanan and Shmatikov 2010) -during apie procesą" anonimizavimą ". Be to, daugelis tyrinėtojų dabar suprasti, kad tam tikri duomenys, pavyzdžiui, medicininių įrašų, finansinė apskaita, atsakymai į apklausos klausimus apie neteisėtą elgesį, tikriausiai yra pernelyg jautrus išleisti net po "anonimizavimą." Tačiau daugiau naujausių pavyzdžių, kad aš toliau aprašomus nurodo, kad socialiniai tyrėjai turi pakeisti savo mąstymą. Kaip pirmasis žingsnis, tai protinga manyti, kad visi duomenys yra potencialiai identifikuoti ir visi duomenys yra potencialiai jautri. Kitaip tariant, o ne mąstymo kad informacinė pavojus, kad bus nedidelis grupėje projektų, mes turėtų manyti, kad jis taikomas-tam tikru laipsniu-visiems projektams.

Abi šios perorientuojant aspektai iliustruoja Netflix premijos. Kaip aprašyta 5 skyriuje, "Netflix" išleido 100 mln numatytas beveik 500.000 narių filmų reitingus, ir turėjo atvirą kvietimą, kur žmonės iš viso pasaulio, pateiktą algoritmus, kurie galėtų pagerinti Netflix gebėjimą rekomenduoti filmus. Prieš atleisdami duomenis, "Netflix" nebeliko jokių akivaizdžiai asmenį identifikuojančios informacijos, pavyzdžiui, pavadinimų. "Netflix" taip pat nuvyko dar vieną žingsnį ir pristatė šiek tiek pasipiktinimas kai dokumentus (pvz, pakeisti kai reitingus iš 4 žvaigždės 3 žvaigždės). "Netflix" greitai atrado, kad vis dėlto, nepaisant jų pastangų, duomenys jokiu būdu nebuvo anoniminė.

Vos dvi savaites po duomenų buvo išleistas Narayanan and Shmatikov (2008) parodė, kad tai buvo galima sužinoti apie konkrečius žmones filmo pageidavimus. Pavyko juos pakartotinai identifikavimo ataka buvo panašus į Svynis s: susilieja du informacijos šaltinius, vienas su potencialiai slaptos informacijos ir be abejo identifikavimo informaciją ir vienas, kad yra žmonių tapatybę. Kiekviena iš šių duomenų šaltinių gali būti individualiai saugus, tačiau, kai jie kartu susijungusi rinkinys gali sukurti informacinę riziką. Atsižvelgiant į Netflix duomenų atveju, štai kaip tai gali įvykti. Įsivaizduokite, kad aš pasirinksiu pasidalinti savo mintimis apie veiksmus ir komedijos filmuose su mano bendradarbiais, bet aš nenoriu, kad pasidalinti savo nuomonę apie religinių ir politinių filmus. Mano bendradarbiai gali naudoti informaciją, kad Aš pasidalinau su jais rasti mano įrašus Netflix duomenis; informacija, kad aš pasidalinti galėjo būti unikalus pirštų kaip Williamo virinti gimimo datą, zip kodas, ir lytį. Tada, jei jie rasti savo unikalų atspaudą į duomenis, jie gali mokytis savo reitingus apie visus filmus, įskaitant filmus, kur aš nusprendusiems pasidalinti. Be šio tikslinės atakos orientuota vieno asmens rūšies, Narayanan and Shmatikov (2008) taip pat parodė, kad tai buvo įmanoma padaryti platų puolimo VIENAS dalyvauja daug žmonių, sujungiant Netflix duomenis su asmens ir kino reitingų duomenų, kad kai kurie žmonės pasirinko rašyti Internet Movie Database (IMDb). Bet kokia informacija, kuri yra unikali pirštų konkrečiam asmeniui, net jų rinkinį kino reitingais gali būti naudojami juos identifikuoti.

Nors Netflix duomenys gali būti iš naujo nustatyti bet kurioje tikslingai ar plataus priepuolis, jis vis dar gali atrodyti mažos rizikos. Galų gale, filmų reitingai neatrodo labai jautri. Nors tai gali būti tiesa apskritai, kai kurių 500,000 žmonių rinkinį, kino reitingai gali būti gana jautri. Tiesą sakant, reaguodama į de-anonimizavimą užsislėpęs lesbiečių moteris prisijungė prie grupės ieškinį prieš "Netflix". Štai kaip problema buvo išreikšta jų ieškinys (Singel 2009) :

"[M] ovie ir įvertinimas duomenys yra informacija apie daugiau labai asmeninės ir jautriai pobūdžio [sic]. Valstybės filmo duomenys atskleidžia Netflix nario asmeninį interesą ir / arba kovomis su įvairiomis aukštos asmeniniais klausimais, įskaitant seksualumą, psichikos ligos, išieškojimo iš alkoholizmo ir viktimizacijos nuo kraujomaišos, fizinę prievartą, smurtą šeimoje, neištikimybę, ir rapsai. "

De-anoniminio iš Netflix "premijos duomenų iliustruoja tiek, kad visi duomenys yra potencialiai identifikuoti ir kad visi duomenys yra potencialiai jautri. Šiuo metu, jūs manote, kad tai taikoma tik duomenims, kad turėtų būti naudojama kaip apie žmones. Stebėtinai, kad šiuo atveju taip nėra. Reaguodama į informacijos teisę prašymu laisvės, Niujorko miesto valdžia išleido įrašų kiekvieno taksi Niujorke 2013, įskaitant pikapas ir užsnūsti kartus, vietas ir bilieto kainos sumos (susigrąžinti iš 2 skyriuje, kad Farber (2015) naudoti šiuos duomenis išbandyti svarbius teorijas darbo ekonomika). Nors šie duomenys apie taksi keliones gali atrodyti gerybinis, nes neatrodo, kad būti informacija apie žmones, Anthony Tockar suprato, kad tai taksi rinkinys iš tikrųjų esanti daug potencialiai slaptos informacijos apie žmones. Kad būtų aiškiau, jis pažvelgė į visas keliones pradedant nuo Hustler Club-didele striptizo klube New York-tarp vidurnakčio ir 6 val ir tada rado savo išlaipinimo vietas. Ši paieška atskleidė-iš esmės-a adresų kai kurių žmonių, kurie dažnesni Hustler Klubai sąrašą (Tockar 2014) . Sunku įsivaizduoti, kad miesto valdžia turėjo tai omenyje, kai jis išleido duomenis. Tiesą sakant, tai pati technologija gali būti naudojama ir siekiant rasti namų adresus žmonių, kurie lankosi bet kuri vieta, miesto-medicinos klinikoje, vyriausybės pastatą arba religinės institucijos.

Šie du atvejai-Netflix premijos ir Niujorko taksi duomenų rodo, kad gana kvalifikuoti žmonės nesugebėjo teisingai įvertinti informacinę riziką duomenų, kad jie išleido, ir šie atvejai yra ne tai unikalus (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Be to, daugelyje iš šių atvejų, probleminė duomenys vis dar laisvai prieinama internete, nurodant kada anuliavimas duomenų paskelbimo sunkumų. Bendrai šie pavyzdžiai-taip pat mokslinių tyrimų kompiuterių mokslas apie privatumo veda į svarbią išvadą. Mokslininkai turėtų manyti, kad visi duomenys yra potencialiai identifikuoti ir visi duomenys yra potencialiai jautri.

Deja, nėra paprastas sprendimas, kad visi duomenys yra potencialiai identifikuoti ir visi duomenys yra potencialiai jautri. Tačiau vienas būdas sumažinti Informacijos rizika, o jūs dirbate su duomenų yra sukurti ir laikytis duomenų apsaugos planą. Šis planas bus sumažėja tikimybė, kad jūsų duomenys bus sandarumo ir sumažinti žalą, jei nuotėkis kažkaip atsiranda. Duomenų apsaugos planus specifiką, pavyzdžiui, kokia forma šifravimo naudoti, laikui bėgant keisis, bet UK Data Services paslaugiai organizuoja duomenų apsaugos plano elementus į 5 kategorijas, kad jie vadina 5 seifai: saugi projektus, saugių žmonių , saugių nustatymų, saugios duomenų ir nepavojingo išėjimai (6.2 lentelė) (Desai, Ritchie, and Welpton 2016) . Nė vienas iš penkių seifai individualiai Puiki apsauga. Tačiau kartu jie sudaro galingą rinkinį veiksnių, kurie gali sumažinti informacinę riziką.

6.2 lentelė: 5 seifai principai projektuojant ir vykdant duomenų apsaugos planą (Desai, Ritchie, and Welpton 2016) .
saugus veiksmas
Seifas projektai riboja projektus su duomenimis tiems, kurie yra etinis
Seifas žmonės prieiga yra apribota žmonėms, kurie gali būti patikimų duomenis (pvz, žmonės išgyveno etikos mokymas)
saugūs duomenys duomenys yra de-nustatyti ir apibendrinti, kiek įmanoma
Seifas nustatymai Duomenys saugomi kompiuteriuose su atitinkamomis fizinės (pavyzdžiui, rakinama patalpa) ir programinės įrangos (pvz, apsauga slaptažodžiu, saugiame) apsaugos
saugus išėjimas mokslinių tyrimų rezultatų peržiūrimi, siekiant išvengti atsitiktinio privatumo pažeidimus

Be to, siekiant apsaugoti savo duomenis, o jūs jį naudoti, vienas žingsnis mokslinių tyrimų procesą, kur informacinėje rizika yra ypač ryškus yra dalijamasi duomenimis su kitų tyrėjų. Dalijimasis duomenimis tarp mokslininkų yra pagrindinė vertybė mokslo siekimas, ir jis daro didelę įrenginiai žinių pažanga. Štai kaip JK Bendruomenių rūmų apibūdino dalijimosi duomenimis svarbą:

"Prieiga prie duomenų yra esminis, jei mokslininkai atgaminti, patikrinti ir remtis rezultatais, kurie literatūroje. Daroma prielaida turi būti, kad, jei yra rimto pagrindo kitaip, duomenys turėtų būti visiškai atskleisti ir viešai. Laikantis šio principo, jei įmanoma, duomenys, susiję su visa viešai finansuojamų mokslinių tyrimų turėtų būti plačiai ir laisvai prieinami. " (Molloy 2011)

Vis dėlto, dalijantis savo duomenis su kitu mokslo, jums gali būti padidinti informacinę riziką savo dalyviams. Taigi, gali atrodyti, kad mokslininkai, kurie nori dalintis savo duomenis, arba yra reikalingi norint pasidalinti savo duomenis, susiduria su pagrindine įtampą. Viena vertus, jie turi etinę pareigą pasidalinti savo duomenimis su kitų mokslininkų, ypač jei originalus mokslinis viešai finansuojama. Tačiau tuo pačiu metu, mokslininkai turi etinį įsipareigojimą sumažinti, kiek įmanoma, informacija rizika jų dalyviams.

Laimei, šis dilema yra ne toks pat didelis kaip atrodo. Svarbu galvoti apie dalijasi išilgai kontinuumą nuo jokiu dalijimosi duomenimis išleisti ir pamiršti, kur duomenys "yra anoniminės" ir parašė visiems prieiti prie duomenų (6.6 pav.) Abu šie kraštinių padėčių turi riziką ir naudą. Tai yra, jis nėra automatiškai etiškiausia dalykas ne praleisite savo duomenis; toks požiūris pašalina daug potencialių naudos visuomenei. Grįžęs į skonį, Kaklaraiščiai ir laikas, kurio pavyzdys anksčiau skyriuje aptariami argumentai prieš duomenų išleidimo, kad sutelkti dėmesį tik dėl galimų žalos ir kad ignoruoti galimus privalumus yra pernelyg vienpusis; Aš apibūdinti problemas, susijusias su šio vienpusiškai, per daug apsauginiu požiūriu išsamiau žemiau, kai aš patarti apie priimant sprendimus netikrumo (6.6.4 skirsnis) veido.

6.6 pav Duomenų likvidavimo strategijos gali nukristi kartu kontinuumą. Kur turėtų būti kartu tai kontinuumas priklauso nuo konkrečių detalių jūsų duomenis. Šiuo atveju trečioji šalis peržiūra gali padėti jums nuspręsti, tinkamą pusiausvyrą rizika ir nauda, ​​jūsų atveju.

6.6 pav Duomenų likvidavimo strategijos gali nukristi kartu kontinuumą. Kur turėtų būti kartu tai kontinuumas priklauso nuo konkrečių detalių jūsų duomenis. Šiuo atveju trečioji šalis peržiūra gali padėti jums nuspręsti, tinkamą pusiausvyrą rizika ir nauda, ​​jūsų atveju.

Be to, tarp šių dviejų kraštutinių atvejų yra tai, ką aš vadinamas sienelėmis sodo požiūrį, kai duomenys yra dalijamasi su žmonėmis, kurie atitinka tam tikrus kriterijus ir kurie sutinka būti saistoma tam tikrų taisyklių (pvz priežiūrą iš IRB ir duomenų apsaugos planai) , Tai sienelėmis sodas metodas suteikia daug išleidimo naudą ir pamiršti su mažiau rizikos. Žinoma, sienelėmis sodas požiūris sukuria daug klausimų-kurie turėtų turėti galimybę, kokiomis sąlygomis, už kiek laiko, kas turėtų mokėti išlaikyti ir policijos aptvertą sodą ir tt-bet tai nėra neįveikiama. Tiesą sakant, jau dirba sienelėmis sodai vietoje, kad mokslininkai gali naudoti jau dabar, pavyzdžiui, duomenų archyvo Inter-universiteto konsorciumas Politikos ir socialinių tyrimų Mičigano universitete.

Taigi, kur turėtų duomenys iš savo studiją apie ne dalintis, aptvertą sodą kontinuumas, ir atleiskite ir pamiršti? Tai priklauso nuo jūsų duomenis detales; Mokslininkai turi subalansuoti Pagarba žmonėms, geradarystės, teisingumo ir pagarba įstatymo ir viešuoju interesu. Vertinant tinkamą pusiausvyrą dėl kitų sprendimų mokslininkai siekia patarimus ir patvirtinimą IRBs ir duomenų perdavimas gali būti tik dar vienas šio proceso dalis. Kitaip tariant, nors kai kurie žmonės galvoja duomenų perdavimas kaip beviltišką etikos bala, mes jau turime sistemas siekiant padėti mokslininkams subalansuoti šias etines dilemas natūra.

Vienas galutinis būdas galvoti apie dalijimąsi duomenimis yra pagal analogiją. Kasmet automobiliai yra atsakingas už tūkstančių mirčių, bet mes neturime bandyti uždrausti vairuoti. Tiesą sakant, toks skambutis uždrausti vairuoti būtų absurdiška, nes vairavimas leidžia daug nuostabių dalykų. Atvirkščiai, visuomenė vietose apribojimus, kurie gali vairuoti (pvz, reikia būti tam tikro amžiaus, reikia praėjo tam tikrus bandymus) ir kaip jie gali vairuoti (pvz, pagal greičio ribos). Visuomenė taip pat turi žmones pavesta vykdymą šias taisykles (pavyzdžiui, policijos), ir mes nubausti žmones, kurie sugautų juos pažeidė. Tai pačios rūšies subalansuotas mąstymas, kad visuomenė taikoma reguliavimo vairavimą taip pat gali būti taikomas dalijimosi duomenimis. Tai reiškia, kad užuot Absolutist argumentus už arba prieš dalijimąsi duomenimis, manau, didžiausia nauda bus gaunama iš suprasti, kaip mes galime pasidalinti daugiau duomenų saugiau.

Galima daryti išvadą, informacinėje rizika išaugo dramatiškai, ir tai yra labai sunku prognozuoti ir įvertinti. Todėl, tai geriausia daryti prielaidą, kad visi duomenys yra potencialiai atpažįstami ir potencialiai jautri. Norėdami sumažinti informacinę riziką, o daro tyrimus, mokslininkai gali sukurti ir laikytis duomenų apsaugos planą. Be to, informacinėje rizikos netrukdo mokslininkus dalintis duomenimis su kitais mokslininkais.