6.6.2 Izpratne un vadības informācijas risks

Šis tulkojums tika izveidota ar datoru. ×

6.6.2 Izpratne un vadības informācijas risks

Informācijas risks ir visizplatītākais risks sociālajos pētījumos; tā ir dramatiski pieaudzis; un tas ir vissmagāk risks saprast.

Otrs digitalizācijas laikmetīgās izpētes ētiskais izaicinājums ir informācijas risks , potenciāls nodarīt kaitējumu informācijas izpaušanai (National Research Council 2014) . Informatīvs kaitējums no personas informācijas izpaušanas var būt ekonomisks (piemēram, darba zaudēšana), sociāls (piemēram, apgrūtinājums), psiholoģisks (piemēram, depresija) vai pat noziedzīgs nodarījums (piemēram, apcietināšana par nelikumīgu rīcību). Diemžēl digitālais laikmets dramatiski palielina informācijas risku - ir tikai tik daudz informācijas par mūsu uzvedību. Informācijas risks ir izrādījies ļoti grūti saprotams un pārvaldīts salīdzinājumā ar riskiem, kas bija bažas analogos vecuma sociālajos pētījumos, piemēram, fizisko risku.

Viens no veidiem, ka sociālie zinātnieki samazināt informācijas risks ir "anonimizācija" datu. "Anonimizēšana" ir process, likvidējot acīmredzamas personīgo identifikatorus, piemēram, vārdu, adresi un tālruņa numuru no datiem. Tomēr šī pieeja ir daudz mazāk efektīvs nekā daudzi cilvēki realizēt, un tas ir, faktiski, dziļi un būtiski ierobežota. Šī iemesla dēļ, kad es aprakstīt "anonimizāciju," es ņemšu izmantot pēdiņas jums atgādināt, ka šis process rada izskatu anonimitāti, bet nav taisnība anonimitāti.

Spilgts "anonimizācijas" neveiksmes piemērs ir iegūts Masačūsetsas deviņdesmito gadu beigās (Sweeney 2002) . Grupas apdrošināšanas komisija (GIC) bija valsts aģentūra, kas atbildīga par visu valsts darbinieku veselības apdrošināšanas iegādi. Ar šo darbu GIC savāca detalizētus veselības aizsardzības ierakstus par tūkstošiem valsts darbinieku. Lai veicinātu pētniecību, GIC nolēma izdot šos ierakstus pētniekiem. Tomēr viņi nesadala visus savus datus; Drīzāk viņi "anonīmi" šos datus, noņemot informāciju, piemēram, vārdus un adreses. Tomēr viņi atstāja citu informāciju, kas, pēc viņu domām, varētu būt noderīga pētniekiem, piemēram, demogrāfisko informāciju (pasta indekss, dzimšanas datums, etniskā piederība un dzimums), kā arī medicīnisko informāciju (apmeklējumu dati, diagnoze, procedūra) (6.4. Attēls) (Ohm 2010) . Diemžēl šī "anonimizācija" nebija pietiekama, lai aizsargātu datus.

6.4. Attēls. Anonimizācija ir acīmredzami identificējošās informācijas noņemšanas process. Piemēram, kad publicēja valsts darbinieku veselības apdrošināšanas ierakstus, Masačūsetsas grupas apdrošināšanas komisija (GIC) no dokumentiem izņēma vārdus un adreses. Es lietoju pēdiņas ap vārdu anonimizāciju, jo process nodrošina anonimitāti, bet ne faktisko anonimitāti.

6.4. Attēls: "anonimizācija" ir acīmredzami identificējošas informācijas noņemšanas process. Piemēram, kad publicēja valsts darbinieku veselības apdrošināšanas ierakstus, Masačūsetsas grupas apdrošināšanas komisija (GIC) no dokumentiem izņēma vārdus un adreses. Es lietoju pēdiņas ap vārdu "anonimizācija", jo process nodrošina anonimitāti, bet ne faktisko anonimitāti.

Lai ilustrētu trūkumus GIC "anonimizācijā", Latanya Sweeney - pēc tam MIT absolvents maksāja 20 ASV dolārus, lai iegūtu balsu ierakstus no Kembridžas pilsētas, Masačūsetsas guberņa William Weld dzimtajām pilsētām. Šie balsošanas ieraksti ietvēra informāciju, piemēram, vārdu, adresi, pasta indeksu, dzimšanas datumu un dzimumu. Fakts, ka medicīnas datu fails un vēlētāju fails koplietoja laukus-pasta indeksu, dzimšanas datumu un dzimumu, nozīmēja, ka Sweeney varētu tos saistīt. Swainijs zināja, ka Welda dzimšanas diena bija 1945. gada 31. jūlijs, un balsošanas ierakstos bija tikai seši cilvēki, kuri dzimuši šajā dienā. Turklāt no šiem sešiem cilvēkiem tikai trīs bija vīrieši. Un no šiem trim vīriešiem, tikai viens dalīts Weld pasta indekss. Tādējādi balsošanas dati parādīja, ka kāds no medicīniskajiem datiem ar Welda kombināciju ar dzimšanas datumu, dzimumu un pasta indeksu bija William Weld. Būtībā šie trīs informācijas elementi viņam sniedza unikālu datu pirkstu nospiedumu . Izmantojot šo faktu, Sweeney varēja atrast Weldes medicīnisko uzskaiti, un, lai informētu viņu par savu feat, viņa nosūtīja viņam viņa ierakstu kopiju (Ohm 2010) .

6.5. Attēls: Anonimizēto datu atkārtota identificēšana. Latanya Sweeney apvienoja "anonimizētos" veselības ierakstus ar balsošanas ierakstiem, lai atrastu provinces vadītāja William Weld medicīnisko uzskaiti, kas pielāgota Sweeney (2002) 1. attēlā.

Svenīša darbs ilustrē uzbrukuma atkārtošanas identificēšanas pamatstruktūru - no datora drošības kopienas pieņemt terminu. Šajos uzbrukumos ir saistītas divas datu kopas, no kurām neviena pati nerada konfidenciālu informāciju, un ar šīs saiknes starpniecību tiek pakļauta sensitīva informācija.

Atbildot uz Svineja darbu un citu saistītu darbu, pētnieki tagad parasti " (Narayanan and Shmatikov 2010) " procesa laikā noņem daudz vairāk informācijas - visas tā saucamās "personas identificējošās informācijas" (PII) (Narayanan and Shmatikov 2010) . Turklāt daudzi pētnieki tagad saprotam, ka noteikti dati, piemēram, medicīniskie dati, finanšu dokumenti, atbildes uz aptaujas jautājumiem par nelikumīgu rīcību, iespējams, ir pārāk jutīgi pret atbrīvošanu arī pēc "anonimizēšanas". Tomēr piemēri, kurus es gribētu domāt, liecina, ka sociālajiem pētniekiem ir nepieciešams mainīt savu domāšanu. Vispirms ir prātīgi pieņemt, ka visi dati ir potenciāli identificējami un visi dati ir potenciāli jutīgi. Citiem vārdiem sakot, nevis domāt, ka informācijas risks pastāv nelielai projektu daļai, mums vajadzētu uzskatīt, ka tas zināmā mērā attiecas uz visiem projektiem.

Abus šīs pārorientācijas aspektus ilustrē Netflix balva. Kā aprakstīts 5. nodaļā, Netflix atbrīvoja 100 miljonus filmu reitingu, ko nodrošināja gandrīz 500 000 dalībnieku, un viņiem bija atklāts konkurss, kurā cilvēki no visas pasaules iesniedza algoritmus, kas varētu uzlabot Netflix spēju ieteikt filmas. Pirms datu izdošanas Netflix noņēma jebkādu acīmredzamu personīgi identificējošu informāciju, piemēram, vārdus. Viņi arī devās papildu solī un ieviesa nedaudz traucējumus dažos ierakstos (piemēram, mainot dažus reitingus no 4 zvaigznēm uz 3 zvaigznēm). Taču viņi drīz atklāja, ka, neraugoties uz viņu centieniem, dati vēl aizvien nav anonīma.

Tikai divas nedēļas pēc datu izlaišanas Arvind Narayanan un Vitaly Shmatikov (2008) parādīja, ka bija iespējams uzzināt par konkrētu cilvēku filmu vēlmēm. Viņu atkārtota identifikācijas uzbrukuma triks bija līdzīgs Swainijs: apvienot divus informācijas avotus - vienu ar potenciāli konfidenciālu informāciju un nevienu acīmredzami identificējošu informāciju, un tādu, kas satur cilvēku identitāti. Katrs no šiem datu avotiem var būt individuāli drošs, taču, apvienojot tos, apvienotais datu kopums var radīt informācijas risku. Attiecībā uz Netflix datiem, kā tas varētu notikt. Iedomājieties, ka es izvēlos dalīties savās domās par darbības un komēdijas filmas ar saviem kolēģiem, bet es nevēlos dalīties ar savu viedokli par reliģiskām un politiskām filmām. Mani kolēģi varētu izmantot informāciju, ar kuru esmu koplietojis, lai atrastu savus ierakstus Netflix datos; mana informācija varētu būt unikāls pirkstu nospiedums, tāpat kā William Weld dzimšanas datums, pasta indekss un dzimums. Tad, ja viņi atradīs manu unikālo datu pirkstu nospiedumu, viņi varētu uzzināt manus vērtējumus par visām filmām, tostarp par filmām, ko es nevēlos dalīties. Papildus šim veida mērķtiecīgam uzbrukumam, kas vērsts uz vienu personu, Narayanan un Shmatikov arī parādīja, ka bija iespējams veikt plašu uzbrukumu, kas saistīts ar daudziem cilvēkiem - apvienojot Netflix datus ar personīgo un filmu vērtējumu datiem, kurus izvēlējušies daži cilvēki lai ievietotu Interneta filmu datubāzē (IMDb). Vienkārši, lai identificētu tos, var izmantot jebkuru informāciju, kas ir unikāls pirkstu nospiedums konkrētai personai - pat to filmu vērtējumu komplekts.

Pat ja Netflix datus var atkārtoti identificēt vai nu mērķtiecīgi, vai plaši, iespējams, tas joprojām var būt zems risks. Galu galā, filmas vērtējumi nešķiet tik sensitīvi. Lai gan tas varētu būt taisnība kopumā, daži no 500 000 cilvēku datu kopas filmu vērtējumi varētu būt diezgan jutīgi. Faktiski, atbildot uz atkārtotu identifikāciju, cieši noslēgta lesbietes sieviete pievienojās klases prasību pret Netflix. Lūk, kā viņu problēma tika izteikta prasību lietā (Singel 2009) :

"[M] ovie un reitinga dati satur informāciju par ... ļoti personisku un jutīgu raksturu. Dalībnieka filmas dati atklāj Netflix locekļa personīgo interesi un / vai cīņas ar dažādiem ļoti personīgiem jautājumiem, tostarp seksualitāti, garīgajām slimībām, atgūšanos pret alkoholismu un viktimizāciju no incest, fizisku vardarbību, vardarbību ģimenē, laulības pārkāpšanu un izvarošanu. "

Netflix balvas datu atkārtota identifikācija parāda, ka visi dati ir potenciāli identificējami un ka visi dati ir potenciāli jutīgi. Šajā brīdī jūs domājat, ka tas attiecas tikai uz datiem, kas domāti par cilvēkiem. Pārsteidzoši, tas tā nav. Ņujorkas pilsētas valdība, atbildot uz Informācijas brīvības likuma pieprasījumu, 2013. gadā publicēja Ņujorkas taksometra ierakstus, tostarp laikposmu un vietu aizkavēšanos, kā arī vietu skaitu un maksu par biļetēm (atgādināt no Farber (2015) 2. nodaļas Farber (2015) izmantoja līdzīgus datus, lai pārbaudītu svarīgas teorijas darba ekonomikā). Šie dati par taksometru braucieniem var šķist labdabīgi, jo tie, šķiet, nesniedz informāciju par cilvēkiem, bet Anthony Tockar saprata, ka šajā taksometru datu kopā ir daudz potenciāli sensitīvas informācijas par cilvēkiem. Lai ilustrētu, viņš paskatījās uz visiem braucieniem, kas sākās Hustler Club - lielajā slotiņu klubā Ņujorkā - no pusnakts līdz 06:00, un pēc tam atrada viņu izlidošanas vietas. Šis meklēšanas vaicājums būtībā bija dažu cilvēku, kas apmeklēja Hustler klubu (Tockar 2014) , adreses. Ir grūti iedomāties, ka pilsētas valdība to atstāja, atbrīvojot datus. Patiesībā šo pašu paņēmienu var izmantot, lai atrastu to cilvēku mājas adreses, kuri apmeklē kādu vietu pilsētā - medicīnas klīnikā, valdības ēkā vai reliģiskajā iestādē.

Šie divi Netflix balvas un Ņujorkas taksometru datu gadījumi liecina, ka relatīvi kvalificētie cilvēki nevar pareizi novērtēt informatīvo risku to izdalītajos datos, un šie gadījumi nekādā ziņā nav unikāli (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Turklāt daudzos šādos gadījumos problemātiski dati joprojām ir brīvi pieejami tiešsaistē, norādot, ka ir grūti jebkad atcelt datu izplatīšanu. Kopīgi šie piemēri - kā arī pētījumi datorzinātnēs par privātumu - noved pie svarīga secinājuma. Pētniekiem jāuzskata, ka visi dati ir potenciāli identificējami un visi dati ir potenciāli jutīgi.

Diemžēl nav vienkāršs faktu risinājums, ka visi dati ir potenciāli identificējami un ka visi dati ir potenciāli sensitīvi. Tomēr viens no veidiem, kā samazināt informācijas risku, strādājot ar datiem, ir izveidot un izpildīt datu aizsardzības plānu . Šis plāns samazinās iespēju, ka jūsu dati tiks noplūkti, un samazinās kaitējumu, ja noplūde kaut kā notiks. Datu aizsardzības plānu specifika, piemēram, kāda veida šifrēšana ir izmantojama, laika gaitā mainīsies, bet Apvienotās Karalistes datu pakalpojumi veiksmīgi organizē datu aizsardzības plāna elementus piecās kategorijās, ko tās sauc par pieciem seifiem : droši projekti, droši cilvēki , droši iestatījumi, droši dati un droši rezultāti (6.2. tabula) (Desai, Ritchie, and Welpton 2016) . Neviens no pieciem seifiem individuāli nenodrošina perfektu aizsardzību. Bet kopā tie veido spēcīgu faktoru kopumu, kas var mazināt informācijas risku.

6.2. Tabula. "Pieci seifi" ir datu aizsardzības plāna izstrādes un izpildes principi (Desai, Ritchie, and Welpton 2016)
Droši	Darbība
Droši projekti	Ierobežo projektus ar datiem, kas ir ētiski
Droši cilvēki	Piekļuve ir pieejama tikai tiem cilvēkiem, kuriem var uzticēties ar datiem (piemēram, cilvēkiem, kuriem ir veikta ētiska apmācība)
Droši dati	Dati tiek identificēti un apkopoti pēc iespējas
Drošie iestatījumi	Dati tiek glabāti datoros ar atbilstošu fizisko (piemēram, bloķēto telpu) un programmatūras aizsardzību (piemēram, ar paroli, šifrētu)
Droša produkcija	Pētījumu rezultāti tiek pārskatīti, lai novērstu nejaušus privātuma pārkāpumus

Papildus datu aizsardzībai, kamēr tos izmantojat, viens no soļiem pētījumu procesā, kurā informācijas risks ir īpaši nozīmīgs, ir datu apmaiņa ar citiem pētniekiem. Datu koplietošana zinātnieku starpā ir zinātnisko darbību galvenā vērtība, kas ievērojami atvieglo zināšanu attīstību. Lūk, kā Apvienotās Karalistes padome aprakstīja datu apmaiņas nozīmi (Molloy 2011) :

"Piekļuve datiem ir būtiska, ja pētnieki reproducē, pārbauda un balstās uz literatūrā sniegtajiem rezultātiem. Pieņēmumam jābūt tādam, ka, ja vien nav citu iemeslu, dati būtu pilnībā jāatklāj un jāpublisko. "

Tomēr, daloties savos datos ar citu pētnieku, iespējams, palielināsies informatīvais risks jūsu dalībniekiem. Tādējādi var šķist, ka datu apmaiņa rada būtisku spriedzi starp pienākumu dalīties ar datiem ar citiem zinātniekiem un pienākumu samazināt dalībnieku informatīvo risku. Par laimi šī dilemma nav tik nopietna, kā šķiet. Drīzāk ir labāk domāt par datu kopīgu izmantošanu, jo tie saskan ar nepārtrauktību, un katrs šī kontinuenta punkts nodrošina dažādus ieguvumus sabiedrībai un risku dalībniekiem (6.6. Attēls).

Vienā galējībā jūs varat koplietot savus datus ar nevienu, kas samazina risku dalībniekiem, bet arī samazina ieguvumus sabiedrībai. Otrkārt, jūs varat atbrīvot un aizmirst , kur dati ir "anonimizēti" un ievietoti ikvienam. Relatīvi attiecībā uz datu neizpaušanu, atbrīvošanu un aizmiršanu piedāvā gan lielākus ieguvumus sabiedrībai, gan lielāku risku dalībniekiem. Starp šiem diviem ekstremāliem gadījumiem ir vairāki hibrīdi, tostarp tas, ko es saucu par sienu dārza pieeju. Saskaņā ar šo pieeju dati tiek koplietoti ar cilvēkiem, kas atbilst noteiktiem kritērijiem un piekrīt ievērot noteiktus noteikumus (piemēram, IRB pārraudzība un datu aizsardzības plāns). Sienu dārza pieeja nodrošina daudzus priekšrocības, ko rada atbrīvošana, un aizmirst ar mazāku risku. Protams, šāda pieeja rada daudz jautājumu - kam vajadzētu būt pieejamiem, ar kādiem nosacījumiem un cik ilgi, kam jāmaksā, lai uzturētu un policētu sienu dārzu utt., Taču tie nav nepārvarami. Faktiski jau ir izveidoti darbi sienu dārzos, kurus pētnieki var izmantot tieši tagad, piemēram, Mičiganas Universitātes starpuniversitāšu konsorcijs par politiskajiem un sociālajiem pētījumiem.

6.6. Attēls: Datu izplatīšanas stratēģijas var samazināties nepārtraukti. Ja jums vajadzētu būt šajā kontinuumā, tas ir atkarīgs no jūsu datu specifiskās detaļas, un trešās puses pārskatīšana var palīdzēt jums izlemt, vai jūsu situācijā ir atbilstošs riska un ieguvumu līdzsvars. Šīs līknes precīza forma ir atkarīga no datu un pētījumu mērķu specifikas (Goroff 2015) .

Tātad, no kurienes dati no jūsu pētījuma ir par nepārtrauktību bez dalīšanas, sienas dārzs, atbrīvot un aizmirst? Tas ir atkarīgs no jūsu datu detaļas: pētniekiem ir jābalstās uz cilvēka cieņu, labklājību, taisnīgumu un tiesību un sabiedrības interešu ievērošanu. Ņemot vērā šo perspektīvu, datu apmaiņa nav atšķirīga ētiskais sarežģījums; tas ir tikai viens no daudzajiem pētniecības aspektiem, kurā pētniekiem ir jāatrod atbilstošs ētiskais līdzsvars.

Daži kritiķi kopumā iebilst pret datu kopīgošanu, jo, manuprāt, tie ir vērsti uz riskiem, kas neapšaubāmi ir reāli, un ignorē tā priekšrocības. Tātad, lai veicinātu uzmanību gan riskiem, gan ieguvumiem, es gribētu piedāvāt analoģiju. Katru gadu automašīnas ir atbildīgas par tūkstošiem nāves gadījumu, taču mēs nemēģinām aizliegt braukšanu. Faktiski aicinājums aizliegt braukšanu būtu absurds, jo braukšana ļauj daudzas brīnišķīgas lietas. Drīzāk sabiedrība ierobežo to, kas var vadīt (piemēram, nepieciešamība būt noteiktā vecumā un veikt noteiktus testus) un kā viņi var vadīt transportlīdzekli (piemēram, saskaņā ar ātruma ierobežojumu). Sabiedrībai ir arī cilvēki, kas uzticējuši šo noteikumu izpildi (piemēram, policija), un mēs sodām cilvēkus, kuri tiek nozvejoti, tos pārkāpjot. Datu apmaiņai var piemērot arī tādu pašu līdzsvarotu domu, ka sabiedrība piemēro braukšanas regulēšanu. Tas nozīmē, ka, tā vietā, lai veiktu absolutiskus argumentus par vai pret datu kopīgošanu, es domāju, ka mēs padarīsim vislielāko progresu, koncentrējoties uz to, kā mēs varam samazināt riskus un palielināt priekšrocības, ko sniedz datu apmaiņa.

Visbeidzot, informācijas risks ir krasi pieaudzis, un to ir ļoti grūti paredzēt un aprēķināt. Tādēļ vislabāk ir pieņemt, ka visi dati ir potenciāli identificējami un potenciāli jutīgi. Lai samazinātu informācijas risku, veicot pētījumus, pētnieki var izveidot un izpildīt datu aizsardzības plānu. Turklāt informācijas risks neļauj zinātniekiem dalīties ar datiem ar citiem zinātniekiem.