6.6.2 Izpratne un vadības informācijas risks

Informācijas risks ir visbiežāk risks sociālajā pētniecībā; tas ir krasi pieaudzis; un tas ir visgrūtāk risks saprast.

Otrs ētiska problēma sociālā vecuma digitālo pētniecībā, informācijas risks, potenciālais kaitējums no informācijas izpaušanas (Council 2014) . Informatīvie kaitē no personas informācijas izpaušanas varētu būt ekonomiska (piemēram, zaudējot darbu), sociālo (piemēram, apmulsums), psiholoģiskā (piemēram, depresija), vai pat noziedzīgu (piemēram, arestu par nelikumīgu rīcību). Diemžēl, digitālais laikmets palielina informācijas risks dramatiski-tur ir tikai tik daudz vairāk informācijas par mūsu uzvedību. Un, informācijas risks ir izrādījusies ļoti grūti saprast un vadīt, salīdzinot ar riskiem, ka bija bažas analogo vecuma sociālo pētījumu, piemēram, fizisku risku. Lai redzētu, kā digitālais laikmets palielina informācijas risks, apsvērt pāreju no papīra uz elektroniskajām slimības vēsturēm. Abi ierakstu veidi rada risku, bet elektroniskie ieraksti rada daudz lielākus riskus, jo pie masveida tos var pārsūtīt neatļautu pusei vai apvienot ar citiem ierakstiem. Sociālie pētnieki digitālajā laikmetā jau uzskriet problēmas ar informācijas risks, daļēji tāpēc, ka tie nav pilnībā saprast, kā noteikt un pārvaldīt to. Tātad, es esmu gatavojas piedāvāt noderīgu veids, kā domāt par informācijas risks, un tad es esmu gatavojas sniegt jums dažus padomus par to, kā pārvaldīt informācijas risks jūsu pētniecībā un atbrīvojot datus uz citiem pētniekiem.

Viens no veidiem, ka sociālie zinātnieki samazināt informācijas risks ir "anonimizācija" datu. "Anonimizēšana" ir process, likvidējot acīmredzamas personīgo identifikatorus, piemēram, vārdu, adresi un tālruņa numuru no datiem. Tomēr šī pieeja ir daudz mazāk efektīvs nekā daudzi cilvēki realizēt, un tas ir, faktiski, dziļi un būtiski ierobežota. Šī iemesla dēļ, kad es aprakstīt "anonimizāciju," es ņemšu izmantot pēdiņas jums atgādināt, ka šis process rada izskatu anonimitāti, bet nav taisnība anonimitāti.

Spilgts piemērs neveiksmes "anonimizācijas" nāk no vēlu 1990 Massachusetts (Sweeney 2002) . Grupa Insurance Komisija (GIC) bija valsts aģentūra ir atbildīga par iepirkuma veselības apdrošināšanu visiem valsts darbiniekiem. Ar šo darbu, GIC savākti detalizētu veselības ierakstus par tūkstošiem valsts darbiniekiem. Cenšoties stimulēt pētījumu par to, kā uzlabot veselību, GIC nolēma atbrīvot šos ierakstus ar pētniekiem. Tomēr tie nav dalīties ar visu to datus; drīzāk tie "anonimizēti" to atceļot informāciju, piemēram, vārdu un adresi. Taču viņi atstāja citu informāciju, ka viņi domāja, varētu būt noderīga pētniekiem, piemēram, demogrāfisko informāciju (zip kods, dzimšanas datums, tautības un dzimuma) un medicīniskās informācijas (apmeklējuma datiem, diagnostiku, procedūra) (6.4 attēls) (Ohm 2010) . Diemžēl, šī "anonimizācija" nebija pietiekami, lai aizsargātu datus.

6.4 attēls: anonimizēšana ir process likvidēt acīmredzami identificējošu informāciju. Piemēram, kad atbrīvojot medicīniskās apdrošināšanas uzskaiti valsts darbiniekiem Massachusetts Group Insurance Komisija (GIC) noņem vārdu un adresi no failiem. Es izmantoju pēdiņas ap vārdu anonimizācijas jo process nodrošina izskatu anonimitāti, bet ne faktisko anonimitāti.

6.4 attēls: "anonimizēšana" ir process, likvidējot acīmredzami identificējošu informāciju. Piemēram, kad atbrīvojot medicīniskās apdrošināšanas uzskaiti valsts darbiniekiem Massachusetts Group Insurance Komisija (GIC) noņem vārdu un adresi no failiem. Es izmantoju pēdiņas ap vārdu "anonimizācijas", jo process nodrošina izskatu anonimitāti, bet ne faktisko anonimitāti.

Lai ilustrētu trūkumus GIC "anonimizācijas", Latanya Sweeney-tad absolvents students at MIT-maksā $ 20, lai iegūtu balsošanas ierakstus no pilsētas Cambridge, dzimtajā Massachusetts gubernators William šuves. Šīs balsošanas ieraksti iekļauti informāciju, piemēram, nosaukums, adrese, pasta indekss, dzimšanas datumu un dzimumu. Fakts, ka medicīnas datu fails, un vēlētājs failu koplietošanas lauki-zip kods, dzimšanas datums, un sex-nozīmēja, ka Sweeney varētu saistīt tos. Sweeney zināja, ka šuves dzimšanas diena bija 31. jūlijs, 1945, un balsošanas ieraksti iekļauti tikai seši cilvēki Cambridge ar šo dzimšanas dienu. Arī no tiem sešiem cilvēkiem, tikai trīs bija vīrieši. Un, no tiem trīs vīrieši, tikai viena kopīga šuves ir pasta indeksu. Tādējādi dati balsošanas parādīja, ka ikviens medicīnas datiem ar šuves ir kombinācija dzimšanas datums, dzimums, un zip kodu bija William Weld. Būtībā šīs trīs gabalus informāciju sniedza unikālu pirkstu nospiedumu viņam datos. Izmantojot šo faktu, Sweeney varēja atrast metināt slimības vēsturi, un informēt viņu par viņas feat, viņa pastu viņam kopiju savā uzskaitē (Ohm 2010) .

Skaitlis 6.5: Re-idenification no anonīmiem datiem. Latanya Sweeney apvienoja anonimizētus veselības ierakstus ar balsošanas ierakstiem, lai atrastu medicīniskos ierakstus gubernatora Viljama šuves (Sweeney 2002).

Skaitlis 6.5: Re-idenification par "anonīmiem" dati. Latanya Sweeney apvienoja "anonimizētus" veselības ierakstus ar balsošanas ierakstiem, lai atrastu medicīniskos ierakstus gubernatora Viljama šuves (Sweeney 2002) .

Sweeney darbs parāda pamatstruktūru de-anonimizācijas uzbrukumiem -lai pieņemtu terminu no datoru drošības kopienai. Šajos uzbrukumos, divas datu kopas, neviena no kurām pats atklāj slepenu informāciju, ir saistītas, un caur šo saikni, informācija ir pakļauta. Savā ziņā šis process ir līdzīgs tam, kā tas cepamais sodas un etiķi, divas vielas, kas paši par sevi droši, var apvienot, lai ražotu šķebinošs iznākumu.

Atbildot uz Sweeney darbu, un citu saistīto darbu, pētnieki tagad vispār noņemt daudz vairāk informācijas visu tā saucamo "personu identificējošu informāciju" (PII) (Narayanan and Shmatikov 2010) -during procesu "anonimizācijas." Turklāt, daudzi pētnieki tagad saprotam, ka daži datu, piemēram, medicīnisko dokumentāciju, finanšu uzskaiti, atbildes uz aptaujas jautājumiem par nelikumīgu rīcību, iespējams, ir pārāk jutīgs, lai atbrīvotu pat pēc "anonimizācijas." Tomēr vēl nesen piemērus, ka es ņemšu raksturo tālāk norāda, ka sociālās pētniekiem nepieciešams mainīt savu domāšanu. Kā pirmais solis, tas ir gudrs, lai pieņemt, ka visi dati ir potenciāli identificējams un visi dati ir potenciāli jutīgi. Citiem vārdiem sakot, nevis domāt, ka informācijas risks attiecas uz nelielu apakškopu projektu, mums vajadzētu pieņemt, ka tas ir piemērojams, zināmā mērā, lai visiem projektiem.

Abi aspekti šīs pārorientācijai ilustrē ar Netflix balvas. Kā aprakstīts 5. nodaļā, Netflix izlaida 100 miljonus filmu vērtējumi gandrīz 500,000 biedru sniegtos, un bija atklātu konkursu, kurā cilvēki no visas pasaules, kas iesniegta algoritmus, kas varētu uzlabot Netflix spēju ieteikt filmas. Pirms datu atlaižot, Netflix noņemt jebkuru protams personiski identificējošu informāciju, piemēram, nosaukumu. Netflix arī devās papildu solis un ieviesa nelielas perturbācijas dažās no uzskaites (piemēram, mainot dažus vērtējumi no 4 zvaigžņu, lai 3 zvaigznes). Netflix drīz atklāja, ka tomēr neskatoties uz viņu pūlēm, šie dati nebija nekādā ziņā nav anonīms.

Tikai divas nedēļas pēc datiem tika atbrīvoti Narayanan and Shmatikov (2008) parādīja, ka tas bija iespējams uzzināt par konkrētām cilvēku filmu vēlmēm. Triks, lai to atkārtotu identifikācijas uzbrukums bija līdzīgs Sweeney s: apvienot kopā divus informācijas avotus, no kuriem viens ar iespējami sensitīvu informāciju un nav acīmredzami identificējoša informācija un viens, kas satur cilvēku identitāti. Katrs no šiem datu avotiem var būt individuāli droši, bet, ja tie ir apvienoti apvienotais datu kopa var radīt informācijas risks. Attiecībā uz Netflix datiem, lūk, kā tas varētu notikt. Iedomājieties, ka es izvēlos dalīties manas domas par rīcību un komēdija filmas ar maniem kolēģiem, bet es gribētu, lai dalītos savu viedokli par reliģisko un politisko filmas. Mani līdzstrādnieki var izmantot informāciju, kas es esmu dalītu ar viņiem, lai atrastu savus ierakstus Netflix datiem; informācija, ka es piekrītu varētu būt unikāla pirkstu nospiedumu, tāpat kā William metināt dzimšanas datums, pasta indekss, un dzimuma. Tad, ja viņi atrast savu unikālo pirkstu nospiedumu datos, viņi varēja uzzināt manu vērtējumu par visām filmām, arī filmas, kur es nevēlas dalīties. Papildus šim veida mērķtiecīgu uzbrukumu koncentrējās uz vienu personu, Narayanan and Shmatikov (2008) arī parādīja, ka tas bija iespējams darīt plašu uzbrukumu-ons, iesaistot daudzus cilvēkus, apvienojot Netflix datus ar personīgo un filmu reitingu datiem, ka daži cilvēki ir izvēlējušies ievietot uz Internet Movie Database (IMDb). Jebkura informācija, kas ir unikāls pirkstu nospiedumu uz konkrētu personu-pat to kopumu filmu vērtējumiem-var izmantot, lai identificētu tos.

Pat ja Netflix datus var atkārtoti noteikt vai nu mērķtiecīgi vai plašu uzbrukumu, tas vēl varētu izrādīties zems risks. Galu galā, filmu vērtējumiem nešķiet ļoti jutīgi. Kaut kas varētu būt taisnība vispār, dažiem 500,000 cilvēku datu kopas, filmu vērtējumi varētu būt diezgan jutīga. Patiesībā, atbildot uz de-anonimizācijas closeted lesbiete sieviete pievienojās klases darbības uzvalks pret Netflix. Lūk, kā problēma tika izteikts viņu tiesā (Singel 2009) :

"[M] ovie un vērtējums dati satur informāciju par vairāk ļoti personisku un delikāti [sic]. Locekļa filma dati atklāj Netflix locekļa personīgo ieinteresētību un / vai cīņas ar dažādām ļoti personīgo jautājumiem, tostarp seksualitāti, garīgas slimības, atveseļošanos un viktimizācijas no incesta, fizisku vardarbību, vardarbību ģimenē, laulības pārkāpšanu, un izvarošanu. "

De-anonimizācija no Netflix prēmijas dati parāda, gan to, ka visi dati ir potenciāli identificējama un ka visi dati ir potenciāli jutīgi. Šajā brīdī, jūs varētu domāt, ka tas attiecas tikai uz datiem, kas tas uztverams kā par cilvēkiem. Pārsteidzoši, ka tas nav šajā gadījumā. Atbildot uz Informācijas atklātības likumu pieprasījuma, New York City Valdība atbrīvo uzskaiti par katru taksometru Ņujorkā 2013. gadā, ieskaitot pikaps un atkrist reizes, atrašanās vietas, un braukšanas maksas summas (atsaukt no 2. nodaļas ka Farber (2015) izmanto šos datus, lai pārbaudītu svarīgus teorijas darba ekonomikā). Lai gan šie dati par taksometra braucienu varētu šķist labdabīgi, jo tas, šķiet, nav būt informācija par cilvēkiem, Anthony Tockar saprata, ka šis taksometru datu kopa faktiski ietverts daudz potenciāli jutīgu informāciju par cilvēkiem. Lai ilustrētu, viņš paskatījās uz visiem braucieniem, sākot no The Hustler Club-lielu striptīza klubā Ņujorkā-starp pusnakti un 6am un pēc tam konstatēja to drop-off vietas. Šo meklēšanu atklāja-in būtībā-sarakstā adreses, daži cilvēki, kuri sastopami Hustler Club (Tockar 2014) . Ir grūti iedomāties, ka pilsētas valdība bija to prātā, kad tas atbrīvo datus. Patiesībā, šo pašu metodi var izmantot, lai atrastu mājas adreses, kas apmeklē jebkuru vietu pilsētas medicīnas klīnikā, valdības ēkas, vai reliģiskas iestādes.

Šīs divas lietas-Netflix Balvu un New York City Taxi datu liecina, ka salīdzinoši kvalificēti cilvēki nav pareizi novērtētu informatīvo risku datiem, viņi atmaksā, un šie gadījumi ir nekādā ziņā nav unikāla (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Turklāt, daudzas no šīm lietām, tad problemātiska dati joprojām ir brīvi pieejama internetā, norādot grūtības arvien posts datu noplūdi. Kolektīvi šie piemēri-, kā arī pētījumiem datorzinātnēs par privātuma izraisa nozīmīgu secinājumu. Pētnieki vajadzētu pieņemt, ka visi dati ir potenciāli identificējams un visi dati ir potenciāli jutīgi.

Diemžēl, nav vienkāršs risinājums, ka visi dati ir potenciāli identificējams un visi dati ir potenciāli jutīgi. Tomēr viens veids, kā samazināt informācijas risku, kamēr jūs strādājat ar datiem ir izveidot un ievērot datu aizsardzības plānu. Šis plāns samazina iespēju, ka jūsu dati tiks iztecēt samazinās kaitējums, ja noplūde kaut kā notiek. Datu aizsardzības plānu specifiku, piemēram, kuras forma šifrēšanu, lai izmantotu, mainīsies laika gaitā, bet AK Datu pakalpojumi izpalīdzīgi organizē elementus datu aizsardzības plānu 5 kategorijās, ka viņi sauc 5 seifi: drošiem projektiem, drošiem cilvēkiem , drošas uzstādījumus, drošu datu un drošus rezultātus (6.2 tabula) (Desai, Ritchie, and Welpton 2016) . Neviens no pieciem seifu individuāli nodrošina ideālu aizsardzību. Bet kopā tie veido spēcīgu faktoru kopumu, kas var samazināt informācijas risks.

6.2 tabulā: 5 seifi ir principi izstrādājot un izpildot datu aizsardzības plānu (Desai, Ritchie, and Welpton 2016) .
drošs rīcība
drošas projekti ierobežo projektus ar datiem, tiem, kas ir ētikas
drošas cilvēki piekļuve ir ierobežota, lai cilvēkiem, kuri var būt uzticamo ar datiem (piemēram, cilvēki ir pakļauti ētiska apmācība)
Droši dati datu de-identificēti un apkopoti, lai pēc iespējas
drošas iestatījumi dati tiek glabāti datoros ar atbilstošu fizisku (piemēram, slēgta telpa) un programmatūru (piemēram, paroles aizsardzība, šifrētu) aizsardzība
Safe izeja pētījumi produkcija tiek pārskatīta, lai novērstu nejauši privātuma pārkāpumus

Papildus aizsargāt savus datus, kamēr jūs izmantojat to, viens solis pētniecības procesā, kurā informācijas risks ir īpaši spilgta ir datu apmaiņa ar citiem pētniekiem. Datu apmaiņa starp zinātniekiem ir pamatvērtība zinātnisko pūlēties, un tas ievērojami Saimniecība zināšanu attīstība. Lūk, kā Apvienotās Karalistes parlamenta apakšnams aprakstīja nozīmi datu apmaiņu:

"Piekļuve datiem ir būtiska, ja pētnieki reproducēt, pārbaudīt un veidot uz rezultātiem, kas tiek ziņots literatūrā. Pieņēmums ir, ka, ja ir spēcīga iemesls citādi, dati būtu pilnīgi atklāti un publiski pieejami. Saskaņā ar šo principu, ja iespējams, dati, kas saistīti ar visu publiski finansētas pētniecības būtu jāpadara plaši un brīvi pieejami. " (Molloy 2011)

Tomēr, daloties jūsu datus ar citu pētnieku, jums var palielināt informācijas risks Jūsu dalībniekiem. Tātad, tas var likties, ka pētnieki, kuri vēlas dalīties ar saviem datiem, vai ir nepieciešami, lai dalītos savu datu-saskaras būtisku spriedzi. No vienas puses, tie ir ētisks pienākums dalīties datus ar citiem zinātniekiem, it īpaši, ja sākotnējais pētījums ir valsts finansētas. Tomēr, tajā pašā laikā, pētnieki ir ētisks pienākums, lai samazinātu, cik vien iespējams, informācija risks to dalībniekiem.

Par laimi, šī dilemma nav tik smaga, kā tas redzams. Ir svarīgi domāt par datu kopīgu pa nepārtrauktu no ne datu apmaiņu, lai atbrīvotu un aizmirst, kur dati tiek "anonimizētu" un ievietojis ikvienam, lai piekļūtu (6.6 attēls). Abi šie galējās pozīcijās ir riski un ieguvumi. Tas ir, tā nav automātiski visvairāk ētikas lieta neizpaudīsim jūsu datus; šāda pieeja novērš daudzus potenciālos ieguvumus sabiedrībai. Atgriežoties pēc garšas, Kaklasaites, un laiks, piemērs apspriests iepriekš šajā nodaļā, argumenti pret datu izplatīšanu, kas vērstas tikai uz iespējamo kaitējumu un ka ignorē iespējamos ieguvumus, ir pārāk vienpusīgs; Es aprakstīt problēmas ar šo vienpusīgs, pārāk aizsargājošu pieeju sīkāk tālāk, kad es piedāvāt padomu par lēmumu pieņemšanas, saskaroties ar nenoteiktību (6.6.4 iedaļu).

6.6 skaitlis: Datu noplūdes stratēģijas var krist gar nepārtrauktību. Kur jums jābūt līdzi šī nepārtrauktība ir atkarīgs no konkrētu informāciju par jūsu datiem. Šajā gadījumā trešā persona pārskatīšana var palīdzēt jums izlemt riska pienācīgu līdzsvaru un labumu jūsu gadījumā.

6.6 skaitlis: Datu noplūdes stratēģijas var krist gar nepārtrauktību. Kur jums jābūt līdzi šī nepārtrauktība ir atkarīgs no konkrētu informāciju par jūsu datiem. Šajā gadījumā trešā persona pārskatīšana var palīdzēt jums izlemt riska pienācīgu līdzsvaru un labumu jūsu gadījumā.

Turklāt, starp šiem diviem ārkārtējos gadījumos ir tas, ko es ņemšu sauc sienu dārza pieeju, kurā dati tiek dalīta ar cilvēkiem, kuri atbilst noteiktiem kritērijiem un kas piekrīt uzņemties dažiem noteikumiem (piemēram, uzraudzība no IRB un datu aizsardzības plāni) . Šī sienu dārzs pieeja nodrošina daudzas priekšrocības atbrīvošanu un aizmirst ar mazāku risku. Protams, sienu dārzs pieeja rada daudz jautājumu-kam ir atļauta piekļuve, ar kādiem nosacījumiem un cik ilgi, kas būtu jāmaksā, lai saglabātu un policija sienu dārzs utt-bet tie nav nepārvarami. Patiesībā, tur jau strādā sieniņām dārzus vietā, ka pētnieki var izmantot tieši tagad, piemēram, datu arhīvā starpuniversitāšu konsorcijs Politisko un sociālo pētījumu Universitātes Michigan.

Tātad, kur ir dati no sava pētījuma būt pastāvīgai ne apmaiņu, sienu dārzs, un atbrīvot un aizmirst? Tas atkarīgs no detaļām jūsu datiem; pētniekiem ir līdzsvars Cieņa pret personu, Labdarība, tieslietu un cieņu pret likumu un sabiedrības interesēm. Novērtējot pienācīgu līdzsvaru citiem lēmumiem pētnieki lūgt padomu un apstiprināšanu IRBs, un datu atbrīvošana var būt tikai vēl daļa no šī procesa. Citiem vārdiem sakot, lai gan daži cilvēki domā par datu izlaidums bezcerīgs ētikas muklāja, mums jau ir sistēmas, lai palīdzētu pētniekiem līdzsvarot šos veida ētikas dilemmas.

Viena gala veids, kā domāt par datu apmaiņu, ir pēc analoģijas. Katru gadu automašīnas ir atbildīgs par tūkstošiem nāves gadījumu, bet mums nav mēģinājums aizliegt braukšanu. Faktiski, šis aicinājums aizliegt braukšanu būtu absurdi, jo braukšana ļauj daudzas brīnišķīgas lietas. Drīzāk, sabiedrība uzliek ierobežojumus, kas var vadīt (piemēram, ir jābūt noteiktu vecumu, ir nepieciešams, lai ir pagājuši noteiktas pārbaudes), un kā viņi var vadīt (piemēram, saskaņā ar ātruma ierobežojumu). Biedrība ir arī cilvēki, kuru uzdevums ir šos noteikumus (piemēram, policijas) izpildes, un mēs sodīt cilvēkus, kas noķer to pārkāpšanu. Šī paša veida līdzsvarotu domāšanu, ka sabiedrība attiecas uz braukšanu regulēšanas var piemērot arī uz datu apmaiņu. Tas ir, nevis padarīt absolutizācija argumentus par vai pret datu apmaiņu, es domāju, ka lielākais ieguvums būs no norādītas, kā mēs varam dalīties vairāk datu drošāk.

Secināt, informācijas risks ir krasi pieaudzis, un tas ir ļoti grūti prognozēt un kvantitatīvi. Tāpēc vislabāk ir pieņemt, ka visi dati ir potenciāli identificējams un potenciāli jutīgi. Lai samazinātu informācijas risks, bet veic pētījumus, zinātnieki var izveidot un ievērot datu aizsardzības plānu. Turklāt informācijas risks neliedz pētniekus no koplietošanas datus ar citiem zinātniekiem.