6.6.2 Kompreno kaj peranto informa risko

Informo risko estas la plej komunaj riskoj en socia esploro; ĝi pliigis drame; kaj tio estas la plej malfacila risko kompreni.

La dua etikaj defio por socia aĝo diĝita esploro estas informa risko, la potencialo por damaĝo de la malkaŝo de informoj (Council 2014) . Informa nocas de la malkaŝo de personaj informoj povus esti ekonomiaj (ekz, perdante laboron), sociaj (ekz, embarason), psikologia (ekz, depresio), aŭ eĉ krima (ekz aresto pro kontraŭleĝa konduto). Bedaŭrinde, la cifereca erao pliigas informo risko draste-tie estas nur tiom da pli da informoj pri nia konduto. Kaj, informa risko pruvis tre malfacile kompreni kaj administri kompare riskoj kiuj koncernas en analoga aĝo socia esploro, kiel fizika risko. Por vidi kiel la diĝita aĝo pliigas informa risko, konsideri la transiro de papero al elektronika medicina registroj. Ambaŭ tipoj de registroj kreas riskon, sed la elektronikaj registroj krei pligrandigxus riskojn ĉar al amasa skalo ili povas transdoni al neaŭtorizita partio aŭ kunfalis kun aliaj registroj. Sociaj esploristoj en la diĝita aĝo jam trafos problemojn kun informa risko, delvis ĉar ili ne plene komprenas kiel cuantificar kaj administri ĝin. Do, mi tuj alportos helpema maniero pensi informa risko, kaj tiam mi tuj doni al vi kelkajn konsilojn pri kiel administri la informa risko en via esploro kaj en liberiganta datumojn al aliaj esploristoj.

Unidirekta ke sociaj esploristoj malgrandiĝi informa risko estas "anonymization" de datumoj. "Anonymization" estas la procezo de forigado evidenta persona identigiloj kiel nomo, adreso, kaj telefonnumero de la datumoj. Tamen, tiu aliro estas multe malpli efika ol multaj homoj komprenas, kaj estas, fakte, profunde kaj principe limigita. Tial, kiam ajn mi priskribas "anonymization," Mi uzos citiloj memorigi vin ke ĉi tiu procezo kreas la apero de anonimeco sed ne vera anonimeco.

Vigla ekzemplon de la fiasko de "anonymization" devenas de la malfruaj 1990-aj jaroj en Massachusetts (Sweeney 2002) . La Grupo Asekuro Komisiono (GIC) estis registara agentejo respondeca por aĉeti medicina asekuro por ĉiuj ŝtataj dungitoj. Tra ĉi tiu verko, la GIC kolektitaj detala sano registroj pri miloj da ŝtatdungitoj. Provante sproni esploro pri manieroj por plibonigi sanon, GIC decidis liberigi tiujn rekordojn por esploristoj. Tamen, ili ne dividis ĉiujn siajn datumojn; prefere, ili "anonymized" ĝin forigante informojn kiel nomo kaj adreso. Tamen, ili lasis aliajn informojn kiujn ili pensis povus esti utila por esploristoj kiel demografia informo (poŝtkodo, naskiĝo dato, etneco kaj sekso) kaj medicinan informon (viziton datumoj, diagnozo, proceduro) (Figuro 6.4) (Ohm 2010) . Bedaŭrinde, tiu "anonymization" ne estis sufiĉa por protekti la datumojn.

Figuro 6.4: Anonymization estas la procezo de forigado evidente identiganta informon. Ekzemple, al la liberigi la medicinan asekuron registroj de ŝtatdungitoj la Masaĉuseco Grupo Asekuro Komisiono (GIC) forigis nomon kaj adreson de la dosierojn. Mi uzas citiloj ĉirkaŭ la vorto anonymization ĉar la procezo provizas la apero de anonimeco, sed ne reala anonimeco.

Figuro 6.4: "Anonymization" estas la procezo de forigado evidente identiganta informon. Ekzemple, al la liberigi la medicinan asekuron registroj de ŝtatdungitoj la Masaĉuseco Grupo Asekuro Komisiono (GIC) forigis nomon kaj adreson de la dosierojn. Mi uzas citiloj ĉirkaŭ la vorto "anonymization" ĉar la procezo provizas la apero de anonimeco, sed ne reala anonimeco.

Ilustri la mankoj de la GIC "anonymization", Latanya Sweeney-tiam gradstudanto ĉe MIT-pagis $ 20 por akiri la registroj de balotado de la urbo de Cambridge, la hejmurbo de Masakusets guberniestro William Weld. Tiuj voĉdonantaj registroj inkludas informojn kiel nomo, adreso, poŝtkodo, naskiĝo dato, kaj sekso. La fakto ke la medicinaj datumoj dosiero kaj la balotanto dosiero dividita kampojn-poŝtkodo, naskiĝo dato, kaj sekso-signifis ke Sweeney povus ligi ilin. Sweeney sciis ke Weld naskiĝtago estis Julio 31, 1945, kaj la registroj de balotado inkludis nur ses personoj en Kembriĝo kun tiu naskiĝtago. Plui, el tiuj ses personoj, nur tri estis viraj. Kaj, de tiuj tri viroj, nur unu dividitaj Weld la poŝtkodo. Tiel, la balotado datumoj montris ke iu en la medicinaj datumoj kun Weld la kombino de naskiĝo dato, genro, kaj Stemma.png estis William Weld. En esenco, tiuj tri pecoj de informo provizis unikan fingropremo al li en la datumoj. Uzante tiu fakto, Sweeney povis lokalizi Weld la medicinaj registroj, kaj informi lin de ŝia atingo, ŝi sendis al li kopion de liaj diskoj (Ohm 2010) .

Figuro 6.5: Re- idenification de anonymized datumo. Latanya Sweeney kombinis la anonymized sano rekordojn kun registroj de balotado por trovi la medicinaj registroj de Guberniestro William Weld (Sweeney 2002).

Figuro 6.5: Re- idenification de "anonymized" datumo. Latanya Sweeney kombinis la "anonymized" sano rekordojn kun registroj de balotado por trovi la medicinaj registroj de Guberniestro William Weld (Sweeney 2002) .

Sweeney laboro ilustras la baza strukturo de de-anonymization atakoj -Por adopti termino de la komputika sekureco komunumo. En tiuj atakoj, du aroj de datumoj, nek de kiu per sin malkaŝas sentivan informon, estas ligitaj, kaj tra tiu ligo, sentemaj informoj estas elmontritaj. Kelkmaniere tiu procezo estas simila al la maniero ke bakanta sodo kaj vinagro, du substancoj kiuj estas aparte sekura, povas esti kombinitaj por produkti aĉan rezulton.

Responde al Sweeney laboro kaj aliaj rilataj verkoj, esploristoj nun ĝenerale forigi multe pli informo-ĉiuj tiel nomata "Persone Identiganta Informo" (PII) (Narayanan and Shmatikov 2010) -dum la monatoj la procezo de "anonymization." Plue, multaj esploristoj nun rimarkas ke iuj datumoj kiel medicinaj registroj, financaj rekordoj, respondoj al inspekti demandoj pri kontraŭleĝa konduto-estas probable tro sentema liberigi eĉ post "anonymization." Tamen, pli lastatempaj ekzemploj kiujn mi priskribu sube indiki ke sociaj esploristoj devas ŝanĝi sian pensadon. Kiel unua paŝo, ĝi estas saĝa por supozi ke ĉiuj datumoj estas potenciale identigebla kaj ĉiuj datumoj estas potenciale sentema. Alivorte, anstataŭ pensi ke informa risko koncernas malgrandan subaro de projektoj, ni devas supozi ke ĝi aplikas-certagrade-al ĉiuj projektoj.

Ambaŭ aspektoj de tiu re-orientiĝo estas ilustrita de la Netflix Premio. Kiel priskribite en Ĉapitro 5, Netflix ĵetis 100 milionoj filmo rangigoj provizita de preskaŭ 500,000 membrojn, kaj havis malferman alvokon kie homoj de refoje la mondo prezentis algoritmojn kiuj povus plibonigi Netflix la kapablo rekomendi filmojn. Antaŭ liberigi la datumoj, Netflix forigis ajnan evidente persone-identiganta informon, Kiel nomoj. Netflix ankaŭ iris kroman paŝon kaj enkondukis malpezajn perturboj en iuj de la registroj (ekz, ŝanĝante iuj rangigoj de 4 steloj al 3 steloj). Netflix baldaŭ malkovris, aliflanke, ke malgraŭ liaj penadoj, la datumoj estis neniel anonimaj.

Nur du semajnojn post la datumo estis liberigita Narayanan and Shmatikov (2008) montris ke ĝi eblas lerni pri specifa popola filmo preferoj. La lertaĵo por ilia re-identigon atako estis simila al Sweeney la: kunfandi kune du informo fontoj, kun potenciale sentema informoj kaj ne evidente identiganta informon kaj kiu enhavas la identecon de personoj. Ĉiu de ĉi tiuj datumoj fontoj povas esti individue sekura, sed kiam ili kombinas la kunfandita dataset povas krei informa risko. En la kazo de la Netflix datumoj, jen kiel ĝi povis okazi. Imagu ke mi elektas por dividi miajn pensojn pri ago kaj komedio filmoj kun miaj kunlaborantoj, sed ke mi preferas ne dividos mian opinion pri religiaj kaj politikaj filmoj. Miaj kunlaborantoj povus uzi la informojn kiujn mi dividis kun ili trovi mian rekordojn en la Netflix datumoj; la informo ke mi dividas povus esti unika fingropremo ĝuste kiel William Weld naskiĝo dato, poŝtkodo, kaj sekson. Tiam, se ili trovos mian solan fingropremo en la datumoj, ili povis lerni miajn taksojn pri ĉiuj filmoj, inkluzive de filmoj kie mi elektos ne partopreni. Krom tiu speco de laŭcela atako temigis ununuran personon, Narayanan and Shmatikov (2008) ankaŭ montris ke oni povis fari larĝan atakon -Unu engaĝante multaj personoj-kunfandante la Netflix datumojn personajn kaj filmo rangigon datumoj ke iu personoj elektis sendi en Interreto Movie Database (IMDb). Ajna informo kiu estas unika fingropremo al specifa persono-ilian aron de filmo rangigoj-povas esti uzata por identigi ilin.

Kvankam la Netflix datumoj povas esti re-identigita en aŭ laŭcela aŭ larĝa atako, ĝi ankoraŭ povus aperi esti malalta risko. Post ĉiu, filmo rangigoj ne aspektas tre sentema. Dum tiu povus esti vera en ĝenerala, por iuj de la 500.000 homoj en la datumaro, filmo rangigoj povus esti tre sentema. Fakte, en respondo al la de-anonymization a enfermitaj lesba virino aliĝis al klaso-agado kostumo kontraŭ Netflix. Jen kiel la problemo estis esprimita en sia proceso (Singel 2009) :

"[M] ovie kaj rangigo datumoj entenas informojn de pli alte personaj kaj sentema naturo [sic]. La membro filmo datumoj elmontras Netflix membro persona intereso kaj / aŭ luktoj kun diversaj tre personaj temoj, inkluzive de sekseco, mensa malsano, reakiro de alkoholismo, kaj ĉikanado de incesto, fizika misuzo, hejma perforto, adulto, kaj seksperforto. "

La de-anonymization de la Netflix Premio datumoj ilustras ambaŭ ke ĉiuj datumoj estas potenciale identigebla kaj ke ĉiuj datumoj estas potenciale sentema. Ĉe tiu punkto, vi eble pensas ke tio validas nur por datumoj kiu kiuj pretendas esti ĉirkaŭ homoj. Surprize, ke ne estas la kazo. En respondo al Freedom of Information Law peto, la New York City Government liberigita notoj pri ĉiu taksio promenado en Novjorko en 2013, inkluzive de la kamioneto kaj guto for tempoj, lokoj, kaj vojagxo kvantoj (revokon de Ĉapitro 2 ke Farber (2015) uzis tiun datumon testi gravaj teorioj en Labormerkato). Kvankam ĉi tiu datumo pri taksio vojaĝoj povus ŝajni benigna ĉar ne ŝajnas esti informoj pri homoj, Anthony Tockar rimarkis ke tiu taksio dataset fakte enhavis multan potenciale sentema informoj pri homoj. Ilustri, li aspektis tute vojaĝoj ekde La Hustler Klubo-granda strio klubo en Novjorko-inter noktomezo kaj 6am kaj tiam trovis ilian falon-off lokoj. Ĉi rivelis -in esenco-listo de adresoj de iuj personoj kiuj vizitadas La Hustler Klubo (Tockar 2014) . Estas malfacile imagi, ke la urbestraro havis ĉi en menso kiam ĝi liberigis la datumojn. Fakte, ĉi tiu sama tekniko povus esti uzita por trovi la hejmon adresoj de homoj kiuj vizitas ajna loko en la urbo-medicina kliniko, registara konstruaĵo, aŭ religia institucio.

Tiuj du kazoj-la Netflix Premio kaj la Novjorko taksio datumoj montras ke relative sperta homo ne ĝuste taksi la informa risko en la datumoj kiuj eldonis, kaj tiuj kazoj estas neniel unika (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Plui, en multaj de ĉi tiuj kazoj, la problema datumo estas ankoraŭ libere haveblaj rete, indikante la malfacilaĵo de iam malfarante datuma elkarcerigo. Kolektive tiuj ekzemploj-krom esplorado en komputiko pri privateco-kondukas al grava konkludo. Esploristoj devus supozi ke ĉiuj datumoj estas potenciale identigebla kaj ĉiuj datumoj estas potenciale sentema.

Bedaŭrinde, Estas neniu simpla solvo al la fakto ke ĉiuj datumoj estas potenciale identigebla kaj ĉiuj datumoj estas potenciale sentema. Tamen, unu maniero por redukti informon risko dum vi laboras kun datumoj estas krei kaj sekvi datumoj protekto plano. Tiu plano malpliigas la ŝancon ke viaj datumoj likas kaj malpliigos la damaĝon se liko iel okazas. La specifaj detaloj de datumoj protekto planoj, kiel ekzemple kiu formo de ĉifrado uzi, ŝanĝiĝos dum tempo, sed la brita Services helpfully organizas la elementojn de datumoj protekto plano en 5 kategorioj kiujn ili nomas la 5 Safes: sekuraj projektoj, sekura personoj , sekura agordojn, sekuraj datumoj kaj sekura eligoj (Tabelo 6.2) (Desai, Ritchie, and Welpton 2016) . Neniu el la kvin Safes individue provizas perfektan protekton. Sed, kune ili formas potencan aron de faktoroj kiuj povas malpliigi informa risko.

Tabelo 6.2: La 5 Safes estas principoj por dizajnado kaj ekzekutante datumoj protekto plano (Desai, Ritchie, and Welpton 2016) .
sekura ago
sekuraj projektoj Limigas projektoj kun datumoj kiuj estas etikaj
sekura personoj aliro estas limigita al personoj kiuj povas esti fidita kun datumoj (ekz, personoj spertis etika formado)
sekuraj datumoj datumoj de-identigitaj kaj agregita en la mezuro ebla
sekura agordojn datumoj estas stokitaj en komputiloj kun taŭga fizika (ekz, ŝlosita ĉambro) kaj softvaro (ekz pasvorton protekto, ĉifrita) protektoj
sekura produktado esploro eligo estas reviziita malhelpi hazarde privateco breĉojn

Krom protekti viajn datumojn dum vi uzas ĝin, unu paŝo en la esploro procezo kie informa risko estas precipe elstara estas datumo dividanta kun aliaj esploristoj. Datumo dividanta inter sciencistoj estas kerna valoro de la scienca klopodo, kaj ĝi grande instaladoj la progreso de scio. Jen kiel la UK Burĝĉambro priskribis la gravecon de datumoj sharing:

"Aliro al datumoj estas fundamenta se esploristoj estas reprodukti, kontroli kaj konstruu sur rezultoj kiuj estas raportitaj en la literaturo. La supozo devas esti ke, krom se ekzistas forta kialo alie, datumoj devus esti plene malkaŝitaj kaj farita publike havebla. En linio kun tiu principo, kie eblas, datumoj asociita kun ĉiu publike financita esplorado povas esti farita vaste kaj libere disponebla. " (Molloy 2011)

Tamen, de dividi viajn datumojn kun alia esploristo, vi povas pliigi informa risko al via partoprenantoj. Tiel, ĝi povas simili ke esploristoj kiuj deziras dividi liajn datumojn-aŭ estas postulataj por dividi liajn datumojn-alfrontas fundamenta tensio. Unuflanke ili havas etikan devon dividi ilian datumon kun aliaj sciencistoj, precipe se la originala esploro estas publike financita. Tamen, samtempe, esploristoj havas etikan devon minimumigi, laŭeble, la informo risko al siaj partoprenantoj.

Feliĉe, ĉi tiu dilemo ne estas tiel severa kiel ĝi aperas. Estas grave pensi datumoj dividante kune kontinuumo de datumoj sharing liberigi kaj forgesas, kie datumoj estas "anonymized" kaj poŝtis ke iu aliri (Figuro 6.6). Ambaŭ ekstremaj pozicioj havas riskojn kaj profitojn. Tio estas, ĝi ne estas aŭtomate la plej etika afero ne dividas viajn datumojn; tia aliro forigas multajn eblajn avantaĝojn al socio. Revenante al Gusto, Kravatoj kaj Tempo, ekzemplo diskutis pli frue en la ĉapitro, argumentoj kontraŭ datumoj elkarcerigo ke enfokusigi nur sur eblaj damaĝoj kaj kiu ignoras eblaj profitoj estas tro unuflanka; Mi priskribus la problemoj kun tiu unuflanka, tro protekta alproksimiĝo en pli detalo en suba kiam Mi proponas konsilojn pri faranta decidojn en la vizaĝo de necerteco (Sekcio 6.6.4).

Figuro 6.6: Datumoj elkarcerigo strategioj povas fali kune kontinuumo. Kie vi devus esti laŭ tiu kontinuaĵo dependas de la specifaj detaloj de via datumo. Tiukaze, tria revizio povas helpi vin decidi la taŭgan ekvilibron de risko kaj profito en via kazo.

Figuro 6.6: Datumoj elkarcerigo strategioj povas fali kune kontinuumo. Kie vi devus esti laŭ tiu kontinuaĵo dependas de la specifaj detaloj de via datumo. Tiukaze, tria revizio povas helpi vin decidi la taŭgan ekvilibron de risko kaj profito en via kazo.

Plui, en inter tiuj du ekstremaj kazoj estas kion mi nomas ĝardeno amurallado alproksimiĝo kie datumoj estas dividita kun homoj kiuj renkontas certajn kriteriojn kaj kiu konsentas al esti ligita de certaj reguloj (ekz komision el IRB kaj datumoj protekto planoj) . Ĉi amurallado ĝardeno alproksimiĝo provizas multaj de la profitoj de ĵeto kaj forgesi kun malpli risko. Kompreneble, ĝardeno amurallado alproksimiĝo kreas multaj demandoj-kiu devus havi aliron, en kiaj kondiĉoj, por kiom longa, kiu devus pagi por subteni kaj patroli la fortikigitaj ĝardeno ktp-sed tiuj ne estas nesuperebla. Fakte, jam laboras amurallado ĝardenoj en loko kiu esploristoj povas uzi nun, kiel la datumoj arĥivo de la Inter-universitata konsorcio por Politika kaj Social Research ĉe la Universitato de Miĉigano.

Do, kie devus la datumojn de via studo sur la kontinuaĵo de ne dividi, fortikigitajn ĝardeno, kaj liberigas kaj forgesi? Ĝi dependas de la detaloj de via datumo; esploristoj devas balanci Respekto por Personoj, bonfaro, Justeco, kaj Respekto por Juro kaj Publika Intereso. Kiam taksanta taŭga ekvilibro por aliaj decidoj esploristoj serĉi la konsilon kaj aprobon de IRBS kaj datumoj liberigo povas esti nur alia parto de tiu procezo. Alivorte, kvankam kelkaj personoj opinias de datuma elkarcerigo kiel senespera etikaj marĉon, ni jam havas sistemojn en loko helpi esploristoj balanci tiujn speco de etikaj dilemoj.

Unu fina maniero pensi datumoj sharing estas analoge. Ĉiujare aŭtoj estas respondeca miloj da mortoj, sed ni ne provas malpermesi alkonduko. Fakte, tia alvoko malpermesi kondukado estus absurda ĉar kondukado ebligas multajn mirindaĵojn. Prefere, socio metas restriktojn sur kiu povas veturi (ekz, devas esti certa aĝo, devas preterpasi certaj testoj) kaj kiel ili povas veturi (ekz, sub la limo de rapido). Socio ankaŭ havas personoj taskigita per apliki ĉi tiujn regulojn (ekzemple polica), kaj ni punas homojn kiuj estas kaptitaj seksperforti ilin. Tiu sama speco de balancitaj pensado ke socio koncernas reguligante kondukado povas ankaŭ esti aplikita al datumoj interŝanĝo. Te, prefere ol fari absolutista argumentoj por aŭ kontraŭ datumoj sharing, mi kredas ke la plej grandaj profitoj venos de elŝeligi kiel ni povas dividi pli datumoj pli sekure.

Konkludi, informa risko pliigis drame, kaj ĝi estas tre malfacile antaŭdiri kaj cuantificar. Sekve, ĝi estas bona supozi ke ĉiuj datumoj estas potenciale identigebla kaj potenciale sentema. Malpliigi informa risko dum faranta esploron, esploristoj povas krei kaj sekvi datumoj protekto plano. Plui, informa risko ne malhelpas investigadores de dividanta datumon kun aliaj sciencistoj.