6.6.2 Konprann epi jere enfòmasyon risk

Risk enfòmasyonèl se risk ki pi komen nan rechèch sosyal; li te ogmante dramatikman; epi li se risk ki pi difisil yo konprann.

Dezyèm etik defi pou rechèch dijital laj la se risk enfòmasyon , potansyèl pou mal nan divilgasyon enfòmasyon (National Research Council 2014) . Nòmal enpotan nan divilgasyon enfòmasyon pèsonèl yo ka ekonomik (egzanp, pèdi yon djòb), sosyal (tankou anbarasman), sikolojik (egzanp, depresyon), oswa menm kriminèl (egzanp, arestasyon pou konpòtman ilegal). Malerezman, laj dijital la ogmante risk enfòmasyonèl dramatikman - gen sèlman anpil enfòmasyon sou konpòtman nou an. Ak risk enfòmasyon ki pwouve trè difisil pou konprann epi jere konpare ak risk ki te enkyetid nan analòg ki gen laj rechèch sosyal, tankou risk fizik.

Youn nan fason ke chèchè sosyal diminye enfòmasyon risk se "anonimizasyon" nan done. "Anonimizasyon" se pwosesis la nan retire evidan Idantifyan pèsonèl tankou non, adrès, ak nimewo telefòn soti nan done yo. Sepandan, apwòch sa a se anpil mwens efikas pase anpil moun reyalize, epi li se, an reyalite, fon epi fondamantalman limite. Pou rezon sa, chak fwa mwen dekri "anonimizasyon," Mwen pral sèvi ak giymè fè ou sonje ke pwosesis sa a kreye aparans nan anonim men se pa vre anonim.

Yon egzanp klè nan echèk nan "anonimizasyon" soti nan fen ane 1990 yo nan Massachusetts (Sweeney 2002) . Komisyon an Asirans Gwoup (GIC) se te yon ajans gouvènman responsab pou achte asirans sante pou tout anplwaye leta yo. Atravè travay sa a, GIC a kolekte dosye sante detaye sou dè milye de anplwaye leta yo. Nan yon efò pou fè rechèch sou rechèch, GIC te deside lage dosye sa yo bay chèchè yo. Sepandan, yo pa t pataje tout done yo; Olye de sa, yo "anonimize" done sa yo pa retire enfòmasyon tankou non ak adrès. Sepandan, yo te kite lòt enfòmasyon ke yo te panse ka itil pou chèchè tankou enfòmasyon demografik (postal postal, dat nesans, etnisite, ak sèks) ak enfòmasyon medikal (vizit done, dyagnostik, pwosedi) (figi 6.4) (Ohm 2010) . Malerezman, "anonimizasyon" sa a pa t ase pou pwoteje done yo.

Figi 6.4: Anonimizasyon se pwosesis pou retire evidamman idantifye enfòmasyon. Pou egzanp, lè yo bay dosye asirans medikal nan anplwaye leta, Massachusetts Group Asirans Komisyon an (GIC) retire non ak adrès nan dosye yo. Mwen itilize mak yo sitasyon nan alimantasyon an mo paske pwosesis la bay aparans anonimite, men se pa anonim aktyèl la.

Figi 6.4: "Anonimizasyon" se pwosesis pou retire evidamman idantifye enfòmasyon. Pou egzanp, lè yo bay dosye asirans medikal nan anplwaye leta, Massachusetts Group Asirans Komisyon an (GIC) retire non ak adrès nan dosye yo. Mwen itilize mak yo sitasyon nan mo "anonimizasyon" paske pwosesis la bay aparans anonimite, men se pa reyèl anonimite.

Pou ilistre enpèfeksyon GIC "anonimizasyon an", Latanya Sweeney - Lè sa a, yon elèv diplome nan MIT peye $ 20 pou jwenn dosye vòt yo nan vil Cambridge, vil la nan Massachusetts gouvènè William Weld. Dosye vòt sa yo enkli enfòmasyon tankou non, adrès, kòd postal, dat nesans, ak sèks. Lefèt ke dosye medikal la dosye ak dosye elektè a pataje jaden-postal postal, dat nesans, ak sèks-vle di ke Sweeney te kapab konekte yo. Sweeney te konnen ke anivèsè nesans Weld la te 31 jiyè 1945, epi dosye yo te vote sèlman sis moun nan Cambridge ak anivèsè nesans sa a. Pli lwen, nan sa yo sis moun, se sèlman twa yo te gason. Epi, nan twa mesye sa yo, se sèlman yon sèl Kòd postal pòsyon Weld la. Se konsa, done yo pou vote te montre ke nenpòt moun ki nan done medikal yo ak konbinezon Weld nan dat nesans, sèks, ak kòd postal te William Weld. Nan sans, twa moso enfòmasyon sa yo bay yon anprent inik pou l 'nan done yo. Sèvi ak sa a, Sweeney te kapab jwenn dosye medikal Weld yo, epi, enfòme l 'nan feat li, li voye l' yon kopi dosye li (Ohm 2010) .

Figi 6.5: Re-idantifikasyon done anonim. Latanya Sweeney konbine dosye sante anonim yo ak dosye vòt yo nan lòd yo jwenn dosye medikal yo nan Gouvènè William Weld Adapte soti nan Sweeney (2002), figi 1.

Figi 6.5: Re-idantifikasyon nan done "anonimize". Latanya Sweeney konbine dosye sante "anonimize" avèk dosye vòt yo pou jwenn dosye medikal Gouvènè William Weld ki adapte nan Sweeney (2002) , figi 1.

Travay Sweeney a montre estrikti debaz yo nan atak re-idantifikasyon - pou adopte yon tèm nan kominote sekirite kominote a. Nan atak sa yo, de done kouche, ni nan yo ki pou kont li revele enfòmasyon sansib, yo lye, ak nan lyen sa a, enfòmasyon sansib ekspoze.

An repons a travay Sweeney, ak lòt travay ki asosye, chèchè yo kounye a jeneralman retire pi plis enfòmasyon-tout sa yo rele "pèsonèlman idantifye enfòmasyon" (PII) (Narayanan and Shmatikov 2010) - pandan pwosesis la nan "anonimizasyon." Pli lwen, anpil chèchè kounye a reyalize ke sèten done - tankou dosye medikal, dosye finansye, repons a kesyon sondaj sou konpòtman ilegal-yo se pwobableman twò sansib lage menm apre yo fin "anonimizasyon." Sepandan, egzanp yo ke mwen sou yo bay sijere ke chèchè sosyal bezwen chanje panse yo. Kòm yon premye etap, li gen bon konprann yo asime ke tout done yo kapab idantifye ak tout done yo ki kapab sansib. Nan lòt mo, olye ke panse ke risk enfòmasyonèl aplike a yon ti seksyon nan pwojè, nou ta dwe asime ke li aplike - nan kèk degre-a tout pwojè.

Tou de aspè nan reoryantasyon sa a yo ilistre pa Prize la Netflix. Jan sa dekri nan chapit 5, Netflix te pibliye 100 milyon dola fim evalyasyon yo bay nan prèske 500,000 manm yo, e li te gen yon apèl ouvè kote moun ki soti nan tout mond lan soumèt algoritm ki ta ka amelyore kapasite Netflix a rekòmande sinema. Anvan libere done yo, Netflix retire nenpòt evidan pèsonèlman ki idantifye enfòmasyon, tankou non. Yo menm tou yo te ale yon etap siplemantè ak entwodwi perturbation ti tay nan kèk nan dosye yo (egzanp, chanje kèk evalyasyon soti nan 4 zetwal a 3 zetwal). Yo byento dekouvri, sepandan, malgre efò yo, done yo te toujou pa vle di anonim.

Jis de semèn apre done yo te lage, Arvind Narayanan ak Vitaly Shmatikov (2008) te montre ke li te posib yo aprann sou preferans fim moun espesifik la. Trick nan atak re-idantifikasyon yo te menm jan ak Sweeney a: rantre ansanm de sous enfòmasyon, yon sèl ki gen enfòmasyon ki sansib epi pa gen okenn evidamman idantifye enfòmasyon ak youn ki gen idantite moun. Chak nan sous enfòmasyon sa yo ka endividyèlman san danje, men lè yo konbine, dataset fusion lan ka kreye risk enfòmasyon. Nan ka a nan done yo Netflix, isit la nan ki jan li te ka rive. Imajine ke mwen chwazi yo pataje panse mwen sou aksyon ak sinema komedyen ak ko-travayè m 'yo, men mwen pito pa pataje opinyon mwen sou sinema relijye ak politik. Ko-travayè mwen yo te kapab itilize enfòmasyon ke mwen te pataje avèk yo pou jwenn dosye mwen nan done Netflix yo; enfòmasyon mwen pataje yo ta ka yon anprent inik jis tankou dat nesans William Weld, kòd postal, ak sèks. Lè sa a, si yo te jwenn anprent inik mwen an nan done yo, yo te ka aprann evalyasyon mwen sou tout sinema, ki gen ladan sinema ke mwen chwazi pa yo pataje. Anplis de sa nan kalite atak vize konsantre sou yon sèl moun, Narayanan ak Shmatikov te montre tou ke li te posib fè yon atak gwo -on ki enplike anpil moun-pa fusion done yo Netflix ak done pèsonèl ak fim Rating ke gen kèk moun ki te chwazi yo afiche sou baz done a fim entènèt (IMDb). Byen senpleman, nenpòt enfòmasyon ki se yon anprent inik nan yon moun espesifik-menm seri yo nan evalyasyon fim - ka itilize yo idantifye yo.

Menm si done Netflix yo ka re-idantifye nan swa yon atak vize oswa gwo, li toujou ka parèt yo dwe risk ki ba. Apre yo tout, evalyasyon fim pa sanble trè sansib. Pandan ke sa ta ka vre an jeneral, pou kèk nan moun yo 500,000 nan dataset, evalyasyon fim ka byen sansib. An reyalite, an repons a re-idantifikasyon an, yon fanm madanm madanm marye ansanm yon pwosè klas-aksyon kont Netflix. Men ki jan yo te eksprime pwoblèm nan nan pwosè yo (Singel 2009) :

"[M] ovie ak done Rating gen enfòmasyon sou yon ... nati trè pèsonèl ak sansib. Fim fim manm la ekspoze yon enterè pèsonèl Netflix ak / oswa lit ak divès pwoblèm trè pèsonèl, tankou seksyalite, maladi mantal, rekiperasyon nan alkolis, ak viktimizasyon nan ensès, abi fizik, vyolans domestik, adiltè ak vyòl. "

Re-idantifikasyon nan done Netflix Prize la montre toulede ke tout done yo kapab idantifye ak tout done yo ka potansyèlman sansib. Nan pwen sa a, ou ta ka panse ke sa a sèlman aplike nan done ki pretann yo dwe sou moun. Surprenante, se sa ki pa ka a. An repons a yon demann pou lwa libète enfòmasyon, Gouvènman Vil New York te pibliye dosye sou chak woulib taksi nan New York nan 2013, ki gen ladan moman pickup ak depoze, lokasyon, ak pri tikè (sonje nan chapit 2 ki Farber (2015) itilize done ki similè yo pou teste teyori enpòtan nan ekonomi travay). Done sa yo sou vwayaj taksi ta ka sanble benign paske yo pa sanble yo bay enfòmasyon sou moun, men Anthony Tockar reyalize ke sa a dataset taksi aktyèlman genyen anpil enfòmasyon ki kapab sansib sou moun. Pou ilistre, li te gade tout vwayaj yo kòmanse nan Club Hustler la - yon klib teren gwo nan New York - ant mitan lannwit ak 6 am ak Lè sa a, yo te jwenn kote gout-off yo. Rechèch sa a te revele-nan sans - yon lis adrès nan kèk moun ki fwistre klib la Hustler (Tockar 2014) . Li difisil imajine ke gouvènman vil la te gen sa a nan tèt ou lè li lage done yo. An reyalite, yo ka itilize teknik sa a pou jwenn adrès kay moun ki vizite nenpòt kote nan vil la - yon klinik medikal, yon bilding gouvènman, oswa yon enstitisyon relijye.

De ka sa yo nan Prize a Netflix ak done taksi Vil New York yo montre ke moun ki relativman kalifye ka echwe pou kòrèkteman estime risk enfòmasyon yo nan done yo ke yo lage - ak ka sa yo pa pa vle di inik (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Pli lwen, nan anpil ka sa yo, done yo pwoblèm yo toujou disponib sou entènèt gratis, ki endike difikilte pou yo tout tan rann yon done done. Kolektivman, egzanp sa yo-kòm byen ke rechèch nan syans òdinatè sou vi prive-mennen nan yon konklizyon enpòtan. Chèchè yo ta dwe asime ke tout done yo kapab idantifye ak tout done yo ki kapab sansib.

Malerezman, pa gen okenn solisyon senp nan reyalite yo ke tout done yo kapab idantifye ak tout done yo se potansyèlman sansib. Sepandan, yon fason pou diminye risk enfòmasyonèl pandan w ap travay ak done se kreye ak swiv yon plan pwoteksyon done . Plan sa a ap diminye chans ke done ou ap koule epi li pral diminye mal si yon koule fè yon jan kanmenm rive. Espesifik yo nan plan pwoteksyon done, tankou ki fòm nan chifreman yo sèvi ak, ap chanje sou tan, men UK Done Sèvis yo ede òganize eleman yo nan yon plan pwoteksyon done nan senk kategori ke yo rele senk safes yo : pwojè ki an sekirite, moun ki an sekirite , anviwònman ki an sekirite, done ki an sekirite, ak rezilta san danje (tab 6.2) (Desai, Ritchie, and Welpton 2016) . Okenn nan senk safi yo endividyèlman bay pwoteksyon pafè. Men, ansanm yo fòme yon seri pwisan nan faktè ki ka diminye enfomasyonèl risk.

Tablo 6.2: "Senk Safes" yo se prensip pou Designing ak egzekite yon Plan Pwoteksyon Done (Desai, Ritchie, and Welpton 2016)
Safe Aksyon
Pwojè ki an sekirite Limite pwojè ak done bay moun ki etik
Moun ki an sekirite Aksè a limite ak moun ki ka fè konfyans ak done (egzanp, moun ki te sibi fòmasyon etik)
Done Safe Done yo de-idantifye ak aggregated nan limit ki posib
Anviwònman ki an sekirite Done yo estoke nan òdinatè ak ki apwopriye fizik (egzanp, chanm fèmen) ak lojisyèl (egzanp, pwoteksyon modpas, chiffres) pwoteksyon
Pwodiksyon san danje Pwodiksyon Rechèch revize pou anpeche vyolasyon privacy aksidan

Anplis de sa nan pwoteje done ou pandan w ap itilize yo, yon sèl etap nan pwosesis rechèch la kote risk pou enfòmasyon se patikilyèman enpòtan anpil se done pataje ak lòt chèchè yo. Done pataje nan mitan syantis se yon valè debaz nan syantifik syantifik la, epi li anpil fasilite avansman nan konesans. Men ki jan House la UK nan Commons dekri enpòtans ki genyen nan pataje done (Molloy 2011) :

"Aksè nan done se fondamantal si chèchè yo dwe repwodui, verifye ak bati sou rezilta yo rapòte nan literati a. Sipozisyon an dwe sa, sòf si gen yon gwo rezon otreman, done yo ta dwe konplètman divilge yo e te fè piblikman ki disponib. "

Men, pa pataje done ou a ak yon lòt chèchè, ou ka ogmante risk enfòmasyon pou patisipan ou yo. Kidonk, li ka sanble ke pataje done kreye yon tansyon fondamantal ant obligasyon pou pataje done ak lòt syantis yo ak obligasyon pou minimize risk enfòmasyon sou patisipan yo. Erezman, dilèm sa a pa tankou grav jan li parèt. Olye de sa, li pi bon panse sou done pataje kòm tonbe sou yon kontinyòm, ak chak pwen sou sa Kontinye bay yon melanj diferan nan benefis nan sosyete ak risk patisipan yo (figi 6.6).

Nan yon ekstrèm, ou ka pataje done ou a pa gen yon sèl, ki minimize risk patisipan yo, men tou minimize pwogrè nan sosyete a. Nan ekstrèm nan lòt, ou ka lage ak bliye , kote done yo "anonimize" epi afiche pou tout moun. Relatif pa bay done, lage ak bliye ofri tou de benefis ki pi wo nan sosyete a ak pi gwo risk patisipan yo. Nan ant de ka sa yo ekstrèm yo se yon seri de Ibrid, ki gen ladan sa mwen pral rele yon apwòch jaden ranpa . Anba apwòch sa a, done yo pataje ak moun ki satisfè kritè sèten ak ki dakò pou yo mare nan règleman sèten (egzanp, sipèvizyon soti nan yon IRB ak yon plan pwoteksyon done). Apwòch jaden an ranpa bay anpil nan benefis yo nan lage ak bliye ak mwens risk. Natirèlman, tankou yon apwòch kreye anpil kesyon-ki moun ki ta dwe gen aksè, nan ki kondisyon, ak pou konbyen tan, ki moun ki ta dwe peye kenbe ak polis jaden an ranpa, elatriye-men sa yo pa enfranchisabl. An reyalite, gen deja ap travay jaden miray nan plas ke chèchè ka itilize kounye a, tankou achiv done a nan Consortium a Inter-inivèsite pou Rechèch Politik ak Sosyal nan University of Michigan.

Figi 6.6: Done lage estrateji ka tonbe sou yon kontinyòm. Ki kote ou ta dwe sou sa a kontinyòm depann sou detay yo espesifik nan done ou, ak revizyon twazyèm-pati ka ede ou deside balans ki apwopriye a nan risk ak benefis nan ka ou. Fòm egzak la nan koub sa a depann de spesifik yo nan done yo ak objektif rechèch (Goroff 2015).

Figi 6.6: Done lage estrateji ka tonbe sou yon kontinyòm. Ki kote ou ta dwe sou sa a kontinyòm depann sou detay yo espesifik nan done ou, ak revizyon twazyèm-pati ka ede ou deside balans ki apwopriye a nan risk ak benefis nan ka ou. Fòm egzak la nan koub sa a depann de spesifik yo nan done yo ak objektif rechèch (Goroff 2015) .

Se konsa, ki kote yo ta dwe done ki soti nan etid ou a sou kontinyòm nan pa gen okenn pataje, jaden miray ranpa, ak lage epi bliye? Sa a depann sou detay yo nan done ou a: chèchè yo dwe balans Respè pou moun, Benefisans, Jistis, ak Respè pou Lwa ak enterè piblik la. Gade nan pèspektiv sa a, pataje done se pa yon enpotans diferan etik; li se jis youn nan aspè yo anpil nan rechèch nan ki chèchè yo gen jwenn yon balans apwopriye etik.

Gen kèk kritik yo jeneralman yo te opoze a pataje done paske, nan opinyon mwen, yo konsantre sou risk li yo - ki se san dout reyèl-yo epi yo inyore benefis li yo. Se konsa, yo nan lòd yo ankouraje konsantre sou tou de risk ak benefis, mwen ta renmen ofri yon analoji. Chak ane, machin yo responsab pou dè milye de lanmò, men nou pa eseye entèdi kondwi. An reyalite, yon apèl pou entèdi kondwi ta absid paske kondwi pèmèt anpil bèl bagay. Olye de sa, sosyete a mete restriksyon sou ki moun ki ka kondwi (egzanp, bezwen an gen yon laj sèten ak yo te pase sèten tès) ak ki jan yo ka kondwi (egzanp, anba vitès limit la). Sosyete tou te gen moun ki charger ak ranfòse règ sa yo (egzanp, lapolis), epi nou pini moun ki kenbe vyole yo. Sa a menm kalite panse balanse ke sosyete aplike nan reglemante kondwi kapab tou ap aplike nan pataje done. Sa se, olye ke fè agiman absoliman pou oswa kont done pataje, mwen panse ke nou pral fè pwogrè ki pi pa konsantre sou ki jan nou ka diminye risk yo ak ogmante benefis yo nan pataje done.

Pou konklizyon, gen risk enfòmasyon ogmante dramatikman, e li trè difisil pou predi ak quantifier. Se poutèt sa, li pi bon yo asime ke tout done yo ki kapab idantifye ak potansyèlman sansib. Pou diminye risk enfòmasyonèl pandan y ap fè rechèch, chèchè yo kapab kreye epi suiv yon plan pwoteksyon done. Pli lwen, risk enfòmasyonèl pa anpeche chèchè nan pataje done ak lòt syantis.