6.6.2 Deall a rheoli risg gwybodaeth

Risg gwybodaeth yw'r risg fwyaf cyffredin mewn ymchwil gymdeithasol; mae wedi cynyddu'n ddramatig; a dyma'r risg anoddaf i'w ddeall.

Yr ail her foesegol ar gyfer ymchwil i bobl ddigidol yw risg gwybodaeth , y posibilrwydd o niwed rhag datgelu gwybodaeth (National Research Council 2014) . Gallai niwed gwybodaeth o ddatgelu gwybodaeth bersonol fod yn economaidd (ee, colli swydd), cymdeithasol (ee embaras), seicolegol (ee iselder), neu hyd yn oed troseddol (ee, arestio am ymddygiad anghyfreithlon). Yn anffodus, mae'r oedran digidol yn cynyddu risg hysbysiadol yn ddramatig - mae cymaint o wybodaeth yn unig am ein hymddygiad. Ac mae risg gwybodaeth wedi profi'n anodd iawn i'w ddeall a'i reoli o'i gymharu â risgiau a oedd yn bryderon mewn ymchwil gymdeithasol oedran, megis risg gorfforol.

Un ffordd y mae ymchwilwyr cymdeithasol yn lleihau perygl gwybodaeth yw "anonymization" o ddata. "Anonymization" yw'r broses o gael gwared dynodwyr personol amlwg fel enw, cyfeiriad, a rhif ffôn gan y data. Fodd bynnag, mae'r dull hwn yn llawer llai effeithiol nag y mae llawer o bobl yn sylweddoli, ac y mae, mewn gwirionedd, yn ddwfn ac yn sylfaenol yn gyfyngedig. Am y rheswm hwnnw, pryd bynnag y byddaf yn disgrifio "anonymization," byddaf yn defnyddio dyfynodau eich atgoffa bod y broses hon yn creu ymddangosiad anhysbysrwydd ond ddim yn wir anhysbysrwydd.

Daw enghraifft fyw o fethiant "anhysbysu" o ddiwedd y 1990au ym Massachusetts (Sweeney 2002) . Asiantaeth y llywodraeth oedd y Comisiwn Yswiriant Grŵp (GIC) sy'n gyfrifol am brynu yswiriant iechyd ar gyfer holl weithwyr y wladwriaeth. Drwy'r gwaith hwn, casglodd y GIC gofnodion iechyd manwl am filoedd o weithwyr y wladwriaeth. Mewn ymdrech i ysgogi ymchwil, penderfynodd y GIC ryddhau'r cofnodion hyn i ymchwilwyr. Fodd bynnag, nid oeddent yn rhannu eu holl ddata; yn hytrach, maent yn "ddienw" y data hyn trwy gael gwared ar wybodaeth megis enwau a chyfeiriadau. Fodd bynnag, gadawsant wybodaeth arall y credent y gallent fod yn ddefnyddiol i ymchwilwyr megis gwybodaeth ddemograffig (cod zip, dyddiad geni, ethnigrwydd a rhyw) a gwybodaeth feddygol (ymweld â data, diagnosis, gweithdrefn) (ffigur 6.4) (Ohm 2010) . Yn anffodus, nid oedd y "anhysbysiad" hwn yn ddigonol i ddiogelu'r data.

Ffigwr 6.4: Anhysbys yw'r broses o ddileu gwybodaeth yn amlwg yn nodi gwybodaeth. Er enghraifft, wrth ryddhau cofnodion yswiriant meddygol gweithwyr y wladwriaeth, tynnodd Comisiwn Yswiriant Grŵp Massachusetts (GIC) enwau a chyfeiriadau o'r ffeiliau. Rwy'n defnyddio'r dyfynodau o amgylch y gair anhysbys oherwydd bod y broses yn darparu ymddangosiad anhysbysrwydd ond nid yw'n ddienw gwirioneddol.

Ffigur 6.4: "Anhysbysu" yw'r broses o ddileu'r wybodaeth sy'n amlwg yn nodi gwybodaeth. Er enghraifft, wrth ryddhau cofnodion yswiriant meddygol gweithwyr y wladwriaeth, tynnodd Comisiwn Yswiriant Grŵp Massachusetts (GIC) enwau a chyfeiriadau o'r ffeiliau. Rwy'n defnyddio'r dyfynodau am y gair "anhysbysu" oherwydd bod y broses yn darparu ymddangosiad anhysbysrwydd ond nid yw'n ddienw gwirioneddol.

Er mwyn darlunio diffygion "anhysbysu" y GIC, Latanya Sweeney, yna myfyriwr graddedig yn MIT a dalodd $ 20 i gaffael y cofnodion pleidleisio o ddinas Caergrawnt, cartref y llywodraethwr Massachusetts William Weld. Roedd y cofnodion pleidleisio hyn yn cynnwys gwybodaeth megis enw, cyfeiriad, cod zip, dyddiad geni, a rhyw. Roedd y ffaith bod y ffeil data meddygol a'r ffeil pleidleisiwr wedi rhannu meysydd-cod zip, dyddiad geni, a rhyw yn golygu y gallai Sweeney eu cysylltu. Roedd Sweeney yn gwybod mai pen-blwydd Weld oedd 31 Gorffennaf, 1945, ac roedd y cofnodion pleidleisio yn cynnwys dim ond chwech o bobl yng Nghaergrawnt gyda'r pen-blwydd hwnnw. Ymhellach, o'r chwech o bobl hynny, dim ond tri oedd gwrywaidd. Ac, o'r tri dyn hwnnw, dim ond un cod zip cyffredin Weld oedd. Felly, dangosodd y data pleidleisio mai William Weld oedd unrhyw un yn y data meddygol gyda chyfuniad Weld o ddyddiad geni, rhyw, a chod zip. Yn y bôn, rhoddodd y tri darn hwn o wybodaeth olion bysedd unigryw iddo yn y data. Gan ddefnyddio'r ffaith hon, roedd Sweeney yn gallu lleoli cofnodion meddygol Weld, ac i roi gwybod iddo am ei gamp, anfonodd hi gopi o'i gofnodion iddo (Ohm 2010) .

Ffigur 6.5: Ail-ddileu data heb enw. Cyfunodd Latanya Sweeney y cofnodion iechyd anhysbys gyda chofnodion pleidleisio er mwyn dod o hyd i gofnodion meddygol y Llywodraethwr William Weld Addaswyd o Sweeney (2002), ffigur 1.

Ffigwr 6.5: Ail-ddileu data "anhysbys". Cyfunodd Latanya Sweeney y cofnodion iechyd "anhysbys" â chofnodion pleidleisio er mwyn dod o hyd i gofnodion meddygol y Llywodraethwr William Weld Addaswyd o Sweeney (2002) , ffigur 1.

Mae gwaith Sweeney yn dangos strwythur sylfaenol ymosodiadau ail-adnabod - i fabwysiadu tymor gan y gymuned diogelwch cyfrifiaduron. Yn yr ymosodiadau hyn, mae dau set ddata, y naill na'r llall ohonynt yn datgelu gwybodaeth sensitif, wedi'u cysylltu, a thrwy'r cysylltiad hwn, mae gwybodaeth sensitif yn agored.

Mewn ymateb i waith Sweeney, a gwaith cysylltiedig arall, mae ymchwilwyr nawr yn dileu llawer mwy o wybodaeth - yr hyn a elwir yn "bersonol yn nodi gwybodaeth" (PII) (Narayanan and Shmatikov 2010) - gan fod y broses o "ddienw". Ymhellach, mae llawer o ymchwilwyr nawr yn sylweddoli bod rhai data - megis cofnodion meddygol, cofnodion ariannol, atebion i gwestiynau arolwg ynghylch ymddygiad anghyfreithlon - yn debyg yn rhy sensitif i'w rhyddhau hyd yn oed ar ôl "anhysbysu." Fodd bynnag, mae'r enghreifftiau yr wyf ar fin eu rhoi yn awgrymu bod angen ymchwilwyr cymdeithasol i newid eu meddwl. Fel cam cyntaf, mae'n ddoeth tybio y gellir adnabod pob data a bod yr holl ddata yn bosibl o bosibl . Mewn geiriau eraill, yn hytrach na meddwl bod risg hysbysu yn berthnasol i is-set bach o brosiectau, dylem gymryd yn ganiataol ei fod yn berthnasol i ryw raddau i bob prosiect.

Dangosir y ddwy agwedd ar yr ailgyfeirio hwn gan Wobr Netflix. Fel y disgrifiwyd ym mhennod 5, rhyddhaodd Netflix 100 miliwn o sgoriau ffilm a ddarparwyd gan bron i 500,000 o aelodau, ac roedd ganddynt alwad agored lle'r oedd pobl o bob cwr o'r byd yn cyflwyno algorithmau a allai wella gallu Netflix i argymell ffilmiau. Cyn rhyddhau'r data, tynnodd Netflix unrhyw wybodaeth amlwg sy'n nodi gwybodaeth bersonol, megis enwau. Aethon nhw hefyd gam ychwanegol a chyflwynodd ychydig o drafferthion mewn rhai o'r cofnodion (ee, newid rhai graddfeydd o 4 seren i 3 sêr). Yn fuan, darganfuwyd, er gwaethaf eu hymdrechion, nad oedd y data o hyd yn ddienw o hyd.

Dim ond pythefnos ar ôl i'r data gael ei ryddhau, dangosodd Arvind Narayanan a Vitaly Shmatikov (2008) ei bod yn bosib dysgu am ddewisiadau ffilm pobl benodol. Roedd yr ymosodiad at eu hymosodiad ail-adnabod yn debyg i Sweeney: uno dwy ffynhonnell wybodaeth at ei gilydd, un â gwybodaeth allai fod yn sensitif ac nid oedd yn amlwg yn nodi gwybodaeth ac un sy'n cynnwys hunaniaeth pobl. Gall pob un o'r ffynonellau data hyn fod yn ddiogel yn unigol, ond pan fyddant yn cael eu cyfuno, gall y set ddata cyfuno greu risg hysbys. Yn achos data Netflix, dyma sut y gallai ddigwydd. Dychmygwch fy mod yn dewis rhannu fy meddyliau am ffilmiau gweithredu a chomedi gyda'm cydweithwyr, ond mae'n well gennyf beidio â rhannu fy marn am ffilmiau crefyddol a gwleidyddol. Gallai fy nghydweithwyr ddefnyddio'r wybodaeth rydw i wedi'i rannu gyda nhw i ddod o hyd i'm cofnodion yn y data Netflix; gallai'r wybodaeth rwy'n ei rhannu fod yn olion bysedd unigryw yn union fel dyddiad geni William, cod zip, a rhyw. Yna, pe baent yn darganfod fy olion bysedd unigryw yn y data, gallent ddysgu fy statws am yr holl ffilmiau, gan gynnwys ffilmiau yr wyf yn dewis peidio â'u rhannu. Yn ychwanegol at y math hwn o ymosodiad wedi'i dargedu yn canolbwyntio ar un person, dangosodd Narayanan a Shmatikov hefyd ei bod hi'n bosibl ymosodiad eang - sy'n cynnwys llawer o bobl - trwy gyfuno data Netflix gyda data graddio personol a ffilm y mae rhai pobl wedi ei ddewis i'w bostio ar y Gronfa Ddata Ffilmiau Rhyngrwyd (IMDb). Yn syml, gellir defnyddio unrhyw wybodaeth sy'n olion bys unigryw i berson penodol - hyd yn oed eu set o gyfraddau ffilm - i'w nodi.

Er y gellir ail-adnabod y data Netflix mewn ymosodiad wedi'i dargedu neu'n eang, efallai ei bod yn ymddangos bod risg isel o hyd. Wedi'r cyfan, nid yw graddfeydd ffilm yn ymddangos yn sensitif iawn. Er y gallai hynny fod yn wir yn gyffredinol, ar gyfer rhai o'r 500,000 o bobl yn y set ddata, gallai graddfeydd ffilm fod yn eithaf sensitif. Mewn gwirionedd, mewn ymateb i'r ail-adnabod, ymunodd menyw lesbiaidd wedi'i ffonio â siwt gweithredu dosbarth yn erbyn Netflix. Dyma sut y mynegwyd y broblem yn eu chynghrair (Singel 2009) :

"Mae data [M] ovie a graddio yn cynnwys gwybodaeth am natur ... bersonol a sensitif iawn. Mae data ffilm yr aelod yn datgelu diddordeb personol a / neu frwydrau personol Netflix gyda materion personol iawn amrywiol, gan gynnwys rhywioldeb, salwch meddwl, adferiad o alcoholiaeth, ac erledigaeth rhag incest, camdriniaeth gorfforol, trais yn y cartref, godineb a threisio. "

Mae ail-adnabod data Gwobr Netflix yn dangos y gallai pob data gael ei adnabod ac y gallai pob data fod yn sensitif. Ar y pwynt hwn, efallai y credwch fod hyn ond yn berthnasol i ddata sy'n honni ei fod yn ymwneud â phobl. Yn syndod, nid yw hynny'n wir. Mewn ymateb i gais Cyfraith Rhyddid Gwybodaeth, rhyddhaodd Llywodraeth Dinas Efrog Newydd gofnodion o bob taith tacsi yn Efrog Newydd yn 2013, gan gynnwys yr adegau codi a gollwng, lleoliadau a phrisiau (dwyn i gof o bennod 2 bod Farber (2015) wedi defnyddio data tebyg i brofi damcaniaethau pwysig mewn economeg llafur). Gallai'r data hyn am deithiau tacsis ymddangos yn ddidwyll oherwydd nid ydynt yn ymddangos yn darparu gwybodaeth am bobl, ond dywedodd Anthony Tockar fod y set ddata tacsis hwn mewn gwirionedd yn cynnwys llawer o wybodaeth allai fod yn sensitif am bobl. I ddarlunio, edrychodd ar yr holl deithiau sy'n cychwyn yn Hustler Club - clwb stribedi mawr yn Efrog Newydd rhwng canol nos a 6 am ac yna canfuwyd eu lleoliadau gollwng. Datgelodd y chwiliad hwn-yn hanfod-restr o gyfeiriadau rhai pobl a fynychodd y Clwb Hustler (Tockar 2014) . Mae'n anodd dychmygu bod llywodraeth y ddinas wedi ystyried hyn pan ryddhaodd y data. Mewn gwirionedd, gellid defnyddio'r un dechneg hon i ddod o hyd i gyfeiriadau cartref pobl sy'n ymweld ag unrhyw le yn y ddinas-clinig feddygol, adeilad llywodraeth, neu sefydliad crefyddol.

Mae'r ddau achos hyn o Wobr Netflix a data tacsi Dinas Efrog Newydd yn dangos y gall pobl gymharol fedrus fethu â amcangyfrif yn gywir y risg hysbysu yn y data y maent yn ei rhyddhau-ac nid yw'r achosion hyn yn unigryw iawn (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Ymhellach, mewn llawer o achosion o'r fath, mae'r data problematig ar gael ar gael yn rhwydd ar-lein, gan nodi'r anhawster i ddadwneud datganiad data erioed. Gyda'i gilydd, mae'r enghreifftiau hyn - yn ogystal ag ymchwil mewn gwyddoniaeth gyfrifiadurol am breifatrwydd - yn arwain at gasgliad pwysig. Dylai ymchwilwyr gymryd yn ganiataol bod yr holl ddata yn bosibl eu hadnabod a bod yr holl ddata yn bosibl yn sensitif.

Yn anffodus, nid oes ateb syml i'r ffeithiau y gall pob data gael ei adnabod ac y gallai pob data fod yn sensitif. Fodd bynnag, un ffordd i leihau risg hysbysu tra'ch bod chi'n gweithio gyda data yw creu a dilyn cynllun diogelu data . Bydd y cynllun hwn yn lleihau'r siawns y bydd eich data yn gollwng ac yn lleihau'r niwed os bydd rhywfaint yn digwydd. Bydd nodweddion cynlluniau diogelu data, megis pa fath o amgryptio i'w defnyddio, yn newid dros amser, ond mae Gwasanaethau Data y Deyrnas Unedig yn ddefnyddiol yn trefnu elfennau cynllun diogelu data mewn pum categori y maent yn galw'r pum diogel : prosiectau diogel, pobl ddiogel , gosodiadau diogel, data diogel, ac allbynnau diogel (tabl 6.2) (Desai, Ritchie, and Welpton 2016) . Nid yw unrhyw un o'r pum diogel yn unigol yn darparu amddiffyniad perffaith. Ond gyda'i gilydd maent yn ffurfio set bwerus o ffactorau a all leihau'r risg o ran gwybodaeth.

Tabl 6.2: Mae'r "Pum Safle" yn Egwyddorion ar gyfer Dylunio a Gweithredu Cynllun Diogelu Data (Desai, Ritchie, and Welpton 2016)
Yn ddiogel Gweithredu
Prosiectau diogel Yn cyfyngu prosiectau gyda data i'r rhai sy'n foesegol
Pobl ddiogel Mae mynediad wedi'i gyfyngu i bobl y gellir ymddiried ynddynt â data (ee pobl sydd wedi cael hyfforddiant moesegol)
Data diogel Caiff y data eu nodi a'u cyfuno i'r graddau y bo modd
Lleoliadau diogel Mae data'n cael ei storio mewn cyfrifiaduron gyda diogelwch corfforol (ee, ystafell glo) a meddalwedd (ee amddiffyniad cyfrinair, wedi'i hamgryptio)
Allbwn diogel Adolygir allbwn ymchwil er mwyn atal achosion o dorri preifatrwydd damweiniol

Yn ychwanegol at warchod eich data tra'ch bod yn eu defnyddio, un cam yn y broses ymchwil lle mae risg hysbys yn arbennig o amlwg yw rhannu data gydag ymchwilwyr eraill. Mae rhannu data ymhlith gwyddonwyr yn werth craidd o'r ymdrech wyddonol, ac mae'n hwyluso hyrwyddo gwybodaeth yn fawr. Dyma sut mae Tŷ'r Cyffredin yn disgrifio pwysigrwydd rhannu data (Molloy 2011) :

"Mae mynediad i ddata yn hanfodol os yw ymchwilwyr i atgynhyrchu, gwirio ac adeiladu ar y canlyniadau a adroddir yn y llenyddiaeth. Mae'n rhaid i'r rhagdybiaeth fod, oni bai bod rheswm cryf fel arall, dylai datgelu'r data yn llawn ac ar gael i'r cyhoedd. "

Eto, trwy rannu'ch data gydag ymchwilydd arall, efallai y byddwch yn cynyddu risg hysbysu i'ch cyfranogwyr. Felly, mae'n ymddangos y bydd rhannu data'n creu tensiwn sylfaenol rhwng yr ymrwymiad i rannu data â gwyddonwyr eraill a'r rhwymedigaeth i leihau'r risg hysbysu i gyfranogwyr. Yn ffodus, nid yw'r cyfyng-gyngor hwn mor ddifrifol ag y mae'n ymddangos. Yn hytrach, mae'n well meddwl am rannu data fel disgyn ar hyd continwwm, gyda phob pwynt ar y continwwm hwnnw gan ddarparu cymysgedd gwahanol o fuddion i'r gymdeithas a risg i gyfranogwyr (ffigur 6.6).

Ar un eithaf, gallwch rannu'ch data heb unrhyw un, sy'n lleihau'r perygl i gyfranogwyr ond hefyd yn lleihau'r enillion i'r gymdeithas. Ar y eithaf arall, gallwch chi ryddhau ac anghofio , lle mae data'n "ddienw" ac yn cael ei bostio i bawb. O ran peidio â rhyddhau data, rhyddhau ac anghofio cynnig manteision uwch i'r gymdeithas a risg uwch i gyfranogwyr. Rhwng y ddau achos eithafol hyn mae amrywiaeth o hybridau, gan gynnwys yr hyn y byddaf yn galw ar ardd gardd â waliau . O dan yr ymagwedd hon, caiff data ei rhannu â phobl sy'n bodloni meini prawf penodol ac sy'n cytuno i gael eu rhwymo gan reolau penodol (ee, goruchwylio IRB a chynllun diogelu data). Mae'r dull gardd waliog yn darparu llawer o fanteision rhyddhau ac yn anghofio â llai o risg. Wrth gwrs, mae ymagwedd o'r fath yn creu llawer o gwestiynau - pwy ddylai gael mynediad, o dan ba amodau, ac am ba hyd, pwy ddylai dalu i gynnal a chadw'r ardd waliog, ac ati - ond nid yw'r rhain yn ansefydlog. Mewn gwirionedd, mae gerddi waliau sydd eisoes yn gweithio ar waith y gall ymchwilwyr eu defnyddio ar hyn o bryd, megis archif data y Consortiwm Rhyng-brifysgol ar gyfer Ymchwil Gwleidyddol a Chymdeithasol ym Mhrifysgol Michigan.

Ffigur 6.6: Gall strategaethau rhyddhau data ostwng ar hyd continwwm. Lle y dylech fod ar y continwwm hwn, mae'n dibynnu ar fanylion penodol eich data, a gall adolygiad trydydd parti eich helpu chi i benderfynu ar y cydbwysedd risg a'r budd priodol yn eich achos chi. Mae union siâp y gromlin hon yn dibynnu ar fanylion y nodau data a'r ymchwil (Goroff 2015).

Ffigur 6.6: Gall strategaethau rhyddhau data ostwng ar hyd continwwm. Lle y dylech fod ar y continwwm hwn, mae'n dibynnu ar fanylion penodol eich data, a gall adolygiad trydydd parti eich helpu chi i benderfynu ar y cydbwysedd risg a'r budd priodol yn eich achos chi. Mae union siâp y gromlin hon yn dibynnu ar fanylion y nodau data a'r ymchwil (Goroff 2015) .

Felly, ble ddylai'r data o'ch astudiaeth fod ar y continwwm heb rannu, gardd waliog, a'i ryddhau ac anghofio? Mae hyn yn dibynnu ar fanylion eich data: rhaid i ymchwilwyr gydbwyso Parch at Bobl, Budd-daliadau, Cyfiawnder, a Pharch ar gyfer y Gyfraith a Lles y Cyhoedd. Wedi'i olygu o'r safbwynt hwn, nid yw rhannu data yn guddfan moesegol nodedig; dim ond un o'r sawl agwedd ar ymchwil y mae'n rhaid i ymchwilwyr ddod o hyd i gydbwysedd moesol priodol.

Yn gyffredinol, mae rhai beirniaid yn gwrthwynebu rhannu data oherwydd, yn fy marn i, maent yn canolbwyntio ar ei risgiau - sydd, heb os, yn real-ac yn anwybyddu ei fuddion. Felly, er mwyn annog ffocws ar risgiau a manteision, hoffwn gynnig cyfatebiaeth. Bob blwyddyn, ceir yn gyfrifol am filoedd o farwolaethau, ond nid ydym yn ceisio gwahardd gyrru. Mewn gwirionedd, byddai galw i wahardd gyrru yn hurt oherwydd mae gyrru yn galluogi llawer o bethau gwych. Yn hytrach, mae cymdeithas yn gosod cyfyngiadau ar bwy all yrru (ee, yr angen i fod yn oed penodol ac i basio rhai profion) a sut y gallant yrru (ee, o dan y terfyn cyflymder). Mae gan y Gymdeithas hefyd bobl sydd â dasg o orfodi'r rheolau hyn (ee, yr heddlu), ac rydym yn cosbi pobl sy'n cael eu dal yn eu gwahardd. Gellir hefyd cymhwyso'r un math o feddwl cytbwys y gall cymdeithas ei wneud i reoleiddio gyrru i rannu data. Hynny yw, yn hytrach na gwneud dadleuon absolutist dros neu yn erbyn rhannu data, rwy'n credu y byddwn yn gwneud y cynnydd mwyaf trwy ganolbwyntio ar sut y gallwn leihau'r risgiau a chynyddu'r manteision o rannu data.

I gloi, mae risgiau gwybodaeth wedi cynyddu'n ddramatig, ac mae'n anodd iawn rhagweld a mesur. Felly, mae'n well tybio y gellir adnabod pob data a allai fod yn sensitif. Er mwyn lleihau risg hysbysu wrth wneud ymchwil, gall ymchwilwyr greu a dilyn cynllun diogelu data. At hynny, nid yw risg gwybodaeth yn atal ymchwilwyr rhag rhannu data â gwyddonwyr eraill.