6.6.2 It ferstean en behear ynformative risiko

Dizze oersetting is makke troch in kompjûter. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

6.6.2 It ferstean en behear ynformative risiko

Ynformaasje risiko is de meast foarkommende risiko yn sosjale ûndersyk; it tanommen dramatisch; en it is de hurdste risiko te ferstean.

De twadde etyske útdaging foar sosjale leeftyd digitale ûndersyk is ynformele risiko, de mooglikheden foar kwea fan de ûntsluting fan ynformaasje (Council 2014) . Ynformele Harms fan de ûntsluting fan persoanlike ynformaasje koe wêze ekonomysk (bgl, ferliest in baan), sosjaal (bygelyks, skamte), psychologyske (bygelyks, depresje), of sels krimineel (bygelyks, arrestaasje foar yllegale gedrach). Spitigernôch, de digitale leeftyd ferheget ynformaasje risiko dramatysk-is der krekt sa folle mear ynformaasje oer ús hâlden en dragen. En, ynformative risiko hat bewiisd tige dreech te begripen en beheare ferlike mei risiko dat wienen soargen yn analoge leeftyd sosjale ûndersyk, lykas fysike risiko. Om sjen hoe't de digitale leeftyd ferheget ynformative risiko, beskôgje de oergong fan papier nei elektroanyske medyske records. Beide soarten records meitsje risiko, mar it elektroanyske records meitsje folle grutter risiko want op in massive skaal se kinne wurde oerdroegen oan in sûnder foech partij of fusearre mei oare records. Sosjale ûndersikers yn de digitale leeftyd hawwe al rinne yn de problemen mei ynformative risiko, foar in part om't se net folslein begripe hoe te kwantifisearjen en beheare it. Sa, Ik gean te bieden in brûkbere manier te tinken oer ynformative risiko, en dan gean ik te jaan jim wat advys foar hoe te beheare de ynformative risiko yn dyn ûndersyk en yn it loslitten fan gegevens oan oare ûndersikers.

Ien manier dat sosjale ûndersikers ôfnimme ynformative risiko is "anonymization" fan gegevens. "Anonymization" is it proses fan fuortheljen dúdlik persoanlike helpmiddels lykas namme, adres, en telefoannûmer fan de gegevens. Mar, dizze oanpak is folle minder effektyf as in protte minsken realisearje, en it is, yn feite, djip en essinsje beheind. Om dy reden, as ik beskriuwe "anonymization," ik sil brûke quotation marks te bringe jo dat dit proses skept it uterlik fan anonimiteit mar net wier anonimiteit.

In libbene foarbyld fan it mislearjen fan "anonymization" komt út de lette jierren 1990 yn Massachusetts (Sweeney 2002) . De Groep Insurance Kommisje (GIC) wie in oerheid agency ferantwurdlik foar de oanskaf fan soarchfersekering foar alle steat meiwurkers. Troch dit wurk, de GIC sammele detaillearre sûnens records oer tûzenen steat meiwurkers. Yn in poging te spur ûndersyk oer manieren te ferbetterjen sûnens, GIC besletten om frij dizze registers foar ûndersikers. Lykwols, se net diele alles fan harren gegevens; leaver, se "anonymized" it troch it fuortheljen fan ynformaasje lykas namme en adres. Lykwols, se liet oare ynformaasje dy't se tocht kin nuttich wêze foar ûndersikers lykas demografyske ynformaasje (postkoade, berte datum, etnisiteit, en seks) en medyske ynformaasje (besite gegevens, diagnoaze, proseduere) (Figure 6.4) (Ohm 2010) . Spitigernôch, dat "anonymization" wie net genôch te beskermjen de gegevens.

Figuer 6.4: "Anonymization" is it proses fan it fuortheljen fansels fêststellen ynformaasje. Bygelyks, as los fan de medyske insurance records fan steat meiwurkers de Massachusetts Groep Insurance Kommisje (GIC) fuorthelle namme en adres fan de triemmen. Ik brûk quotes om it wurd "anonymization", omdat it proses jout it uterlik fan anonimiteit, mar net feitlike anonimiteit.

Om yllustrearje de tekoarten fan de GIC "anonymization", Latanya Sweeney-dan ôfstudearre studint oan MIT-betelle $ 20 te krijen it stimrjocht records út 'e stêd fan Cambridge, it wenplak fan Massachusetts steedhâlder Willem Weld. Dy stimming records opnommen ynformaasje sa as namme, adres, postkoade, berte datum, en geslacht. It feit dat de medyske gegevens triem en de kiezer triem dielde fjilden-zip code, berte datum, en seks-betsjutte dat Sweeney koe keppele binne se. Sweeney wist dat Weld syn jierdei wie 31 july 1945, en de stimming records opnommen mar seis minsken yn Cambridge mei dat jierdei. Fierder, fan dy seis minsken, mar trije wienen frou. En, fan dy trije mannen, mar ien shared Weld fan postkoade. Sa, de stimming gegevens die bliken dat immen yn 'e medyske gegevens mei Weld syn kombinaasje fan berte datum, geslacht, en postkoade wie Willem Weld. Yn wêzen, dy trije stikken fan ynformaasje levere in unike fingerprint fan him yn 'e gegevens. Mei help fan dit feit, Sweeney koe fine Weld syn medyske records, en te ynformearjen him fan har feat, hja mailde him in kopy fan syn records (Ohm 2010) .

Figure 6.5: Re-idenification fan "anonymized" gegevens. Latanya Sweeney kombinearre de "anonymized" sûnens records mei stimmen records om te finen de medyske records fan steedhâlder Willem Weld (Sweeney 2002) .

Sweeney syn wurk yllustrearret de basis struktuer fan de-anonymization oanfallen -To fêst in term út 'e kompjûter feiligens mienskip. Yn dizze oanfallen, twa gegevens sets, noch fan dat troch himsels ferriedt gefoelige ynformaasje, binne ferbûn, en troch dizze linkage, gefoelige ynformaasje wurdt beljochte. Yn guon wizen dit proses is te ferlykjen mei de wei dy't bakken soda en jittik, twa stoffen dy't troch sels feilich, kin wurde kombinearre te produsearje in ferfelende útkomst.

Yn reaksje op Sweeney syn wurk, en oare besibbe wurk, ûndersikers no algemien fuortsmite folle mear ynformaasje-al sa neamd "Persoanlik Sinjalearjen Ynformaasje" (Pii) (Narayanan and Shmatikov 2010) -during it proses fan "anonymization." Fierder, in protte ûndersikers no realisearje dat bepaalde gegevens-lykas medyske records, finansjele records, antwurden te tafoegje fragen oer yllegale gedrach-is nei alle gedachten te gefoelich om te loslitte ek nei "anonymization." Mar, mear resinte foarbylden dy't ik beskriuwe hjirûnder oanjaan dat sosjale ûndersikers moatte feroarje harren tinken. As in earste stap, is it ferstannich om fan út dat alle gegevens is potinsjeel identifisearre en alle gegevens is potinsjeel gefoelich. Yn oare wurden, ynstee fan tinken dat ynformative risiko jildt foar in lytse bepaald berik fan projekten, wy moatte oannimme dat it jildt-oan guon graad-foar alle projekten.

Beide aspekten fan dizze re-oriïntaasje wurde yllustrearre troch de Netflix priis. Lykas beskreaun yn haadstik 5, Netflix útbrocht 100 miljoen film wurdearrings fersoarge troch hast 500.000 leden, en hie in iepen oprop dêr't minsken fan oer de hiele wrâld yntsjinne Algorithmen dat koe ferbetterjen Netflix syn fermogen om te riede films. Foar it loslitten fan de gegevens, Netflix fuorthelle alle fansels persoanlik-identifisearjen ynformaasje, lykas nammen. Netflix ek gie in ekstra stap en yntrodusearre lichte perturbations yn guon fan de records (bygelyks, feroarjen guon wurdearrings fan 4 stjerren nei 3 stjerren). Netflix gau ûntdutsen, lykwols, dat nettsjinsteande harren ynspannings, de gegevens waarden troch gjin betsjut anonym.

Krekt twa wiken nei de gegevens waarden útbrocht Narayanan and Shmatikov (2008) toande dat it mooglik te learen oer spesifike minsken fan film foarkar. De trúk om harren re-identifikaasje oanfal wie ek nei Sweeney fan: merge tegearre twa ynformaasje boarnen, ien mei potinsjeel gefoelige ynformaasje en gjin fansels sinjalearjen fan ynformaasje en ien dy't befettet de identiteit fan de minsken. Elk fan dizze gegevens boarnen kin yndividueel feilich, mar doe't se wurde kombinearre de gearfoegde dataset kin meitsje ynformative risiko. Yn it gefal fan 'e Netflix gegevens, hjir is hoe't it koe barre. Yntinke dat ik kieze te dielen myn tinzen oer aksje en komeedzje films mei myn mei-arbeiders, mar dat ik leaver net te dielen myn miening oer religieuze en politike films. Myn mei-arbeiders koe brûke de ynformaasje dy't ik dield mei harren te finen myn platen yn 'e Netflix gegevens; de ynformaasje dy't ik diele koe wêze in unyk fingerprint krekt as Willem Weld syn berte datum, postkoade, en seks. Dan, as se fine myn unike fingerprint fan yn 'e data, se koene leare myn wurdearrings oer alle films, wêrûnder films dêr't ik kieze net om te dielen. Neist dit soarte fan rjochte oanfal rjochte op ien persoan, Narayanan and Shmatikov (2008) ek bliken dat it mooglik te dwaan in breed oanfal een wêrby't in soad minsken-troch it gearfoegjen fan de Netflix gegevens mei persoanlike en film rating gegevens dy't guon minsken hawwe keazen om op 'e Internet Movie Database (IMDb). Alle ynformaasje dy't is unyk fingerprint oan in spesifike persoan-sels harren set fan film wurdearrings-kin brûkt wurde om te identifisearjen se.

Ek al de Netflix gegevens kinne wurde opnij-identifisearre yn of in doel of in brede oanfal, it noch miskien ferskine te wêzen lege risiko. Nei al, film wurdearrings net lykje tige gefoelich. Wylst dat soe wêze wier yn it algemien, foar guon fan 'e 500.000 minsken yn' e dataset, film wurdearrings soe wêze hiel gefoelich. Yn feite, yn reaksje op it de-anonymization in closeted lesbyske frou by in klasse-aksje pak tsjin Netflix. Hjir is hoe't it probleem waard útsprutsen yn harren rjochtsaak (Singel 2009) :

"[M] ovie en wurdearring data befettet ynformaasje fan in mear tige persoanlike en gefoelige natuer [sic]. It lid fan film gegevens bleat in Netflix lid fan persoanlike ynteresse en / of striid mei ferskate tige persoanlike saken, wêrûnder seksualiteit, geastlike sykte, herstel fan alkoholisme, en victimization út incest, fysyk misbrûk, húslik geweld, oerhoer, en ferkrêfting. "

It de-anonymization fan de Netflix priis gegevens yllustrearret sawol dat alle gegevens is potinsjeel identifisearre en dat alle gegevens is potinsjeel gefoelich. Op dit punt, jo miskien tinke dat dit allinnich jildt foar gegevens dy't dat kronyk fan de iere wêzen oer minsken. Ferrassend, dat is net it gefal. Yn reaksje op in frijheid fan ynformaasje Wet fersyk, de New York City regear útbrocht records fan alle taksy ride yn New York yn 2013, wêrûnder de pickup en drop ôf kear, lokaasjes, en fare bedraggen (recall fan Haadstik 2 dat Farber (2015) brûkt dizze gegevens te testen wichtige teoryen yn wurk ekonomy). Hoewol't dizze gegevens oer taxi reizen miskien lykje benign omdat it net lykje te wêzen ynformaasje oer minsken, Anthony Tockar realisearre dat dizze taksy dataset eins befette soad potinsjeel gefoelige ynformaasje oer minsken. Om yllustraasje, hy seach op alle reizen begjinnend by De Hustler Club-in grut strip club yn New York-tusken nacht en 6am en doe fûn harren drop-off lokaasjes. Dizze sykje iepenbiere-yn wêzen-in list fan adressen fan guon minsken dy't faak De Hustler Club (Tockar 2014) . It is dreech om te tinken dat de stêd regear hie dit foar eagen doe't it útbrocht de gegevens. Yn feite, dat deselde technyk koe brûkt wurde te finen it hûs adressen fan minsken dy't besykje gjin plak yn 'e stêd-in medyske klinyk, in oerheid gebou, of in religieuze ynstelling.

Dy twa gefallen-de Netflix priis en de New York City taxi data-show, dy't relatyf feardich minsken mislearre om goed skatte de ynformative risiko yn de gegevens dy't se útbrocht, en dy gefallen binne troch gjin betsjut unyk (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Fierder, in protte fan dy gefallen, it problematysk gegevens is noch frij beskikber online, wat oanjout de muoite fan hieltyd needlottich in gegevens release. Kollektyf dizze foarbylden-likegoed as ûndersyk yn kompjûter wittenskip oer privacy-liedt ta in wichtige konklúzje. Ûndersikers moatte oannimme dat alle gegevens is potinsjeel identifisearre en alle gegevens is potinsjeel gefoelich.

Spitigernôch is der gjin ienfâldige oplossing foar it feit dat alle gegevens is potinsjeel identifisearre en alle gegevens is potinsjeel gefoelich. Mar, ien manier te ferminderjen ynformaasje risiko wylst jo wurkje mei gegevens is te meitsjen en folgje in gegevens beskerming plan. Dit plan sil ôfnimt de kâns dat jo gegevens sille leak en sil ôfnimme it kwea as in lek of andere manier foarkomt. De specifics fan gegevens beskerming plannen, sa as hokker foarm fan fersifering te brûken, sil feroarje oer de tiid, mar it Feriene Keninkryk Data Tsjinsten ûnderwiis en organisearret de eleminten fan in gegevens beskerming plan yn 5 kategoryen dy't se neame de 5 safes: feilich projekten, feilich minsken , feilige ynstellings, feilige gegevens, en feilige útgongen (Tabel 6.2) (Desai, Ritchie, and Welpton 2016) . Gjin fan 'e fiif safes yndividueel biede perfekte beskerming. Mar, tegearre foarmje se in krêftige set fan faktoaren dy't kin ôfnimme ynformative risiko.

Tabel 6.2: De 5 safes binne útgongspunten foar it ûntwerpen en útfieren fan in gegevens beskerming plan (Desai, Ritchie, and Welpton 2016) .
Feilich	Aksje
Safe projekten	limitearret projekten mei gegevens oan dyjingen dy't Ethiopia
Safe minsken	tagong is beheind ta minsken dy't kin wurde fertroud mei gegevens (bygelyks, minsken hawwe ûndergien etyske oplieding)
Safe gegevens	gegevens is de-identifisearre en sammele foar safier mooglik
Safe ynstellings	gegevens wurdt opslein yn kompjûters mei passende lichaamlike (bygelyks, ôfsletten romte) en software (bygelyks, wachtwurd beskerming, fersifere) beskermingen
Safe output	ûndersyk útfier is reviewed te kommen by ûngelok privacy brekken

Neist beskermjen jo gegevens wylst jo it, ien stap yn it ûndersyk proses dêr't ynformative risiko is benammen salient is gegevens dielen mei oare ûndersikers. Data dielen ûnder wittenskippers is in kearn wearde fan 'e wittenskiplike stribjen, en it sterk foarsjennings de foarútgong fan kennis. Hjir is hoe't de UK Hûs fan Commons beskreaun it belang fan gegevens dielen:

"Tagong ta gegevens is fûnemintele as ûndersikers binne te reprodusearjen, kontrolearjen en bouwen op resultaten dy't rapportearre yn 'e literatuer. De eigenwizens moat wêze dat, útsein as der in sterke reden oars, gegevens moatte wurde folslein bekend makke en makke publyk beskikber. Yn line mei dit prinsipe, wêr mooglik, gegevens assosjearre mei alle iepenbier finansiere ûndersyk moat wurde makke in soad en frij beskikber. " (Molloy 2011)

Dochs, troch it dielen fan jo gegevens mei in oare ûndersiker, jo kinne groeiend ynformative risiko nei jo dielnimmers. Sa, it liket dat ûndersikers dy't wolle diele harren gegevens-of binne ferplichte om harren gegevens-wurde konfrontearre in fûnemintele spanning. Oan de iene kant se hawwe in etyske ferplichting om diele harren gegevens mei oare wittenskippers, benammen as de oarspronklike ûndersyk wurdt iepenbier finansiere. Dochs, tagelyk, ûndersikers hawwe in etyske ferplichting om minimalisearje, safolle mooglik, de ynformaasje risiko om harren dielnimmers.

Gelokkich, dat dilemma is net sa strang as bliken docht. It is wichtich om te tinken fan gegevens dielen lâns in kontinuümhypoteze fan gjin gegevens dielen te loslitte en ferjitten, dêr't gegevens is "anonymized" en pleatst foar eltsenien om tagong (Figure 6.6). Beide fan dy ekstreme posysjes hawwe risiko 's en foardielen. Dat is, is it net automatysk de meast etyske ding om net diele jo gegevens; sa'n oanpak elimineert in protte potinsjele foardielen oan de maatskippij. Werom te Taste, Ties, en tiid, in foarbyld oan 'e oarder earder yn it haadstik, arguminten tsjin gegevens release dy't rjochtsje allinnich op mooglike Harms en dat ignore mooglike foardielen binne al te iensidige; Ik beskriuw de problemen mei dit iensidich, al te beskermjende oanpak yn mear detail yn hjirûnder doe't ik biede advys oer it meitsjen fan besluten yn it gesicht fan de ûnwissichheid (paragraaf 6.6.4).

Figure 6.6: Data release strategyen kinne falle lâns in kontinuümhypoteze. Wêr moatte jo wêze lâns dizze kontinuümhypoteze hinget ôf fan de spesifike details fan jo gegevens. Yn dit gefal, tredde partij review kinne helpe jo bepale it passend balâns fan risiko en foardiel yn jo gefal.

Fierder, in tusken dizze twa ekstreme gefallen is wat ik neamd in ommuorre tún oanpak dêr't gegevens wurdt dield mei minsken dy't foldogge oan bepaalde kritearia en dy't akkoard wurde bûn troch bepaalde regels (bygelyks, tafersjoch fan in IRB en in gegevens beskerming plannen) . Dy ommuorre tún oanpak jout in protte fan 'e foardielen fan release en ferjitte mei minder risiko. Fansels, in ommuorre tún oanpak skept in soad fragen-wa moatte ha tagong, ûnder hokker betingsten, foar hoe lang, dy't moatte betelje te behâlden en plysje de ommuorre tún ensfh-mar dy binne net insurmountable. Yndie, der binne al dwaande ommuorre tunen yn plak dat ûndersikers kinne brûke rjocht no, lykas de gegevens argyf fan it Inter-universiteit Consortium foar politike en Sosjaal Undersyk oan de Universiteit fan Michigan.

Sa, wêr moatte de gegevens út jo stúdzje wêze op de kontinuümhypoteze fan gjin dielen, ommuorre tún, en loslitte en ferjitte? It ôfhinklik op de details fan dyn gegevens; ûndersikers moatte balance Respekt foar Persons, woldie, Justysje, en Respekt foar wet en Iepenbier Interest. By it beoardieljen fan passende balâns foar oare besluten ûndersikers sykje it advys en goedkarring fan IRBs, en gegevens release kin krekt in oar part fan dat proses. Yn oare wurden, hoewol't guon minsken tinke fan gegevens frijlitting as in heilleaze etyske morass, wy al hawwe systemen yn plak te helpen ûndersikers lykwicht dizze soarte fan etyske dilemma.

Ien lêste wize te tinken oer gegevens dielen is troch analogy. Alle jierren auto binne ferantwurdlik foar tûzenen deaden, mar wy net besykje te ferbieden riden. Yndie, sa'n oprop te ferbieden driuwende soe wêze absurd omdat driuwende stelt in soad prachtige dingen. Leaver, maatskippij plakken beheinings op dy't kin ride (bygelyks, moatte in bepaalde leeftyd, moatte hawwe passed bepaalde tests) en hoe't se kinne ride (bygelyks, ûnder de speed limit). Maatskippij hat ek minsken tasked mei enforcing dizze regels (bygelyks, plysje), en wy straffe minsken dy't fongen striid binne mei harren. Dy selde soarte fan balansearre tinken dat maatskippij jildt foar regeljen driuwende kin ek tapast wurde om gegevens dielen. Dat is, ynstee meitsjen absolutist arguminten foar of tsjin gegevens dielen, ik tink de grutste foardielen sille komme út figuring út hoe't wy kinne diele mear gegevens mear feilich.

Te sluten, ynformative risiko tanommen dramatysk, en it is hiel dreech te foarsizzen en kwantifisearjen. Dêrom, is it bêste om der fan út dat alle gegevens is potinsjeel identifisearre en potinsjeel gefoelich. Te ferdwinen ynformative risiko wylst it dwaan fan ûndersyk, ûndersikers kinne meitsje en folgje in gegevens beskerming plan. Fierder, ynformative risiko net foarkomme dat ûndersikers fan it dielen gegevens mei oare wittenskippers.