6.6.2 It ferstean en behear ynformative risiko

Dizze oersetting is makke troch in kompjûter. ×

6.6.2 It ferstean en behear ynformative risiko

Informaasje risiko is it meast foarkommende risiko yn sosjale ûndersyks; it is dramatysk ferhege; en it is it hurdste gefolch om te begripen.

De twadde etikale útdaging foar digitaal-leeftyd ûndersyk is ynformeel risiko , it potinsjeel foar skealik fan 'e iepenbiere ynformaasje fan' e (National Research Council 2014) . Informative skealikens fan 'e iepenbiere ynformaasje kin suksesfolle wurde (bygelyks it ferliezen fan in taak), sosjale (bygelyks fergrieming), psychologysk (bygelyks depresje) of sels kriminaliteit (bgl. Arrestaasje foar yllegaal gedrach). Spitigernôch nimt de digitale leeftyd dramatyske ynformaasjale risiko - der is gewoan sa folle mear ynformaasje oer ús gedrach. En ynformeel risiko hat bewize dat it swier is om te begripen en te behearjen yn fergeliking mei risiko's dy't dingen binne yn sosjale ûndersyk fan analoech-âldens, lykas fysike risiko.

Ien manier dat sosjale ûndersikers ôfnimme ynformative risiko is "anonymization" fan gegevens. "Anonymization" is it proses fan fuortheljen dúdlik persoanlike helpmiddels lykas namme, adres, en telefoannûmer fan de gegevens. Mar, dizze oanpak is folle minder effektyf as in protte minsken realisearje, en it is, yn feite, djip en essinsje beheind. Om dy reden, as ik beskriuwe "anonymization," ik sil brûke quotation marks te bringe jo dat dit proses skept it uterlik fan anonimiteit mar net wier anonimiteit.

In geweldich foarbyld fan it mislearjen fan 'anonymisearring' komt fan 'e ein fan' e njoggentiger jierren yn Massachusetts (Sweeney 2002) . De groepsekrasyskommisje (GIC) wie in regearingssjinst ferantwurdlik foar oankeap fan sûnensfersekering foar alle steate meiwurkers. Troch dit wurk sammele de GIC detaillearre sûnensrapporten oer tûzenen state meiwurkers. Om in ûndersyk te ûndersykjen, besleat de GIC besluten om dizze opsjes te freegjen nei ûndersikers. Dochs hawwe se allegear gjin gegevens te dielen; Earder, se "dizze" gegevens "anonymisearje" troch it bewarjen fan ynformaasje lykas nammen en adressen. Dochs ferliet se oare ynformaasje dy't se tinke dat se nuttich wêze kinne foar ûndersikers lykas demografyske ynformaasje (postkoade, berte date, etnisiteit en seks) en medyske ynformaasje (besykje gegevens, diagnoaze, proseduere) (figuer 6.4) (Ohm 2010) . Spitigernôch wie dizze "anonymisaasje" net genôch om de gegevens te beskermjen.

Ofbylding 6.4: Anonymisaasje is it proses fan it foarkommen fan offisjeel identifisearjende ynformaasje. Bygelyks, doe't it publisearjen fan 'e medyske fersekeringsregels fan steate meiwurkers, die Massachusetts Group Insurance Commission (GIC) nammen en adressen fan' e bestannen ôf. Ik brûke de quotaasjemarken om it wurd anonymisearring om't it proses it oansjen fan anonymiteit biedt, mar de eigentlike anonymiteit.

Ofbylding 6.4: "Anonymisaasje" is it proses om foarkommende identifisearjende ynformaasje fuort te nimmen. Bygelyks, doe't it publisearjen fan 'e medyske fersekeringsregels fan steate meiwurkers, die Massachusetts Group Insurance Commission (GIC) nammen en adressen fan' e bestannen ôf. Ik brûke de quotaasjemarken om it wurd "anonymisaasje" om't it proses it oansjen fan anonymiteit biedt, mar de eigentlike anonymiteit.

Om de tekoarten fan 'e GIC' anonymisaasje 'te yllustrearjen, Latanya Sweeney - dan in studinteskop op MIT-betelje $ 20 om de stimmberjochten te krijen fan' e stêd Cambridge, de heitelân fan Massachusetts Governor William Weld. Dizze stimmberjochten befette ynformaasje lykas namme, adres, postkoade, berte-date en gender. It feit dat de medyske gegevensbestân en de kiezersdiel dielde fjild-postkoade, berte-date, en seks betsjutte dat Sweeney har keppele koe. Sweeney wist dat de jierdei fan Weld op 31 july 1945 wie, en de fokaallisten sieten allinich seis minsken yn Cambridge mei dy jierdei. Fierder, fan 'e seis minsken, waarden mar trije manlju. En, fan dy trije manlju, is mar ien dielen fan 'e postweld fan Weld. Sa hawwe de stimmingsgegevens sjen litten dat elkenien yn 'e medyske gegevens mei Weld's kombinaasje fan berte-date, gender, en postkoade wie William Weld. Yn essinsje stelde dizze trije stikken ynformaasje in unyk fingerprint foar him yn 'e gegevens. Mei dizze feit wie Sweeney medyske recordings fan Weld te finen, en, om him fan har publyk te ynformearjen, stjoerde sy him in kopy fan syn rekken (Ohm 2010) .

Ofbylding 6.5: Re-idenifikaasje fan "anonymisearre" gegevens. Latanya Sweeney kombinearret de "anonymisearre" sûnensrapporten mei stimmende registers om de medyske rjochten fan Governor William Weld oan te sykjen fan Sweeney (2002) , figuer 1.

Sweeney's wurk yllustrearje de basisstruktuer fan re-identifikaasje-oanfallen - om in term út te fieren fan 'e kompjûterfeiligensmienskip. Yn dizze oanslaggen binne twa gegevens, wêrfan gjin sels foar himsels gefoelige ynformaasje oanwêzich, binne keppele, en fia dizze keppeling is gefoelige ynformaasje útsluten.

As antwurd op Sweeney's wurk, en oare relatearre wurk, ûndersiikje de ûndersikers alhiel mear ynformaasje - alle saneamde "persoanlik identifisearjende ynformaasje" (PII) (Narayanan and Shmatikov 2010) foar it proses fan "anonymisaasje". Fierders binne in soad ûndersikers no realisearje dat bepaalde gegevens - lykas medyske tema's, finansjele opsjes, antwurden om fragen oer yllegaal gedrach te bepalen - binne wierskynlik te sizzen foar frijlitting sels nei "anonymisaasje". De foarbylden dy't ik omgean jouwe oan dat sosjale ûndersikers nedich binne om har tinken te feroarjen. As earste stap is it ferstannich om te begripen dat alle gegevens potinsjeel identifisearje en alle gegevens binne potensyf gefoelich. Mei oare wurden, ynterpretearje dat ynformeel risiko is foar in lyts subset fan projekten, moatte wy der fan útnimme dat it jildt foar in part fan alle projekten.

Beide aspekten fan dizze werynrjochting binne yllustrearre troch de Netflixpriis. As foltôge yn haadstik 5 hat Netflix 100 miljoen filmferzjes frijjûn troch hast 500.000 leden en hat in iepen dialooch, dêr't minsken út 'e hiele wrâld algoritmen yntsjinne hawwe dy't Netflix's fermogen ferbetterje om films oan te jaan. Foardat de gegevens frijlitten wurde, fuorthet Netflix elke lienende persoanlik identifisearjende ynformaasje, lykas nammen. Se gongen ek in ekstra stap en leine in geweldige perturbaasjes yn guon fan 'e recordings yn bygelyks, wylst guon fanwege 4 stars nei 3 stjerren feroarsaakje. Se besochten lykwols al gau dat se nettsjinsteande harren ynsetten de gegevens noch altyd net anonym wiene.

Krekt twa wiken nei't de gegevens útbrocht wiene, hat Arvind Narayanan en Vitaly Shmatikov (2008) sjen litten dat it mooglik wie om te learen oer spesjale prizen fan minsken. De truc op har re-identifikaasje-oanfal wie fergelykber mei Sweeney's: kombineare twa ynformaasje boarnen, ien mei potensjaal gefoelige ynformaasje en gjin offisjeel identifisearjende ynformaasje en ien dy't de identiteit fan minsken befet. Elke fan dizze gegevensboarnen kin yndividuele feilich wêze, mar as se kombinearje, kin it fusearre dataset ynformaasjeferskaat krije. Yn it gefal fan de Netflix-gegevens, hjir is hoe't it barre koe. Stel dan dat ik kieze om myn gedachten oer aksje en komeedzjes mei myn gearwurkers te dielen, mar dat ik leaver net myn miening oer mienskiplike en politike films te dielen. Myn ko-wurkers kinne de ynformaasje brûke, dy't ik mei har dield hawwe om myn registers te finen yn 'e Netflix-gegevens; De ynformaasje dy't ik diel kin in unyk fingerprint wêze lykas William Weld's berne-date, postkoade, en seks. Doe't se myn unike fingerprint yn 'e gegevens fûnen, koe se myn wurdearrings oer alle films learje, ynklusyf films dy't ik kieze net te dielen. Neist dizze soartgelikense oanfal dy't rjochte wie op ien persoan, hat Narayanan en Shmatikov ek oanjûn dat it mooglik wie in breed oanfal - mei in protte minsken te dwaan - troch gearfoegjen fan de Netflix-gegevens mei persoanlike en filmbehearder dat guon minsken keazen hawwe op 'e Internet Movie Database (IMDb). Folslein gewoan, elke ynformaasje dy't in unyk fingerprint is foar in spesifike persoan - sels har set fan filmferhalen - kin brûkt wurde om har te identifisearjen.

Alhoewol't de Netflix-gegevens werjûn wurde kinne yn sawol in rjochte of breed oanfal, dan kin it likernôch lykje dat it risiko is. Nei allegear binne filmferoarings likegoed net hiel gefoelich te wêzen. Hoewol dat wier yn 't algemien wier wêze soe, foar guon fan' e 500.000 minsken yn 'e dataset, kin filmferhalen hiel sensibel wêze. Yn feite, as antwurd op 'e weryndieling, kaam in kasteleaze lesbe frou yn' e klasse-aksjepakket tsjin Netflix. Hjir is hoe't it probleem útdroegen waard yn har beslút (Singel 2009) :

"[M] ovie en ratinggegevens befetsje ynformaasje fan in ... tige persoanlik en gefoelich aard. De filmgegevens fan 'e lidferbannen befetsje in persoanlike belang fan Netflix-leden en / of kampioenskippen mei ferskate heech persoanlike problemen, lykas seksualiteit, mentale sykte, weroping fan alkoholisme, en victimisaasje fan ynzest, fysike misbrûk, húslik geweld, adultering en ferkrêfting. "

De weryntekens fan 'e Netflixpriis drukt jildt sawol dat alle gegevens potinsjeel identifisearje en dat alle gegevens potinsjeel gefoelich binne. Op dit stuit kinne jo tinke dat dit allinich jildt foar gegevens dy't liede om minsken te wêzen. Geweldich is dat net it gefal. As reaksje op in frege fan freegjen fan ynformaasje oer freegjen, hat de New York City rektor yn 2013 in stikje opsjes fan elke taksy ride yn New York, wêrûnder de pickup en ôflevering tiden, lokaasjes en farebedragingen (tinkt fan haadstik 2 dat Farber (2015) ferlykbere gegevens brûkt om wichtige teoryen yn laboronomie te testen). Dizze gegevens oer taxiestiden kinne miskien wêze, om't se gjin ynformaasje oer minsken leare, mar Anthony Tockar realisearre dat dizze taxi dataset eins in protte potinsjeel gefoelige ynformaasje oer minsken befette. Om te yllustrearjen seach hy alle reizen dy't begjinne by de Hustler Club - in grutte stripferiening yn New York - tusken midnacht en 6 oere en fûnen dêrnei harren drop-lokaasjes. Dizze sykwurden ûntdutsen - yn essinsje - in list fan adressen fan guon minsken dy't de Hustler Club (Tockar 2014) . It is dreech te meitsjen dat it stedsregio dit yn 'e holle hie doe't it de gegevens befette. Yn feite kin dizze selde technyk brûkt wurde om de thúsadressen fan minsken te finen dy't elke plak yn 'e stêd besykje - in medyske klinyk, in regearinggebou, of in religieus ynstitút.

Dizze twa gefallen fan 'e Netflixpriis en de taxi-data fan New York City litte sjen dat relatyf talike minsken mislearre kinne fan it ynformaasjebiljochting yn' e gegevens dat se frijlitte - en dizze gefallen sûnder unike unike (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Fierder, yn in protte soksoarte gefallen binne de problemen gegevens noch altyd frij tagonklik beskikber, wat oanjaan fan 'e muorren fan' e eindiging fan in datafelferliening. Kollektyf, dizze foarbylden - en ek ûndersyk nei kompjûterwittenskip oer privacy - liede ta in wichtige konklúzje. Undersikers moatte leare dat alle gegevens potinsjeel identifisearje en alle gegevens binne potensyf gefoelich.

Spitigernôch is der gjin ienfâldige oplossing foar de feiten dat alle gegevens potinsjeel identifisearje en dat alle gegevens potinsjeel gefoelich binne. Mar ien manier om ynformearjend risiko te ferminderjen, wylst jo wurkje mei gegevens is om in data beskermplan te meitsjen en te folgjen. Dit plan sil de kâns ferminderje dat jo gegevens lêze en de skea ôfnimme sil as in leek soms opkomt. De specifics fan gegevens beskerming plannen, sa as hokker foarm fan fersifering om te brûken, sil feroarje oer de tiid, mar it Feriene Keninkryk Data Tsjinsten ûnderwiis en organisearret de eleminten fan in gegevens beskerming plan yn fiif kategoryen dy't se neame de fiif safes: feilich projekten, feilige minsken , feilige ynstellings, feilige gegevens en feilige útjeften (tabel 6.2) (Desai, Ritchie, and Welpton 2016) . Gjin fan 'e fiif safes jouwe inoar perfekte beskerming. Mar mei elkoar foarmje se in krêftige set fan faktoaren dy't it ynforma- tearysk risiko ôfliede kinne.

Tabel 6.2: De "fiif safes" binne prinsipes foar it ûntwerpen en útfieren fan in data beskermingplan (Desai, Ritchie, and Welpton 2016)
Feilich	Aksje
Feilige projekten	Limyt projekten mei gegevens oan dyjingen dy't ethysk binne
Feilige minsken	Tagong is beheind foar minsken dy't fertroud wurde kinne mei gegevens (bgl. Minsken dy't etyske treningen ûnderfûn hawwe)
Feilige gegevens	Daten wurde de-identifisearre en aggregearre oant safolle mooglik
Feilige ynstellings	Daten wurde opslein yn kompjûters mei passende fysike (bygelyks sletten room) en software (bgl. Wachtwurd beskerming, fersifere) beskerming
Feilige útfier	Undersyk útstel wurdt besocht om ûngedienbere privacybreugen te foarkommen

Neist it beskermjen fan jo gegevens wylst jo se brûke, stappe ien yn 'e ûndersyksproses dêr't ynformaasjeyn risikoal yn' t heul is dat dieling dielt mei oare ûndersikers. Date te dielen ûnder wittenskippers is in kearnwearde fan 'e wittenskiplike wurksumheden, en it makket it ferminderjen fan kennis grutter. Hjir is hoe't it UK House of Commons it belang fan dielde dielen (Molloy 2011) beskreau:

"Tagonklikheid is gefaarlik as ûndersikers wurde reprodusearje, ferifiearje en bouwe op resultaten dy't rapporteare wurde yn 'e literatuer. De ferwidering moat wêze dat, as der gjin stipe oars is, dan moatte gegevens folslein bekend makke wurde en publisearre wurde. "

Dochs, troch jo gegevens te dielen mei in oare ûndersiker, kinne jo ferheegene ynformaasje risiko foar jo dielnimmers. Sa kin it miskien wêze dat dielingsdieling in fûnemintele tension kreëarret tusken de ferplichting om gegevens te dielen mei oare wittenskippers en de ferplichting om ynformearje risiko foar dielnimmers te minimalisearjen. Gelokkich is dit dilemma net sa swier as it ferskynt. Rather, it is better om te tinken oer gegevens te dielen as it falt op in kontinu, mei elk punt op dat kontinu, dat in ferskillende miel fan foardielen oan 'e maatskippij en it risiko foar dielnimmers leveret (figuer 6.6).

Op ien iene ekstreem kinne jo jo gegevens mei niget te dielen, wêrtroch't risiko 's foar dielnimmers minimearret, mar ek de wins oan' e maatskippij minimearret. Oan 'e oare ekstreem kinne jo frijlitte en ferjitte , wêr't gegevens' anonymisearre 'binne en foar elkenien befrijd. Ferantwurding foar gegevens, loslitte en ferjitten biedt sawol hegere foardielen foar maatskippij en hegere risiko foar dielnimmers. Tusken dizze twa ekstreme gefallen binne in rige hybriden, ynklusief wat ik in muorreke taak oanroppe. Under dizze oanpak wurde gegevens dield mei minsken dy't in bepaalde kritearia foldwaan en dy't akkoart binne om bepaalde regels te bûnen (bygelyks oertsjûging fan in IRB en in beskermingsplan). De muorreke túnkonstruksje biedt in protte fan de foardielen fan frijlitting en ferjit mei minder risiko. Fansels ûntstiet sa'n soartgewoan in soad fragen dy't wa't tagong hat, ûnder hokker betingsten, en foar hoe lang, wa't betelje moat om de muorre tún op te hâlden en te plysje - mar dy binne net ûnferbidlik. Faktaal binne der al wurktúden op it plak wêr't ûndersikers dwaande kinne binne, lykas it gegeven argyf fan it Inter-university consortium foar politike en sosjale ûndersyk oan 'e Universiteit fan Michigan.

Figure 6.6: Databeside-strategyen kinne op in kontrôle falle. Wêr't jo op dit kontinuïte wêze moatte is ôfhinklik fan de spesifike details fan jo gegevens, en oersicht fan tredden kin jo helpe it passende lykwicht fan risiko en profitearje yn jo saak. De krekte foarm fan dizze krúf hinget ôf fan 'e spesifiken fan' e gegevens en ûndersyksdoelen (Goroff 2015) .

Dus, wêr moatte de gegevens fan jo stúdzje op it kontinint wêze fan gjin dieling, muorre tún, en frijlitte en ferjitten? Dit is ôfhinklik fan de details fan jo gegevens: ûndersikers moatte har respektearje foar Resensje, Benefisinsje, Justysje, en Respekt foar wet en Iepenbiere Belang. Troch dizze perspektyf te sjen is diels dieling net in ûnderskiedend etikatyf ferbûn; It is gewoan ien fan 'e soad aspekten fan ûndersiik wêr't ûndersikers in passende ethike balâns fine.

Guon kritisy steane meast tsjinstellings te dielen, om't se, nei myn miening, rjochte binne op har risiko's - dy't sûnder dreech-real binne en har foardielen negearje. Dus, om stimulearring te finen op beide risiko's en foardielen, ik soe graach in analogy oanbiede. Alle jierren binne auto's ferantwurdlik foar tûzenen deaden, mar wy probearje net om it rydbewiis te ferbaarnen. In feite, in oprop om banen te fertsjinjen soe absurd wêze, om't riden in protte prachtige dingen makket. Ynstee dêrfan plektet de maatskippij beheiningen op wa't rydt (bgl. De needsaak om in bepaalde leeftyd te wêzen en bepaalde toetsen te passen) en hoe't se kinne ride (bgl. Ûnder de snelgryt). De maatskippij hat ek minsken opdroegen mei it befoarderjen fan dizze regels (bygelyks plysje), en wy bestjogge minsken dy't fereale wurde. Dit selde soarte fan balansearre tinken dat de maatskippij jildt foar it regeljen fan riden kin ek tapast wurde foar data te dielen. Dat is, yn plak fan it meitsjen fan absolutistyske arguminten foar of tsjin dieldieling, tink ik dat wy de measte foarútgong meitsje moatte troch te rjochtsjen op hoe't wy de risiko's ferminderje kinne en de foardielen fan data te fergrutsjen.

Om te sluten is ynformaasjeynrisiko's dramatysk ferhege, en it is tige hurd om te praten en te kwantearjen. Dêrom is it bêste om oan te passen dat alle gegevens potinsjeel identifisearber en potensyf gefoelich binne. Om ynformaasjeyn risiko's te ferminderjen by it dwaan fan ûndersyksjen kinne ûndersikers in beskermingsplan meitsje en folgje. Fierder hat it ynformaasjerisiko gjin ûndersikers te foarkommen fan gegevens te dielen mei oare wittenskippers.