6.6.2 Të kuptuarit dhe menaxhimin e rrezikut informative

Rreziku Informacioni është rreziku më i zakonshëm në kërkimin sociale; ajo është rritur në mënyrë dramatike; dhe kjo është rreziku më e vështirë për t'u kuptuar.

Sfida e dytë etike për moshën social hulumtim digjitale është rreziku informative, potenciali për dëm nga zbulimin e informacionit (Council 2014) . dëmton informative nga zbulimin e të dhënave personale mund të jenë ekonomike (për shembull, duke humbur një punë), sociale (p.sh., siklet), psikologjike (p.sh., depresioni), apo edhe penale (p.sh., arresti për sjellje të paligjshme). Për fat të keq, në moshën dixhitale rritet rreziku i informacionit në mënyrë dramatike, ka vetëm shumë më shumë informacion në lidhje me sjelljen tonë. Dhe, rreziku informative ka provuar shumë e vështirë për të kuptuar dhe menaxhuar në krahasim me rreziqet që ishin shqetësimet në analog moshës hulumtime sociale, të tilla si rreziku fizike. Për të parë se si në moshën dixhitale rrit rrezikun informative, e konsiderojnë kalimin nga letra të dhënat elektronike mjekësore. Të dyja llojet e të dhënave të krijuar rrezik, por të dhënat elektronike të krijojnë rreziqe më të mëdha, sepse në një shkallë masive që mund të transmetohen në një parti të paautorizuar ose të bashkohen me të dhënat e tjera. Hulumtuesit sociale në moshën dixhitale tashmë kanë drejtuar në telashe me rrezik informative, pjesërisht për shkak se ata nuk e kuptojnë plotësisht se si për të matur dhe për të menaxhuar atë. Pra, unë jam duke shkuar për të ofruar një mënyrë të dobishme për të menduar për rrezikun informative, dhe atëherë unë jam duke shkuar për të ju japin disa këshilla për mënyrën se si për të menaxhuar rrezikun informative në kërkimin tënd dhe në lëshimin e të dhënave të studiuesve të tjerë.

Një mënyrë që studiuesit sociale të ulur rrezikun informative është "anonimitetin" e të dhënave. "Anonimitetin" është procesi i heqjes identifikues dukshme personale të tilla si emrin, adresën, dhe numrin e telefonit nga të dhënat. Megjithatë, kjo qasje është shumë më pak efektive se sa shumë njerëz e kuptojnë, dhe kjo është, në fakt, thellë dhe krejtësisht të kufizuara. Për këtë arsye, sa herë që unë përshkruaj "anonymization," unë do të përdorni thonjëza për të ju kujtoj se ky proces krijon pamjen e anonimitetit, por nuk e anonimitetit vërtetë.

Një shembull i gjallë i dështimit të "anonymization" vjen nga fundi i viteve 1990 në Massachusetts (Sweeney 2002) . Komisioni Insurance Group (GIC) ishte një agjenci qeveritare përgjegjëse për blerjen e sigurimit shëndetësor për të gjithë punonjësit e shtetit. Nëpërmjet kësaj pune, GIC mbledhur të dhëna të hollësishme rreth shëndetit mijëra të punonjësve të shtetit. Në një përpjekje për të nxisë hulumtime në lidhje me mënyrat për të përmirësuar shëndetin, GIC vendosi të lirojë këto shënime të studiuesve. Megjithatë, ata nuk e ndajnë të gjitha të dhënat e tyre; përkundrazi, ata "anonime" atë duke hequr informacion të tillë si emrin dhe adresën. Megjithatë, ata lanë informacione të tjera që kanë menduar mund të jenë të dobishme për studiuesit të tilla si informacion demografik (kod postar, data e lindjes, përkatësinë etnike dhe gjinisë) dhe informacionit mjekësor (të dhënat e vizitave, diagnozën, procedurën) (Figura 6.4) (Ohm 2010) . Për fat të keq, kjo "anonimitetin" nuk ishte e mjaftueshme për të mbrojtur të dhënat.

Figura 6.4: anonymization është procesi i heqjes padyshim identifikimin e informacionit. Për shembull, kur liruar të dhënat mjekësore të sigurimit të punonjësve të shtetit Group Komisioni i Sigurimeve Massachusetts (GIC) hequr emrin dhe adresën nga dosjet. I përdorur citate rreth anonymization fjalës sepse procesi i jep pamjen e anonimitetit, por jo anonimitetin aktuale.

Figura 6.4: "anonimitetin" është procesi i heqjes padyshim identifikimin e informacionit. Për shembull, kur liruar të dhënat mjekësore të sigurimit të punonjësve të shtetit Group Komisioni i Sigurimeve Massachusetts (GIC) hequr emrin dhe adresën nga dosjet. I përdorni kuotat rreth fjalës "anonymization" për shkak se procesi i jep pamjen e anonimitetit, por jo anonimitetin aktuale.

Për të ilustruar të metat e "anonymization" GIC, Latanya Sweeney-atëherë një student i diplomuar në MIT-paguar $ 20 në të marrë të dhënat e votimit nga qyteti i Kembrixhit, qytetin e lindjes të Massachusetts guvernatorit William bashkoj. Këto shënime votimit përfshirë informacion të tillë si emrin, adresën, kod postar, data e lindjes dhe gjinisë. Fakti se dosja mjekësore e të dhënave dhe fotografi votuesi përbashkët Kodi fusha-zip, data e lindjes, dhe sex-do të thotë se mund të Sweeney lidhjen e tyre. Sweeney e dinte se ditëlindja bashkoj s ishte 31 July 1945, dhe të dhënat e votimit të përfshira vetëm gjashtë njerëz në Kembrixh me atë ditëlindjen. Për më tepër, nga këto gjashtë persona, vetëm tre ishin meshkuj. Dhe, nga ata tre burra, vetëm një të përbashkët kodin bashkoj së zip. Kështu, të dhënat e votimit treguan se dikush në të dhënat mjekësore me kombinimin e data e lindjes, gjinia, dhe kodi zip bashkoj ishte William Weld. Në thelb, këto tri pjesë të informacionit të dhënë një gjurmë gishtash të veçantë tek ai në të dhënat. Duke përdorur këtë fakt, Sweeney ishte në gjendje për të gjetur të dhënat mjekësore bashkoj së, dhe për të informuar atë feat saj, ajo dergohet atij një kopje të dhënat e tij (Ohm 2010) .

Figura 6.5: Re-idenification të dhënave anonime. Latanya Sweeney kombinuar të dhënat anonime shëndetësore me të dhënat e votimit në mënyrë që të gjeni të dhënat mjekësore të guvernatorit William Weld (Sweeney 2002).

Figura 6.5: Re-idenification e "anonime" të dhënat. Latanya Sweeney kombinuar "anonim" të dhënat shëndetësore me të dhënat e votimit në mënyrë që të gjeni të dhënat mjekësore të guvernatorit William Weld (Sweeney 2002) .

Puna Sweeney ilustron strukturën bazë e sulmeve de-anonymization -për të miratojë një mandat nga komuniteti të sigurisë kompjuterike. Në këto sulme, dy grupe të të dhënave, asnjëra prej të cilave në vetvete zbulon informata të ndjeshme, janë të lidhura, dhe përmes kësaj lidhjeje, informatat e ndjeshme është e ekspozuar. Në disa mënyra ky proces është i ngjashëm me mënyrën se si sode buke dhe uthull, dy substanca që janë vetë të sigurt, mund të kombinohen për të prodhuar një rezultat të keqe.

Në përgjigje të punës së Sweeney-it, dhe punë të tjera lidhur me këtë, studiuesit tani përgjithësisht të hequr sa më shumë informatave të gjithë ashtuquajturin "informacion personalisht të Identifikimi" (PII) (Narayanan and Shmatikov 2010) -Gjatë procesin e "anonymization." Më tej, shumë studiues tani të kuptojnë se disa të dhënave të tilla si të dhënat mjekësore, të dhënat financiare, përgjigjet në pyetjet e hulumtimit rreth paligjshme sjellje-ndoshta është shumë e ndjeshme për të lëshuar edhe pas "anonymization." Megjithatë, shembujt më e fundit që unë do të përshkruajnë më poshtë tregojnë se studiuesit sociale duhet të ndryshojnë të menduarit e tyre. Si hap i parë, ai është i mençur për të supozojmë se të gjitha të dhënave është potencialisht i identifikueshëm dhe të gjitha të dhënave është potencialisht e ndjeshme. Me fjalë të tjera, në vend se duke menduar se rreziku informative vlen për një mesin e vogël të projekteve, ne duhet të supozojmë se ai zbatohet, në një farë mase, për të gjitha projektet.

Të dy aspekte të këtij ri-orientim janë ilustruar me Çmimin Netflix. Siç përshkruhet në Kapitullin 5, Netflix lëshuar 100 milionë ratings film ofruara nga pothuajse 500.000 anëtarë, dhe kishte një thirrje të hapur ku njerëzit nga e gjithë bota paraqitur algoritme që mund të përmirësojnë aftësinë Netflix për të rekomanduar filma. Para se të liruar të dhënat, Netflix hequr ndonjë informacion të qartë personalisht-identifikuese, të tilla si emrat. Netflix gjithashtu shkoi një hap shtesë dhe futi perturbations të vogla në disa nga të dhënat (p.sh., duke ndryshuar disa vlerësime nga 4 yje për 3 yje). Netflix zbulua shpejt, megjithatë, se me gjithë përpjekjet e tyre, të dhënat kanë qenë aspak anonim.

Vetëm dy javë pas të dhënave u liruan Narayanan and Shmatikov (2008) tregoi se ishte e mundur për të mësuar në lidhje me preferencat e filmit njerëz të veçantë s. Mashtrim për sulmin e tyre të ri-identifikimit ishte e ngjashme me Sweeney-së: bashkojë së bashku dy burimet e informacionit, një me informacion potencialisht të ndjeshme si dhe asnjë informatë padyshim identifikues dhe një që përmban identitetin e njerëzve. Secila prej këtyre burimeve të të dhënave mund të jetë individualisht i sigurt, por kur ata janë të kombinuara dataset bashkuar mund të krijojë rrezik informative. Në rastin e të dhënave Netflix, këtu është se si kjo mund të ndodhë. Paramendoni se unë zgjedh për të ndarë mendimet e mia në lidhje me veprimin dhe filma komedi me mia bashkë-punëtorëve, por unë preferoj të mos e ndajnë mendimin tim në lidhje me filmat fetare dhe politike. Mia bashkë-punëtorëve mund të përdorim informacionin që unë kam të përbashkët me ta për të gjetur të dhënat e mia në të dhënat Netflix; informacioni që unë ndajnë mund të jetë një gjurmë gishtash të veçantë vetëm si data e William Weld e lindjes, kod postar, dhe seksi. Pastaj, nëse ata gjejnë gishtit tim unik në të dhënat, ata mund të mësojnë ratings e mia për të gjithë filmat, duke përfshirë filma ku unë nuk zgjedhin për të ndarë. Përveç këtij lloj sulmi shënjestër fokusuar në një person të vetëm, Narayanan and Shmatikov (2008) gjithashtu tregoi se ishte e mundur për të bërë një-një të gjerë sulm që përfshin shumë njerëz, duke shkrirë të dhëna Netflix me të dhënat e vlerësimit personale dhe film se disa njerëzit kanë zgjedhur për të postuar në Database Internet Movie (IMDb). Çdo informacion që është e gishtave unike të personit-madje specifike grup e tyre të film ratings-mund të përdoret për të identifikuar ato.

Edhe pse të dhënat Netflix mund të ri-identifikohen në një sulm në shënjestër apo të gjerë, ajo ende mund të duket të jetë me rrezik të ulët. Në fund të fundit, ratings film nuk duket shumë e ndjeshme. Ndërkohë që mund të jetë e vërtetë në përgjithësi, për disa nga 500.000 njerëzve në dataset, ratings film mund të jetë mjaft e ndjeshme. Në fakt, në përgjigje të de-anonymization një grua closeted lezbike bashkua një kostum klasë-veprimit kundër Netflix. Ja se si problemi u shprehur në padinë e tyre (Singel 2009) :

"[M] ovie dhe vlerësim të dhënave përmban informata të një natyre më shumë personale dhe të ndjeshme [sic]. të dhënat Filmi e anëtarit ekspozon interes personal një anëtari Netflix dhe / ose lufton me çështje të ndryshme shumë personale, duke përfshirë seksualitetin, sëmundje mendore, shërim nga alkoolizmi, dhe viktimizimi nga incesti, abuzimi fizik, dhuna në familje, tradhti bashkëshortore, dhe përdhunim. "

De-anonimitetin e të dhënave Çmimit Netflix tregon edhe se të gjitha të dhënave është potencialisht i identifikueshëm dhe se të gjitha të dhënave është potencialisht e ndjeshme. Në këtë pikë, ju mund të mendoni se kjo vlen vetëm për të dhëna se që pretendon të jetë rreth njerëzve. Çuditërisht, kjo nuk është rasti. Në përgjigje të një kërkesë ligjit Informacione, New York City Government lëshuar të dhënat e çdo udhëtim taksi në Nju Jork në vitin 2013, duke përfshirë edhe përmirësim dhe ndalem herë, vende, dhe sasi të fare (risjell nga kapitulli 2 që Farber (2015) përdorur këto të dhëna për të provuar teoritë e rëndësishme në ekonomi e punës). Edhe pse këto të dhëna në lidhje me udhëtimet e taksive mund të duket i mirë, sepse ajo nuk duket të jetë informacion në lidhje me njerëzit, Anthony Tockar kuptuan se kjo dataset taksi në fakt përmban shumë informacion potencialisht të ndjeshme në lidhje me njerëzit. Për të ilustruar, ai dukej në të gjitha udhëtimet filluar në The Hustler Club-një klub të madh zhvesh në New York-ndërmjet mesnatës dhe 6 të mëngjesit dhe më pas gjeti vendet e tyre drop-off. Ky kërkim zbuluar, në thelb-listën e adresave të disa njerëzve të cilët frekuentojnë The Hustler Club (Tockar 2014) . Është e vështirë të imagjinohet se qeveria e qytetit ka pasur këtë në mendje kur është lëshuar të dhëna. Në fakt, kjo teknikë njëjta gjë mund të përdoret për të gjetur adresat në shtëpi të njerëzve që vizitojnë çdo vend në qytet-një klinikë mjekësore, një ndërtesë qeveritare, apo një institucion fetar.

Këto dy raste-çmimin Netflix dhe New York City taxi dhënave tregojnë se njerëzit relativisht të aftë dështuar të saktë të vlerësuar rrezikun informues në të dhënat që kanë lëshuar, dhe këto raste janë në asnjë mënyrë të veçantë (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Për më tepër, në shumë nga këto raste, të dhënat problematike është ende lirisht në dispozicion në internet, duke treguar vështirësitë e ndonjëherë zhbërë një njoftim të dhënave. Kolektivisht këto shembuj-si dhe hulumtimit në shkencat kompjuterike në lidhje me privacy-të çon në një përfundim të rëndësishëm. Studiuesit duhet të supozojmë se të gjitha të dhënave është potencialisht i identifikueshëm dhe të gjitha të dhënave është potencialisht e ndjeshme.

Për fat të keq, nuk ka zgjidhje të thjeshtë për faktin se të gjitha të dhënat është potencialisht e identifikueshme dhe të gjitha të dhënat është potencialisht të ndjeshme. Megjithatë, një mënyrë për të zvogëluar rrezikun e informacionit, ndërsa ju jeni duke punuar me të dhënat është që të krijojë dhe të ndjekin një plan për mbrojtjen e të dhënave. Ky plan do të zvogëlon mundësinë që të dhënat tuaja do të rrjedhje dhe do të ulet dëmin në qoftë se një rrjedhje disi ndodh. Specifikat e planeve të mbrojtjes së të dhënave, të tilla si se cila formë e encryption për të përdorur, do të ndryshojë me kalimin e kohës, por Data Services UK helpfully organizon elementet e një plani për mbrojtjen e të dhënave në 5 kategori që ata e quajnë 5 safes: projekte të sigurta, njerëzit të sigurt , parametrat e sigurt, të dhëna të sigurta, dhe rezultatet e sigurta (Tabela 6.2) (Desai, Ritchie, and Welpton 2016) . Asnjë nga pesë kasafortave individualisht të sigurojë mbrojtje të përkryer. Por, së bashku ata formojnë një grup të jashtëzakonshëm të faktorëve që mund të ulin rrezikun e informative.

Tabela 6.2: Të 5 safes janë parimet për hartimin dhe zbatimin e një plan për mbrojtjen e të dhënave (Desai, Ritchie, and Welpton 2016) .
i sigurt veprim
projekte të sigurta kufizon projektet me të dhëna për ata që janë etike
njerëzit të sigurta qasja është e kufizuar për njerëzit që mund të jenë të besuar me të dhënat (p.sh., njerëzit i janë nënshtruar trajnimit etike)
të dhënave të sigurta të dhënave është de-identifikuar dhe janë grumbulluar në masën e mundshme
settings sigurt dhënave është e ruajtur në kompjuter me e përshtatshme fizike (p.sh., dhomë të mbyllur) dhe softuer (p.sh., mbrojtjen password, Encrypted) mbrojtje
output Safe dalje hulumtim rishikohet për të parandaluar aksidentalisht shkeljet e privatësisë

Përveç mbrojtjes së të dhënave tuaja, ndërsa ju jeni duke e përdorur atë, një hap në procesin e hulumtimit, ku rreziku informative është veçanërisht i spikatur është shkëmbimi i të dhënave me studiues të tjerë. shkëmbimi i të dhënave në mesin e shkencëtarëve është një vlerë thelbësore e përpjekjeve shkencore, dhe ajo në masë të madhe objektet avancimin e njohurive. Ja se si Dhoma e Komuneve UK përshkruar rëndësinë e shkëmbimit të të dhënave:

"Qasja në të dhëna është thelbësore në qoftë se studiuesit janë për të riprodhuar, të verifikuar dhe për të ndërtuar në rezultatet që janë raportuar në literaturë. Supozimi duhet të jetë që, nëse nuk ka një arsye të fortë ndryshe, të dhënat duhet të shpaloset plotësisht dhe vihen në dispozicion të publikut. Në përputhje me këtë parim, kur të jetë e mundur, të dhënat që lidhen me të gjitha hulumtimet e financuar publikisht duhet të bëhet gjerësisht dhe të lirë në dispozicion. " (Molloy 2011)

Megjithatë, duke ndarë të dhënat tuaja me një tjetër studiues, ju mund të rritur rrezikun informative për pjesëmarrësit tuaj. Kështu, mund të duket se studiuesit të cilët dëshirojnë për të ndarë të dhënat e tyre, ose janë të nevojshme për të ndarë të dhënat e tyre, po përballen me një tension themelor. Nga njëra anë ata kanë një detyrim etik për të ndarë të dhënat e tyre me shkencëtarë të tjerë, veçanërisht në qoftë se hulumtimi origjinal është financuar publikisht. Megjithatë, në të njëjtën kohë, shkencëtarët kanë një detyrim etik për të minimizuar sa më shumë të jetë e mundur, rreziku informacioni për pjesëmarrësit e tyre.

Për fat të mirë, kjo dilemë nuk është aq e rëndë sa duket. Është e rëndësishme që të mendojnë për ndarjen së bashku një vazhdimësi nga asnjë shkëmbimin e të dhënave për lirimin dhe të harrojmë, ku të dhënat është "anonime" dhe postuar për të gjithë për të hyrë në të dhëna (Figura 6.6). Të dyja këto pozicione ekstreme kanë rreziqet dhe përfitimet. Kjo është, ajo nuk është automatikisht gjëja më e etike për të mos ndarë të dhënat tuaja; një qasje e tillë eliminon shumë përfitime potenciale për shoqërinë. Pas kthimit në Shijoni, lidhjet, dhe Time, një shembull diskutuar më herët në kapitullin, argumente kundër lirimit të të dhënave që përqendrohen vetëm në dëmet e mundshme dhe se injorojnë përfitimet e mundshme janë tepër të njëanshme; Unë do të përshkruaj probleme me këtë qasje të njëanshme, tepër mbrojtëse më hollësisht në më poshtë, kur unë të ofrojë këshilla për marrjen e vendimeve në fytyrën e pasigurisë (Seksioni 6.6.4).

Figura 6.6: Strategjitë lirimin e të dhënave mund të bien së bashku një vazhdimësi. Ku ju duhet të jetë së bashku këtë vazhdimësi varet nga detajet specifike të të dhënave tuaja. Në këtë rast, rishikimi palë e tretë mund t'ju ndihmojë të vendosni ekuilibrin e duhur të rrezikut dhe të përfitojnë në rastin tuaj.

Figura 6.6: Strategjitë lirimin e të dhënave mund të bien së bashku një vazhdimësi. Ku ju duhet të jetë së bashku këtë vazhdimësi varet nga detajet specifike të të dhënave tuaja. Në këtë rast, rishikimi palë e tretë mund t'ju ndihmojë të vendosni ekuilibrin e duhur të rrezikut dhe të përfitojnë në rastin tuaj.

Më tej, në mes të këtyre dy raste ekstreme është ajo që unë do të quhet një qasje mur kopsht ku të dhënat është e ndarë me njerëz të cilët i plotësojnë kriteret e caktuara dhe që bien dakord për t'u lidhur me rregulla të caktuara (p.sh., mbikëqyrja nga një BPR dhe një planet për mbrojtjen e të dhënave) . Kjo qasje mur Kopsht ofron shumë nga të mirat e lirimit dhe të harrojmë me më pak rrezik. Natyrisht, një qasje mur kopsht krijon shumë pyetje-të cilët duhet të kenë qasje, në çfarë kushtesh, për sa kohë, që duhet të paguajë për të ruajtur dhe policisë kopsht me mure etj, por këto nuk janë të pakapërcyeshme. Në fakt, ka tashmë janë duke punuar kopshte mure në vend që studiuesit mund të përdorni të drejtë tani, të tilla si arkivin e të dhënave të Konsorciumit të Inter-universitar për hulumtime politike dhe sociale në Universitetin e Miçiganit.

Pra, aty ku duhet të dhënat nga studimi juaj të jetë në vazhdimësi e jo ndarjes, kopsht të rrethuar me mure, dhe lirimin dhe të harrojmë? Kjo varet nga detajet e të dhënave tuaja; Kërkuesit duhet të bilancit Respektimi i Personave, bamirësisë, drejtësisë dhe respektimin e ligjit dhe interesit publik. Gjatë vlerësimit ekuilibrin e duhur për vendimet e tjera studiuesit kërkojë këshilla dhe miratimin e IRBs, dhe lirimin e të dhënave mund të jetë vetëm një pjesë e atij procesi. Me fjalë të tjera, edhe pse disa njerëz mendojnë për lirimin e të dhënave si një batak të pashpresë etike, ne tashmë kanë sisteme në vend për të ndihmuar studiuesit të balancuar këto lloj dilema etike.

Një mënyrë e fundit për të menduar në lidhje me ndarjen e të dhënave është me analogji. Çdo makina vit janë përgjegjëse për mijëra të vdekur, por nuk përpiqet për të ndaluar makinës. Në të vërtetë, një thirrje e tillë për të ndaluar makinës do të ishte absurde, sepse ngarje mundëson shumë gjëra të mrekullueshme. Përkundrazi, shoqëria vendos kufizime në të cilët mund të përzënë (p.sh., duhet të jetë një moshë të caktuar, duhet të ketë kaluar teste të caktuara), dhe se si ata mund të përzënë (p.sh., nën kufirin e shpejtësisë). Shoqëria gjithashtu ka njerëz të ngarkuara me zbatimin e këtyre rregullave (p.sh., të policisë), dhe ne i dënojmë njerëzit që janë kapur duke shkelur ato. Ky njëjti lloj i të menduarit të balancuar që shoqëria zbatohet për rregullimin e makinës mund të aplikohet edhe për ndarjen e të dhënave. Kjo është, në vend se duke e bërë argumente absolutist për ose kundër shkëmbimin e të dhënave, unë mendoj se përfitimet më të mëdha do të vijnë nga parafytyruar se si ne mund të ndajnë më shumë të dhëna më të sigurtë.

Për të përfunduar, rreziku informative është rritur në mënyrë dramatike, dhe kjo është shumë e vështirë për të parashikuar dhe të përcaktoj sasinë. Prandaj, është mirë që të supozojmë se të gjitha të dhënat është potencialisht i identifikueshëm dhe potencialisht të ndjeshme. Për të ulur rrezikun informative duke bërë hulumtime, studiuesit mund të krijojë dhe të ndjekin një plan për mbrojtjen e të dhënave. Për më tepër, rreziku informative nuk i pengon hulumtuesit nga ndarjen e të dhënave me shkencëtarë të tjerë.