6.6.2 Pochopení a správa informační riziko

Informace o riziko je nejčastějším rizikem sociálního výzkumu; že se dramaticky zvýšila; a to je nejtěžší riziko rozumět.

Druhý etická výzva pro digitální výzkumu v sociálních věku je informační riziko, potenciál pro poškození od zpřístupnění informací (Council 2014) . Informační Harms od zveřejnění osobních informací by mohly být ekonomické (například ztráta zaměstnání), sociální (např rozpaky), psychologický (např deprese), nebo dokonce kriminální (např zatčení nezákonné chování). Bohužel, v digitálním věku zvyšuje riziko informací dramaticky, tam je tak mnohem více informací o našem chování. A informační rizika se ukázala být velmi obtížné pochopit a řídit ve srovnání s riziky, které byly obavy z analogového věku sociálního výzkumu, jako je například fyzické nebezpečí. Chcete-li vidět, jak v digitálním věku zvyšuje riziko informační, zvažte přechod od papíru na elektronické lékařské záznamy. Oba typy záznamů vytvářejí riziko, ale elektronické dokumenty vytvářet mnohem větší rizika, protože v masovém měřítku mohou být předány neoprávněnou osobou nebo sloučeny s jinými záznamy. Sociální vědci v digitálním věku již narazit na problémy s informační rizika, a to zčásti proto, že nebyly plně pochopit, jak kvantifikovat a řídit jej. Takže, jdu nabídnout užitečný způsob, jak přemýšlet o informační rizika, a pak jdu dát nějaké rady pro jak řídit informační rizika ve svém výzkumu a uvolnění dat s jinými výzkumníky.

Jedním ze způsobů, že sociální vědci snížit informační riziko je "anonymizace" dat. "Anonymizace" je proces odstraňování zjevné osobní identifikátory, jako je jméno, adresa a telefonní číslo z dat. Nicméně, tento přístup je mnohem méně efektivní než mnoho lidí si uvědomit, a to je, ve skutečnosti, hluboce a zásadně omezen. Z tohoto důvodu, když jsem popsal "anonymizaci," budu používat uvozovky vám připomenout, že tento proces vytváří dojem anonymity ale není pravda anonymity.

Názorným příkladem selhání "anonymizace" pochází z pozdní 1990 v Massachusetts (Sweeney 2002) . Skupina pojištění Komise (GIC) byl vládní agentura zodpovědná za nákup zdravotní pojištění pro všechny zaměstnance státní správy. Prostřednictvím této práce GIC shromážděny podrobné zdravotní záznamy o tisíce státních zaměstnanců. Ve snaze pobídnout výzkum o způsobech, jak zlepšit zdraví, GIC rozhodla o uvolnění těchto záznamů pro výzkumné pracovníky. Nicméně, oni nesdíleli všichni jejich údajů; poněkud, oni "anonymní" to tím, že odstraní informace, jako je jméno a adresa. Nicméně, oni opustili další informace, které si mysleli, že by mohly být užitečné pro výzkumné pracovníky, jako jsou demografické údaje (poštovní směrovací číslo, datum narození, etnický původ, a pohlaví) a zdravotnických informací (dat návštěva, diagnostiku, řízení) (obrázek 6.4) (Ohm 2010) . Bohužel, toto "anonymizace" nestačila k ochraně dat.

Obrázek 6.4: Anonymizace je proces odstraňování zřejmě identifikačních informací. Například při uvolnění zdravotní pojištění evidenci státních zaměstnanců Massachusetts Group Insurance komise (GIC) odstraněna jména a adresy ze souborů. I použít uvozovky kolem slova anonymizace, protože proces poskytuje vzhled anonymity, ale ne skutečné anonymity.

Obrázek 6.4: "Anonymizace" je proces odstraňování zřejmě identifikačních informací. Například při uvolnění zdravotní pojištění evidenci státních zaměstnanců Massachusetts Group Insurance komise (GIC) odstraněna jména a adresy ze souborů. Používám uvozovky kolem slova "anonymizace", protože proces poskytuje vzhled anonymity, ale ne skutečné anonymity.

Pro ilustraci nedostatky GIC "anonymizace" Latanya Sweeney, pak postgraduální student na MIT placené $ 20 získat záznamy hlasovací od města Cambridge, rodné město Massachusetts guvernér William Weld. Tato hlasovací záznamy zahrnuty informace, jako je jméno, adresa, poštovní směrovací číslo, datum narození a pohlaví. Skutečnost, že lékařská datový soubor a volič soubor sdílené pole, poštovní směrovací číslo, datum narození a pohlaví znamenalo, že Sweeney je mohli propojit. Sweeney věděl, že svar narozeniny byl 31.července 1945, a hlasovací záznamy byly zahrnuty pouze šest lidí v Cambridge s tímto narozeniny. Dále je z těch šesti lidí, pouze tři z nich byli muži. A z těchto tří mužů, jen jedna společná svar je poštovní směrovací číslo. Tak, data hlasování ukázala, že někdo z lékařských údajů s kombinací svařovat ze datum narození, pohlaví a poštovním směrovacím číslem byl William Weld. V podstatě, tyto tři kusy informací za předpokladu, jedinečný otisk prstu k němu v datech. Použití této skutečnosti, Sweeney byl schopen lokalizovat lékařské záznamy svařovat, a aby ho informoval o její čin, mu poslal kopii své evidence (Ohm 2010) .

Obrázek 6.5: Re-idenification anonymních dat. Latanya Sweeney kombinaci anonymizovaného zdravotních záznamů s hlasovacími záznamů s cílem nalézt lékařské záznamy guvernér William Weld (Sweeney 2002).

Obrázek 6.5: Re-idenification z "anonymních" údajů. Latanya Sweeney kombinoval "anonymních" zdravotních záznamů s hlasovacími záznamů s cílem nalézt lékařské záznamy guvernér William Weld (Sweeney 2002) .

Sweeney práce znázorňuje základní strukturu de-anonymizaci útoky -to přijmout termín z počítačové bezpečnostní komunity. V těchto útoků, dva datové sady, z nichž ani jeden samo o sobě odhaluje citlivé informace, jsou propojeny, a prostřednictvím této vazby, citlivé informace je vystavena. V některých ohledech je tento proces je podobný způsobu, jedlá soda a ocet, dvě látky, které jsou samy o sobě v bezpečí, mohou být kombinovány k vytvoření ošklivý výsledek.

V reakci na Sweeney práce a další související práce, vědci nyní obecně odstranit mnohem více informací podporující všechny takzvané "osobních identifikačních údajů" (PII) (Narayanan and Shmatikov 2010) -during proces "anonymizace". Dále, mnoho výzkumníků nyní Uvědomujeme si, že určitá data-, jako jsou lékařské záznamy, finanční záznamy, odpovědi na otázky v průzkumu ohledně nezákonného jednání, je pravděpodobně příliš citlivý na uvolnění dokonce i po "anonymizace". Nicméně další nedávné příklady, které budu popisovat dále naznačují, že sociální vědci potřebují změnit své myšlení. Jako první krok, je rozumné předpokládat, že všechna data jsou potenciálně identifikovatelná a všechna data jsou potenciálně citlivé. Jinými slovy, spíše než na mysli, že informační riziko, se vztahuje na malou podmnožinu projektů, měli bychom předpokládat, že to platí, do určité míry, na všechny projekty.

Oba aspekty této změně orientace jsou znázorněny na Netflix cenu. Jak je popsáno v kapitole 5, Netflix uvolní 100 milionů filmových ratingů téměř 500.000 členů, a měl otevřenou výzvu, kde lidé z celého světa předložené algoritmy, které by mohly zlepšit schopnost Netflix je doporučit filmy. Před uvolněním data, Netflix vyloučilo samozřejmě osobní identifikační údaje, jako jsou jména. Netflix také šel krok navíc a představil mírné nepokojům v některé záznamy (např kterým se mění některé rating od 4 hvězdičky 3 hvězdičky). Netflix brzy zjistil však, že navzdory své snaze údaje byly v žádném případě v anonymitě.

Jen dva týdny po datech byly propuštěny Narayanan and Shmatikov (2008) ukázal, že to bylo možné, aby se dozvěděli o filmu preferencí specifických lidí. Trik k jejich re-identifikace útok byl podobný Sweeney je: spojit dohromady dvě informační zdroje, jeden s potenciálně citlivým informacím a bez samozřejmě identifikačními údaji a ten, který obsahuje identitu lidí. Každý z těchto zdrojů údajů může být individuálně v bezpečí, ale když jsou kombinovány vzniklý spojením datová sada může vytvořit informační riziko. V případě údajů Netflix, tady je návod, jak se to mohlo stát. Představte si, že jsem se rozhodl podělit o své myšlenky o akce a filmy komedie s mými spolupracovníky, ale raději bych se podělit o svůj názor o náboženských a politických filmů. Mí spolupracovníci mohli využít informace, které Sdílím s nimi najít své záznamy v datovém Netflix; Informace, které sdílím mohl být jedinečný otisk prstu, stejně jako William Weld datem narození, poštovní směrovací číslo, a pohlaví. Pak, když zjistí, můj otisk prstu v datech, mohou naučit své ratingy o všech filmů, včetně filmů, kde jsem se rozhodnou sdílet. Kromě tohoto druhu cíleného útoku zaměřeného na jedné osobě, Narayanan and Shmatikov (2008) také ukázal, že to bylo možné provést široký útočný-onu zahrnující mnoho lidí-sloučením dat Netflix s osobními a filmovými parametrech, že některé lidé si vybrali napíše na internetové filmové databáze (IMDb). Veškeré informace, které je unikátní otisk prstu k určité osobě, dokonce i jejich sadě hodnocení filmů, mohou být použity k jejich identifikaci.

, I když vždy Netflix může být znovu označeny buď v cílené nebo široké útoku, se ještě může zdát, že je nízké riziko. Koneckonců, filmové hodnocení nezdají velmi citlivá. I když to může být pravda v Obecně platí, že pro některé z 500.000 lidí v datovém souboru, filmové hodnocení by mohlo být docela citlivý. Ve skutečnosti, v reakci na de-anonymizace closeted lesbická žena se připojil k hromadné žaloby oblek proti Netflix. Zde je návod, jak byl tento problém vyjádřen ve své žalobě (Singel 2009) :

"[M] ovie a hodnocení dat obsahuje informace, které mají více vysoce osobní a citlivé povaze [sic]. Film Data dílce se vystavuje Netflix člena osobní zájem a / nebo boje s různými vysoce osobní problémy, včetně sexuality, duševní nemoci, uzdravení z alkoholismu a pronásledování z incestu, týrání, domácí násilí, cizoložství a znásilnění. "

De-anonymizace dat Netflix Prize ilustruje, jak že všechna data jsou potenciálně identifikovatelná a že všechna data jsou potenciálně citlivé. V tomto okamžiku byste si mohli myslet, že to platí pouze k údajům, že údajně je o lidech. Překvapivě, to není tento případ. V reakci na svobodném přístupu k žádosti informace Právo, New York City vláda vydala záznamy o každém taxi jízdu v New Yorku v roce 2013, včetně vyzvednutí a odjet časy, místa a jízdné částky (odvolání z kapitoly 2 vyplývá, že Farber (2015) používá tato data k testování důležitých teorií práce ekonomii). I když jsou tato data o taxi cestách se mohlo zdát neškodná, protože se nezdá být informace o lidech, Anthony Tockar si uvědomil, že toto taxi datové sady skutečně obsahovala velké množství potenciálně citlivých informací o lidech. Pro ilustraci, když se podíval na všech cest začíná v Hustler Club-velké striptýzového klubu v New Yorku mezi půlnocí a 6 hodin ráno a pak našel své drop-off umístění. Toto hledání odhalil-in-podstatě seznamu adres některých lidí, kteří navštěvují Hustler klub (Tockar 2014) . Je těžké si představit, že město vláda měla toto na paměti, když se uvolní data. Ve skutečnosti je to stejný postup by mohl být použit k nalezení domovské adresy lidí, kteří navštíví jakékoliv místo v centru-lékařské kliniky, vládní budovy, nebo náboženské instituce.

Tyto dva případy-Netflix cenu a New York City taxi dat ukazují, že relativně kvalifikovaní lidé se nepodařilo správně odhadnout informační riziko v datech, která jsou uvolněné, a tyto případy jsou v žádném případě jedinečné (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Dále, v mnoha z těchto případů je problematická data stále volně k dispozici on-line, což znamená, že je obtížné vůbec vrácení uvolnění dat. Kolektivně tyto příklady-, jakož i výzkum v oblasti počítačové vědy o ochranu soukromí vede k významnému závěru. Výzkumní pracovníci by měli předpokládat, že všechna data jsou potenciálně identifikovatelná a všechna data jsou potenciálně citlivé.

Bohužel, neexistuje jednoduché řešení k tomu, že všechna data jsou potenciálně identifikovatelné a všechna data jsou potenciálně citlivé. Nicméně, jediný způsob, jak snížit riziko informací při práci s daty je vytvořit a dodržovat plán ochrany osobních údajů. Tento plán se snižuje pravděpodobnost, že vaše data budou unikat a sníží škody, pokud nějakým způsobem dojde k úniku. Specifika plánů na ochranu osobních údajů, jako je například jakou formu šifrování k použití, se bude měnit v průběhu času, ale ve Velké Británii Datové služby ochotně organizuje prvky plánu pro ochranu údajů do 5 kategorií, které oni volají 5 trezory: Bezpečný projektů, bezpečné lidí , bezpečné nastavení, trezor dat a bezpečné výstupy (tabulka 6.2) (Desai, Ritchie, and Welpton 2016) . Žádný z pěti trezorů individuálně poskytují dokonalou ochranu. Ale, dohromady tvoří výkonnou sadu faktorů, které mohou snížit riziko informační.

Tabulka 6.2: 5 trezory jsou zásady pro navrhování a provádění ochrany údajů plán (Desai, Ritchie, and Welpton 2016) .
Trezor Akce
bezpečné projekty omezuje projekty s daty na ty, které jsou etické
bezpečné lidé Přístup je omezen na osoby, které mohou být důvěryhodnými s daty (např lidí prošly etický výcvik)
Zabezpečení dat Data de-identifikován a sčítá tak, aby v maximální možné míře
bezpečné nastavení Data jsou uložena v počítačích s vhodnými fyzikálními (např zamčené místnosti) a software (např ochrana heslem, šifrovaný) ochrany
bezpečný výstup Výzkum výstup je přezkoumán, aby se zabránilo náhodnému porušení ochrany osobních údajů

Kromě ochrany dat, zatímco vy jej používáte, jedním krokem v procesu výzkumu, kde Informační Riziko je zvláště výběžku je sdílení dat s jinými výzkumníky. sdílení dat mezi vědci je jednou ze základních hodnot vědecké úsilí, a to výrazně zařízení povýšení znalostí. Zde je návod, jak britská House of Commons popsal význam sdílení dat:

"Přístup k údajům je zásadní, pokud výzkumníci mají reprodukovat, ověřovat a navázat na výsledky, které jsou uvedeny v literatuře. Domněnka, že musí být, pokud existuje pádný důvod jinak, data by měla být plně zveřejněny a zpřístupněny veřejnosti. V souladu s touto zásadou, kde by mělo být umožněno, data spojená se všemi veřejně financovaného výzkumu široce a volně dostupné. " (Molloy 2011)

Přesto se sdílením dat s jiným výzkumným pracovníkem, může být zvyšování informační riziko svým účastníkům. Může se tedy zdát, že výzkumní pracovníci, kteří chtějí sdílet svá data, nebo které jsou vyžadovány sdílet své údaje o-čelí zásadní napětí. Na jedné straně mají etickou povinnost sdílet svá data s jinými vědci, a to zejména v případě, že původní výzkum je financován z veřejných zdrojů. Zatím, ve stejné době, vědci mají etickou povinnost, aby se minimalizovalo, jak je to jen možné, informace riziko jejich účastníků.

Naštěstí toto dilema není tak vážná, jak se zdá. Je důležité myslet na sdílejí podél kontinua od žádné sdílení dat uvolnit a zapomenout, kde jsou data "anonymizovány" a vyslán, aby někdo přístup k údajům (obr 6.6). Oba tyto krajních polohách mají rizika a přínosy. To znamená, že není automaticky nejvíce etické věc nesdílí vaše data; Takový přístup eliminuje mnoho potenciálních přínosů pro společnost. Vrátíme-li chuť, Kravaty, a čas, příklad diskutovali dříve v této kapitole, argumenty proti úniku dat, které se zaměřují pouze na možné škody a že ignorují možné výhody jsou příliš jednostranný; Budu popisovat problémy s tímto jednostranný, příliš ochranného přístupu podrobněji níže, když jsem se poradí o rozhodování tváří v tvář nejistotě (§ 6.6.4).

Obrázek 6.6: Strategie úniku dat může spadnout podél kontinua. Kde byste měli být spolu toto kontinuum závisí na konkrétních detailech vašich dat. V tomto případě přezkoumání třetí strana vám může pomoci rozhodnout o vhodnou rovnováhu mezi rizikem a přínosem ve vašem případě.

Obrázek 6.6: Strategie úniku dat může spadnout podél kontinua. Kde byste měli být spolu toto kontinuum závisí na konkrétních detailech vašich dat. V tomto případě přezkoumání třetí strana vám může pomoci rozhodnout o vhodnou rovnováhu mezi rizikem a přínosem ve vašem případě.

Dále mezi těmito dvěma extrémních případech je to, co budu volal obezděné zahrady přístup, kdy jsou data sdílena s lidmi, kteří splňují určitá kritéria a které souhlasí s tím být vázán určitými pravidly (např dohled od IRB a A plány na ochranu údajů) , Tento zděný zahradní přístup poskytuje mnoho výhod uvolňování a zapomenout s menším rizikem. Samozřejmě, obezděné zahrady postup vytváří mnoho otázek-, kteří by měli mít přístup, za jakých podmínek, za jak dlouho, kdo by měl platit udržovat a hlídat obezděné zahrady atd, ale ty nejsou nepřekonatelné. Ve skutečnosti, tam již pracují obezděné zahrady na místě, že výzkumní pracovníci mohou používat právě teď, jako je archivu dat Meziuniverzitní Konsorcium pro politickou a sociální výzkum na University of Michigan.

Takže, pokud by se údaje z vaší studie být na kontinuu bez sdílení, obezděné zahrady, a uvolnit a zapomenout? To závisí na detailech vašich dat; Výzkumníci musí být v rovnováze úcta k člověku, dobročinnosti, spravedlnosti a dodržování zákona a veřejný zájem. Při posuzování přiměřené rovnováhy U jiných rozhodnutí vědci požádat o radu a schvalování IRBs a uvolňování dat může být jen další součástí tohoto procesu. Jinými slovy, i když někteří lidé myslí o uvolnění dat jako beznadějné etické bažiny, již máme k dispozici systémy, které pomáhají vědci vyvážit tento druh etických dilemat.

Jeden konečný způsob, jak přemýšlet o sdílení dat je obdobně. Každoročně automobily jsou zodpovědné za tisíce úmrtí, ale nesnažte se zákaz jízdy. Ve skutečnosti je taková výzva k zákazu jízdy by bylo absurdní, protože hnací umožňuje mnoho úžasných věcí. Spíše společnost klade omezení, kdo může řídit (např musí být určitého věku, je třeba, aby prošly některé testy) a jak mohou řídit (například v rámci rychlostního limitu). Společnost má také lidi, jejichž úkolem by bylo prosazování těchto pravidel (např policie), a my potrestat lidi, kteří jsou chyceni jejich porušování. Tento stejný druh vyvážené myšlení, že společnost se vztahuje na regulaci jízdy může být také aplikován na sdílení dat. To znamená, že spíše než aby absolutistické argumenty pro nebo proti sdílení dat, myslím, že největší přínos budou pocházet z přijít na to, jak můžeme sdílet více dat bezpečněji.

Na závěr informační riziko se dramaticky zvýšila, a to je velmi těžké předvídat a kvantifikovat. Proto je nejlepší předpokládat, že všechna data jsou potenciálně zjistitelné a potenciálně citlivé. Chcete-li snížit riziko informační, zatímco dělá výzkum, výzkumníci mohou vytvořit a dodržovat plán ochrany osobních údajů. Dále, informační riziko nebrání výzkumní pracovníci z sdílení dat s jinými vědci.