6.6.2 Zrozumienie i zarządzanie ryzykiem informacyjnej

Ryzyko Informacja jest najczęstszą ryzyka w badaniach społecznych; to wzrosła dramatycznie; i to jest najtrudniejsza do zrozumienia ryzyka.

Drugi etyczne wyzwanie dla wiekowej społeczna Digital Research ryzyko informacyjne, potencjalna szkodliwość od ujawnienia informacji (Council 2014) . Informacyjne Harms z ujawnieniem danych osobowych mogą być ekonomiczne (np utraty pracy), społeczne (np zakłopotanie), psychologiczne (np depresji), a nawet karnej (np zatrzymanie nielegalnych zachowań). Niestety, w erze cyfrowej zwiększa ryzyko informacje dramatycznie, nie jest tak dużo więcej informacji na temat naszych zachowań. A ryzyko informacyjnej okazała się bardzo trudna do zrozumienia i zarządzania w stosunku do ryzyka, które były obawy w wieku analogowy badań społecznych, takich jak ryzyko fizycznego. Aby zobaczyć, jak wiek cyfrowy zwiększa ryzyko informacyjną, należy rozważyć przejście z papieru do elektronicznej dokumentacji medycznej. Oba rodzaje zapisów stworzyć ryzyko, ale zapisy elektroniczne stworzyć znacznie większe ryzyko ze względu na masową skalę mogą być przesyłane do nieuprawnioną osobę lub połączone z innymi rekordami. Naukowcy społeczne w erze cyfrowej już popaść w kłopoty z ryzykiem informacyjnym, po części dlatego, że nie w pełni zrozumieć, jak do oszacowania i zarządzać nimi. Tak, mam zamiar zaoferować pomocny sposób myślenia o ryzyku informacyjnego, a następnie mam zamiar dać kilka rad na temat zarządzania ryzykiem informacyjny w badaniach iw uwalniając dane do innych badaczy.

Jednym ze sposobów, że badacze społeczni zmniejszyć ryzyko informacyjny jest "anonimizacji" danych. "Anonimizacja" to proces usuwania widocznych identyfikatorów osobistych, takich jak imię i nazwisko, adres i numer telefonu z danymi. Jednak, takie podejście jest mniej skuteczny niż się zrealizować, a to, w rzeczywistości, głęboko i zasadniczo ograniczona. Z tego powodu, gdy opisuję "anonimizacja" będę używać cudzysłowu, aby pamiętać, że proces ten stwarza wrażenie anonimowości, ale nie jest prawdą, anonimowości.

Żywy przykład niepowodzenia "anonimizacji" pochodzi z końca 1990 w Massachusetts (Sweeney 2002) . Komisja Insurance Group (GIC) była agencja rządowa odpowiedzialna za zakup ubezpieczenia zdrowotnego dla wszystkich pracowników państwowych. Dzięki tej pracy, GIC zbierane szczegółowe zapisy dotyczące zdrowia tysięcy pracowników państwowych. W celu pobudzenia badań na temat sposobów poprawy zdrowia, GIC postanowił zwolnić te rekordy dla naukowców. Jednak oni nie udostępnianie ich danych; Raczej "anonimowe" go przez usunięcie informacji, takich jak imię i nazwisko oraz adres. Jednak wyszli inne informacje, które myśleli może być przydatna dla badaczy, takich jak informacje demograficzne (kodu pocztowego, data urodzenia, pochodzenie etniczne i płeć) i informacji medycznej (dane wizyta diagnozy, procedury) (Rysunek 6.4) (Ohm 2010) . Niestety, ten "anonimizacji" nie było wystarczające, aby zabezpieczyć dane.

Figura 6.4: Anonimizacja jest procesem usuwania oczywiście informacji identyfikacyjnych. Na przykład, gdy zwolnienia lekarskie rekordy ubezpieczeniowych pracowników państwowych Grupa Komisja Ubezpieczenia Massachusetts (GIC) usunięto nazwisko i adres z plikami. Używam cudzysłowu wokół anonimizacji słowo, ponieważ proces zapewnia wygląd anonimowości, ale nie rzeczywistą anonimowość.

Figura 6.4: "Anonimizacja" oznacza proces usuwania oczywiście informacji identyfikacyjnych. Na przykład, gdy zwolnienia lekarskie rekordy ubezpieczeniowych pracowników państwowych Grupa Komisja Ubezpieczenia Massachusetts (GIC) usunięto nazwisko i adres z plikami. Używam cudzysłowu wokół słowa "anonimizacji", ponieważ proces zapewnia wygląd anonimowości, ale nie rzeczywistą anonimowość.

Aby zilustrować niedociągnięcia "anonimizacji" GIC, Latanya Sweeney, następnie absolwent MIT-paid 20 $ nabyć rekordy głosu z miasta Cambridge, rodzinnym mieście Massachusetts gubernator William Weld. Te wyniki głosowania znalazły się informacje takie jak imię i nazwisko, adres, kod pocztowy, data urodzenia i płeć. Fakt, że plik danych medycznych i wyborca ​​wspólny kod Pola-zip, datę urodzenia i płci oznacza, że ​​Sweeney może je połączyć. Sweeney wiedział, że spoiny urodziny 31 lipca 1945, a zapisy głosu włączone tylko sześć osób w Cambridge w tym roku życia. Co więcej, z tych sześciu ludzi, tylko trzech mężczyzn. A z tych trzech mężczyzn, tylko jeden wspólny spoiny kod pocztowy. Zatem, dane głosowania pokazały, że ktoś w danych medycznych z kombinacji spoiny o datę urodzenia, płeć, kod pocztowy i był William Weld. W istocie, te trzy fragmenty informacji dostarcza unikalnych linii papilarnych do niego danych. Korzystanie z tego faktu, Sweeney był w stanie zlokalizować dokumentacji medycznej spoiny i poinformować go o swoim wyczynie, że wysłał mu kopię swojej dokumentacji (Ohm 2010) .

Rysunek 6.5: Ponowne idenification anonimowych danych. Latanya Sweeney połączył anonimowych danych medycznych z rejestrów głosu, aby wybrać dokumentację medyczną gubernatora Williama spawania (2002) Sweeney.

Rysunek 6.5: Ponowne idenification z "anonimowych" danych. Latanya Sweeney połączył "anonimowych" dokumentacji medycznej z rejestrów głosu, aby wybrać dokumentację medyczną gubernator William Weld (Sweeney 2002) .

Prace Sweeney ilustruje podstawową strukturę ataków de anonimizacji -to przyjąć termin od wspólnoty bezpieczeństwa komputerowego. W tych atakach, dwa zestawy danych, których sam nie ujawnia informacji poufnych, są ze sobą powiązane, a przez to powiązanie, wrażliwe informacje są narażone. Pod pewnymi względami sposób ten jest podobny do sposobu, w jaki sody i ocet dwóch substancji, które są bezpieczne same mogą być łączone w celu wytworzenia przykry efekt.

W odpowiedzi na pracy Sweeneya i innych związanych z tym prac, naukowcy generalnie usuwać znacznie więcej informacji-wszystkie tak zwane "danych umożliwiających identyfikację" (PII) (Narayanan and Shmatikov 2010) -podczas proces "anonimizacji". Co więcej, wielu badaczy teraz sobie sprawę, że niektóre dane, takie jak zaświadczenie lekarskie, akta finansowe, w odpowiedzi na pytanie ankietowe dotyczące zachowań niezgodnych z prawem, jest prawdopodobnie zbyt wrażliwe, aby zwolnić nawet po "anonimizacji". jednak nowsze przykłady, które opiszę poniżej wskazują, że badacze społeczni muszą zmienić swoje myślenie. Jako pierwszy krok, rozsądnie jest założyć, że wszystkie dane są potencjalnie możliwe do zidentyfikowania i wszystkie dane są potencjalnie wrażliwe. Innymi słowy zamiast myśleć, że ryzyko informacyjny odnosi się do niewielkiej części projektów, należy założyć, że stosuje się, w pewnym stopniu do wszystkich projektach.

Oba aspekty tej reorientacji ilustrują nagrody Netflix. Jak opisano w rozdziale 5, Netflix wydała 100 milionów ocen filmów dostarczonych przez prawie 500 tysięcy członków, i miał otwartą rozmowę, gdzie ludzie z całego świata przedstawioną algorytmy, które mogłyby poprawić zdolność Netflix, aby polecić filmów. Przed udostępnieniem danych, Netflix usunąć dowolny oczywiście dane osobowe, takie jak nazwy. Netflix udał się dodatkowy krok i wprowadziła drobne perturbacje w niektórych zapisach (np zmiana niektórych ocen od 4 gwiazdki 3 gwiazdki). Netflix szybko odkrył jednak, że pomimo ich wysiłków, dane były w żaden sposób anonimowy.

Zaledwie dwa tygodnie po dane zostały wydane Narayanan and Shmatikov (2008) wykazały, że możliwe było poznanie preferencji filmowych specyficznych ludzi. Trick do ataku ponownej identyfikacji był podobny do Sweeneya: połączyć ze sobą dwa źródła informacji, jeden z potencjalnie poufnych informacji i nie ma oczywiście informacji identyfikujących i jeden, który zawiera tożsamość ludzi. Każde z tych źródeł danych może być indywidualnie bezpieczne, ale gdy są one połączone połączony zestaw danych może stworzyć ryzyko informacyjny. W przypadku danych Netflix, oto jak to mogło się zdarzyć. Wyobraźmy sobie, że mogę wybrać, aby podzielić się swoimi przemyśleniami na temat działania i filmów komediowych z moich współpracowników, ale wolę nie podziela moją opinię na temat filmów religijnych i politycznych. Moi współpracownicy mogli korzystać z informacji, że mam z nimi wspólny znaleźć swoje rekordy w danych Netflix; informacja, że podzielam może być unikatowy odcisk podobnie jak William Weld datą urodzenia, kod pocztowy i seksu. Następnie, jeżeli uznają mój unikalny odcisk w danych, mogli nauczyć moje oceny o wszystkich filmach, w tym filmów, w których nie zdecydowali się udostępnić. Oprócz tego rodzaju ataku ukierunkowanego koncentruje się na jednej osobie, Narayanan and Shmatikov (2008) wykazały również, że można było zrobić szerokiego ataku -Jeden z udziałem wielu ludzi, poprzez łączenie danych osobowych oraz z Netflix filmowych dane znamionowe, że niektóre osób wybrało odpowiedzieć na bazie Internet Movie Database (IMDb). Każda informacja, która jest unikalna linii papilarnych do konkretnej osoby, nawet swojego zestawu kina ocenie, może być stosowany w celu ich identyfikacji.

Nawet wtedy, gdy dane Netflix można ponownie zidentyfikowanego w ukierunkowany lub szerokiego ataku, to nadal może wydawać się niskim ryzykiem. Po tym wszystkim, oceny filmów nie wydaje się bardzo wrażliwe. Choć może to być prawdą w ogóle, dla niektórych z 500.000 osób w zbiorze danych, oceny filmów może być bardzo wrażliwa. W rzeczywistości, w odpowiedzi na de-anonimizacji swoich rodzimych lesbijki kobieta dołączyła do klasy garnitur działania przeciwko Netflix. Oto, jak problem został wyrażony w swoim pozwie (Singel 2009) :

"[M] ovie Ocena danych zawiera informacje o charakterze bardziej osobistym i bardzo wrażliwej [sic!]. Dane filmie użytkownika naraża osobisty interes danego Netflix członku i / lub zmaga się z bardzo różnych sprawach osobowych, w tym seksualności, choroby psychicznej, wychodzenia z alkoholizmu i wiktymizacji z kazirodztwa, przemocy fizycznej, przemocy, zdrady i gwałtu ".

De-anonimizacji danych Netflix nagroda pokazuje, że zarówno wszystkie dane są potencjalnie możliwe do zidentyfikowania i że wszystkie dane są wrażliwe. W tym momencie, można by pomyśleć, że to odnosi się wyłącznie do danych, że miałby on być o ludziach. Zaskakujące, że nie jest to przypadek. W odpowiedzi na swobodzie zamówienie prawo dotyczące informacji, władze miasta Nowy Jork wydał ewidencji każdej taksówką w Nowym Jorku w 2013 roku, w tym odbiór i zasnąć razy, lokalizacji i ilości taryf (wycofanie z rozdziału 2, który Farber (2015) wykorzystane te dane do testowania ważnych teorii w ekonomii pracy). Choć dane o podróży taksówką może wydawać się nieszkodliwe, ponieważ nie wydaje się być informacja o ludziach, Anthony Tockar sobie sprawę, że ten zestaw danych taksówki rzeczywiście zawierał wiele potencjalnie wrażliwych informacji o ludziach. Aby zilustrować, spojrzał na wszystkich wyjazdów zaczynając od Hustler Club-dużego klubu ze striptizem w Nowym Jorku pomiędzy północą a 6 rano, a potem znalazły swoje miejsca wysiadania. To poszukiwanie ujawnił w istocie-listy adresów niektórych ludzi, którzy często Hustler Klub (Tockar 2014) . Trudno sobie wyobrazić, że władze miasta mieli to na uwadze, kiedy to ukazał się dane. W rzeczywistości, ta sama technika może być stosowana, aby znaleźć adresy domowe osób, które odwiedzają każdego miejsca w mieście-klinice medycznej, budynek rządu lub instytucji religijnej.

Te dwa przypadki-nagrody Netflix i New York City Taxi danych pokazują, że stosunkowo wykwalifikowanych osób nie udało się właściwie oszacować ryzyko informacyjny danych, które są uwalniane, a te przypadki są w żaden sposób unikalny (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Ponadto, w wielu z tych przypadków, dane problematyczne jest nadal swobodnie dostępne w Internecie, co wskazuje na trudności w coraz odkręcenie uwalnianie danych. Łącznie te przykłady-jak również badania w dziedzinie informatyki na temat ochrony prywatności prowadzi do ważnego wniosku. Naukowcy powinni zakładać, że wszystkie dane są potencjalnie możliwe do zidentyfikowania i wszystkie dane są potencjalnie wrażliwe.

Niestety, nie jest proste rozwiązanie, z tym, że wszystkie dane są potencjalnie możliwe do zidentyfikowania, a wszystkie dane są wrażliwe. Jednak jeden ze sposobów zmniejszenia ryzyka informacyjnego podczas pracy z danymi jest stworzenie, a następnie plan ochrony danych. Plan ten zmniejsza prawdopodobieństwo, że dane będzie przeciekać i zmniejszenia szkody, jeśli wystąpi jakiś przeciek. Specyfika planów ochrony danych, takie jak, która forma szyfrowania użyć, będzie zmieniać się w czasie, ale Wielka Brytania Data Services usłużnie organizuje elementy planu ochrony danych na 5 kategorii, które wymagają one 5 sejfów: Bezpieczny projektów bezpiecznych ludzi , bezpieczne ustawienia, bezpiecznych danych i bezpieczne wyjścia (tabela 6.2) (Desai, Ritchie, and Welpton 2016) . Żadna z pięciu sejfów indywidualnie zapewniają doskonałą ochronę. Ale razem tworzą potężny zestaw czynników, które mogą zmniejszyć ryzyko informacyjny.

Tabela 6.2: The 5 sejfy są zasady projektowania i realizacji planu ochrony danych (Desai, Ritchie, and Welpton 2016) .
Bezpieczny Akcja
sejf projekty Ogranicza projektów z danymi do tych, które są etyczne
Bezpieczne ludzi Dostęp jest ograniczony do osób, które mogą być zaufanymi danymi (np ludzi przeszły szkolenia etyczne)
Bezpieczne dane Dane te są de-zidentyfikowane i agregowane w miarę możliwości
Bezpieczne ustawienia Dane są przechowywane w komputerach z odpowiednich procesów fizycznych (np zamknięte pomieszczenie) i oprogramowania (na przykład ochrona hasłem, zaszyfrowany) zabezpieczenia
bezpieczne wyjście Wyjście badania przeglądowi, aby uniknąć przypadkowego naruszenia prywatności

Oprócz ochrony danych podczas korzystania z niego, jeden krok w procesie badawczym, gdzie ryzyko informacyjnej jest szczególnie ważne jest dzielenie się danymi z innymi badaczami. Udostępnianie danych wśród naukowców jest podstawową wartością przedsięwzięć naukowych, a to znacznie Wyposażenie postęp wiedzy. Oto jak brytyjska Izba Gmin opisane znaczenie udostępniania danych:

"Dostęp do danych jest fundamentalna, jeśli naukowcy są do odtworzenia, weryfikują i opierać się na wynikach, które są opisywane w literaturze. Domniemanie, że musi być, chyba że istnieje ważny powód inaczej, dane powinny być w pełni ujawnione i udostępnione publicznie. Zgodnie z tą zasadą, w miarę możliwości, dane związane z wszystkich badań finansowanych ze środków publicznych powinny być szeroko i swobodnie dostępne. " (Molloy 2011)

Jednak poprzez udostępnianie danych z innym naukowcem, może być zwiększenie ryzyka informacyjnego do swoich uczestników. Tak więc wydaje się, że naukowcy, którzy chcą dzielić się swoimi danymi, lub są wymagane na udostępnienie swoich danych, w obliczu fundamentalnego napięcie. Z jednej strony mają etyczny obowiązek udostępniać swoje dane z innymi naukowcami, zwłaszcza jeśli oryginalny badania finansowane publicznie. Jednak w tym samym czasie, naukowcy mają etyczny obowiązek ograniczenia, w miarę możliwości, ryzyko informacje ich uczestników.

Na szczęście, ten dylemat nie jest tak dotkliwa, jak się wydaje. Ważne jest, aby myśleć o zajęciu kontinuum od braku wymiany danych, aby zwolnić i zapomnieć, w którym dane są "anonimowe" i pisał dla każdego, aby uzyskać dostęp do danych (rysunek 6.6). Obie z tych skrajnych położeniach ma ryzyka i korzyści. Oznacza to, że nie jest automatycznie najbardziej etyczną rzeczą, aby nie udostępniać danych; Takie podejście eliminuje wiele potencjalnych korzyści dla społeczeństwa. Wracając do smaku, krawaty, i czasu, przykładem omówione wcześniej w tym rozdziale, argumenty przeciwko publikacji danych, które skupiają się wyłącznie na ewentualnych szkód i które ignorują potencjalne korzyści są zbyt jednostronny; Opiszę problemy z tym jednostronnej, podejście nadmiernie ochronnej bardziej szczegółowo poniżej, kiedy oferują informacje dotyczące podejmowania decyzji w obliczu niepewności (sekcja 6.6.4).

Rysunek 6.6: Strategie publikacją danych może spaść wzdłuż kontinuum. Gdzie powinny być wzdłuż tego kontinuum zależy od konkretnych szczegółach danych. W tym przypadku, ocena strona trzecia może pomóc w podjęciu decyzji właściwej równowagi ryzyka i korzyści w Twoim przypadku.

Rysunek 6.6: Strategie publikacją danych może spaść wzdłuż kontinuum. Gdzie powinny być wzdłuż tego kontinuum zależy od konkretnych szczegółach danych. W tym przypadku, ocena strona trzecia może pomóc w podjęciu decyzji właściwej równowagi ryzyka i korzyści w Twoim przypadku.

Ponadto, w tych dwóch skrajnych przypadkach jest to, co ja nazywa się otoczony murem ogród podejście, gdzie dane są dzielone z ludźmi, którzy spełniają określone kryteria i którzy wyrażą zgodę na związanie się pewnych zasad (np niedopatrzenie z IRB i A plany ochrony danych) , To podejście murem ogród zapewnia wiele korzyści uwalniania i zapomnieć o mniejszym ryzyku. Oczywiście, otoczony murem ogród podejście stwarza wiele pytań-kto powinien mieć dostęp, to na jakich warunkach, na jak długo, kto powinien płacić za utrzymanie i nadzorować murem ogród itp, ale to nie są nie do pokonania. W rzeczywistości nie są już działa cichego ogrodu w miejscu, które naukowcy mogą wykorzystać już teraz, takich jak archiwum danych Inter-uniwersyteckiej Konsorcjum Badań Politycznych i Społecznych na Uniwersytecie Michigan.

Więc, gdzie należy dane z badania być na kontinuum bez podziału, ogrodzonym ogrodem i zwolnić i zapomnieć? To zależy od szczegółów danych; Naukowcy muszą równoważyć Szacunek dla osób, dobroczynności, sprawiedliwości i poszanowania prawa i interesu publicznego. Przy ocenie odpowiedniej równowagi dla innych decyzji naukowcy szukają porady i zatwierdzenie IRBs i zwolnij dane mogą być po prostu kolejną częścią tego procesu. Innymi słowy, chociaż niektórzy ludzie myślą o wydaniu danych jako beznadziejną bagna etycznej, mamy już systemy, które pomogą naukowcom zrównoważenia tego rodzaju dylematów etycznych.

Jeden końcowy sposób myślenia o udostępnianie danych jest przez analogię. Każdego roku samochody są odpowiedzialne za tysiące zgonów, ale nie próbują zakazać jazdy. W rzeczywistości takie wezwanie do zakazu jazdy byłoby absurdalne, ponieważ kierowcy umożliwia wiele wspaniałych rzeczy. Przeciwnie, społeczeństwo nakłada ograniczenia na prawojazdy (na przykład trzeba być pewnym wieku trzeba przeszły niektórych testów) i jak można je prowadzić (np poniżej limitu prędkości). Towarzystwo ma również ludzi powierzył egzekwowanie tych reguł (np Policji), a my karać ludzi, którzy złowione ich łamanie. Ten sam rodzaj zrównoważony myślenia społeczeństwa dotyczy regulacji jazdy, może być również stosowane do wymiany danych. Oznacza to, że zamiast dokonywać absolutystyczne argumenty za lub przeciw udostępniania danych, myślę, że największe korzyści będą pochodzić z zastanawianie się, w jaki sposób możemy udostępnić więcej danych bardziej bezpiecznie.

Podsumowując, ryzyko informacyjnej wzrosła dramatycznie, a to jest bardzo trudne do przewidzenia i oszacowania. Dlatego też najlepiej jest założenie, że wszystkie dane są potencjalnie możliwe do zidentyfikowania i ewentualnie wrażliwe. Aby zmniejszyć ryzyko informacyjnych podczas prowadzenia badań, naukowcy mogą tworzyć i śledzić plan ochrony danych. Ponadto, ryzyko informacyjnej nie przeszkadza badaczy z dzielenia się danymi z innymi naukowcami.