6.6.2 Înțelegerea și riscul informațional de gestionare

Această traducere a fost creat de un computer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

6.6.2 Înțelegerea și riscul informațional de gestionare

Risc de informații este cel mai frecvent risc în cercetarea socială; aceasta a crescut în mod dramatic; și este cel mai greu riscul de a înțelege.

A doua provocare etică pentru cercetare digitală vârstă socială este un risc informațional, potențialul nociv din divulgarea de informații (Council 2014) . din vatamare informaționale divulgarea informațiilor cu caracter personal ar putea fi economice (de exemplu, pierderea unui loc de muncă), sociale (de exemplu, jena), psihologice (de exemplu, depresie), sau chiar penale (de exemplu, arestarea pentru un comportament ilegal). Din păcate, vârsta digitală crește riscul de informații în mod dramatic-se doar atât de mult mai multe informații despre comportamentul nostru. Și, risc informațional dovedit a fi foarte greu de înțeles și de a gestiona în comparație cu riscurile care au preocupări în domeniul cercetării sociale de vârstă analogice, cum ar fi riscul fizic. Pentru a vedea modul în care era digitală crește riscul informațional, ia în considerare trecerea de la hârtie la dosarele medicale electronice. Ambele tipuri de înregistrări creează un risc, dar înregistrările electronice creează riscuri mult mai mari, deoarece, la o scară masivă ele pot fi transmise către persoane neautorizate sau a fuzionat cu alte înregistrări. cercetătorii sociali în era digitală au rulat deja probleme cu risc informațional, în parte pentru că ei nu au înțeles pe deplin modul de a cuantifica și gestiona. Așa că, voi oferi un mod util să se gândească la risc informațional, iar apoi am de gând să vă dau câteva sfaturi pentru modul de a gestiona riscul informațional în cercetare și în eliberarea de date către alți cercetători.

O modalitate prin care cercetătorii sociali reduce riscul informațional este "anonymization" a datelor. "Anonymization" este procesul de eliminare a identificatorilor personale evidente, cum ar fi numele, adresa și numărul de telefon din datele. Cu toate acestea, această abordare este mult mai puțin eficace decât mulți oameni dau seama, și este, de fapt, profund și fundamental limitată. Din acest motiv, ori de câte ori descriu "anonimizare," Voi folosi ghilimele pentru a vă reaminti că acest proces creează aparența de anonimat, dar nu este adevarat anonimatul.

Un exemplu viu al eșecului "anonimizare" vine de la sfarsitul anilor 1990 , in Massachusetts (Sweeney 2002) . Comisia de asigurări de Grupul (GIC) a fost o agenție guvernamentală responsabilă pentru achiziționarea de asigurări de sănătate pentru toți angajații de stat. Prin această lucrare, GIC colectate dosarele medicale detaliate despre mii de angajați de stat. Într-un efort de a stimula cercetarea cu privire la modalitati de imbunatatire a sanatatii, GIC a decis să elibereze aceste înregistrări pentru cercetători. Cu toate acestea, ei nu au împărtășit toate datele lor; mai degrabă, ei "anonimizate", prin eliminarea informațiilor, cum ar fi numele și adresa. Cu toate acestea, au lăsat alte informații pe care au crezut ca ar putea fi utile pentru cercetători , cum ar fi informații demografice (cod poștal, data nașterii, etnie și sex) și informații medicale (date de vizita, diagnostic, procedură) (Figura 6.4) (Ohm 2010) . Din păcate, această "anonimizare" nu a fost suficientă pentru a proteja datele.

Figura 6.4: "Anonymization" este procesul de eliminare, evident, informații de identificare. De exemplu, când se eliberează dosarele de asigurare medicale ale angajaților de stat Grupului Comisia de asigurări din Massachusetts (GIC) a scos numele și adresa din fișierele. Eu folosesc ghilimele în jurul valorii de cuvântul "anonimizarea", deoarece procesul prevede apariția de anonimat, dar nu și anonimatul real.

Pentru a ilustra deficiențele "anonimizarea" GIC, Latanya Sweeney-apoi un student absolvent de la MIT-a plătit 20 $ pentru a achiziționa înregistrările de vot din orașul Cambridge, orașul natal din Massachusetts guvernator William Weld. Aceste înregistrări cu drept de vot sunt incluse informații cum ar fi numele, adresa, codul poștal, data nașterii și sexul. Faptul că fișa medicală a datelor și codul de câmpuri zip fișier alegător partajat, data nașterii, iar Sweeney le-ar putea lega însemna sex. Sweeney știa că ziua de naștere a lui Weld a fost 31 iulie 1945, iar înregistrările de vot incluse doar șase persoane din Cambridge, cu acea zi de naștere. În plus, dintre cei șase oameni, doar trei au fost de sex masculin. Și, dintre cei trei bărbați, doar un singur cod postal partajat Weld lui. Astfel, datele de vot a arătat că orice persoană din datele medicale cu combinație de data nașterii, sexul, și codul poștal Weld a fost William Weld. În esență, aceste trei bucăți de informații furnizate o amprentă unică pentru el în datele. Cu ajutorul acestui fapt, Sweeney a fost capabil de a localiza înregistrările medicale de sudură lui, și să - l informeze despre feat ei, ea ia trimis o copie a înregistrărilor sale (Ohm 2010) .

Figura 6.5: Re-idenification de date anonimizate. Latanya Sweeney combinate înregistrările de sănătate cu înregistrările anonimizate de vot, în scopul de a găsi dosarele medicale ale guvernatorului William Weld (Sweeney 2002).

Figura 6.5: Re-idenification de date "anonimizate". Latanya Sweeney a combinat "anonimizate" dosarele medicale cu înregistrările de vot , în scopul de a găsi dosarele medicale ale guvernatorului William Weld (Sweeney 2002) .

Munca lui Sweeney ilustreaza structura de baza a atacurilor de-anonimizare -pentru a adopta un termen din partea comunității de securitate informatică. In aceste atacuri, două seturi de date, din care, prin ea însăși nici nu dezvăluie informații sensibile, sunt legate, iar prin intermediul acestei legături, informații sensibile este expusă. În unele privințe, acest proces este similar cu modul în care bicarbonat de sodiu și oțet, două substanțe care sunt prin ele însele în condiții de siguranță, pot fi combinate pentru a produce un rezultat urât.

Ca răspuns la locul de muncă Sweeney, și alte lucrări conexe, cercetătorii acum eliminați , în general , mult mai multe informații-toate așa - numitele "informații personale de identificare" (PII) (Narayanan and Shmatikov 2010) -În procesul de "anonimizare" . În plus, mulți cercetători acum dau seama că anumite date, cum ar fi dosarele medicale, înregistrările financiare, răspunsuri la întrebări cu privire la sondaje ilegale comportament este, probabil, prea sensibil pentru a elibera chiar și după "anonimizare". Cu toate acestea, mai multe exemple recente pe care le vom descrie mai jos indică faptul că cercetătorii sociali trebuie să schimba modul de gândire. Ca un prim pas, este înțelept să se presupună că toate datele sunt potențial identificabile , iar datele sunt potențial sensibil. Cu alte cuvinte, mai degrabă decât de gândire acest risc informațional se aplică la un număr mic de proiecte, ar trebui să presupunem că se aplică, într-o oarecare măsură la toate proiectele.

Ambele aspecte ale acestei reorientări sunt ilustrate prin Premiul Netflix. Așa cum s-a descris în capitolul 5, Netflix a lansat 100 de milioane de rating de film oferite de aproape 500.000 de membri, și a avut un apel deschis în cazul în care oamenii din întreaga lume, a prezentat algoritmi care ar putea îmbunătăți capacitatea de a recomanda Netflix filme. Înainte de a elibera date, Netflix eliminat orice informație în mod evident, de identificare personală, cum ar fi nume. Netflix a mers, de asemenea, un pas în plus și a introdus ușoare perturbatii în unele dintre înregistrările (de exemplu, schimbarea unor evaluări de la 4 stele la 3 stele). Netflix descoperit în curând, cu toate acestea, că, în ciuda eforturilor lor, datele au fost în nici un caz anonim.

La doar două săptămâni după ce datele au fost eliberați Narayanan and Shmatikov (2008) a arătat că a fost posibil să învețe despre preferințele oamenilor de film specifice ale copilului . Truc pentru atacul lor de re-identificare a fost similară cu a lui Sweeney: fuziona împreună două surse de informare, unul cu informatii sensibile si nici o informație, evident, identificarea și unul care conține identitatea oamenilor. Fiecare dintre aceste surse de date pot fi în siguranță, în mod individual, dar atunci când acestea sunt combinate setul de date rezultată în urma concentrării poate crea un risc informațional. În cazul datelor Netflix, iată cum s-ar putea întâmpla. Imaginați-vă că am ales să împărtășesc gândurile mele cu privire la acțiune și filme de comedie cu colegii mei, dar eu prefer să nu împărtășesc opinia mea despre filme religioase și politice. Colegii mei ar putea folosi informațiile pe care le-am împărtășit cu ei pentru a găsi înregistrările mele în datele Netflix; informațiile pe care le împărtășesc ar putea fi o amprentă unică la fel ca data William Weld a nașterii, codul poștal și sexul. Apoi, în cazul în care găsesc de amprente meu unic în datele, acestea ar putea să învețe mea evaluări cu privire la toate filmele, inclusiv în cazul în care nu aleg să împartă. În plus față de acest tip de atac vizat sa concentrat asupra unei singure persoane, Narayanan and Shmatikov (2008) , de asemenea , a arătat că este posibil să se facă o -ona atac largă care implică mulți oameni prin fuzionarea datelor cu Netflix de date cu caracter personal și film de rating pe care unele oamenii au ales pentru a posta pe Internet Movie Database (IMDb). Orice informație care este de amprentă unică pentru o persoană chiar specifică setul lor de film evaluări-pot fi folosite pentru a le identifica.

Chiar dacă datele Netflix pot fi re-identificate fie într-un atac direcționat sau larg, încă ar putea părea un risc scăzut. La urma urmei, evaluări de film nu par a fi foarte sensibil. În timp ce ar putea fi adevărat, în general, pentru unii dintre cei 500.000 de oameni din setul de date, evaluări de film ar putea fi destul de sensibil. De fapt, ca răspuns la o de-anonimizarea femeie lesbiană closeted sa alăturat un costum de clasă acțiune împotriva Netflix. Iată modul în care problema a fost exprimat în procesul lor (Singel 2009) :

"[M] Ovie și rating de date conține informații de natură mai înaltă personală și sensibilă [sic]. datele de film ale membrului expune un interes personal al unui membru al Netflix și / sau lupta cu diverse probleme foarte personale, inclusiv sexualitatea, boli psihice, recuperarea de alcoolism, și victimizare din incest, abuz fizic, violența domestică, adulter și viol. "

De-anonimizarea datelor Premiul Netflix ilustrează atât faptul că toate datele sunt potențial identificabile și că toate datele sunt potențial sensibilă. In acest moment, s-ar putea crede că acest lucru se aplică numai date care care pretinde a fi despre oameni. În mod surprinzător, că nu este cazul. Ca răspuns la o libertate de cerere Drept de informare, guvernul orașului New York , a lansat înregistrările în fiecare călătorie cu taxiul de la New York , în 2013, inclusiv pick - up și drop off ori, locații și sumele tarifare (rechemare de la capitolul 2 că Farber (2015) sunt utilizate aceste date pentru a testa teorii importante în economia muncii). Cu toate că aceste date despre călătorii de taxi s-ar putea parea benigne, deoarece nu pare a fi informații despre oameni, Anthony Tockar a dat seama că acest set de date de taxi conținea de fapt, o mulțime de informații potențial sensibile despre oameni. Pentru a ilustra aceasta, el sa uitat la toate călătoriile începând de la The Hustler Club-un club de striptease din mare, New York, între miezul nopții și ora 6 și apoi a găsit locațiile lor drop-off. Această căutare a relevat în esență-o listă de adrese ale unor persoane care au frecvent Hustler Club (Tockar 2014) . Este greu de imaginat că guvernul orașul a avut aceasta în minte atunci când it publicarea datelor. De fapt, aceeași tehnică ar putea fi folosită pentru a găsi adresele de origine ale persoanelor care vizitează orice loc în orașul-o clinică medicală, o clădire guvernamentală sau o instituție religioasă.

Aceste două cazuri-Premiul Netflix și New York City taxi date arată că persoanele relativ calificate nu a reușit să estimeze corect riscul informațional în datele pe care au eliberat, iar aceste cazuri sunt de nici un caz unic (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . În plus, în multe dintre aceste cazuri, datele problematice sunt încă disponibile în mod liber on-line, ceea ce indică dificultatea de a mai desfac o eliberare de date. În mod colectiv aceste exemple, precum și cercetarea în domeniul informaticii cu privire la respectarea vieții private conduce la o concluzie importantă. Cercetătorii ar trebui să presupună că toate datele sunt potențial identificabile , iar datele sunt potențial sensibil.

Din păcate, nu există nici o soluție simplă pentru faptul că toate datele sunt potențial identificabile, iar datele sunt potențial sensibil. However, o modalitate de a reduce riscul în timp ce information lucrul cu date este de a crea și să urmeze un plan de protecție a datelor. Acest plan va reduce posibilitatea ca datele dvs. se va scurge și va scădea prejudiciul în cazul în care are loc într-un fel o scurgere. Specificul planurilor de protecție a datelor, cum ar fi ce formă de criptare pentru a utiliza, se va schimba în timp, dar serviciile de date din Marea Britanie organizează în mod util elementele unui plan de protecție a datelor în 5 categorii pe care le numesc 5 seifuri: proiecte sigure, oameni în condiții de siguranță , setările de siguranță, date sigure și ieșiri sigure (Tabelul 6.2) (Desai, Ritchie, and Welpton 2016) . Nici unul dintre cele cinci seifuri asigura o protecție perfectă în mod individual. Dar împreună formează un set puternic de factori care pot reduce riscul informațional.

Tabelul 6.2: Cele 5 seifuri sunt principii pentru proiectarea și executarea unui plan de protecție a datelor (Desai, Ritchie, and Welpton 2016) .
Sigur	Acțiune
proiecte sigure	limitează proiectele cu date la cele care sunt etice
oameni în condiții de siguranță	accesul este limitat la persoanele care pot fi de încredere cu date (de exemplu, formarea etică, oamenii au fost supuse)
date sigure	datele sunt de-a identificat și agregate în măsura în care este posibil
setările sigure	datele sunt stocate în calculatoare cu fizice adecvate (de exemplu, o cameră încuiată) și software-ul (de exemplu, protecție prin parolă, criptate) protecții
ieșire în condiții de siguranță	producția de cercetare este revizuită pentru a preveni accidental încălcare a vieții private

În plus față de protejarea datelor dumneavoastră în timp ce utilizați, cu un pas în procesul de cercetare în cazul în care un risc informațional este deosebit de remarcabil este schimbul de date cu alți cercetători. schimbul de date între oamenii de știință este o valoare fundamentală a demersului științific, și ea foarte mult facilități pentru progresul cunoașterii. Iată cum puteți Camera Comunelor din Regatul Unit s-a descris importanța schimbului de date:

"Accesul la date este fundamentală în cazul în care cercetătorii sunt de a reproduce, a verifica și de a construi pe rezultatele care sunt raportate în literatura de specialitate. Prezumția trebuie să fie că, cu excepția cazului în care există un motiv puternic în caz contrar, datele ar trebui să fie pe deplin divulgate și puse la dispoziția publicului. În conformitate cu acest principiu, în cazul în care este posibil, datele asociate cu toate activitățile de cercetare finanțate din fonduri publice ar trebui să fie făcute pe scară largă și sunt disponibile în mod liber. " (Molloy 2011)

Cu toate acestea, prin permiterea accesului la datele dvs. cu un alt cercetător, ar putea fi în creștere a riscului informațional participanților. Astfel, se poate părea că cercetătorii care doresc să împărtășească lor de date sau sunt necesare pentru a partaja lor de date se confruntă cu o tensiune fundamentală. Pe de o parte, ei au obligația etică de a face schimb de date cu alți oameni de știință, mai ales în cazul în care cercetarea inițială este finanțată din fonduri publice. Cu toate acestea, în același timp, cercetătorii au obligația etică de a reduce la minimum, cât mai mult posibil, riscul de informații participanților acestora.

Din fericire, această dilemă nu este la fel de severă, așa cum apare. Este important să ne gândim la schimbul de date de-a lungul unui proces continuu de la nici o partajare de date pentru a elibera și a uita, în cazul în care datele sunt "anonimizate" și a postat pentru oricine pentru a avea acces (Figura 6.6). Ambele aceste poziții extreme au riscuri și beneficii. Asta este, nu este în mod automat cel mai etic lucru nu pentru a partaja datele; o astfel de abordare elimină multe beneficii potențiale pentru societate. Revenind la Gust, cravate, și timp, un exemplu discutat mai devreme în capitolul, argumentele contra eliberării de date care se concentrează numai asupra posibilelor Harms și care ignoră beneficiile posibile sunt excesiv de o singură față; Voi descrie problemele cu această abordare unilaterală, extrem de protectoare mai în detaliu în continuare atunci când am oferi sfaturi cu privire la luarea de decizii în fața incertitudinii (secțiunea 6.6.4).

Figura 6.6: strategii de lansare de date pot cădea de-a lungul unui proces continuu. În cazul în care ar trebui să fie de-a lungul acestui proces continuu depinde de detaliile specifice ale datelor. În acest caz, de revizuire terță parte poate ajuta să decideți echilibrul adecvat al riscurilor și a beneficiilor în cazul dumneavoastră.

În plus, între aceste două cazuri extreme este ceea ce voi numit o abordare grădină cu pereți în cazul în care datele sunt partajate cu persoane care îndeplinesc anumite criterii și care sunt de acord să fie legat de anumite norme ( de exemplu, supravegherea de la un IRB și o planuri de protecție a datelor) . Această abordare oferă grădină cu pereți multe dintre beneficiile de eliberare și să uitați cu un risc mai mic. Desigur, o abordare de grădină cu pereți creează mai multe întrebări, care ar trebui să aibă acces, în ce condiții, pentru cât timp, care ar trebui să plătească pentru a menține și de poliție, cu pereți de grădină etc., dar acestea nu sunt de netrecut. De fapt, există deja lucrează grădini cu pereți, în locul pe care cercetatorii pot folosi chiar acum, cum ar fi arhiva de date a Consortiului Interuniversitar pentru Cercetări Politice și Sociale de la Universitatea din Michigan.

Așa că, în cazul în care ar trebui să datele din studiul să fie pe continuumul de nici o partajare, gradina cu pereți, și să elibereze și să uitați? Ea depinde de detaliile datelor; cercetătorii trebuie să echilibreze tîlmăciți, beneficiență, justiție și respectul față de lege și de interes public. Atunci când se evaluează un echilibru adecvat pentru alte decizii cercetători să solicite sfatul și aprobarea IRBs, și eliberarea de date poate fi doar o altă parte a acestui proces. Cu alte cuvinte, cu toate că unii oameni cred că de eliberare de date ca o mocirlă etică fără speranță, avem deja sisteme existente pentru a ajuta cercetatorii echilibru aceste tipuri de dileme etice.

O modalitate de ultim să se gândească la schimbul de date prin analogie. În fiecare an, masinile sunt responsabile pentru mii de decese, dar nu încercăm să interzică de conducere. De fapt, un astfel de apel de a interzice de conducere ar fi absurd deoarece de conducere permite multe lucruri minunate. Mai degrabă, societatea impune restricții cu privire la cine poate conduce (de exemplu, trebuie să fie o anumită vârstă, trebuie să fi trecut anumite teste) și modul în care acestea pot conduce (de exemplu, sub limita de viteză). Societatea are, de asemenea, persoanele însărcinate cu aplicarea acestor reguli (de exemplu, poliție), și am pedepsi oamenii care sunt prinși încălcarea lor. Același tip de gândire echilibrată pe care societatea se aplică pentru reglementarea de conducere poate fi, de asemenea, aplicate la schimbul de date. Aceasta este, mai degrabă decât a face argumente absolutiste pentru sau împotriva schimbul de date, cred că cele mai mari beneficii vor veni de la informații cum putem împărtăși mai multe date mai în siguranță.

Pentru a concluziona, risc informațional a crescut dramatic, și este foarte greu de prezis și cuantificat. Prin urmare, cel mai bine este să se presupună că toate datele sunt potențial identificabile și potențial sensibilă. Pentru a reduce riscul de informare în timp ce face cercetare, cercetatorii pot crea si sa urmeze un plan de protecție a datelor. În plus, riscul informațional nu împiedică cercetătorii de la schimbul de date cu alți oameni de știință.