6.6.2 Înțelegerea și riscul informațional de gestionare

Această traducere a fost creat de un computer. ×

6.6.2 Înțelegerea și riscul informațional de gestionare

Riscul de informare este cel mai frecvent risc în cercetarea socială; a crescut dramatic; și este cel mai greu de înțeles.

Cea de-a doua provocare etică pentru cercetarea digitală a vârstei este riscul informațional , potențialul pentru daunele cauzate de divulgarea informațiilor (National Research Council 2014) . Infracțiunile de la dezvăluirea informațiilor personale ar putea fi economice (de exemplu, pierderea unui loc de muncă), sociale (de exemplu, jenă), psihologice (de exemplu, depresie) sau chiar criminale (de exemplu, arestări pentru comportamente ilegale). Din nefericire, vârsta digitală crește dramatic riscul informațional - există doar mult mai multe informații despre comportamentul nostru. Și riscul informațional sa dovedit a fi foarte dificil de înțeles și de gestionat în comparație cu riscurile care au fost preocupări în cercetarea socială de vârstă analogică, cum ar fi riscul fizic.

O modalitate prin care cercetătorii sociali reduce riscul informațional este "anonymization" a datelor. "Anonymization" este procesul de eliminare a identificatorilor personale evidente, cum ar fi numele, adresa și numărul de telefon din datele. Cu toate acestea, această abordare este mult mai puțin eficace decât mulți oameni dau seama, și este, de fapt, profund și fundamental limitată. Din acest motiv, ori de câte ori descriu "anonimizare," Voi folosi ghilimele pentru a vă reaminti că acest proces creează aparența de anonimat, dar nu este adevarat anonimatul.

Un exemplu viu al eșecului de "anonimizare" vine de la sfârșitul anilor 1990 în Massachusetts (Sweeney 2002) . Comisia de Asigurări de Grup (GIC) a fost o agenție guvernamentală responsabilă pentru achiziționarea asigurărilor de sănătate pentru toți angajații statului. Prin această lucrare, GIC a colectat înregistrări medicale detaliate despre mii de angajați ai statului. În efortul de a stimula cercetarea, GIC a decis să elibereze aceste înregistrări cercetătorilor. Cu toate acestea, nu au împărtășit toate datele lor; mai degrabă, au "anonimat" aceste date prin eliminarea informațiilor, cum ar fi numele și adresele. Cu toate acestea, au lăsat alte informații pe care le-au considerat utile pentru cercetători, cum ar fi informații demografice (cod poștal, data nașterii, etnie și sex) și informații medicale (date vizite, diagnosticare, procedură) (figura 6.4 (Ohm 2010) . Din păcate, această "anonimizare" nu era suficientă pentru a proteja datele.

Figura 6.4: "Anonimizarea" este procesul de eliminare a informațiilor care identifică în mod evident. De exemplu, la eliberarea dosarelor de asigurări medicale ale angajaților de stat, Comisia de Asigurări de Grup din Massachusetts (GIC) a eliminat numele și adresele din dosare. Eu folosesc ghilimelele în jurul cuvântului "anonimizare", deoarece procesul oferă apariția anonimatului, dar nu anonimatul real.

Pentru a ilustra deficiențele "anonimizării" GIC, Latanya Sweeney - apoi un student absolvent la MIT - a plătit 20 de dolari pentru a obține înregistrările de vot din orașul Cambridge, orașul natal al guvernatorului Massachusetts, William Weld. Aceste înregistrări au inclus informații precum numele, adresa, codul poștal, data nașterii și sexul. Faptul că fișierul de date medicale și fișierul de alegători au împărțit câmpuri-cod poștal, data nașterii și sex - înseamnă că Sweeney le-ar putea lega. Sweeney știa că ziua de naștere a lui Weld era 31 iulie 1945, iar înregistrările de votare au inclus numai șase persoane în Cambridge cu acea zi de naștere. Mai mult, dintre cei șase oameni, doar trei erau bărbați. Și din acești trei bărbați, doar un cod poștal comun al lui Weld. Astfel, datele de votare au arătat că oricine din datele medicale cu combinația de date de naștere, sex și cod poștal al lui Weld a fost William Weld. În esență, aceste trei informații le-au furnizat o amprentă unică în date. Folosind acest fapt, Sweeney a reușit să găsească înregistrările medicale ale Weld și, pentru ai informa despre feat, ia trimis o copie a înregistrărilor sale (Ohm 2010) .

Figura 6.5: Re-identificarea datelor anonime. Latanya Sweeney a combinat înregistrările anonime ale sănătății cu înregistrările de vot pentru a găsi dosarele medicale ale guvernatorului William Weld Adapted from Sweeney (2002), figura 1.

Figura 6.5: Re-identificarea datelor "anonimizate". Latanya Sweeney a combinat înregistrările medicale anonime cu înregistrări ale voturilor pentru a găsi dosarele medicale ale guvernatorului William Weld Adapted from Sweeney (2002) , figura 1.

Activitatea lui Sweeney ilustrează structura de bază a atacurilor de re-identificare - pentru a adopta un termen de la comunitatea de securitate a calculatorului. În aceste atacuri, două seturi de date, dintre care nici una nu dezvăluie informații sensibile, sunt legate, iar prin această legătură sunt expuse informații sensibile.

Ca răspuns la munca lui Sweeney și la alte activități conexe, cercetătorii în general elimină mult mai multe informații - toate așa-numitele "informații de identificare personală" (PII) (Narayanan and Shmatikov 2010) - în timpul procesului de "anonimizare". acum realizeaza ca anumite date - cum ar fi inregistrarile medicale, inregistrarile financiare, raspunsurile la intrebari despre comportamentul ilegal - sunt probabil prea sensibile pentru eliberare chiar si dupa "anonimizare". Totusi, exemplele pe care urmez sa le dau sugereaza ca cercetatorii sociali au nevoie să-și schimbe gândirea. Ca prim pas, este bine să presupunem că toate datele sunt potențial identificabile și că toate datele sunt potențial sensibile. Cu alte cuvinte, mai degrabă decât să ne gândim că riscul informațional se aplică unui mic subset de proiecte, ar trebui să presupunem că acesta se aplică - într-o oarecare măsură - tuturor proiectelor.

Ambele aspecte ale acestei reorientări sunt ilustrate de premiul Netflix. După cum este descris în capitolul 5, Netflix a lansat 100 de milioane de evaluări de filme furnizate de aproape 500.000 de membri și a avut un apel deschis în care oameni din întreaga lume au trimis algoritmi care ar putea îmbunătăți capacitatea Netflix de a recomanda filme. Înainte de a elibera datele, Netflix a eliminat orice informație evidentă de identificare personală, cum ar fi numele. Ei au făcut, de asemenea, un pas în plus și au introdus mici perturbații în unele dintre înregistrările (de exemplu, schimbarea unor evaluări de la 4 stele la 3 stele). În curând, însă, au descoperit că, în ciuda eforturilor depuse, datele nu erau în nici un caz anonime.

La doar două săptămâni de la data eliberării datelor, Arvind Narayanan și Vitaly Shmatikov (2008) au arătat că este posibil să se cunoască preferințele de film ale anumitor persoane. Trucul pentru atacul lor de reidentificare a fost similar cu cel al lui Sweeney: îmbinarea a două surse de informare, una cu informații potențial sensibile și fără informații identifice evident și una care conține identitatea oamenilor. Fiecare dintre aceste surse de date poate fi sigură în mod individual, dar când sunt combinate, setul de date fuzionat poate crea riscuri informaționale. În cazul datelor Netflix, iată cum se poate întâmpla. Imaginați-vă că aleg să-mi împărtășesc gândurile mele despre filmele de acțiune și comedie cu colegii mei, dar prefer să nu împărtășesc opinia mea despre filmele religioase și politice. Colaboratorii mei puteau folosi informațiile pe care le-am împărtășit cu ei pentru a găsi înregistrările mele în datele Netflix; informațiile pe care le împărtășesc ar putea fi o amprentă unică la fel ca data nașterii, codul poștal și sexul lui William Weld. Apoi, dacă mi-ar găsi amprenta unică în date, ei ar putea afla evaluările mele despre toate filmele, inclusiv filmele pe care aleg să nu le împărtășesc. În plus față de acest tip de atac orientat spre o singură persoană, Narayanan și Shmatikov au arătat, de asemenea, că a fost posibil să se facă un atac amplu - care implică mulți oameni - prin îmbinarea datelor Netflix cu date de rating personale și de film pe care unele persoane le-au ales pentru a posta pe baza de date a filmei Internet (IMDb). Destul de simplu, orice informație care este o amprentă unică pentru o anumită persoană - chiar setul lor de rating de filme - poate fi folosit pentru a le identifica.

Chiar dacă datele Netflix pot fi re-identificate fie într-un atac vizat, fie într-un atac amplu, acesta poate părea a fi un risc scăzut. La urma urmei, evaluările filmelor nu par foarte sensibile. În timp ce acest lucru ar putea fi adevărat în general, pentru unele din cele 500.000 de persoane din setul de date, evaluările filmului ar putea fi destul de sensibile. De fapt, ca răspuns la re-identificare, o femeie lesbiană închisă sa alăturat unui proces de acțiune împotriva Netflix. Iată cum a fost exprimată problema în procesul lor (Singel 2009) :

"[M] ovie și datele de rating conțin informații de o natură extrem de personală și sensibilă. Datele filmului membrilor expun interesul personal și / sau lupta membrilor Netflix cu diverse probleme personale, inclusiv sexualitatea, boala mintală, recuperarea de alcoolism și victimizarea incestului, abuzul fizic, violența domestică, adulterul și violul ".

Re-identificarea datelor din Premiul Netflix ilustrează atât faptul că toate datele sunt potențial identificabile, cât și că toate datele sunt potențial sensibile. În acest moment, s-ar putea să vă gândiți că acest lucru se aplică numai datelor despre care se pretinde că sunt despre oameni. În mod surprinzător, nu este cazul. Ca răspuns la solicitarea unei legi privind libertatea de informare, guvernul din New York a publicat înregistrări ale fiecărei călătorii cu taxi din New York în 2013, inclusiv orele de preluare și decolare, locațiile și sumele tarifare (amintesc din capitolul 2 că Farber (2015) au folosit date similare pentru a testa teoriile importante din economia muncii). Aceste date despre excursiile de taxi ar putea părea benigne, deoarece nu par să furnizeze informații despre oameni, dar Anthony Tockar și-a dat seama că acest set de date despre taxi conține, de fapt, o mulțime de informații potențial sensibile despre oameni. Pentru a ilustra, el sa uitat la toate călătoriile începând de la Clubul Hustler - un club de striptease mare din New York - între miezul nopții și ora 6 dimineața și apoi și-au găsit locurile de scăpare. Această căutare a dezvăluit - în esență - o listă de adrese ale unor persoane care frecventau Clubul Hustler (Tockar 2014) . Este greu de imaginat că guvernul orașului a avut acest lucru în minte atunci când a lansat datele. De fapt, aceeași tehnică ar putea fi utilizată pentru a găsi adresele de domiciliu ale persoanelor care vizitează orice loc în oraș - o clinică medicală, o clădire guvernamentală sau o instituție religioasă.

Aceste două cazuri ale taxei Netflix și ale taxiurilor din New York arată că persoanele relativ calificate nu reușesc să evalueze corect riscul informațional din datele pe care le eliberează - și aceste cazuri nu sunt deloc unice (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . În plus, în multe astfel de cazuri, datele problematice sunt încă disponibile în mod liber online, indicând dificultatea de a anula vreodată eliberarea datelor. În mod colectiv, aceste exemple - precum și cercetările din domeniul informaticii privind confidențialitatea - conduc la o concluzie importantă. Cercetătorii ar trebui să presupună că toate datele sunt potențial identificabile și toate datele sunt potențial sensibile.

Din păcate, nu există o soluție simplă a faptului că toate datele sunt potențial identificabile și că toate datele sunt potențial sensibile. Cu toate acestea, o modalitate de a reduce riscul informațional în timp ce lucrați cu date este să creați și să urmați un plan de protecție a datelor . Acest plan va reduce șansele ca datele dvs. să se scurgă și vor diminua daunele dacă se produce o scurgere. Specificul planurilor de protecție a datelor, cum ar fi forma de criptare pe care o utilizați, se va schimba în timp, însă serviciile de date din Regatul Unit organizează în mod util elementele unui plan de protecție a datelor în cinci categorii pe care le numesc cele cinci seifuri : proiecte sigure, , setări sigure, date sigure și ieșiri sigure (tabelul 6.2) (Desai, Ritchie, and Welpton 2016) . Nici unul dintre cele cinci seifuri nu asigură o protecție individuală. Dar împreună ele formează un set puternic de factori care pot reduce riscul informațional.

Tabelul 6.2: "Cinci safeuri" sunt principii pentru proiectarea și executarea unui plan de protecție a datelor (Desai, Ritchie, and Welpton 2016)
Sigur	Acțiune
Proiecte de siguranță	Limitează proiectele cu date la cele care sunt etice
Oameni sigure	Accesul este limitat la persoanele care pot avea încredere în date (de exemplu, persoane care au făcut obiectul unei pregătiri etice)
Date sigure	Datele sunt de-identificate și agregate în măsura posibilului
Setări sigure	Datele sunt stocate în computere cu o protecție fizică adecvată (de exemplu, cameră încuiată) și software (de exemplu, protecție prin parolă, criptată)
Siguranță de ieșire	Cercetarea este revizuită pentru a preveni încălcarea intimă a vieții private

Pe lângă protejarea datelor în timp ce le folosiți, un pas în procesul de cercetare în care riscul informațional este deosebit de important este schimbul de date cu alți cercetători. Schimbul de date între oamenii de știință este o valoare esențială a efortului științific și facilitează în mare măsură avansarea cunoștințelor. Iată cum a descris Marea Britanie Camera Comunelor importanța schimbului de date (Molloy 2011) :

"Accesul la date este fundamental dacă cercetătorii trebuie să reproducă, să verifice și să se bazeze pe rezultatele care sunt raportate în literatură. Presupunerea trebuie să fie aceea că, dacă nu există un motiv întemeiat în alt mod, datele ar trebui să fie dezvăluite pe deplin și făcute publice. "

Cu toate acestea, prin partajarea datelor cu un alt cercetător, este posibil să creșteți riscul informațional pentru participanții dvs. Astfel, poate părea că schimbul de date creează o tensiune fundamentală între obligația de a partaja datele cu alți oameni de știință și obligația de a minimiza riscul informațional pentru participanți. Din fericire, această dilemă nu este atât de severă cât pare. Mai degrabă, este mai bine să ne gândim la schimbul de date ca la o continuitate, fiecare punct al acelui continuum oferind un amestec diferit de beneficii pentru societate și risc pentru participanți (figura 6.6).

La o singură extremă, vă puteți împărtăși datele dvs. cu nimeni, ceea ce minimizează riscul pentru participanți, dar, de asemenea, minimizează câștigurile pentru societate. La cealaltă extremă, puteți să eliberați și să uitați , unde datele sunt "anonime" și postate pentru toată lumea. În ceea ce privește eliberarea datelor, eliberarea și uitarea oferă atât avantaje mai mari societății, cât și riscuri mai mari pentru participanți. Între aceste două cazuri extreme se numără o gamă de hibrizi, inclusiv ceea ce voi numi o abordare în grădină cu pereți . În cadrul acestei abordări, datele sunt partajate cu persoane care îndeplinesc anumite criterii și care acceptă să respecte anumite reguli (de exemplu, supravegherea unui IRB și a unui plan de protecție a datelor). Abordarea prin grădină cu pereți oferă multe dintre beneficiile eliberării și uită cu un risc mai mic. Desigur, o astfel de abordare creează multe întrebări - cine ar trebui să aibă acces, în ce condiții și pentru cât timp, cine ar trebui să plătească pentru a menține și a polița grădina cu pereți etc. - dar acestea nu sunt insurmontabile. De fapt, există deja grădini cu pereți de lucru, pe care cercetătorii le pot folosi chiar acum, cum ar fi arhiva datelor consorțiului interuniversitar pentru cercetare politică și socială de la Universitatea din Michigan.

Figura 6.6: Strategiile de eliberare a datelor pot cădea de-a lungul unui continuum. Unde ar trebui să fiți în acest continuum depinde de detaliile specifice ale datelor dvs., iar revizuirea de către terți vă poate ajuta să decideți echilibrul adecvat al riscului și beneficiului în cazul dvs. Forma exactă a acestei curbe depinde de specificul obiectivelor de date și de cercetare (Goroff 2015) .

Deci, în cazul în care datele din studiul dvs. ar trebui să fie pe continuum de împărțire, grădină cu pereți, și eliberați și uitați? Acest lucru depinde de detaliile datelor: cercetătorii trebuie să echilibreze respectul față de persoane, beneficiile, justiția și respectul pentru lege și interesul public. Privită din această perspectivă, schimbul de date nu este un conundru etic distinctiv; este doar unul dintre multele aspecte ale cercetării în care cercetătorii trebuie să găsească un echilibru etic adecvat.

Unii critici se opun, în general, schimbului de date, deoarece, în opinia mea, aceștia se concentrează asupra riscurilor - care sunt, fără îndoială, reale - și ignoră beneficiile sale. Deci, pentru a încuraja concentrarea atât pe riscuri, cât și pe beneficii, aș dori să ofer o analogie. În fiecare an, mașinile sunt responsabile pentru mii de decese, dar nu încercăm să interzicem conducerea. De fapt, un apel de a interzice conducerea vehiculelor ar fi absurd, deoarece conducerea permite multe lucruri minunate. Mai degrabă, societatea pune restricții asupra persoanelor care pot conduce (de exemplu, necesitatea de a fi o anumită vârstă și de a fi trecut anumite teste) și cum pot conduce (de exemplu, sub limita de viteză). Societatea are, de asemenea, persoane însărcinate cu punerea în aplicare a acestor reguli (de exemplu, poliția) și pedepsește oamenii care sunt prinși să le încalce. Același fel de gândire echilibrată pe care societatea o aplică în ceea ce privește reglementarea conducerii poate fi aplicată și în schimbul de date. Adică, mai degrabă decât să luăm argumente absolutiste pentru sau împotriva schimbului de date, cred că vom face cele mai multe progrese, concentrându-ne asupra modului în care putem reduce riscurile și ameliora beneficiile obținute de schimbul de date.

În concluzie, riscul informațional a crescut dramatic și este foarte greu de prezis și de cuantificat. Prin urmare, este mai bine să presupunem că toate datele sunt potențial identificabile și potențial sensibile. Pentru a reduce riscul informațional în timpul cercetării, cercetătorii pot crea și urma un plan de protecție a datelor. În plus, riscul informațional nu împiedică cercetătorii să partajeze date cu alți oameni de știință.