6.6.2 Mahami lan ngatur resiko pawarto

Resiko Informasi punika resiko paling umum ing riset sosial; wis tambah dramatically; lan iku resiko angel mangertos.

Tantangan sopan liya kanggo umur sosial riset digital resiko pawarto, potensial kanggo gawe piala saka pambocoran informasi (Council 2014) . harms pawarto saka pambocoran informasi pribadhi bisa dadi ekonomi (eg, rusak proyek), sosial (eg, Wirang), psikologis (eg, depresi), utawa malah pidana (eg, penahanan prilaku ilegal). Sayange, ing umur digital mundhak resiko informasi dramatically-ana mung dadi luwih informasi luwih lengkap babagan prilaku kita. Lan, resiko pawarto wis buktiaken angel banget kanggo mangerteni lan ngatur dibandhingake risiko sing padha uneg-uneg ing umur analog riset sosial, kayata resiko fisik. Kanggo ndeleng carane umur digital mundhak resiko pawarto, nimbang transisi saka kertas kanggo medical elektronik. Loro jinis cathetan nggawe resiko, nanging cathetan elektronik nggawe risiko luwih akeh amarga ing ukuran massive padha bisa ditularaké partai ora sah utawa kagabung karo cathetan liyane. peneliti Social ing umur digital wis mbukak menyang alangan karo resiko pawarto, ing sisih amarga padha ora sacara kebak ngerti carane ngundhakke lan ngatur iku. Dadi, aku arep kanggo kurban cara mbiyantu kanggo mikir bab resiko pawarto, banjur aku arep menehi sawetara saran carane kanggo ngatur risiko pawarto ing riset lan ing ngeculake data kanggo panliti liya.

Salah siji cara sing peneliti sosial ngurangi resiko pawarto punika "anonymization" saka data. "Anonymization" proses njabut Identifikasi pribadi ketok kayata jeneng, alamat, lan nomer telpon saka data. Nanging, iki pendekatan akeh kurang efektif tinimbang akeh wong éling, lan iku, ing kasunyatan, rumiyin lan dhasar winates. Kanggo alesan sing, kapan aku njlèntrèhaké "anonymization," Aku bakal nggunakake tandha petik kanggo ngelingake sampeyan sing proses iki nggawe munculé anonymity nanging ora anonymity bener.

Conto urip saka Gagal "anonymization" asalé saka taun 1990-an ing Massachusetts (Sweeney 2002) . Komisi Insurance Group (GIC) ana lembaga pemerintah tanggung jawab kanggo mundhut insurance kesehatan kanggo kabeh karyawan negara. Liwat karya iki, ing GIC diklumpukake cathetan kesehatan rinci babagan ewu karyawan negara. Ing gaweyan kanggo macu riset babagan cara kanggo nambah kasehatan, GIC mutusaké kanggo ngeculake cathetan iki peneliti. Nanging, padha ora nuduhake kabeh data sing; rodo, padha "anonymized" iku dening njabut informasi kayata jeneng lan alamat. Nanging, padha kiwa informasi liyane sing padha panginten bisa migunani kanggo riset kayata informasi demografi (kode pos, tanggal lair, kesukuan, lan jinis) lan informasi medical (data riko, diagnosa, prosedur) (Figure 6.4) (Ohm 2010) . Sayange, iki "anonymization" ora cukup kanggo nglindhungi data.

Figure 6.4: anonymization proses njabut temenan Ngenali informasi. Contone, nalika ngeculake cathetan insurance medical karyawan negara Komisi Insurance Group Massachusetts (GIC) dibusak jeneng lan alamat saka file. Nganggo kuotasi sak anonymization tembung amarga proses menehi tampilan anonymity, nanging ora anonymity nyata.

Figure 6.4: "anonymization" proses njabut temenan Ngenali informasi. Contone, nalika ngeculake cathetan insurance medical karyawan negara Komisi Insurance Group Massachusetts (GIC) dibusak jeneng lan alamat saka file. Nganggo kuotasi sak tembung "anonymization" amarga proses menehi tampilan anonymity, nanging ora anonymity nyata.

Kanggo ilustrasi shortcomings saka GIC "anonymization", Latanya Sweeney-banjur mahasiswa lulusan ing MIT mbayar $ 20 kanggo ndarbeni cathetan pilihan saka kutha Cambridge, ing tanah asalé saka gubernur Massachusetts William Weld. Iki cathetan pilihan klebu informasi kayata jeneng, alamat, kode pos, tanggal lair, lan gender. Kasunyatan bilih file medical data lan kode kothak-zip file pinilih sambungan, tanggal lair, lan jinis-temenan Sweeney bisa pranala mau. Nathan Singer sumurup ulang Weld kang ana Juli 31, 1945, lan cathetan pilihan klebu mung enem wong ing Cambridge karo ulang tahun sing. Luwih, sing enem wong, mung telu lanang. Lan, sing telu wong, mung siji sambungan kode pos Weld kang. Mangkono, ing data pilihan nuduhake yen wong ing data medical karo kombinasi Weld kang tanggal lair, gender, lan kode pos ana William Weld. Ing pet, tigang bagéyan iki informasi kasedhiya driji unik kanggo wong ing data. Nggunakake kasunyatan iki, Sweeney bisa nemokake cathetan medical Weld, lan kanggo ngandhani wong feat dheweke, dheweke sering dipun kirim wong salinan cathetan kang (Ohm 2010) .

Tokoh 6.5: Re-idenification data anonymized. Latanya Sweeney digabungake cathetan kesehatan anonymized karo cathetan pilihan supaya golek medical Gubernur William Weld (Sweeney 2002).

Tokoh 6.5: Re-idenification data "anonymized". Latanya Sweeney nggabungaké "anonymized" cathetan kesehatan karo cathetan pilihan supaya golek medical Gubernur William Weld (Sweeney 2002) .

Karya Sweeney kang nggambaraké struktur dasar serangan de-anonymization -Kanggo nganggo istilah saka masyarakat keamanan komputer. Ing serangan iki, loro set data, lorone kang dhewe marang informasi sensitif, sing disambung, lan liwat ubungan iki, informasi sensitif wis kapapar. Ing sawetara cara proses iki padha karo cara sing baking soda lan cuka, kalih dat sing dening piyambak aman, bisa dikombinasikaké kanggo gawé kasil becik.

Nanggepi karya Sweeney kang, lan karya liyane sing gegandhengan, peneliti saiki umume mbusak luwih Alexa-kabeh supaya disebut "Informasi Wong Ngenali" (PII) (Narayanan and Shmatikov 2010) -during proses "anonymization." Salajengipun, akeh riset saiki éling sing tartamtu data kayata medical, cathetan financial, jawaban kanggo survey pitakonan ilegal prilaku-mbokmenawa banget sensitif kanggo nerbitaké malah sawise "anonymization." Nanging, conto liyane anyar sing aku bakal njlèntrèhaké ing ngisor iki nuduhaké peneliti sosial kudu ngganti pikiran sing. Minangka langkah pisanan, iku wicaksana kanggo nganggep sing kabeh data potensi dingerteni lan kabeh data potensi sensitif. Ing tembung liyane, tinimbang mikir sing risiko pawarto ditrapake kanggo himpunan cilik proyèk, kita kudu nganggep yen ditrapake-kanggo sawetara jurusan-kanggo kabèh proyèk-proyèk.

Loro-lorone aspèk iki re-orientasi sing gambaran dening Nobel Netflix. Minangka diterangake ing Chapter 5, Netflix dirilis 100 yuta ratings movie diwenehake dening meh 500.000 anggota, lan wis telpon mbukak ngendi wong saka kabeh ndonya diajukake kalkulus sing bisa nambah kemampuan Netflix kang kanggo menehi saran film. Sadurunge rilis data ing, Netflix dibusak sembarang informasi temenan wong-Ngenali, kayata jeneng. Netflix uga banjur langkah ekstra lan ngenalaken gangguan tipis ing sawetara saka cathetan (eg, ganti sawetara ratings saka 4 stars kanggo 3 stars). Netflix rauh ditemokaké, Nanging, sing senadyan efforts, data padha ora tegese anonim.

Mung rong minggu sawise data kang dirilis Narayanan and Shmatikov (2008) nuduhake yen iku bisa kanggo mangerteni pilihan movie wong tartamtu kang. Carane kanggo serangan re-identifikasi iki padha Sweeney kang: nggabung bebarengan loro sumber informasi, siji karo informasi potensi sensitif lan mboten wonten informasi temenan Ngenali lan salah siji sing ngandhut identitas wong. Saben sumber data iki uga individu aman, nanging nalika lagi digabungake ing perlengkapan data gabung bisa nggawe resiko pawarto. Ing cilik saka data Netflix, kene carane bisa kelakon. Mbayangno aku milih kanggo nuduhake pikirane bab tumindak lan film komedi karo co-buruh, nanging aku luwih seneng ora kanggo nuduhake pendapat bab film agama lan politik. Kula co-buruh bisa nggunakake informasi sing aku wis sambungan karo wong kanggo golek cathetan ana ing data Netflix; informasi sing aku bareng bisa dadi bekas driji unik kaya tanggal William Weld kang lair, kode pos, lan jinis. Banjur, yen padha golek driji unik sandi ing data, padha bisa sinau ratings bab kabeh film, kalebu film ngendi aku milih ora kanggo nuduhake. Saliyane iki jenis serangan diangkah fokus ing wong siji, Narayanan and Shmatikov (2008) uga nuduhake yen iku bisa kanggo nindakake -kliru serangan amba nglibatno akeh wong-by gabung ing data Netflix karo data HFS pribadi lan film sing sawetara wong wis milih kanggo ngirim ing Internet Movie Database (IMDb). Sembarang informasi sing driji unik kanggo wong-malah pesawat sing tartamtu saka film ratings-bisa digunakake kanggo ngenali mau.

Malah sanadyan data Netflix bisa maneh dikenali ing salah siji serangan diangkah utawa amba, iku isih bisa katon dadi resiko kurang. Sawise kabeh, ratings movie ora koyone banget sensitif. Nalika sing bisa dadi bener ing umum, kanggo sawetara saka 500.000 wong ing perlengkapan data ing, ratings movie uga cukup sensitif. Ing kasunyatan, kanggo nanggepi sing de-anonymization wadon lesbian closeted gabungan miturut kelas-action marang Netflix. Punika carane masalah iki ditulis ing tuntutan hukum sing (Singel 2009) :

"[M] ovie lan HFS data ngandhut informasi saka alam liyane Highly pribadi lan sensitif [sic]. data movie anggota nyedhiyakake kapentingan pribadi anggota Netflix lan / utawa perjuangan karo macem-macem masalah Highly pribadi, kalebu seksualitas, penyakit mental, Recovery saka mabuk, lan victimization saka mama, penyalahgunaan fisik, domestik, jina, lan rudo pekso. "

The de-anonymization saka data Netflix Bebungah nggambaraké loro sing kabeh data potensi dingerteni lan kabeh data potensi sensitif. Ing jalur iki, sampeyan bisa mikir sing iki mung ditrapake kanggo data sing sing purports dadi bab wong. Kaget, sing ora cilik. Nanggepi Merdika saka request Hukum Informasi, Pemerintah Kota New York dirilis cathetan saka saben kulo taxi in New York ing 2013, kalebu pilihan lan nyelehake mati kaping, lokasi, lan jumlah beya (kelingan saka Chapter 2 sing Farber (2015) digunakake data iki kanggo nyoba teori penting ing ekonomi pegawe). Senajan data bab lelungan taxi bisa koyone entheng amarga ora koyone informasi bab wong, Anthony Tockar temen maujud sing perlengkapan data taxi iki bener sing persil informasi potensi sensitif bab wong. Kanggo ilustrasi, Yohanes terus nyawang kabeh lelungan miwiti ing Hustler Club-klub Strip gedhe ing New York-antarane tengah wengi lan 6am lan banjur ketemu lokasi gulung-mati. Iki dicethakaké-panggih-dhaptar alamat saka sawetara wong sing Kerep The Hustler Club (Tockar 2014) . Iku hard kanggo mbayangno sing pamaréntah kutha wis ing atine nalika dirilis data ing. Ing kasunyatan, technique padha iki bisa digunakake kanggo nemokake alamat omah wong sing ngunjungi panggonan endi wae ing kutha-Clinic medical, bangunan pemerintah, utawa institusi agama.

Iki loro kasus-Bebungah Netflix lan New York City taxi data-show sing wong relatif trampil gagal bener ngira risiko pawarto ing data sing ngetokaké, lan kasus iki ora ateges unik (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Luwih, ing akeh kasus iki, data masalah isih bebas sing kasedhiya online, nuduhake ing kangelan saka tau pambatalan release data. Bebarengan conto-kaya iki uga riset ing èlmu komputer privasi-ndadékaké menyang kesimpulan penting. Peneliti kudu nganggep yen kabeh data potensi dingerteni lan kabeh data potensi sensitif.

Sayange, ora ana solusi prasaja kanggo kasunyatan sing kabeh data potensi dingerteni lan kabeh data potensi sensitif. Nanging, salah siji cara kanggo ngurangi resiko Alexa nalika nggarap data kanggo nggawe lan tindakake rencana pangayoman data. Iki rencana bakal sudo kasempatan data bakal bocor lan bakal ngurangi gawe piala yen bocor piye wae ana. Spesifik plans pangayoman data, kayata kang wangun enkripsi nggunakake, bakal ngganti liwat wektu, nanging UK Data Services helpfully nganakake unsur rencana pangayoman data menyang 5 kategori sing padha nelpon 5 safes: projects aman, aman wong , setelan aman, data aman, lan hasil aman (Tabel 6.2) (Desai, Ritchie, and Welpton 2016) . Ana ing limang safes individu nyedhiyani pangayoman sampurna. Nanging, bebarengan padha mbentuk pesawat kuat faktor sing bisa ngurangi resiko pawarto.

Tabel 6.2: 5 safes sing prinsip kanggo ngrancang lan ngukum rencana pangayoman data (Desai, Ritchie, and Welpton 2016) .
Selamet Tindakan
proyèk aman watesan proyèk karo data kanggo sing sopan
wong aman akses diwatesi kanggo wong-wong sing bisa dipercaya karo data (eg, wong wis ngalami akèh owah-training sopan)
data aman data wis de-dikenali lan dikumpulke menyang ombone bisa
setelan aman data disimpen ing komputer karo fisik cocok (eg, kamar dikunci) lan software (eg, Pendhaftaran Proteksi, ndhelik) pangreksan
output aman output riset wis dideleng kanggo nyegah sengaja nglanggar privasi

Saliyane kanggo nglindhungi data nalika sampeyan nggunakake, siji langkah ing proses riset ngendi resiko pawarto utamané salient iku enggo bareng data karo peneliti liyane. enggo bareng data antarane ilmuwan aji inti saka usaha tenanan ngelmu, lan iku nemen fasilitas kamajuan kawruh. Punika cara UK House of Commons diterangake pentinge enggo bareng data:

"Akses kanggo data dhasar yen peneliti sing ngasilaken, verifikasi lan mbangun ing asil sing dilapurake ing sastra. Praduga kudu sing, kajaba ana alesan kuwat digunakake, data kudu kanthi dibeberke lan digawe tersedia. Ing baris karo asas iki, ngendi bisa, data gadhah kabeh riset mbiayai publicly kudu digawe digunakake lan bebas. " (Molloy 2011)

Nanging, dening nuduhake data karo peneliti liyane, sampeyan bisa nambah risiko pawarto kanggo peserta Panjenengan. Mangkono, iku uga koyone sing peneliti sing pengin nuduhake data utawa sing dibutuhaké kanggo nuduhake data-madhep tension dhasar. Ing tangan siji padha duwe kewajiban sopan kanggo nuduhake data karo ilmuwan liyané, utamané yen riset asli wis mbiayai publicly. Nanging, ing wektu sing padha, peneliti duwe kewajiban sopan kanggo nyilikake, okehe, resiko informasi kanggo peserta sing.

Begjanipun, bingung iki ora abot kang katon. Penting mikir nuduhake bebarengan terus saka enggo bareng data kanggo nerbitaké lan lali, ngendi data wis "anonymized" lan dikirim kanggo sapa kanggo ngakses data (Figure 6.6). Loro-lorone iki posisi nemen duwe risiko lan keuntungan. Sing, iku ora kanthi otomatis ingkang paling sopan kanggo ora nuduhake data; pendekatan kuwi ngilangake akeh keuntungan potensial kanggo masyarakat. Bali menyang Rasa, Ties, lan Time, conto rembugan sadurungé ing bab, bantahan marang release data sing fokus mung bisa harms lan sing nglirwakake keuntungan bisa sing kebacut siji-sisi; Aku bakal njlèntrèhaké masalah karo siji-sisi, pendekatan kebacut protèktif iki ing liyane rinci ing ngisor iki nalika aku nasihat babagan nggawe pancasan ing pasuryan saka kahanan sing durung mesthi (Section 6.6.4).

Tokoh 6.6: Sastranegara release Data bisa tiba bebarengan terus a. Where sampeyan kudu bebarengan terus iki gumantung ing rincian tartamtu saka data. Ing kasus iki, review pihak katelu uga bantuan arep imbangan cocok saka resiko lan entuk manfaat ing cilik.

Tokoh 6.6: Sastranegara release Data bisa tiba bebarengan terus a. Where sampeyan kudu bebarengan terus iki gumantung ing rincian tartamtu saka data. Ing kasus iki, review pihak katelu uga bantuan arep imbangan cocok saka resiko lan entuk manfaat ing cilik.

Luwih, ing antarane loro kasus nemen iki apa bakal aku disebut pendekatan Taman pagere ngendi data bareng karo wong-wong sing ketemu kritéria tartamtu lan sing manut dening aturan tartamtu (contone, ora kasil saka IRB lan plans pangayoman data) . pendekatan Taman pagere iki menehi akeh keuntungan release lan lali karo resiko kurang. Mesthi, pendekatan Taman pagere nggawe akeh pitakonan-sing kudu duwe akses, ing kahanan apa, carane dawa, sing kudu mbayar kanggo njaga lan polisi ing pagere Taman etc. nanging iki ora insurmountable. Ing kasunyatan, ana sing wis apa Kebon pagere ing panggonan sing peneliti bisa nggunakake sapunika, kayata data arsip saka Consortium Inter-universitas kanggo Politik lan Social Research ing Universitas Michigan.

Dadi, endi data saka sinau kudu ing terus saka enggo bareng, Taman pagere, lan ngangkat lan lali? Iku gumantung ing rincian data; peneliti kudu Balance ngurmati Persons, Beneficence, Kehakiman, lan ngurmati Hukum lan Public Interest. Nalika pambiji imbangan cocok kanggo pancasan liyane peneliti ngupaya saran lan pasetujon IRBs, lan release data bisa mung bagean liyane proses sing. Ing tembung liyane, senadyan sawetara wong mikir release data minangka morass sopan rawa, kita wis duwe sistem ing Panggonan kanggo peneliti Balance jenis iki dilemmas sopan.

Salah siji cara final kanggo mikir bab fungsi enggo bareng data dening analogi. Saben mobil taun tanggung jawab kanggo ewu an, nanging aku ora nyoba kanggo ban driving. Ing kasunyatan, telpon kuwi Ban driving bakal khayal amarga driving mbisakake akeh iku apik. Luwih, masyarakat panggonan Watesan ing sing bisa drive (eg, kudu umur tartamtu, kudu wis liwati tes tartamtu) lan carane wong bisa drive (eg, ing wates kacepetan). Masyarakat uga wis wong ditugasi enforcing aturan iki (eg, polisi), lan kita ngukum wong-wong sing kejiret nglanggar wong. Iki jenis sing padha pikiran imbang sing masyarakat ditrapake kanggo ngatur driving uga bisa Applied kanggo enggo bareng data. Sing, tinimbang nggawe bantahan absolutist kanggo utawa marang enggo bareng data, aku keuntungan gedhe bakal teka saka mengetahui anggone kita bisa nuduhake liyane data liyane aman.

Nganakke, resiko pawarto wis tambah dramatically, lan iku banget hard kanggo mrédhiksi lan ngundhakke. Mulane, iku paling apik kanggo nganggep sing kabeh data potensi dingerteni lan duweni potensi sensitif. Kanggo ngurangi risiko pawarto nalika mengkono riset, peneliti bisa nggawe lan tindakake rencana pangayoman data. Luwih, resiko pawarto ora nyegah peneliti saka enggo bareng data karo ilmuwan liyane.