6.6.2 Pamahaman jeung Ngatur risiko informational

Risiko Sejenna nyaéta risiko paling umum dina panalungtikan sosial; geus ngaronjat nyirorot; jeung geus résiko hardest ngarti.

Tangtangan etika kadua keur umur sosial panalungtikan digital nyaéta risiko informational, potensi ngarugikeun ti panyingkepan informasi (Council 2014) . harms Informational ti panyingkepan informasi pribadi bisa jadi ékonomi (misalna kaleungitan pakasaban), sosial (misalna isin), psikologis (misalna depresi), atawa komo kriminal (misalna ditewak for kitu kalakuan haram). Hanjakalna, umur digital ngaronjatkeun risiko informasi nyirorot-aya ngan jadi loba inpo nu leuwih lengkep ngeunaan paripolah urang. Jeung, résiko informational geus kabuktian hésé pisan ngarti jeung ngatur dibandingkeun jeung resiko nu éta masalah dina umur analog panalungtikan sosial, saperti risiko fisik. Pikeun nempo kumaha umur digital ngaronjatkeun risiko informational, mertimbangkeun transisi ti kertas ka catetan médis éléktronik. Boh rupa catetan nyieun risiko, tapi catetan éléktronik nyieun resiko loba gede sabab dina skala masif bisa dikirimkeun ka hiji pihak diidinan atawa dihijikeun jeung catetan lianna. panalungtik sosial dina umur digital geus ngajalankeun kana kasulitan jeung risiko informational, dina bagian sabab teu pinuh ngarti kumaha ngitung jeung ngatur eta. Jadi, Kaula bade nawarkeun cara mantuan mikir ngeunaan resiko informational, terus Kaula bade mere Anjeun sababaraha saran pikeun kumaha carana ngatur risiko informational dina panalungtikan jeung di ngaleupaskeun data ka panalungtik séjén.

Hiji cara nu panalungtik sosial ngurangan risiko informational nyaeta "anonymization" tina data. "Anonymization" nyaéta prosés nyoplokkeun identifiers pribadi atra saperti ngaran, alamat, jeung nomer telepon ti data. Tapi, pendekatan ieu loba kurang éféktif batan loba jelema nyadar, sarta téh, kanyataan, deeply jeung fundamentally kawates. Pikeun alesan éta, iraha kuring ngajelaskeun "anonymization," Abdi gé maké tanda petik pikeun ngingetkeun yén prosés ieu nyieun penampilan anonymity tapi teu anonymity bener.

A conto hirup tina kagagalan "anonymization" asalna ti taun 1990-an ahir taun Massachusetts (Sweeney 2002) . Komisi asuransi Group (GIC) ieu agénsi pamaréntah tanggung jawab purchasing asuransi kasehatan keur sakabeh karyawan nagara. Ngaliwatan karya ieu, GIC dikumpulkeun catetan kaséhatan wincik tentang rébuan pagawé nagara. Dina hiji usaha pikeun spur panalungtikan ngeunaan cara pikeun ngaronjatkeun kaséhatan, GIC megatkeun pikeun ngaleupaskeun catetan ieu pikeun panalungtik. Tapi, maranehna teu babagi sakabéh data maranéhanana; rada, maranéhanana "anonymized" ku nyoplokkeun informasi saperti ngaran jeung alamat. Tapi, maranéhanana kenca inpo sejenna nu mikir bisa jadi mangpaat pikeun panalungtik saperti informasi demografi (kode pos, tanggal lahir, etnis, jeung sex) jeung informasi médis (data nganjang, diagnosis, prosedur) (Gambar 6.4) (Ohm 2010) . Hanjakalna, ieu "anonymization" teu cukup pikeun nangtayungan data.

Gambar 6.4: Anonymization nyaéta prosés nyoplokkeun écés identifying informasi. Contona, lamun ngaleupaskeun rékaman asuransi médis pagawé nagara Komisi asuransi Group Massachusetts (GIC) dihapus ngaran jeung alamat ti payel. Kuring make tanda petik kira-kira anonymization kecap sabab prosés nyadiakeun penampilan anonymity, tapi teu anonymity sabenerna.

Gambar 6.4: "Anonymization" nyaéta prosés nyoplokkeun écés identifying informasi. Contona, lamun ngaleupaskeun rékaman asuransi médis pagawé nagara Komisi asuransi Group Massachusetts (GIC) dihapus ngaran jeung alamat ti payel. Kuring make tanda petik kira-kira kecap "anonymization" sabab prosés nyadiakeun penampilan anonymity, tapi teu anonymity sabenerna.

Pikeun ngagambarkeun nu shortcomings tina GIC "anonymization", Latanya Sweeney-mangka mahasiswa pascasarjana di MIT-mayar $ 20 ka acquire rékaman voting ti kotana Cambridge, nu kampung halaman tina gubernur Massachusetts William Weld. Ieu catetan voting kaasup informasi saperti ngaran, alamat, kode pos, tanggal lahir, jeung gender. kanyataan yén file médis data jeung kodeu widang-pos file voter babarengan, tanggal lahir, jeung sex-Hartina, Sweeney bisa numbu eta. Sweeney terang yen ulang Weld sacara ieu Juli 31, 1945, jeung catetan voting kaasup ngan genep urang di Cambridge jeung ulang éta. Salajengna, maranéhanana genep urang, ngan tilu éta lalaki. Jeung, maranéhanana tilu lalaki, ngan hiji dibagi kode pos Weld sacara. Ku kituna, data voting némbongkeun yén saha di data médis jeung kombinasi Weld ngeunaan tanggal lahir, gender, jeung kode pos ieu William Weld. Dina panggih, tilu buah ieu informasi disadiakeun sidik unik manéhna dina data. Maké kanyataan ieu, Sweeney ieu bisa nomeran catetan médis Weld, sarta pikeun nginpokeun manéhna of Sunda nya, manéhna mailed manéhna salinan catetan-Na (Ohm 2010) .

Angka 6,5: Re-idenification data anonymized. Latanya Sweeney digabungkeun catetan kaséhatan anonymized jeung catetan voting dina raraga manggihan rekaman médis Gubernur William Weld (Sweeney 2002).

Angka 6,5: Re-idenification data "anonymized". Latanya Sweeney digabungkeun nu "anonymized" catetan kaséhatan jeung catetan voting dina raraga manggihan rekaman médis Gubernur William Weld (Sweeney 2002) .

Karya Sweeney sacara illustrates struktur dasar serangan de-anonymization -to ngadopsi istilah ti masarakat kaamanan komputer. Dina serangan kasebut, dua susunan data, ayakeun nu ku sorangan mangka informasi nu sensitip, nu numbu, sarta ngaliwatan beungkeut ieu, informasi nu sensitip nu kakeunaan. Dina sababaraha cara prosés ieu téh sarupa jeung cara anu baking soda jeung cuka, dua zat anu ku sorangan aman, bisa digabungkeun pikeun ngahasilkeun hasil nasty.

Dina response ka karya Sweeney, sarta karya patali séjén, panalungtik ayeuna umumna nyabut leuwih informasi-sadaya disebut "Sejenna Pribadi Ngidentipikasi" (PII) (Narayanan and Shmatikov 2010) -during prosés "anonymization." Salajengna, loba panalungtik ayeuna nyadar yén tangtu data-saperti catetan médis, catetan finansial, jawaban keur survey patarosan ngeunaan haram paripolah-meureun teuing sensitip ka ngaleupaskeun komo sanggeus "anonymization." Tapi, conto leuwih anyar nu bakal ngajelaskeun di handap nembongkeun yen panalungtik sosial kudu ngarobah pamikiran maranéhanana. Salaku lengkah kahiji, eta wijaksana ka nganggap yén sadaya data anu berpotensi diwanoh jeung sagala data anu berpotensi nu sensitip. Dina basa sejen, tinimbang mikir nu risiko informational manglaku ka sawaréh leutik proyék, urang kudu nganggap yen eta lumaku-to sababaraha gelar-ka sadaya proyék.

Boh aspék ieu re-orientasi nu gambar ku Hadiah Netflix. Salaku dijelaskeun dina Bab 5, Netflix dileupaskeun 100 juta ratings film disadiakeun ku ampir 500.000 anggota, sarta miboga telepon kabuka mana jelema ti sakumna dunya nyerah algoritma anu bisa ngaronjatkeun pangabisa Netflix pikeun nyarankeun film. Saméméh ngaleupaskeun data, Netflix dihapus wae informasi kalawan nyata pribadi-identifying, saperti ngaran. Netflix ogé indit hiji lengkah tambahan jeung diwanohkeun perturbations slight di sababaraha catetan (misalna, ngarobah sababaraha ratings ti 4 béntang ka 3 béntang). Netflix geura-giru kapanggih kitu, eta sanajan usaha maranéhanana, data éta ku no hartina anonim.

Ngan dua minggu sanggeus data anu dirilis Narayanan and Shmatikov (2008) némbongkeun yén ieu mungkin diajar ngeunaan kahoyong film urang husus sacara. Nu trik ka serangan re-idéntifikasi maranéhanana ieu sarua jeung Sweeney sacara: ngagabung babarengan dua sumber informasi, hiji jeung informasi berpotensi sensitip jeung no informasi kalawan nyata identifying jeung hiji nu ngandung identitas urang. Unggal sumber data ieu bisa jadi individual aman, tapi basa aranjeunna keur digabungkeun nu dataset dihijikeun bisa nyieun risiko informational. Dina kasus data Netflix, di dieu nu kumaha bisa kajadian. Bayangkeun mah milih pikeun ngabagikeun pikiran mah ngeunaan aksi jeung pilem komedi jeung mah ko-pagawe, tapi nu resep teu babagi pamanggih mah ngeunaan film agama jeung pulitik. My ko-pagawe bisa make inpo nu geus babarengan jeung maranehna manggihan catetan mah dina data Netflix; inpo nu babagi bisa jadi sidik unik kawas tanggal William Weld sacara lahir, kode pos, sarta sex. Saterusna, lamun maranehna manggihan sidik unik mah dina data, maranéhanana bisa diajar ratings mah ngeunaan sagala film, kaasup film mana atuh milih teu bagikeun. Sajaba jenis ieu serangan sasaran fokus kana hiji jalma tunggal, Narayanan and Shmatikov (2008) ogé némbongkeun yén ieu mungkin lampahkeun -one serangan lega ngalibetkeun loba jelema-ku merging data Netflix jeung data rating pribadi jeung film yén sababaraha urang geus dipilih masangkeun dina databés Internet Movie (IMDb). Sakur informasi nu sidik unik ka jalma-komo set maranéhanana tangtu film ratings-bisa dipaké pikeun ngaidentipikasi eta.

Sanajan data Netflix bisa ulang dicirikeun di boh serangan sasaran atawa lega, masih bisa mucunghul jadi résiko low. Barina ogé, ratings film teu sigana sensitip pisan. Sedengkeun anu bisa jadi bener sacara umum, pikeun sababaraha 500.000 jelema di dataset teh, ratings film bisa jadi cukup sensitip. Malah dina response ka de-anonymization wanoja lesbian closeted ngagabung hiji jas kelas-aksi ngalawan Netflix. Di dieu nu kumaha masalah ieu dinyatakeun dina gugatan maranéhanana (Singel 2009) :

"[M] ovie jeung rating data ngandung informasi tina alam leuwih kacida pribadi jeung nu sensitip [sic]. data film anggota sacara ngungkabkeun kapentingan pribadi anggota Netflix jeung / atawa struggles jeung rupa-rupa isu kacida pribadi, kaasup seksualitas, gering mental, recovery ti alkohol, sarta victimization ti incest, nyiksa fisik, kekerasan domestic, zinah, jeung perkosa. "

Nu de-anonymization data Netflix Hadiah illustrates boh yén sadaya data anu berpotensi diwanoh sarta yén sadaya data anu berpotensi nu sensitip. Dina titik ieu, Anjeun bisa mikir nu ieu ngan manglaku ka data nu nu purports jadi kira-kira urang. Ahéng, nu teu kasus nu bener. Dina response ka Freedom of paménta Hukum Sejenna, Pamaréntah Kota New York dileupaskeun catetan unggal numpak taksi di New York di 2013, kaasup Alas jeung leupaskeun off kali, lokasi, sarta jumlah ongkos (ngelingan ti Bab 2 nu Farber (2015) dipaké data ieu nguji téori penting dina ékonomi tanaga gawé). Sanajan data ieu ngeunaan lalampahan taksi bisa sigana benign sabab teu sigana jadi informasi ngeunaan jalma, Anthony Tockar sadar yen dataset taksi ieu sabenerna dipiboga kavling informasi berpotensi sensitip ngeunaan urang. Pikeun ngagambarkeun, manéhna melong sadaya lalampahan dimimitian di The Hustler Club-klub strip badag di New York-antara tengah wengi jeung 6am terus kapanggih lokasi drop-off maranéhanana. Search Ieu wangsit-di panggih-daptar Alamat sababaraha jelema anu sering The Hustler Club (Tockar 2014) . Ieu téh hésé dibayangkeun yén pamaréntah kota geus ieu dina pikiran lamun dileupaskeun data. Kanyataanna, téhnik sarua ieu bisa dipaké pikeun manggihan Alamat imah jelema anu nganjang tempat nu mana wae nu di kota-a klinik médis, wangunan pamaréntah, atawa lembaga agama.

Ieu dua kasus-Hadiah Netflix jeung New York City taksi data-pintonan nu urang kawilang terampil gagal bener estimasi risiko informational dina data yen maranehna dileupaskeun, jeung kasus ieu ku no hartina unik (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Salajengna, dina loba kasus ieu, data masalah masih bebas sadia online, nunjukkeun kasusah tina kungsi undoing siaran data. Koléktif conto-salaku ieu ogé panalungtikan dina élmu komputer ngeunaan privasi-ngawujud hiji kacindekan penting. Panalungtik kudu nganggap yén sadaya data anu berpotensi diwanoh jeung sagala data anu berpotensi nu sensitip.

Hanjakal, teu aya solusi basajan kanyataan yén sadaya data anu berpotensi diwanoh jeung sagala data anu berpotensi nu sensitip. Tapi, salah sahiji cara pikeun ngurangan résiko informasi bari anjeun gawé bareng data nya éta nyieun teras turutan rencana panyalindungan data. rencana ieu bakal nurun kasempetan nu data Anjeun bakal bocor jeung bakal ngurangan ngarugikeun lamun bocor a kumaha bae lumangsung. Nu specifics tina rencana panyalindungan data, saperti nu bentuk enkripsi maké, bakal ngarobah kana waktu, tapi UK Data Services helpfully organizes unsur rencana panyalindungan data kana 5 kategori nu nelepon 5 brankas: proyék aman, urang aman , setélan aman, data aman, jeung outputs aman (Table 6.2) (Desai, Ritchie, and Welpton 2016) . Taya lima brankas individual nyadiakeun panyalindungan sampurna. Tapi, bareng maranehna ngabentuk susunan kuat faktor anu bisa ngurangan résiko informational.

Table 6.2: Nu 5 brankas anu prinsip pikeun ngarancang jeung executing rencana panyalindungan data (Desai, Ritchie, and Welpton 2016) .
tengtrem aksi
proyék aman watesan proyék jeung data maranéhanana anu etika
urang aman aksés ieu diwatesan ka jalma anu bisa dipercaya jeung data (misalna, urang geus undergone latihan etika)
data aman data de-dicirikeun jeung aggregated ka extent mungkin
setélan aman data disimpen dina komputer jeung fisik hade (misalna kamar dikonci) jeung software (misalna panyalindungan kecap akses Anjeun, énkripsi) protections
output aman output panalungtikan téh reviewed pikeun nyegah ngahaja breaches privasi

Salian mayungan data Anjeun bari Anjeun keur make eta, hiji lengkah dina prosés panalungtikan mana risiko informational sabagian salient nyaeta babagi data jeung panalungtik séjén. babagi Data antara élmuwan nyaeta nilai inti tina bagean ilmiah, sarta greatly fasilitas kamajuan pangaweruh. Di dieu nu kumaha Inggris DPR Commons digambarkeun pentingna babagi data:

"Access ka data anu fundamental lamun panalungtik nu ka baranahan, pariksa jeung ngawangun dina hasil nu dilaporkeun dina karya sastra. Anggapan kudu éta, kajaba aya alesan kuat disebutkeun, data kudu pinuh diungkabkeun jeung dijieun sadia masarakat awam. Dina garis jeung prinsip ieu, di mana mungkin, data patali sareng sadaya panalungtikan dibiayaan masarakat awam kudu dilakukeun loba jeung sadia kalawan bébas. " (Molloy 2011)

Tapi, ku babagi data Anjeun sareng panalungtik sejen, Anjeun bisa ngaronjatkeun risiko informational ka pamilon Anjeun. Ku kituna, meureun sigana nu panalungtik anu hayang babagi maranéhanana data-atawa diwajibkeun pikeun ngabagikeun maranéhanana data-nu nyanghareup a tegangan fundamental. Dina hiji leungeun maranehna boga kawajiban etika pikeun ngabagikeun data maranéhanana jeung élmuwan séjén, utamana lamun panalungtikan asli dibiayaan masarakat awam. Tapi, dina waktu anu sarua, panalungtik boga kawajiban etika jang ngaleutikan, saloba mungkin, résiko informasi ka pamilon maranéhanana.

Untungna, kantun ieu teu jadi parna sabab nembongan. Ieu téh penting pikeun mikir babagi sapanjang continuum ti no babagi data nu rék dipegatkeun jeung poho, di mana data anu "anonymized" jeung dipasang pikeun saha pikeun ngakses data (Gambar 6,6). Boh ieu posisi ekstrim geus resiko jeung mangpaat. Hartina, teu otomatis hal paling etika teu babagi data anjeun; an pendekatan saperti eliminates loba mangpaat potensi pikeun masarakat. Balik ka Rasakeun, Dasi, jeung Zona, conto dibahas saméméhna dina bab, alesan ngalawan release data nu museurkeun ukur dina mungkin harms jeung nu malire mangpaat mungkin aya overly hiji-sided; Abdi gé ngajelaskeun masalah jeung hiji-sided, pendekatan overly pelindung ieu leuwih jéntré di handap basa kuring nawarkeun nasihat ngeunaan nyieun kaputusan dina nyanghareupan kateupastian (Bagéan 6.6.4).

Angka 6,6: strategi release Data bisa digolongkeun babarengan continuum a. Dimana anjeun kudu sapanjang continuum ieu gumantung kana wincikan husus data Anjeun. Dina hal ieu, review pihak katilu bisa mantuan Anjeun mutuskeun kasaimbangan hade risiko jeung benefit dina kasus Anjeun.

Angka 6,6: strategi release Data bisa digolongkeun babarengan continuum a. Dimana anjeun kudu sapanjang continuum ieu gumantung kana wincikan husus data Anjeun. Dina hal ieu, review pihak katilu bisa mantuan Anjeun mutuskeun kasaimbangan hade risiko jeung benefit dina kasus Anjeun.

Salajengna, di antara dua kasus ekstrim ieu naon gé kuring disebut pendekatan taman walled mana data anu babarengan jeung jalma nu minuhan kriteria nu tangtu jeung anu satuju ka kabeungkeut ku aturan nu tangtu (misalna pangawasan ti IRB jeung rencana panyalindungan data) . pendekatan taman walled ieu nyadiakeun loba mangpaat release jeung poho jeung risiko kurang. Tangtu, pendekatan taman walled nyieun loba patarosan-anu kudu gaduh wasa, dina kaayaan naon, keur sabaraha lila, nu kudu mayar pikeun mulasara jeung polisi walled taman jsb-tapi ieu teu insurmountable. Kanyataanna, aya geus dipake kebon walled di tempat nu panalungtik bisa maké ayeuna, saperti arsip data tina Konsorsium Inter-universitas keur Pulitik jeung Sosial Panalungtikan di Universitas Michigan.

Jadi, di mana data ti ulikan Anjeun kudu dina continuum tina no babagi, taman walled, sarta ngaleupaskeun jeung poho? Eta gumantung kana wincik data anjeun; panalungtik kudu saimbang Hormat keur jalma, Beneficence, Kaadilan, jeung Hormat keur Hukum sarta Undang-Minat Public. Lamun assessing kasaimbangan hade keur kaputusan séjén panalungtik neangan nasehat jeung persetujuan ti IRBs, sarta release data bisa ngan bagian nu lian dina prosés éta. Dina basa sejen, sanajan sababaraha urang mikir release data salaku morass etika naon naon, urang geus boga sistem di tempat pikeun mantuan panalungtik saimbang jenis ieu dilemmas etika.

Hiji cara final mikir ngeunaan babagi data ku analogi. Unggal mobil taun anu tanggung jawab rébuan maotna, tapi urang teu nyobian larangan nyetir. Kanyataanna, telepon saperti ka larangan nyetir bakal absurd sabab nyetir nyandak loba hal éndah. Rada, masarakat tempat larangan dina anu bisa ngajalankeun (misalna kudu umur nu tangtu, kudu geus kaliwat tes tangtu) jeung kumaha maranéhanana bisa ngajalankeun (misalna dina wates laju). Society ogé ngabogaan jalma tasked jeung enforcing aturan ieu (misalna polisi), jeung urang ngahukum jelema anu bray violating eta. jenis ieu sarua pamikiran saimbang nu masarakat manglaku ka ngatur nyetir ogé bisa diterapkeun ka babagi data. Hartina, tinimbang nyieun alesan absolutist keur atawa lawan babagi data, Jigana mangpaat pangbadagna bakal datang ti figuring kaluar kumaha carana urang bisa ngabagikeun leuwih data leuwih aman.

Pikeun disimpulkeun, résiko informational geus ngaronjat nyirorot, sarta pohara teuas pikeun ngaduga jeung ngitung. Ku alatan éta, éta téh pangalusna pikeun nganggap yén sadaya data anu berpotensi diwanoh sarta berpotensi nu sensitip. Pikeun ngurangan risiko informational bari ngalakonan panalungtikan, panalungtik bisa nyieun tur turutan rencana panyalindungan data. Salajengna, résiko informational teu nyegah panalungtik ti babagi data jeung élmuwan séjén.