6.6.2 Pamahaman jeung Ngatur risiko informational

Résiko Informational teh resiko paling umum dina ieu panalungtikan sosial; eta geus ngaronjat drastis; tur eta teh resiko hardest ngartos.

Tangtangan etika kadua pikeun panalungtikan-umur digital nyaéta résiko informational, potensi cilaka ti panyingkepan inpormasi (National Research Council 2014) . harms Informational ti panyingkepan inpormasi pribadi bisa jadi ékonomi (misalna kaleungitan pakasaban), sosial (misalna isin), psikologi (misalna depresi), atawa malah kriminal (misalna ditewak pikeun kabiasaan ilegal). Hanjakal, umur digital naek résiko informational nyirorot-aya ngan jadi leuwih informasi ngeunaan kabiasaan urang. Sarta résiko informational geus kabuktian hésé pisan ngarti jeung ngatur dibandingkeun kalawan resiko nu éta masalah dina analog-umur panalungtikan sosial, kayaning résiko fisik.

Hiji cara nu panalungtik sosial ngurangan risiko informational nyaeta "anonymization" tina data. "Anonymization" nyaéta prosés nyoplokkeun identifiers pribadi atra saperti ngaran, alamat, jeung nomer telepon ti data. Tapi, pendekatan ieu loba kurang éféktif batan loba jelema nyadar, sarta téh, kanyataan, deeply jeung fundamentally kawates. Pikeun alesan éta, iraha kuring ngajelaskeun "anonymization," Abdi gé maké tanda petik pikeun ngingetkeun yén prosés ieu nyieun penampilan anonymity tapi teu anonymity bener.

Hiji conto vivid tina kagagalan "anonymization" asalna tina taun 1990-an ahir taun Massachusetts (Sweeney 2002) . Komisi asuransi Grup (GIC) éta mangrupa lembaga pamaréntah jawab purchasing asuransi kaséhatan pikeun sakabéh pagawé nagara. Ngaliwatan karya ieu, anu GIC dikumpulkeun rékaman kaséhatan wincik tentang rébuan pagawé nagara. Dina upaya spur panalungtikan, GIC mutuskeun rék dipegatkeun rékaman ieu mun peneliti. Sanajan kitu, aranjeunna henteu bagikeun kabeh data maranéhna; rada, aranjeunna "anonymized" data ieu ku nyoplokkeun informasi kayaning ngaran jeung alamat. Sanajan kitu, aranjeunna ninggalkeun informasi séjén anu aranjeunna sangka bisa jadi mangpaat pikeun peneliti kayaning informasi demografi (kode pos, tanggal lahir, etnis, jeung sex) jeung informasi médis (data mangga buka, diagnosis, prosedur) (inohong 6.4) (Ohm 2010) . Hanjakal, ieu "anonymization" éta teu cukup pikeun ngajaga data.

Gambar 6.4: Anonymization nyaéta prosés nyoplokkeun écés identifying informasi. Contona, nalika ngaleupaskeun rékaman asuransi médis karyawan kaayaan, KPK asuransi Grup Massachusetts (GIC) dihapus ngaran jeung alamat ti payel. Kuring nganggo tanda petik sabudeureun anonymization Kecap lantaran prosés nyadiakeun penampilan anonymity tapi teu anonymity sabenerna.

Gambar 6.4: "Anonymization" nyaéta prosés nyoplokkeun écés identifying informasi. Contona, nalika ngaleupaskeun rékaman asuransi médis karyawan kaayaan, KPK asuransi Grup Massachusetts (GIC) dihapus ngaran jeung alamat ti payel. Kuring nganggo tanda petik sabudeureun kecap "anonymization" kusabab prosés nyadiakeun penampilan anonymity tapi teu anonymity sabenerna.

Pikeun ngagambarkeun shortcomings tina GIC "anonymization", Latanya Sweeney-lajeng hiji murid lulusan di MIT-dibayar $ 20 ka acquire rékaman voting ti kotana Cambridge, anu kampung halaman ngeunaan gubernur Massachusetts William Weld. Ieu rékaman voting kaasup informasi kayaning ngaran, alamat, kode pos, tanggal lahir, jeung génder. kanyataan yen file médis data jeung kode widang-pos file voter dibagikeun, tanggal lahir, jeung sex-dimaksudkan yén Sweeney bisa numbu aranjeunna. Sweeney terang yen ultah Weld urang éta 31 Juli 1945, sarta rékaman voting kaasup ukur genep urang di Cambridge jeung ulang éta. Salajengna, jalma genep urang, ngan siga kitu jalu. Na, jalma tilu lalaki, ngan hiji nu dibagikeun kode pos Weld urang. Ku kituna, data voting némbongkeun yén saha dina data médis kalayan kombinasi Weld ngeunaan titimangsa lahir, gender, jeung kode pos éta William Weld. Dina panggih, tilu lembar ieu inpormasi disadiakeun hiji sidik unik pikeun anjeunna dina data. Ngagunakeun kanyataan ieu, Sweeney éta bisa nomeran rékaman médis Weld urang, sarta, pikeun nginpokeun anjeunna ngeunaan Sunda nya, manéhna mailed anjeunna salinan tina rékaman na (Ohm 2010) .

Angka 6,5: Re-idenification data anonymized. Latanya Sweeney digabungkeun rékaman kaséhatan éta anonymized kalawan rékaman voting dina urutan pikeun manggihan rékaman médis Gubernur William Weld Adaptasi tina Sweeney (2002), inohong 1.

Angka 6,5: Re-idenification data "anonymized". Latanya Sweeney digabungkeun dina "anonymized" rékaman kaséhatan jeung rékaman voting dina urutan pikeun manggihan rékaman médis Gubernur William Weld Adaptasi tina Sweeney (2002) , inohong 1.

Karya Sweeney urang illustrates struktur dasar serangan ulang idéntifikasi -to ngadopsi hiji istilah ti komunitas kaamanan komputer. Dina serangan kasebut, dua sét data, ngayakeun nu ku sorangan mangka informasi sénsitip, dikaitkeun, sarta ngaliwatan beungkeut ieu, informasi sénsitip anu kakeunaan.

Dina respon kana karya Sweeney urang, sarta karya patali sejen, peneliti kiwari umumna dipiceun leuwih informasi-kabeh disebut "informasi identifying pribadi" (PII) (Narayanan and Shmatikov 2010) -during prosés "anonymization". Salajengna, loba peneliti kiwari nyadar yén tangtu data-kayaning rékaman médis, rékaman finansial, waleran kana survey patarosan ngeunaan ilegal kabiasaan-meureun teuing sénsitip rék dipegatkeun sanajan sanggeus "anonymization". Najan kitu, dina conto tangka simkuring ngaraos rék masihan nyarankeun yén peneliti sosial kudu ngarobih pamikiran maranéhanana. Salaku hambalan munggaran, geus wijaksana pikeun nganggap yén sakabéh data anu berpotensi diwanoh sarta sakabéh data anu berpotensi sensitip. Dina basa sejen, tinimbang mikir yén résiko informational manglaku ka sawaréh leutik proyék, urang kedah nganggap yén éta lumaku-ka sababaraha gelar-ka sadaya proyék.

Duanana aspék reorientation ieu gambar ku Hadiah Netflix. Salaku nu dijelaskeun dina bagean 5, Netflix dileupaskeun 100 juta ratings pilem disadiakeun ku ampir 500.000 anggota, sarta miboga hiji panggero kabuka mana jalma ti sakuliah dunya dikintunkeun algoritma anu bisa ningkatkeun kabisa Netflix pikeun nyarankeun pilem. Méméh ngaleupaskeun data, Netflix dihapus informasi identifying pribadi sagala atra, kayaning ngaran. Éta ogé indit hiji hambalan tambahan sarta diwanohkeun perturbations slight di sababaraha rékaman (misalna ngarobah sababaraha ratings ti 4 béntang ka 3 béntang). Éta geura-giru manggihan kitu, eta sanajan usaha maranéhanana, data éta kénéh ku euweuh hartina anonim.

Ngan dua minggu sanggeus data anu dileupaskeun, Arvind Narayanan na Vitaly Shmatikov (2008) némbongkeun yén ieu mungkin ngalenyepan preferensi pilem jalma husus urang. The trik keur serangan ulang idéntifikasi maranéhanana éta sarupa Sweeney urang: ngagabung babarengan dua sumber informasi, salah sahiji mibanda émbaran berpotensi sénsitip sarta henteu informasi écés identifying jeung salah nu ngandung identities masarakat. Unggal sumber data ieu bisa jadi individual aman, tapi lamun aranjeunna digabungkeun, anu dataset dihijikeun bisa nyieun résiko informational. Dina kasus data Netflix, di dieu Kang kumaha eta bisa kajadian. Ngabayangkeun nu kuring milih babagi pikiran kuring ngeunaan aksi na pilem komedi jeung kuring ko-pagawe, tapi nu kuring resep teu babagi pamanggih kuring ngeunaan pilem agama jeung pulitik. Abdi ko-pagawe bisa nganggo inpormasi yen Kuring geus dibagikeun kalawan aranjeunna pikeun manggihan rékaman kuring dina data Netflix; informasi anu kuring babagi bisa janten sidik unik kawas tanggal William Weld urang kalahiran, kode pos, sarta séks. Lajeng, upami aranjeunna kapanggih sidik unik kuring dina data, aranjeunna bisa neuleuman ratings kuring ngeunaan kabéh pilem, kaasup pilem nu kuring milih teu babagi. Salian jenis ieu serangan sasaran fokus kana hiji jalma tunggal, Narayanan na Shmatikov ogé némbongkeun yén ieu mungkin ngalakukeun hiji -one serangan lega ngalibetkeun loba jalma-ku merging data Netflix kalawan data pribadi jeung rating pilem anu sababaraha urang geus dipilih masangkeun dina databés Internet Movie (IMDb). Rada saukur, sagala informasi anu mangrupakeun sidik unik ka jalma-malah set maranéhna husus tina pilem ratings-bisa dipaké pikeun ngaidentipikasi aranjeunna.

Sanajan data Netflix bisa ulang dicirikeun dina boh serangan sasaran atawa lega, eta masih bisa muncul janten resiko low. Barina ogé, ratings pilem ulah sigana sensitip pisan. Bari anu bisa jadi leres sacara umum, pikeun sababaraha 500.000 jalma di dataset nu, ratings pilem bisa jadi rada sensitip. Malah dina respon kana ulang idéntifikasi, hiji awéwé lesbian closeted ngagabung a jas kelas-aksi ngalawan Netflix. Di dieu nu kumaha masalah ieu diwujudkeun dina gugatan maranéhna (Singel 2009) :

"[M] ovie na rating data ngandung émbaran ngeunaan hiji ... kacida pribadi tur sénsitip alam. data pilem anggota sacara ngungkabkeun kapentingan pribadi hiji anggota Netflix urang jeung / atawa struggles jeung sagala rupa isu kacida pribadi, kaasup seksualitas, geringna mental, recovery ti alkohol, sarta victimization ti incest, nyiksa fisik, kekerasan domestik, zinah, sareng perkosa ".

The ulang idéntifikasi tina data Netflix Hadiah illustrates duanana yén sakabéh data anu berpotensi diwanoh sarta yén sakabéh data anu berpotensi sensitip. Dina titik ieu, anjeun bisa mikir yén ieu ukur dipake keur data nu purport janten ngeunaan jalma. Ahéng, nu teu kasus nu bener. Dina respon ka Merdika tina pamenta Hukum Émbaran, Pamaréntah Kota New York dileupaskeun rékaman tina unggal numpak taksi di New York dina 2013, kaasup Alas sarta teundeun kaluar kali, lokasi, sarta jumlahna ongkos (ngelingan tina surah 2 nu Farber (2015) data sarupa dipaké pikeun nguji téori penting dina ékonomi kuli). data ieu ngeunaan lalampahan taksi bisa sigana benign sabab teu sigana méré informasi ngeunaan jalma, tapi Aom Tockar sadar yen dataset taksi ieu sabenerna ngandung kavling informasi berpotensi sénsitip ngeunaan jalma. Nyieun ilustrasi, anjeunna melong sakabeh perjalanan dimimitian di Hustler Club-klub strip badag di New York-antara tengah wengi jeung 6 am lajeng kapanggih lokasi serelek-off maranéhanana. Pilarian Ieu wangsit-panggih-daptar alamat tina sababaraha urang nu frequented nu Hustler Club (Tockar 2014) . Éta hésé ngabayangkeun yén pamaréntah kota kagungan ieu dina pikiran nalika eta dileupaskeun data. Kanyataanna, téknik anu sarua ieu bisa dipaké pikeun neangan nu alamat ngarep jalma anu didatangan tempat sagala di kota-a klinik médis, wangunan pamaréntah, atawa lembaga kaagamaan.

Dua kasus Hadiah Netflix jeung New York City data taksi acara nu urang rélatif terampil bisa kalah ka neuleu estimasi résiko informational dina data yen aranjeunna ngaleupaskeun-na kasus ieu ku euweuh hartina unik (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Salajengna, dina sababaraha kasus sapertos, data masalah kénéh sadia kalawan bébas online, nunjukkeun kasusah tina kantos undoing siaran data. Koléktif, conto-sakumaha ieu ogé panalungtikan dina elmu komputer ngeunaan privacy-lead hiji kacindekan penting. Peneliti kedah nganggap yén sakabéh data anu berpotensi diwanoh sarta sakabéh data anu berpotensi sensitip.

Hanjakal, teu aya solusi basajan kana fakta yén sakabéh data anu berpotensi diwanoh sarta yén sakabéh data anu berpotensi sensitip. Sanajan kitu, salah sahiji cara pikeun ngurangan résiko informational bari anjeun gawé bareng data nya éta nyieun sarta nuturkeun hiji rencana panyalindungan data. rencana ieu bakal ngurangan kasempetan nu data anjeun bakal bocor na bakal ngurangan cilaka lamun bocor a teu kumaha bae lumangsung. The specifics tina rencana panyalindungan data, kayaning nu bentukna enkripsi ngagunakeun, bakal ngarobah kana waktu, tapi Inggris Data Layanan helpfully organizes unsur rencana panyalindungan data kana lima kategori nu maranéhna nelepon lima brankas: proyék aman, jalma aman , setélan aman, data aman, tur outputs aman (tabel 6.2) (Desai, Ritchie, and Welpton 2016) . Taya lima brankas individual méré panangtayungan sampurna. Tapi bareng maranéhna ngabentuk set kuat faktor nu bisa ngurangan résiko informational.

Tabél 6.2: The "Lima brankas" anu Prinsip pikeun ngarancang jeung Executing a Protection Plan Data (Desai, Ritchie, and Welpton 2016)
tengtrem aksi
proyék aman Watesan proyék kalawan data ka maranéhanana anu etika
jalma aman Aksés anu diwatesan ka jalma anu bisa dipercaya kalawan data (misalna urang anu geus undergone latihan etika)
data aman Data anu de-dicirikeun na aggregated ka extent mungkin
setélan aman Data anu disimpen dina komputer kalawan fisik luyu (misalna kamar dikonci) jeung software (misalna panyalindungan sandi, énkripsi) panyalindungan
output aman output Panalungtikan ieu reviewed pikeun nyegah breaches privasi kahaja

Salian mayungan data anjeun bari anjeun maké éta, hiji hambalan dina prosés panalungtikan nya dimana résiko informational sabagian salient téh babagi data kalawan peneliti lianna. babagi data diantara élmuwan téh nilai inti tina bagean ilmiah, sarta eta greatly facilitates kamajuan pangaweruh. Di dieu nu kumaha Inggris DPR Commons dijelaskeun pentingna babagi data (Molloy 2011) :

"Aksés ka data anu fundamental lamun peneliti anu keur baranahan, pariksa jeung ngawangun on hasil nu dilaporkeun dina karya sastra. Anggapan kudu eta, iwal aya alesan kuat mun disebutkeun, data kudu pinuh diungkabkeun jeung dijieun sadia masarakat awam ".

Acan, ku ngabagikeun data anjeun kalawan panalungtik sejen, Anjeun bisa jadi ningkatkeun resiko informational ka pamilon Anjeun. Ku kituna, eta mungkin sigana nu babagi data nyiptakeun tegangan fundamental antara kawajiban pikeun ngabagi data sareng ilmuwan séjén sarta kawajiban ka ngaleutikan résiko informational ka pamilon. Untungna, kantun ieu teu jadi parna saperti eta nembongan. Rada, eta leuwih hade mun dipikir tentang ngabagikeun sakumaha ragrag sapanjang continuum a, kalawan unggal titik dina éta continuum nyadiakeun campuran béda ti mangpaat pikeun masarakat jeung resiko keur pamilon (inohong 6,6) data.

Di salah sahiji ekstrim, anjeun tiasa babagi data Anjeun sareng salah sahiji euweuh, nu ngaminimalkeun resiko keur pamilon tapi ogé ngaminimalkeun gains ka masarakat. Di ekstrim sejenna, Anjeun bisa ngaleupaskeun jeung poho, dimana data anu "anonymized" na dipasang for everyone. Relatif ka moal ngaleupaskeun data, leupaskeun jeung poho nawaran duanana kauntungan luhur ka masarakat sarta résiko luhur ka pamilon. Dina antara dua kasus ekstrim ieu mangrupa rentang hibrida, kaasup naon gé kuring nelepon pendekatan taman walled. Dina pendekatan ieu, data nu dibagikeun kalawan jalma anu minuhan kriteria nu tangtu sarta anu satuju kana jadi kabeungkeut ku aturan nu tangtu (misalna pangawasan ti hiji IRB sarta rencana panyalindungan data). Pendekatan taman walled nyadiakeun loba mangpaat sékrési jeung poho kalawan resiko kirang. Tangtu, pendekatan misalna hiji nyiptakeun loba patarosan-saha kudu boga aksés, dina naon waé, jeung sabaraha lila, anu kedah mayar pikeun miara jeung pulisi taman walled, jsb-tapi ieu henteu insurmountable. Malah aya nu geus bisa dipake kebon walled di tempat anu peneliti tiasa make ayeuna, kayaning arsip data tina Konsorsium Inter-universitas keur pulitik jeung sosial Panalungtikan di Universitas Michigan.

Angka 6,6: strategi release Data bisa digolongkeun sapanjang continuum a. Dimana anjeun kedah on continuum ieu gumantung kana detil husus data Anjeun, tur review pihak-katilu bisa mantuan mutuskeun kasaimbangan luyu tina resiko na manfaat bisi anjeun. Bentuk pasti tina kurva ieu gumantung dina specifics tina gol data panalungtikan (Goroff 2015).

Angka 6,6: strategi release Data bisa digolongkeun sapanjang continuum a. Dimana anjeun kedah on continuum ieu gumantung kana detil husus data Anjeun, tur review pihak-katilu bisa mantuan mutuskeun kasaimbangan luyu tina resiko na manfaat bisi anjeun. Bentuk pasti tina kurva ieu gumantung dina specifics tina gol data panalungtikan (Goroff 2015) .

Ku kituna, dimana data tina ulikan Anjeun kedah dina continuum tina euweuh babagi, kebon walled, sarta ngaleupaskeun jeung poho? Ieu gumantung kana detil data anjeun: peneliti kedah saimbang Hormat keur jalma, Beneficence, Kaadilan, sarta Hormat keur Hukum sarta Undang Minat Public. Ditempo ti sudut pandang ieu, babagi data teu a conundrum etika has; éta ngan salah sahiji loba aspék panalungtikan nu peneliti kudu manggihan hiji kasaimbangan etika luyu.

Sababaraha kritik umumna sabalikna babagi data sabab, dina pamanggih kuring, maranéhna anu fokus kana resiko-mana na anu undoubtedly real-na nu ignoring mangpaatna. Ku kituna, dina raraga ajak fokus dina duanana resiko na kauntungan, Abdi hoyong nawiskeun analogi. Unggal taun, mobil téh jawab rébuan maotna, tapi urang teu nyobian larangan nyetir. Kanyataanna, keur nelepon ka larangan nyetir bakal jadi absurd sabab nyetir nyandak loba hal alus pisan. Rada, masarakat tempat larangan dina anu bisa ngajalankeun (misalna kudu janten umur tangtu jeung geus diliwatan tés tangtu) jeung kumaha maranéhna bisa ngajalankeun (misalna dina wates speed). Masarakat ogé boga jalma tasked kalawan enforcing aturan ieu (misalna pulisi), sarta kami ngahukum jalma anu bray violating aranjeunna. jenis ieu sarua mikir saimbang yén masarakat manglaku ka régulasi nyetir ogé bisa dilarapkeun ka babagi data. Hartina, tinimbang nyieun alesan absolutist keur atawa lawan babagi data, Jigana urang ngadamel paling kamajuan ku fokus dina sabaraha urang tiasa ngurangan resiko na nambahan kauntungan ti babagi data.

Dicindekkeun, resiko informational geus ngaronjat nyirorot, sarta eta pisan teuas pikeun ngaduga jeung ngitung. Ku sabab eta mangrupakeun pangalusna pikeun nganggap yén sakabéh data anu berpotensi diwanoh sarta berpotensi sensitip. Pikeun ngurangan resiko informational bari ngalakonan panalungtikan, panalungtik bisa nyieun tur turutan rencana panyalindungan data. Salajengna, resiko informational teu nyegah peneliti ti babagi data kalayan élmuwan séjén.