6.6.2 Mahami lan ngatur resiko pawarto

Risiko informasional yaiku risiko paling umum ing panaliten sosial; wis tambah sacara dramatis; lan iku paling angel kanggo mangerteni.

Tantangan etika kapindho kanggo riset digital-umur yaiku risiko informasi , potensial kanggo cilaka saka pambocoran informasi (National Research Council 2014) . Ancaman informasional saka pambocoran informasi pribadhi bisa dadi ekonomi (misale, nuwuhake proyek), sosial (misale, nuwuhake), psikologis (eg, depresi), utawa malah pidana (contone, penangkepan perilaku ilegal). Sayange, umur digital ningkatake risiko informasi sacara dramatis-mung ana informasi luwih akeh babagan prilaku kita. Lan risik informasi wis bukti banget angel mangerteni lan ngatur dibandhingake karo risiko sing ana gegayutane karo panaliten sosial-umur analog, kayata resiko fisik.

Salah siji cara sing peneliti sosial ngurangi resiko pawarto punika "anonymization" saka data. "Anonymization" proses njabut Identifikasi pribadi ketok kayata jeneng, alamat, lan nomer telpon saka data. Nanging, iki pendekatan akeh kurang efektif tinimbang akeh wong éling, lan iku, ing kasunyatan, rumiyin lan dhasar winates. Kanggo alesan sing, kapan aku njlèntrèhaké "anonymization," Aku bakal nggunakake tandha petik kanggo ngelingake sampeyan sing proses iki nggawe munculé anonymity nanging ora anonymity bener.

Conto sing jelas saka kegagalan "anonymization" asalé saka pungkasan taun 1990-an ing Massachusetts (Sweeney 2002) . Komisi Asuransi Group (GIC) yaiku lembaga pemerintah sing tanggung jawab kanggo mundhut asuransi kesehatan kanggo kabeh karyawan negara. Liwat karya iki, GIC ngoleksi rekaman kesehatan babagan ribuan karyawan negara. Ing upaya kanggo ngetokake riset, GIC mutusake kanggo ngeculake cathetan kasebut menyang peneliti. Nanging, dheweke ora nuduhake kabeh data; tinimbang, "ora dingarani" data kasebut kanthi ngilangi informasi kayata jeneng lan alamat. Nanging, informasi sing ditemokake bisa uga migunani kanggo peneliti kaya informasi demografi (kode pos, tanggal lair, etnis, lan jinis) lan informasi medis (nggoleki data, diagnosis, prosedur) (Gambar 6.4) (Ohm 2010) . Sayange, iki "anonymization" ora cukup kanggo nglindhungi data.

Gambar 6.4: Anonimisasi yaiku proses mbusak kanthi jelas ngenali informasi. Contone, nalika ngeculake cathetan asuransi medis saka karyawan negara, Komisi Insurans Group Massachusetts (GIC) mbusak jeneng lan alamat saka file kasebut. Aku nggunakake tandha kutip watara tembung anonymization amarga proses menehi tampilan anonimitas nanging ora anonimitas nyata.

Gambar 6.4: "Anonymization" yaiku proses mbusak kanthi jelas ngenali informasi. Contone, nalika ngeculake cathetan asuransi medis saka karyawan negara, Komisi Insurans Group Massachusetts (GIC) mbusak jeneng lan alamat saka file kasebut. Aku nggunakake tandha kutip watara tembung "anonymization" amarga proses menehi tampilan anonimitas nanging ora anonimitas nyata.

Kanggo nggambarake kekurangan "anonymisasi" GIC, Latanya Sweeney-banjur dadi mahasiswa pascasarjana ing MIT-bayar $ 20 kanggo entuk rekaman pemungutan saka kutha Cambridge, kraton gubernur Massachusetts William Weld. Cathetan pilihan iki kalebu informasi kayata jeneng, alamat, kode pos, tanggal lair, lan jenis kelamin. Kasunyatan bilih berkas data medis lan file pemilih dibagi kode pos, tanggal lair, lan jinis-tegese Sweeney bisa nyambungake. Sweeney ngerti yèn ulang taun Weld ana ing tanggal 31 Juli 1945, lan cathetan voting mung klebu enem wong ing Cambridge karo ulang taun kasebut. Luwih saka enem wong, mung telu sing lanang. Lan, saka telu wong, mung siji kode zip Weld. Mangkono, data voting nuduhake manawa ana ing data medis karo kombinasi tanggal, kelamin, lan kode pos Weld yaiku William Weld. Ing ngisor iki, telung informasi kasebut nyedhiyakake driji unik marang dheweke ing data kasebut. Nganggo kasunyatan iki, Sweeney bisa nemokake rekaman medis Weld, lan, kanggo menehi kabar marang dheweke, dheweke ngirim layang marang cathetan (Ohm 2010) .

Gambar 6.5: Ngenali ulang data anonim. Latanya Sweeney nggabungake cathetan kesehatan sing ora anonim kanthi cathetan voting supaya bisa nemokake cathetan medical Gubernur William Weld Diadaptasi saka Sweeney (2002), tokoh 1.

Gambar 6.5: Re-idenifikasi data "anonim". Latanya Sweeney nggabungake cathetan kesehatan "ora anonim" kanthi cathetan voting supaya bisa nemokake cathetan medical Gubernur William Weld Diadaptasi saka Sweeney (2002) , tokoh 1.

Karya Sweeney nggambarake struktur dhasar serangan identifikasi maneh-kanggo nganakake istilah saka komunitas keamanan komputer. Ing serangan kasebut, loro data set, ora ana sing ngandhakake informasi sensitif, disambung, lan liwat linkage kasebut, informasi sensitif wis katon.

Kanggo nanggepi karya Sweeney, lan karya sing gegandhengan, panaliti saiki bisa mbusak luwih akeh informasi-kabeh sing disebut "informasi identifikasi pribadi" (PII) (Narayanan and Shmatikov 2010) -temah proses "anonimisasi." Luwih akeh peneliti saiki nyadari data tartamtu-kayata cathetan medhia, cathetan keuangan, jawaban kanggo pitakonan survey babagan prilaku ilegal-biasane uga sensitif kanggo dilepas sanajan "anonimisasi". Nanging, conto-conto sing aku arep menehi saran yen peneliti sosial perlu kanggo ngganti pikiran sing. Minangka langkah pisanan, iku wicaksana kanggo nganggep sing kabeh data sing potensi dingerteni lan kabeh data sing potensi sensitif. Ing tembung liyane, tinimbang mikir yen risiko informasi ditrapake kanggo bagean cilik proyek, kita kudu nganggep sing ditrapake-kanggo sawetara degree-kanggo kabeh proyek.

Loro-lorone aspek reorientasi iki digambarake dening Bebungah Netflix. Minangka diterangake ing bab 5, Netflix ngrilis 100 yuta rating film sing disedhiyakake dening meh 500.000 anggota, lan duwe telpon sing mbukak dianggep wong saka saindeng jagad ngirimake algoritma sing bisa nambah kemampuan Netflix kanggo menehi rekomendasi film. Sadurunge ngeculake data, Netflix mbusak informasi sing jelas, kanthi identitas pribadi, kayata jeneng. Piyambakipun ugi nglajengaken langkah tambahan lan nepangaken kekirangan ing sawetara cathetan (umpamane, ganti sawetara peringkat saka 4 bintang dadi 3 bintang). Nanging, dheweke nemokake manawa, manawa usaha kasebut, data kasebut isih tanpa anonim.

Mung rong minggu sawisé data dirilis, Arvind Narayanan lan Vitaly Shmatikov (2008) nedahake yen bisa sinau babagan preferensi film wong tartamtu. Trick kanggo serangan identifikasi maneh padha karo Sweeney: nggabungake rong sumber informasi, siji kanthi informasi sing sensitif lan ora jelas ngenali informasi lan siji sing ngandhut identitas wong. Saben sumber data bisa uga aman, nanging nalika digabungake, dideet sing digabung bisa nggawe risiko informasi. Ing kasus data Netflix, kene carane bisa kedadeyan. Mbayangno aku milih kanggo nuduhake pikirane babagan film aksi lan komedi karo rekan kerja, nanging aku luwih milih ora nuduhake pendapatku bab film agama lan politik. Kancaku bisa nggunakake informasi sing aku enggo bareng karo wong-wong mau kanggo nemokake cathetan ing data Netflix; Informasi sing dakanggep bisa dadi bekas driji unik kaya tanggal lahir, kode pos, lan jinis William Weld. Banjur, yen dheweke nemokake bekas driji unik ing data, dheweke bisa sinau rating babagan kabeh film, kayata film sing aku ora pilih. Saliyane serangan sing dikarepake iki, siji-sijiné, Narayanan lan Shmatikov uga nuduhaké yèn bisa nglancer serangan-sing nglibataké akèh wong-kanthi nggabungaké data Netflix kanthi data rating pribadhi lan film sing dipilih sawetara wong kanggo ngirim ing Database Film Internet (IMDb). Cukup, informasi apa wae sing minangka bekas driji unik kanggo wong tartamtu-malah sing menehi rating film-bisa digunakake kanggo ngenali.

Sanajan data Netflix bisa diidentifikasi maneh sajrone serangan sing ditargetake utawa amba, bisa uga katon minangka resiko kurang. Sawise kabeh, rating film ora katon banget sensitif. Nalika iku bisa uga bener ing umum, kanggo sawetara saka 500.000 wong ing dataset, rating film bisa uga cukup sensitif. Ing kasunyatan, minangka respon marang identifikasi maneh, wong wadon lesbian sing ditutupi gabung karo klompok tumindak tumrap Netflix. Mangkene carane masalah kasebut ditulis ing tuntutan hukum (Singel 2009) :

"Data ovie lan rating ngandhut informasi sing ... banget pribadi lan sensitif. Data film anggota nyedhiyakake kepentingan pribadi Netflix lan / utawa perjuangan kanthi maneka warna masalah pribadi, kalebu seksualitas, penyakit mental, pemulihan saka alkoholisme, lan pambedaan saka incest, penyalahgunaan fisik, kekerasan rumah tangga, jina, lan rudo pekso. "

Identifikasi maneh data Bebungah Netflix nggambarake yen kabeh data bisa diidentifikasi lan kabeh data duweni potensi sensitif. Ing titik iki, sampeyan bisa uga mikir yen iki mung ditrapake kanggo data sing dicritake babagan wong. Kaget, sing ora bener. Kanggo nanggepi panjaluk Merdika, Pemerintah New York ngrekam rekaman saben uwong ing New York ing taun 2013, kalebu pickup lan drop off times, lokasi, lan ongko ongko (saka recall saka bab 2 sing Farber (2015) nggunakake data sing padha kanggo nguji teori-teori penting ing ékonomi buruh). Data iki babagan lelungan taksi bisa uga entheng amarga ora menehi informasi babagan wong, nanging Anthony Tockar sadhar yen détetsi taksi kasebut bener-bener kagolong akeh informasi sensitif babagan wong. Kanggo ilustrasi, dheweke nyawang kabeh lelungan sing diwiwiti ing Hustler Club-klub Strip gedhe ing New York-antara tengah wengi lan 6 am lan banjur nemokake lokasi drop-off. Panelusuran iki dicethakaké ing inti-dhaptar alamat saka sawetara wong sing ngunjungi Hustler Club (Tockar 2014) . Iku angel kanggo mbayangno yen pemerintah kutha wis ana ing pikirane nalika mbabarake data kasebut. Ing kasunyatan, teknik sing padha iki bisa digunakake kanggo nemokake alamat omah wong sing ngunjungi sembarang panggonan ing kutha-klinik medis, bangunan pemerintah, utawa lembaga agama.

Iki loro kasus Netflix Prize lan data taksi New York City nuduhake yen wong sing trampil bisa gagal kanthi bener ngira risiko informasi ing data sing bakal diluncurake-lan kasus kasebut kanthi ora liya unik (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Luwih, ing akeh kasus kaya mengkono, data sing ana masalah isih kasedhiya online, nuduhake kesulitan kanggo mbatalake rilis data. Bebarengan, conto kasebut-uga riset ing ilmu komputer babagan privasi-mimpin menyang kesimpulan penting. Peneliti kudu nganggep yen kabeh data sing potensi dingerteni lan kabeh data sing potensi sensitif.

Sayange, ora ana solusi sing prasaja kanggo bukti yen kabeh data duweni potensi sing bisa diidentifikasi lan kabeh data duweni potensi sing sensitif. Nanging, salah sijine cara kanggo ngurangi risiko informasi nalika sampeyan nggarap data kasebut yaiku nggawe lan tindakake rencana proteksi data . Rencana iki bakal ngurangi kasempatan yen data bakal bocor lan bakal ngurangi cilaka yen bocor bakal kedadeyan. Rincian rancangan proteksi data, kayata wangun enkripsi sing bakal digunakake, bakal owah-endah, nanging UK Data Services mbiyantu ngatur elemen-elemen rencana proteksi data ing limang kategori sing kasebut panggunaan limang saf : proyek aman, wong aman , aman, data aman, lan output aman (Tabel 6.2) (Desai, Ritchie, and Welpton 2016) . Boten wonten limang lemari kangge nyedhiyakake perlindungan ingkang sampurna. Nanging bareng padha mbentuk faktor sing kuat sing bisa ngurangi risiko informasi.

Tabel 6.2: "Safes Lima" minangka Prinsip kanggo Merancang lan Ngleksanani Rencana Perlindhungan Data (Desai, Ritchie, and Welpton 2016)
Aman Tindakan
Aman proyek Watesan proyek karo data kanggo sing sopan
Aman wong Akses ditrapake kanggo wong sing bisa dipercaya data (umpamane, wong sing wis ngalami latihan etika)
Data aman Data kasebut diidentifikasi lan digabungake manawa bisa
Setelan aman Data disimpen ing komputer kanthi fisik (eg, kamar sing dikunci) lan piranti lunak (umpamane, pangayoman katrangan, enkripsi)
Aman output Hasil riset ditinjau kanggo nyegah pamblokiran pribadi

Saliyane nglindhungi data nalika sampeyan nggunakake, siji langkah ing proses riset endi risiko informasi utamane sing penting kanggo nuduhake data karo peneliti liyane. Sharing data antarane ilmuwan minangka nilai inti saka usaha ilmiah, lan ningkatake kemajuan ilmu kasebut. Punika caranipun House of Commons ing Inggris nggambaraken pentingipun (Molloy 2011) data (Molloy 2011) :

"Akses data arupa dhasar yen peneliti kudu ngasilake, verifikasi lan mbangun asil sing kacarita ing literatur. Anggepan kudu dadi, kajaba ana alesan sing kuwat, data kudu dibeberke lan diwenehake kanthi publik. "

Nanging, kanthi nuduhake data sampeyan karo peneliti liyane, sampeyan bisa nambah risiko informasi menyang peserta. Mangkono, bisa uga katon yen pangaturan data nggawe tension dhasar antarane kewajiban ngumpulake data karo ilmuwan liyane lan kewajiban kanggo nyuda resiko informasi kanggo peserta. Begjanipun, masalah iki ora kaya abot. Luwih apik, luwih becik mikirake babagan panggabungan data minangka salah sijine kontek terus, kanthi saben titik ing kontes kasebut nyedhiyakake macem-macem manfaat sing beda kanggo masyarakat lan resiko kanggo peserta (angka 6.6).

Ing salah siji sing paling ekstrim, sampeyan bisa mbagi data karo ora ana siji, sing nyuda resiko kanggo para peserta nanging uga nyuda keuntungan kanggo masyarakat. Ing nemen liyane, sampeyan bisa ngeculake lan lali , ngendi data "ora dikenali" lan dikirim kanggo kabeh. Relatif kanggo ora ngeculake data, release lan lali menehi manfaat sing luwih dhuwur kanggo masyarakat lan luwih resik kanggo peserta. Ing antarane rong kasus sing ekstrim iki yaiku sawetara hibrida, kalebu apa sing bakal disebut pendekatan kebon tembok . Ing pendekatan iki, data dienggo bareng karo wong sing ketemu kriteria tartamtu lan sing setuju bakal diwatesi dening aturan tartamtu (contone, pengawasan saka IRB lan rencana proteksi data). Pendekatan kebon tembok nyedhiyakake akeh keuntungan saka release lan lali kurang resiko. Mesthi, pendekatan kasebut nggawe akeh pitakonan-sing kudu akses, miturut kahanan apa, lan suwene, sing kudu mbayar kanggo njaga lan nglindhungi kebon tembok, dsb. Nanging ora bisa diatasi. Ing kasunyatane, ana taman kebon ing panggonan sing digunakake para peneliti sing bisa digunakake saiki, kayata arsip data Konsorsium Inter-universitas kanggo Riset Politik lan Sosial ing Universitas Michigan.

Gambar 6.6: Sastranegara release data bisa dumadi ing sadawane kontinum. Ngendi sampeyan kudu ing konteks iki gumantung marang rincian spesifik data sampeyan, lan review pihak katelu bisa mbantu sampeyan nemokake imbangan lan risiko sing cocok kanggo kasus sampeyan. Wangun sing tepat saka kurva iki gumantung marang spesifik gol data lan riset (Goroff 2015).

Gambar 6.6: Sastranegara release data bisa dumadi ing sadawane kontinum. Ngendi sampeyan kudu ing konteks iki gumantung marang rincian spesifik data sampeyan, lan review pihak katelu bisa mbantu sampeyan nemokake imbangan lan risiko sing cocok kanggo kasus sampeyan. Wangun sing tepat saka kurva iki gumantung marang spesifik gol data lan riset (Goroff 2015) .

Dadi, ngendi data saka sinau sampeyan bakal terus ing babagan ora nuduhake, kebon sing dikubengi, lan dilebokake lan lali? Iki gumantung marang rincian data sampeyan: peneliti kudu nimbang Respect for Person, Beneficence, Justice, and Respect for Law and Public Interest. Deleng saka perspektif, enggo bareng data ora nduwe khusu etika sing khas; punika namung salah satunggaling aspek saking panaliten ing salebetipun peneliti kedah nimbang keseimbangan etika ingkang cocok.

Sawetara kritikus umumé nentang pamadosan data amarga, mungguh ing pendapat saya, padha fokus marang risiko - sing mesthi nyata-lan ora mbedakake keuntungané. Dadi, supaya bisa fokus ing loro risiko lan keuntungan, Aku pengin menehi analogi. Saben taun, mobil sing tanggung jawab kanggo ewu korban, nanging kita ora nyoba kanggo nolak nyetir. Ing kasunyatan, panggilan kanggo nyopir nyopir bakal absurd amarga driving nyebabake akeh barang sing apik. Luwih, masyarakat nemtokake larangan ing sing bisa ngendhokke (contone, kudu dadi umur tartamtu lan wis lulus tes tartamtu) lan carane bisa drive (contone, ing wates kacepetan). Masyarakat uga nduwe wong sing tanggung jawab karo aturan kasebut (eg, polisi), lan kita ngukum wong sing kejiret nglanggar. Tuladhane pemikiran sing padha karo masyarakat sing digunakake kanggo nyetirake kendharaan bisa uga ditrapake marang data enggo bareng. Dadi, tinimbang nggawe argumen absolut kanggo utawa marang panggabungan data, aku bakal nggawe paling progresif kanthi fokus ing cara kita bisa ngurangi risiko lan nambah keuntungan saka enggo bareng data.

Kanggo nyimpulake, risiko informasi wis tambah sacara dramatis, lan angel banget kanggo prédhiksi lan ngitung. Mulane, iku paling apik kanggo nganggep yen kabeh data duweni potensi sing bisa diidentifikasi lan duweni potensi sensitif. Kanggo ngurangi risiko informasi nalika nindakake riset, peneliti bisa nggawe lan ngetut rencana proteksi data. Luwih, risiko informasi ora nyegah peneliti saka nuduhake data karo ilmuwan liyane.