6.6.2 Memahami dan mengelola risiko informasi

Terjemahan ini diciptakan oleh komputer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

6.6.2 Memahami dan mengelola risiko informasi

Risiko informasi adalah risiko yang paling umum dalam penelitian sosial; itu telah meningkat secara dramatis; dan itu adalah risiko yang paling sulit untuk memahami.

Tantangan etis kedua untuk usia sosial penelitian digital adalah risiko informasi, potensi bahaya dari pengungkapan informasi (Council 2014) . bahaya informasi dari pengungkapan informasi pribadi bisa menjadi ekonomi (misalnya, kehilangan pekerjaan), sosial (misalnya, malu), psikologis (misalnya, depresi), atau bahkan pidana (misalnya, penangkapan untuk perilaku ilegal). Sayangnya, era digital meningkatkan risiko informasi secara dramatis-ada begitu banyak informasi lebih lanjut tentang perilaku kita. Dan, risiko informasi telah terbukti sangat sulit untuk memahami dan mengelola dibandingkan dengan risiko yang kekhawatiran di usia analog penelitian sosial, seperti risiko fisik. Untuk melihat bagaimana era digital meningkatkan risiko informasi, mempertimbangkan transisi dari kertas ke catatan medis elektronik. Kedua jenis catatan membuat risiko, tetapi catatan elektronik menciptakan risiko yang jauh lebih besar karena pada skala besar mereka dapat ditularkan kepada pihak yang tidak sah atau digabung dengan catatan lainnya. peneliti sosial di era digital telah mengalami kesulitan dengan risiko informasi, sebagian karena mereka tidak sepenuhnya memahami bagaimana mengukur dan mengelola itu. Jadi, aku akan menawarkan cara membantu untuk berpikir tentang risiko informasi, dan kemudian saya akan memberikan beberapa saran untuk bagaimana mengelola risiko informasi dalam penelitian Anda dan melepaskan data ke peneliti lain.

Salah satu cara yang peneliti sosial mengurangi risiko informasi adalah "penganoniman" data. "Penganoniman" adalah proses menghilangkan pengenal pribadi yang jelas seperti nama, alamat, dan nomor telepon dari data. Namun, pendekatan ini jauh lebih efektif daripada banyak orang menyadari, dan itu adalah, pada kenyataannya, dalam dan fundamental yang terbatas. Untuk alasan itu, setiap kali saya menjelaskan "penganoniman," Aku akan menggunakan tanda kutip untuk mengingatkan Anda bahwa proses ini menciptakan penampilan anonimitas tapi tidak disebutkan namanya benar.

Sebuah contoh nyata dari kegagalan "penganoniman" berasal dari akhir 1990-an di Massachusetts (Sweeney 2002) . Komisi Insurance Group (GIC) adalah instansi yang bertanggung jawab untuk membeli asuransi kesehatan untuk semua karyawan negara. Melalui karya ini, GIC dikumpulkan catatan kesehatan rinci tentang ribuan pegawai negeri. Dalam upaya untuk memacu penelitian tentang cara-cara untuk meningkatkan kesehatan, GIC memutuskan untuk melepaskan catatan ini untuk para peneliti. Namun, mereka tidak berbagi semua data mereka; sebaliknya, mereka "anonim" dengan menghapus informasi seperti nama dan alamat. Namun, mereka meninggalkan informasi lain yang mereka pikir bisa berguna bagi para peneliti seperti informasi demografis (kode pos, tanggal lahir, etnis, dan jenis kelamin) dan informasi medis (data kunjungan, diagnosis, prosedur) (Gambar 6.4) (Ohm 2010) . Sayangnya, ini "penganoniman" tidak cukup untuk melindungi data.

Gambar 6.4: "penganoniman" adalah proses menghilangkan jelas mengidentifikasi informasi. Misalnya, ketika merilis catatan asuransi kesehatan pegawai negeri Komisi Insurance Group Massachusetts (GIC) dihapus nama dan alamat dari file. Saya menggunakan tanda kutip di kata "penganoniman" karena prosesnya memberikan penampilan anonimitas, namun tidak disebutkan namanya yang sebenarnya.

Untuk menggambarkan kekurangan dari GIC "penganoniman", Latanya Sweeney-maka seorang mahasiswa pascasarjana di MIT-dibayar $ 20 untuk memperoleh catatan suara dari kota Cambridge, kota kelahiran gubernur Massachusetts William Weld. Ini catatan suara termasuk informasi seperti nama, alamat, kode pos, tanggal lahir, dan jenis kelamin. Fakta bahwa file medis data dan kode bidang-file zip pemilih bersama, tanggal lahir, dan jenis kelamin-berarti bahwa Sweeney bisa menghubungkan mereka. Sweeney tahu bahwa ulang tahun Weld adalah 31 Juli 1945, dan catatan suara termasuk hanya enam orang di Cambridge dengan ulang tahun itu. Selanjutnya, dari enam orang, hanya tiga adalah laki-laki. Dan, ketiga laki-laki, hanya satu bersama kode pos Weld ini. Dengan demikian, data suara menunjukkan bahwa siapa pun dalam data medis dengan kombinasi Weld untuk tanggal lahir, jenis kelamin, dan kode pos adalah William Weld. Pada intinya, tiga potongan-potongan informasi yang diberikan sidik jari yang unik baginya dalam data. Menggunakan fakta ini, Sweeney mampu menemukan catatan medis Weld, dan untuk memberitahukan kepadanya tentang prestasi, dia mengirimkan salinan dia rekamannya (Ohm 2010) .

Gambar 6.5: Re-idenification data anonim. Latanya Sweeney dikombinasikan catatan kesehatan anonim dengan catatan voting untuk menemukan catatan medis dari Gubernur William Weld (Sweeney 2002).

Gambar 6.5: Re-idenification data "anonim". Latanya Sweeney menggabungkan "anonim" catatan kesehatan dengan catatan voting untuk menemukan catatan medis dari Gubernur William Weld (Sweeney 2002) .

Kerja Sweeney menggambarkan struktur dasar dari serangan de-penganoniman -untuk mengadopsi istilah dari komunitas keamanan komputer. Dalam serangan ini, dua set data, baik yang dengan sendirinya mengungkapkan informasi sensitif, terkait, dan melalui linkage ini, informasi sensitif terkena. Dalam beberapa hal proses ini mirip dengan cara bahwa baking soda dan cuka, dua zat yang sendiri aman, dapat dikombinasikan untuk menghasilkan hasil yang jahat.

Menanggapi kerja Sweeney, dan pekerjaan lain yang terkait, para peneliti sekarang umumnya menghapus lebih informasi-semua yang disebut "Informasi pribadi Mengidentifikasi" (PII) (Narayanan and Shmatikov 2010) -selama proses "penganoniman." Lebih lanjut, banyak peneliti sekarang menyadari bahwa tertentu Data-seperti catatan medis, catatan keuangan, jawaban survei pertanyaan tentang ilegal perilaku-mungkin terlalu sensitif untuk melepaskan bahkan setelah "penganoniman." Namun, contoh-contoh yang lebih baru yang akan saya jelaskan di bawah menunjukkan bahwa peneliti sosial harus mengubah pemikiran mereka. Sebagai langkah pertama, adalah bijaksana untuk menganggap bahwa semua data berpotensi diidentifikasi dan semua data berpotensi sensitif. Dengan kata lain, daripada berpikir bahwa risiko informasi berlaku untuk subset kecil proyek, kita harus mengasumsikan bahwa itu berlaku-untuk beberapa derajat-untuk semua proyek.

Kedua aspek ini re-orientasi diilustrasikan oleh Prize Netflix. Seperti dijelaskan dalam Bab 5, Netflix dirilis 100 juta peringkat film yang disediakan oleh hampir 500.000 anggota, dan memiliki panggilan terbuka di mana orang-orang dari seluruh dunia yang disampaikan algoritma yang dapat meningkatkan kemampuan Netflix untuk merekomendasikan film. Sebelum merilis data, Netflix menghapus informasi jelas identitas pribadi, seperti nama. Netflix juga pergi langkah ekstra dan diperkenalkan gangguan kecil dalam beberapa catatan (misalnya, mengubah beberapa penilaian dari 4 bintang 3 bintang). Netflix segera menemukan, bagaimanapun, bahwa meskipun upaya mereka, data itu tidak berarti anonim.

Hanya dua minggu setelah data yang dirilis Narayanan and Shmatikov (2008) menunjukkan bahwa adalah mungkin untuk belajar tentang preferensi film orang-orang tertentu itu. Trik untuk serangan ulang identifikasi mereka mirip dengan Sweeney: bergabung bersama dua sumber informasi, satu dengan informasi sensitif dan tidak ada informasi jelas mengidentifikasi dan salah satu yang berisi identitas orang. Masing-masing sumber data ini mungkin secara individual aman, tetapi ketika mereka digabungkan dataset gabungan dapat membuat risiko informasi. Dalam kasus data Netflix, inilah cara itu bisa terjadi. Membayangkan bahwa saya memilih untuk berbagi pikiran saya tentang aksi dan film komedi dengan rekan kerja saya, tapi saya memilih untuk tidak berbagi pendapat saya tentang film agama dan politik. Rekan kerja saya bisa menggunakan informasi yang saya telah berbagi dengan mereka untuk menemukan catatan saya di data Netflix; informasi yang saya berbagi bisa menjadi sidik jari yang unik seperti tanggal William Weld ini lahir, kode pos, dan seks. Kemudian, jika mereka menemukan sidik jari yang unik saya di data, mereka bisa belajar penilaian saya tentang semua film, termasuk film di mana saya memilih untuk tidak berbagi. Selain serangan semacam ini ditargetkan terfokus pada satu orang, Narayanan and Shmatikov (2008) juga menunjukkan bahwa adalah mungkin untuk melakukan -satu serangan yang luas yang melibatkan banyak orang-dengan menggabungkan data Netflix dengan data rating pribadi dan film yang beberapa orang telah memilih untuk posting di Internet Movie database (IMDb). Setiap informasi yang sidik jari yang unik untuk orang-bahkan set mereka spesifik film peringkat-dapat digunakan untuk mengidentifikasi mereka.

Meskipun data Netflix dapat kembali diidentifikasi baik dalam serangan yang ditargetkan atau luas, masih mungkin muncul untuk menjadi risiko rendah. Setelah semua, peringkat film tidak tampak sangat sensitif. Sementara yang mungkin benar secara umum, untuk beberapa 500.000 orang dalam dataset, peringkat film mungkin cukup sensitif. Bahkan, dalam menanggapi de-penganoniman seorang wanita lesbian terkurung bergabung gugatan class action terhadap Netflix. Berikut adalah cara masalah itu dinyatakan dalam gugatan mereka (Singel 2009) :

"[M] ovie Peringkat data berisi informasi yang bersifat lebih tinggi pribadi dan sensitif [sic]. Data film anggota ini menghadapkan kepentingan pribadi anggota Netflix dan / atau perjuangan dengan berbagai masalah yang sangat pribadi, termasuk seksualitas, penyakit mental, pemulihan dari kecanduan alkohol, dan korban dari inses, kekerasan fisik, kekerasan dalam rumah tangga, perzinahan, dan pemerkosaan. "

De-penganoniman dari data Netflix Prize menggambarkan kedua bahwa semua data berpotensi diidentifikasi dan bahwa semua data yang berpotensi sensitif. Pada titik ini, Anda mungkin berpikir bahwa ini hanya berlaku untuk data yang yang dimaksudkan untuk menjadi tentang orang-orang. Anehnya, itu tidak terjadi. Sebagai tanggapan atas permintaan Freedom of Law Informasi, Pemerintah Kota New York merilis catatan setiap naik taksi di New York pada 2013, termasuk pickup dan drop off kali, lokasi, dan jumlah tarif (recall dari Bab 2 yang Farber (2015) menggunakan data ini untuk menguji teori penting dalam ekonomi tenaga kerja). Meskipun data ini tentang perjalanan taksi mungkin tampak jinak karena tampaknya tidak ada informasi tentang orang, Anthony Tockar menyadari bahwa dataset taksi ini benar-benar terdapat banyak informasi sensitif tentang orang-orang. Untuk menggambarkan, ia melihat semua perjalanan mulai dari The Hustler Club-klub strip besar di New York-antara tengah malam dan 6 pagi dan kemudian menemukan lokasi drop-off mereka. Pencarian ini mengungkapkan-pada dasarnya-daftar alamat dari beberapa orang yang sering The Hustler Klub (Tockar 2014) . Sulit untuk membayangkan bahwa pemerintah kota memiliki ini dalam pikiran ketika merilis data. Bahkan, teknik yang sama ini dapat digunakan untuk mencari alamat rumah orang yang mengunjungi tempat manapun di kota-klinik medis, gedung pemerintah, atau lembaga keagamaan.

Kedua kasus-Prize Netflix dan New York City taksi data menunjukkan bahwa orang yang relatif terampil gagal untuk benar memperkirakan risiko informasi dalam data bahwa mereka dirilis, dan kasus-kasus ini tidak unik (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Selanjutnya, dalam banyak kasus, data bermasalah masih bebas tersedia secara online, menunjukkan sulitnya pernah melepas rilis data. Kolektif contoh-karena ini serta penelitian dalam ilmu komputer tentang privasi-mengarah ke kesimpulan penting. Peneliti harus berasumsi bahwa semua data berpotensi diidentifikasi dan semua data berpotensi sensitif.

Sayangnya, tidak ada solusi sederhana untuk fakta bahwa semua data berpotensi diidentifikasi dan semua data berpotensi sensitif. Namun, salah satu cara untuk mengurangi risiko informasi sementara Anda bekerja dengan data untuk membuat dan mengikuti rencana perlindungan data. Rencana ini akan mengurangi kemungkinan bahwa data Anda akan bocor dan akan menurun salahnya jika kebocoran entah bagaimana terjadi. Spesifik dari rencana perlindungan data, seperti yang bentuk enkripsi digunakan, akan berubah dari waktu ke waktu, tetapi UK Data Services membantu mengatur unsur-unsur dari rencana perlindungan data menjadi 5 kategori yang mereka sebut 5 brankas: proyek yang aman, orang yang aman , pengaturan yang aman, data yang aman, dan output aman (Tabel 6.2) (Desai, Ritchie, and Welpton 2016) . Tak satu pun dari lima brankas individual memberikan perlindungan sempurna. Tapi, bersama-sama mereka membentuk satu set kuat dari faktor-faktor yang dapat menurunkan risiko informasi.

Tabel 6.2: The 5 brankas adalah prinsip-prinsip untuk merancang dan melaksanakan rencana perlindungan data (Desai, Ritchie, and Welpton 2016) .
Aman	Tindakan
proyek aman	membatasi proyek dengan data kepada mereka yang beretika
orang aman	Akses dibatasi untuk orang-orang yang dapat dipercaya dengan data (misalnya, orang telah menjalani pelatihan etika)
Data aman	Data adalah de-diidentifikasi dan dikumpulkan sejauh mungkin
pengaturan aman	Data disimpan dalam komputer dengan fisik yang sesuai (misalnya, ruang terkunci) dan perangkat lunak (misalnya, proteksi password, terenkripsi) perlindungan
Output aman	hasil penelitian ditinjau untuk mencegah sengaja pelanggaran privasi

Selain untuk melindungi data Anda ketika Anda menggunakannya, satu langkah dalam proses penelitian di mana risiko informasi sangat menonjol adalah berbagi data dengan peneliti lainnya. berbagi data di kalangan ilmuwan adalah nilai inti dari usaha ilmiah, dan itu sangat fasilitas kemajuan pengetahuan. Berikut adalah cara Inggris House of Commons menggambarkan pentingnya berbagi data:

"Akses ke data adalah fundamental jika peneliti untuk mereproduksi, memverifikasi dan membangun hasil yang dilaporkan dalam literatur. Anggapan harus itu, kecuali ada alasan yang kuat sebaliknya, data harus sepenuhnya diungkapkan dan tersedia untuk umum. Sejalan dengan prinsip ini, mana mungkin, data yang terkait dengan semua penelitian yang didanai publik harus dibuat secara luas dan tersedia secara bebas. " (Molloy 2011)

Namun, dengan berbagi data dengan peneliti lain, Anda mungkin akan meningkatkan risiko informasi kepada peserta Anda. Dengan demikian, mungkin tampak bahwa peneliti yang ingin berbagi mereka data atau diperlukan untuk berbagi data mereka-menghadapi ketegangan mendasar. Di satu sisi mereka memiliki kewajiban etis untuk berbagi data dengan para ilmuwan lainnya, terutama jika penelitian asli yang didanai publik. Namun, pada saat yang sama, para peneliti memiliki kewajiban etis untuk meminimalkan, sebanyak mungkin, risiko informasi kepada peserta mereka.

Untungnya, dilema ini tidak separah seperti yang muncul. Hal ini penting untuk memikirkan berbagi sepanjang kontinum dari tidak berbagi data untuk melepaskan dan melupakan, dimana data "anonim" dan diposting bagi siapa saja untuk mengakses data (Gambar 6.6). Kedua posisi ekstrim memiliki risiko dan manfaat. Artinya, tidak secara otomatis hal yang paling etis untuk tidak berbagi data Anda; pendekatan seperti menghilangkan potensi manfaat bagi masyarakat. Kembali ke Taste, Dasi, dan Waktu, contoh dibahas sebelumnya dalam bab ini, argumen terhadap rilis data yang hanya fokus pada kemungkinan bahaya dan yang mengabaikan manfaat yang mungkin adalah terlalu sepihak; Saya akan menjelaskan masalah dengan satu sisi, pendekatan yang terlalu protektif ini secara lebih rinci dalam bawah ketika saya menawarkan saran tentang membuat keputusan dalam menghadapi ketidakpastian (Bagian 6.6.4).

Gambar 6.6: strategi rilis data dapat jatuh di sepanjang kontinum. Di mana Anda harus sepanjang kontinum ini tergantung pada rincian spesifik dari data Anda. Dalam hal ini, review pihak ketiga dapat membantu Anda memutuskan keseimbangan yang tepat dari risiko dan manfaat dalam kasus Anda.

Selanjutnya, di antara dua kasus ekstrim ini adalah apa yang akan saya menelepon pendekatan taman berdinding dimana data dibagi dengan orang-orang yang memenuhi kriteria tertentu dan yang setuju untuk terikat dengan aturan-aturan tertentu (misalnya, pengawasan dari IRB dan rencana perlindungan data) . Pendekatan taman bertembok ini memberikan banyak manfaat dari rilis dan lupa dengan risiko lebih kecil. Tentu saja, pendekatan taman berdinding menciptakan banyak pertanyaan-yang seharusnya memiliki akses, dalam kondisi apa, untuk berapa lama, siapa yang harus membayar untuk mempertahankan dan polisi yang berdinding kebun dll-tapi ini tidak dapat diatasi. Bahkan, ada yang sudah bekerja kebun bertembok di tempat itu peneliti dapat menggunakan sekarang, seperti arsip data Konsorsium Inter-universitas untuk Politik dan Sosial Penelitian di University of Michigan.

Jadi, di mana data dari studi Anda harus pada kontinum tidak berbagi, kebun bertembok, dan melepaskan dan melupakan? Ini tergantung pada rincian data Anda; peneliti harus menyeimbangkan Menghormati Orang, Beneficence, Keadilan, dan Menghormati Hukum dan Kepentingan Umum. Ketika menilai keseimbangan yang tepat untuk keputusan lain peneliti mencari nasihat dan persetujuan dari IRBs, dan rilis data dapat hanya bagian lain dari proses itu. Dengan kata lain, meskipun beberapa orang berpikir rilis data sebagai rawa etika putus asa, kita sudah memiliki sistem di tempat untuk membantu para peneliti menyeimbangkan semacam ini dilema etika.

Salah satu cara terakhir untuk berpikir tentang berbagi data dengan analogi. Setiap mobil tahun bertanggung jawab atas ribuan kematian, tapi kita tidak mencoba untuk melarang mengemudi. Bahkan, panggilan tersebut untuk melarang mengemudi akan masuk akal karena mengemudi memungkinkan banyak hal yang indah. Sebaliknya, masyarakat menempatkan pembatasan pada yang bisa menyetir (misalnya, harus usia tertentu, perlu telah lulus tes tertentu) dan bagaimana mereka dapat mendorong (misalnya, di bawah batas kecepatan). Masyarakat juga memiliki orang-orang yang bertugas menegakkan aturan ini (misalnya, polisi), dan kami menghukum orang-orang yang tertangkap melanggar mereka. semacam ini sama berpikir yang seimbang bahwa masyarakat berlaku untuk mengatur mengemudi juga dapat diterapkan untuk berbagi data. Artinya, daripada membuat argumen absolut atau menentang berbagi data, saya pikir manfaat terbesar akan datang dari mencari tahu bagaimana kita bisa berbagi lebih banyak data yang lebih aman.

Untuk menyimpulkan, risiko informasi telah meningkat secara dramatis, dan sangat sulit untuk memprediksi dan mengukur. Oleh karena itu, yang terbaik adalah untuk menganggap bahwa semua data berpotensi diidentifikasi dan berpotensi sensitif. Untuk mengurangi risiko informasi saat melakukan penelitian, peneliti dapat membuat dan mengikuti rencana perlindungan data. Selanjutnya, risiko informasi tidak mencegah peneliti dari berbagi data dengan para ilmuwan lainnya.