6.6.2 Memahami dan mengelola risiko informasi

Risiko informasi adalah risiko paling umum dalam penelitian sosial; telah meningkat secara dramatis; dan itu adalah risiko yang paling sulit untuk dipahami.

Tantangan etika kedua untuk penelitian era digital adalah risiko informasi , potensi bahaya dari pengungkapan informasi (National Research Council 2014) . Kerugian informasi dari pengungkapan informasi pribadi dapat bersifat ekonomi (misalnya kehilangan pekerjaan), sosial (misalnya, malu), psikologis (misalnya, depresi), atau bahkan kriminal (misalnya, penangkapan karena perilaku ilegal). Sayangnya, era digital meningkatkan risiko informasi secara dramatis — ada begitu banyak informasi tentang perilaku kita. Dan risiko informasi telah terbukti sangat sulit dipahami dan dikelola dibandingkan dengan risiko yang menjadi perhatian dalam penelitian sosial usia analog, seperti risiko fisik.

Salah satu cara yang peneliti sosial mengurangi risiko informasi adalah "penganoniman" data. "Penganoniman" adalah proses menghilangkan pengenal pribadi yang jelas seperti nama, alamat, dan nomor telepon dari data. Namun, pendekatan ini jauh lebih efektif daripada banyak orang menyadari, dan itu adalah, pada kenyataannya, dalam dan fundamental yang terbatas. Untuk alasan itu, setiap kali saya menjelaskan "penganoniman," Aku akan menggunakan tanda kutip untuk mengingatkan Anda bahwa proses ini menciptakan penampilan anonimitas tapi tidak disebutkan namanya benar.

Contoh nyata dari kegagalan "anonymization" berasal dari akhir 1990-an di Massachusetts (Sweeney 2002) . Group Insurance Commission (GIC) adalah lembaga pemerintah yang bertanggung jawab untuk membeli asuransi kesehatan bagi semua pegawai negara. Melalui pekerjaan ini, GIC mengumpulkan catatan kesehatan rinci tentang ribuan pegawai negara. Dalam upaya untuk memacu penelitian, GIC memutuskan untuk merilis rekaman ini kepada para peneliti. Namun, mereka tidak membagikan semua data mereka; sebaliknya, mereka "menganonimkan" data ini dengan menghapus informasi seperti nama dan alamat. Namun, mereka meninggalkan informasi lain yang mereka pikir bisa berguna untuk peneliti seperti informasi demografi (kode pos, tanggal lahir, etnis, dan jenis kelamin) dan informasi medis (mengunjungi data, diagnosis, prosedur) (gambar 6.4) (Ohm 2010) . Sayangnya, "anonymization" ini tidak cukup untuk melindungi data.

Gambar 6.4: Anonimisasi adalah proses menghapus informasi yang jelas mengidentifikasi. Misalnya, ketika merilis catatan asuransi kesehatan karyawan negara, Komisi Asuransi Kelompok Massachusetts (GIC) menghapus nama dan alamat dari file. Saya menggunakan tanda kutip di sekitar kata penganoniman karena proses memberikan tampilan anonimitas tetapi bukan anonimitas sebenarnya.

Gambar 6.4: “Penganoniman” adalah proses penghapusan informasi yang jelas mengidentifikasi. Misalnya, ketika merilis catatan asuransi kesehatan karyawan negara, Komisi Asuransi Kelompok Massachusetts (GIC) menghapus nama dan alamat dari file. Saya menggunakan tanda kutip di sekitar kata "anonimisasi" karena prosesnya memberikan tampilan anonimitas tetapi bukan anonimitas sebenarnya.

Untuk mengilustrasikan kekurangan dari "anonimisasi" GIC, Latanya Sweeney — kemudian seorang mahasiswa pascasarjana di MIT — membayar $ 20 untuk memperoleh catatan pemungutan suara dari kota Cambridge, kampung halaman gubernur Massachusetts William Weld. Rekaman suara ini termasuk informasi seperti nama, alamat, kode pos, tanggal lahir, dan jenis kelamin. Fakta bahwa file data medis dan file pemilih berbagi bidang — kode pos, tanggal lahir, dan seks — berarti bahwa Sweeney dapat menghubungkannya. Sweeney tahu bahwa ulang tahun Weld adalah 31 Juli 1945, dan catatan pemungutan suara hanya memasukkan enam orang di Cambridge dengan ulang tahun itu. Lebih lanjut, dari enam orang itu, hanya tiga yang laki-laki. Dan, dari ketiga pria itu, hanya satu yang berbagi kode pos Weld. Dengan demikian, data pemungutan suara menunjukkan bahwa siapa pun dalam data medis dengan kombinasi Weld tanggal lahir, jenis kelamin, dan kode pos adalah William Weld. Intinya, ketiga informasi ini memberikan sidik jari yang unik kepadanya dalam data. Dengan menggunakan fakta ini, Sweeney dapat menemukan catatan medis Weld, dan, untuk memberi tahu dia tentang prestasinya, dia mengiriminya salinan catatannya (Ohm 2010) .

Gambar 6.5: Pengidentifikasi ulang data anonim. Latanya Sweeney menggabungkan catatan kesehatan yang dianonimkan dengan catatan pemungutan suara untuk menemukan rekam medis Gubernur William Weld yang Diadaptasi dari Sweeney (2002), gambar 1.

Gambar 6.5: Pengidentifikasi ulang data "dianonimkan". Latanya Sweeney menggabungkan catatan kesehatan "anonim" dengan catatan pemungutan suara untuk menemukan rekam medis Gubernur William Weld yang Diadaptasi dari Sweeney (2002) , gambar 1.

Karya Sweeney mengilustrasikan struktur dasar dari serangan identifikasi ulang - untuk mengadopsi sebuah istilah dari komunitas keamanan komputer. Dalam serangan ini, dua set data, yang keduanya tidak dengan sendirinya mengungkapkan informasi sensitif, terhubung, dan melalui tautan ini, informasi sensitif terungkap.

Sebagai tanggapan atas karya Sweeney, dan pekerjaan terkait lainnya, para peneliti sekarang umumnya menghapus lebih banyak informasi — semua yang disebut “informasi identifikasi pribadi” (PII) (Narayanan and Shmatikov 2010) —selama proses “penganoniman.” Lebih lanjut, banyak peneliti sekarang menyadari bahwa data tertentu — seperti catatan medis, catatan keuangan, jawaban atas pertanyaan survei tentang perilaku ilegal — mungkin terlalu sensitif untuk dirilis bahkan setelah “anonimisasi.” Namun, contoh yang akan saya berikan menunjukkan bahwa peneliti sosial perlu untuk mengubah pemikiran mereka. Sebagai langkah pertama, adalah bijaksana untuk menganggap bahwa semua data berpotensi teridentifikasi dan semua data berpotensi sensitif. Dengan kata lain, daripada berpikir bahwa risiko informasi berlaku untuk sebagian kecil proyek, kita harus mengasumsikan bahwa itu berlaku — pada tingkat tertentu — ke semua proyek.

Kedua aspek dari reorientasi ini diilustrasikan oleh Hadiah Netflix. Seperti yang dijelaskan dalam bab 5, Netflix merilis 100 juta peringkat film yang disediakan oleh hampir 500.000 anggota, dan memiliki panggilan terbuka di mana orang-orang dari seluruh dunia mengirimkan algoritme yang dapat meningkatkan kemampuan Netflix untuk merekomendasikan film. Sebelum merilis data, Netflix menghapus informasi identitas pribadi yang jelas, seperti nama. Mereka juga melakukan langkah tambahan dan memperkenalkan sedikit gangguan di beberapa catatan (misalnya, mengubah beberapa peringkat dari 4 bintang menjadi 3 bintang). Mereka segera menemukan, bagaimanapun, bahwa terlepas dari upaya mereka, data itu tetap tidak anonim.

Hanya dua minggu setelah data dirilis, Arvind Narayanan dan Vitaly Shmatikov (2008) menunjukkan bahwa adalah mungkin untuk belajar tentang preferensi film orang tertentu. Trik serangan re-identifikasi mereka mirip dengan Sweeney's: menggabungkan bersama dua sumber informasi, satu dengan informasi yang berpotensi sensitif dan tidak ada informasi yang jelas mengidentifikasi dan yang berisi identitas orang. Masing-masing sumber data ini dapat secara individu aman, tetapi ketika digabungkan, kumpulan data yang digabung dapat menciptakan risiko informasi. Dalam kasus data Netflix, inilah bagaimana hal itu bisa terjadi. Bayangkan bahwa saya memilih untuk berbagi pemikiran saya tentang film aksi dan komedi dengan rekan kerja saya, tetapi saya lebih suka tidak membagikan pendapat saya tentang film-film agama dan politik. Rekan kerja saya dapat menggunakan informasi yang telah saya bagikan kepada mereka untuk menemukan catatan saya dalam data Netflix; informasi yang saya bagikan bisa menjadi sidik jari yang unik seperti tanggal kelahiran William Weld, kode pos, dan seks. Kemudian, jika mereka menemukan sidik jari unik saya dalam data, mereka dapat mempelajari peringkat saya tentang semua film, termasuk film yang saya pilih untuk tidak dibagikan. Selain jenis serangan bertarget yang berfokus pada satu orang, Narayanan dan Shmatikov juga menunjukkan bahwa adalah mungkin untuk melakukan serangan luas - yang melibatkan banyak orang - dengan menggabungkan data Netflix dengan data peringkat pribadi dan film yang telah dipilih beberapa orang untuk memposting di Internet Movie Database (IMDb). Cukup sederhana, informasi apa pun yang merupakan sidik jari unik untuk orang tertentu — bahkan peringkat film mereka — dapat digunakan untuk mengidentifikasi mereka.

Meskipun data Netflix dapat diidentifikasi ulang baik dalam serangan yang ditargetkan maupun yang luas, itu mungkin masih tampak berisiko rendah. Lagi pula, peringkat film sepertinya tidak terlalu sensitif. Meskipun itu mungkin benar secara umum, untuk beberapa dari 500.000 orang dalam kumpulan data, peringkat film mungkin cukup sensitif. Bahkan, sebagai tanggapan terhadap identifikasi ulang, seorang wanita lesbian yang telah dikurung bergabung dengan gugatan class action terhadap Netflix. Inilah bagaimana masalah itu diungkapkan dalam gugatan mereka (Singel 2009) :

“[M] ovie dan data rating berisi informasi dari ... sifat yang sangat pribadi dan sensitif. Data film anggota memperlihatkan minat pribadi dan / atau perjuangan anggota Netflix dengan berbagai masalah yang sangat pribadi, termasuk seksualitas, penyakit mental, pemulihan dari alkoholisme, dan viktimisasi dari incest, kekerasan fisik, kekerasan dalam rumah tangga, perzinahan, dan pemerkosaan. ”

Identifikasi ulang data Hadiah Netflix menggambarkan bahwa semua data berpotensi diidentifikasi dan semua data berpotensi sensitif. Pada titik ini, Anda mungkin berpikir bahwa ini hanya berlaku untuk data yang dimaksudkan tentang orang. Anehnya, bukan itu masalahnya. Menanggapi permintaan Undang-undang Kebebasan Informasi, Pemerintah Kota New York merilis catatan setiap perjalanan taksi di New York pada tahun 2013, termasuk waktu pengambilan dan penurunan, lokasi, dan jumlah tarif (ingat dari bab 2 bahwa Farber (2015) menggunakan data serupa untuk menguji teori penting dalam ekonomi tenaga kerja). Data-data tentang perjalanan taksi ini mungkin tampak jinak karena mereka tampaknya tidak memberikan informasi tentang orang-orang, tetapi Anthony Tockar menyadari bahwa dataset taksi ini sebenarnya mengandung banyak informasi yang berpotensi sensitif tentang orang-orang. Untuk mengilustrasikan, dia melihat semua perjalanan dimulai di Hustler Club — klub strip besar di New York — antara tengah malam dan 6 pagi dan kemudian menemukan lokasi pengantaran mereka. Pencarian ini mengungkapkan — pada intinya — daftar alamat dari beberapa orang yang sering mengunjungi Hustler Club (Tockar 2014) . Sulit membayangkan bahwa pemerintah kota memikirkan hal ini ketika ia merilis data. Bahkan, teknik yang sama ini dapat digunakan untuk menemukan alamat rumah orang-orang yang mengunjungi tempat manapun di kota — klinik medis, gedung pemerintah, atau lembaga keagamaan.

Dua kasus ini dari Netflix Prize dan data taksi New York City menunjukkan bahwa orang yang relatif terampil dapat gagal memperkirakan dengan benar risiko informasi dalam data yang mereka rilis — dan kasus-kasus ini sama sekali tidak unik (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Lebih jauh, dalam banyak kasus seperti itu, data yang bermasalah masih tersedia secara online, menunjukkan kesulitan untuk membatalkan rilis data. Secara kolektif, contoh-contoh ini — serta penelitian dalam ilmu komputer tentang privasi — mengarah pada kesimpulan penting. Para peneliti harus mengasumsikan bahwa semua data berpotensi teridentifikasi dan semua data berpotensi sensitif.

Sayangnya, tidak ada solusi sederhana untuk fakta bahwa semua data berpotensi teridentifikasi dan semua data berpotensi sensitif. Namun, salah satu cara untuk mengurangi risiko informasi saat Anda bekerja dengan data adalah membuat dan mengikuti rencana perlindungan data . Rencana ini akan mengurangi kemungkinan bahwa data Anda akan bocor dan akan mengurangi bahaya jika kebocoran entah bagaimana terjadi. Spesifik dari rencana perlindungan data, seperti bentuk enkripsi yang akan digunakan, akan berubah seiring waktu, tetapi UK Data Services membantu mengatur elemen rencana perlindungan data ke dalam lima kategori yang mereka sebut lima brankas : proyek yang aman, orang yang aman , pengaturan aman, data aman, dan output aman (Tabel 6.2) (Desai, Ritchie, and Welpton 2016) . Tak satu pun dari lima brankas secara individual memberikan perlindungan sempurna. Tetapi bersama-sama mereka membentuk seperangkat faktor yang kuat yang dapat menurunkan risiko informasi.

Tabel 6.2: “Lima Safes” adalah Prinsip untuk Merancang dan Menjalankan Rencana Perlindungan Data (Desai, Ritchie, and Welpton 2016)
Aman Tindakan
Proyek yang aman Batasi proyek dengan data untuk mereka yang etis
Orang yang aman Akses dibatasi untuk orang yang dapat dipercaya dengan data (misalnya, orang yang telah menjalani pelatihan etika)
Data aman Data tidak diidentifikasi dan dikumpulkan sejauh mungkin
Pengaturan yang aman Data disimpan di komputer dengan perlindungan fisik (misalnya ruang terkunci) dan perangkat lunak (misalnya perlindungan kata sandi, terenkripsi) yang tepat
Hasil yang aman Hasil penelitian ditinjau untuk mencegah pelanggaran privasi yang tidak disengaja

Selain melindungi data Anda saat Anda menggunakannya, satu langkah dalam proses penelitian di mana risiko informasi sangat menonjol adalah berbagi data dengan peneliti lain. Berbagi data di antara para ilmuwan adalah nilai inti dari upaya ilmiah, dan itu sangat memudahkan kemajuan pengetahuan. Inilah bagaimana House of Commons Inggris menggambarkan pentingnya berbagi data (Molloy 2011) :

“Akses ke data sangat penting jika peneliti ingin mereproduksi, memverifikasi, dan membangun hasil yang dilaporkan dalam literatur. Anggapan itu harus bahwa, kecuali ada alasan kuat sebaliknya, data harus sepenuhnya diungkapkan dan tersedia untuk umum. ”

Namun, dengan membagikan data Anda dengan peneliti lain, Anda mungkin meningkatkan risiko informasi kepada peserta Anda. Dengan demikian, mungkin terlihat bahwa berbagi data menciptakan ketegangan mendasar antara kewajiban untuk berbagi data dengan ilmuwan lain dan kewajiban untuk meminimalkan risiko informasi kepada peserta. Untungnya, dilema ini tidak separah kelihatannya. Sebaliknya, lebih baik untuk berpikir tentang berbagi data sebagai jatuh bersama kontinum, dengan setiap titik pada kontinum itu memberikan campuran manfaat yang berbeda kepada masyarakat dan risiko bagi peserta (gambar 6.6).

Pada satu ekstrem, Anda dapat membagikan data Anda dengan siapa pun, yang meminimalkan risiko bagi para peserta tetapi juga meminimalkan keuntungan bagi masyarakat. Pada ekstrem yang lain, Anda dapat melepaskan dan melupakan , di mana data "dianonimkan" dan diposting untuk semua orang. Relatif untuk tidak merilis data, melepaskan, dan melupakan menawarkan manfaat yang lebih tinggi bagi masyarakat dan risiko yang lebih tinggi bagi para peserta. Di antara dua kasus ekstrem ini adalah berbagai hibrida, termasuk apa yang akan saya sebut pendekatan taman bertembok . Di bawah pendekatan ini, data dibagi dengan orang-orang yang memenuhi kriteria tertentu dan yang setuju untuk terikat dengan aturan tertentu (misalnya, pengawasan dari IRB dan rencana perlindungan data). Pendekatan taman bertembok menyediakan banyak manfaat pelepasan dan lupa dengan risiko yang lebih kecil. Tentu saja, pendekatan semacam itu menciptakan banyak pertanyaan - siapa yang harus memiliki akses, dalam kondisi apa, dan untuk berapa lama, siapa yang harus membayar untuk mempertahankan dan mengawasi taman yang bertembok, dll. - tetapi ini tidak dapat diatasi. Bahkan, ada kebun yang sudah dikerjakan di tempat yang dapat digunakan para peneliti sekarang, seperti arsip data dari Konsorsium Antar Universitas untuk Penelitian Politik dan Sosial di Universitas Michigan.

Gambar 6.6: Strategi pelepasan data dapat jatuh bersama kontinum. Di mana Anda harus berada dalam rangkaian ini bergantung pada detail spesifik data Anda, dan peninjauan pihak ketiga dapat membantu Anda memutuskan keseimbangan risiko dan manfaat yang sesuai dalam kasus Anda. Bentuk yang tepat dari kurva ini tergantung pada spesifikasi data dan tujuan penelitian (Goroff 2015).

Gambar 6.6: Strategi pelepasan data dapat jatuh bersama kontinum. Di mana Anda harus berada dalam rangkaian ini bergantung pada detail spesifik data Anda, dan peninjauan pihak ketiga dapat membantu Anda memutuskan keseimbangan risiko dan manfaat yang sesuai dalam kasus Anda. Bentuk yang tepat dari kurva ini tergantung pada spesifikasi data dan tujuan penelitian (Goroff 2015) .

Jadi, dari mana seharusnya data dari studi Anda berada di kontinum tanpa berbagi, taman bertembok, dan lepaskan dan lupakan? Ini tergantung pada detail data Anda: peneliti harus menyeimbangkan Penghargaan untuk Orang, Beneficence, Justice, dan Respect for Law and Public Interest. Dilihat dari perspektif ini, berbagi data bukanlah teka-teki etis yang khas; ini hanyalah salah satu dari banyak aspek penelitian di mana peneliti harus menemukan keseimbangan etis yang tepat.

Sebagian kritikus umumnya menentang pembagian data karena, menurut saya, mereka berfokus pada risikonya — yang tidak diragukan lagi nyata — dan mengabaikan manfaatnya. Jadi, untuk mendorong fokus pada risiko dan manfaat, saya ingin memberikan analogi. Setiap tahun, mobil bertanggung jawab atas ribuan kematian, tetapi kami tidak mencoba untuk melarang mengemudi. Bahkan, panggilan untuk melarang mengemudi akan absurd karena mengemudi memungkinkan banyak hal indah. Sebaliknya, masyarakat menempatkan pembatasan pada siapa yang dapat mengemudi (misalnya, kebutuhan untuk usia tertentu dan telah lulus tes tertentu) dan bagaimana mereka dapat mengemudi (misalnya, di bawah batas kecepatan). Masyarakat juga memiliki orang yang bertugas menegakkan aturan-aturan ini (misalnya, polisi), dan kami menghukum orang-orang yang tertangkap melanggar mereka. Pemikiran seimbang yang sama yang diterapkan masyarakat untuk mengatur mengemudi juga dapat diterapkan untuk berbagi data. Artinya, daripada membuat argumen absolutist untuk atau terhadap berbagi data, saya pikir kami akan membuat kemajuan paling banyak dengan berfokus pada bagaimana kami dapat mengurangi risiko dan meningkatkan manfaat dari berbagi data.

Untuk menyimpulkan, risiko informasi telah meningkat secara dramatis, dan sangat sulit untuk memprediksi dan mengukur. Oleh karena itu, yang terbaik adalah menganggap bahwa semua data berpotensi dapat diidentifikasi dan berpotensi sensitif. Untuk mengurangi risiko informasi saat melakukan penelitian, peneliti dapat membuat dan mengikuti rencana perlindungan data. Lebih lanjut, risiko informasi tidak mencegah peneliti dari berbagi data dengan ilmuwan lain.