6.6.2 Memahami dan mengurus risiko maklumat

Risiko maklumat adalah risiko yang paling biasa dalam penyelidikan sosial; ia telah meningkat secara dramatik; dan ia adalah risiko paling sukar untuk difahami.

Cabaran etika kedua untuk penyelidikan digital adalah risiko maklumat , potensi bahaya dari pendedahan maklumat (National Research Council 2014) . Kesalahan maklumat dari pendedahan maklumat peribadi boleh menjadi ekonomi (contohnya, kehilangan pekerjaan), sosial (mis., Malu), psikologi (contohnya, kemurungan), atau bahkan jenayah (misalnya, penangkapan tingkah laku haram). Malangnya, usia digital meningkatkan risiko maklumat secara dramatik-hanya terdapat lebih banyak maklumat mengenai tingkah laku kita. Dan risiko maklumat telah terbukti sangat sukar difahami dan dikendalikan berbanding dengan risiko yang menjadi kebimbangan dalam penyelidikan sosial umur analog, seperti risiko fizikal.

Salah satu cara yang penyelidik sosial mengurangkan risiko maklumat adalah "anonymization" data. "Anonymization" adalah proses mengeluarkan pengenalan peribadi yang jelas seperti nama, alamat, dan nombor telefon daripada data. Walau bagaimanapun, pendekatan ini adalah lebih kurang berkesan daripada ramai yang menyedari, dan ia adalah, sebenarnya, amat dan asasnya terhad. Atas sebab itu, setiap kali saya menerangkan "anonymization," Saya akan menggunakan tanda petikan untuk mengingatkan anda bahawa proses ini mewujudkan penampilan tidak mahu namanya disiarkan tetapi tidak mahu namanya disiarkan benar.

Contoh yang jelas tentang kegagalan "anonimisasi" berasal dari akhir 1990-an di Massachusetts (Sweeney 2002) . Suruhanjaya Insurans Kumpulan (GIC) adalah agensi kerajaan yang bertanggungjawab untuk membeli insurans kesihatan untuk semua pekerja negeri. Melalui karya ini, GIC mengumpul rekod kesihatan terperinci mengenai beribu-ribu pekerja negeri. Dalam usaha untuk memacu penyelidikan, GIC memutuskan untuk melepaskan rekod ini kepada para penyelidik. Walau bagaimanapun, mereka tidak berkongsi semua data mereka; Sebaliknya, mereka "tidak dikenali" data ini dengan mengeluarkan maklumat seperti nama dan alamat. Walau bagaimanapun, mereka meninggalkan maklumat lain yang mereka fikir berguna untuk penyelidik seperti maklumat demografi (kod zip, tarikh lahir, etnik, dan seks) dan maklumat perubatan (data lawatan, diagnosis, prosedur) (angka 6.4) (Ohm 2010) . Malangnya, "pengucapan tanpa nama" ini tidak mencukupi untuk melindungi data.

Rajah 6.4: Anonimisasi adalah proses menghapuskan maklumat yang jelas. Contohnya, apabila melepaskan rekod insurans perubatan pekerja negara, Suruhanjaya Insurans Kumpulan Massachusetts (GIC) mengeluarkan nama dan alamat dari fail. Saya menggunakan tanda petikan di sekitar perkataan anonimasi kerana proses itu memberikan rupa tanpa nama tetapi tidak dikenali secara tidak sengaja.

Rajah 6.4: "Anonimisasi" adalah proses menghapuskan maklumat yang jelas. Contohnya, apabila melepaskan rekod insurans perubatan pekerja negara, Suruhanjaya Insurans Kumpulan Massachusetts (GIC) mengeluarkan nama dan alamat dari fail. Saya menggunakan tanda petikan di sekeliling kata "anonimisasi" kerana proses itu menunjukkan kemunculan anonimiti tetapi tidak disebut namanya.

Untuk menggambarkan kelemahan GIC "pengucapan tanpa nama", Latanya Sweeney-kemudian seorang pelajar siswazah di MIT yang dibayar $ 20 untuk memperoleh rekod pengundian dari bandar Cambridge, kelahiran gubernur Massachusetts William Weld. Rekod mengundi termasuk maklumat seperti nama, alamat, kod zip, tarikh lahir, dan jantina. Hakikat bahawa fail data perubatan dan fail pemilih berkongsi kod medan-zip, tarikh lahir, dan hubungan seks-bermakna Sweeney boleh menghubungkan mereka. Sweeney tahu bahawa hari lahir Weld adalah 31 Julai 1945, dan rekod mengundi hanya melibatkan enam orang di Cambridge dengan hari jadi itu. Seterusnya, daripada enam orang itu, hanya tiga lelaki. Dan, dari ketiga-tiga lelaki itu, hanya satu kod zip Weld yang dikongsi. Oleh itu, data pengundian menunjukkan bahawa sesiapa dalam data perubatan dengan gabungan tarikh lahir, jantina dan kod zip Weld adalah William Weld. Intinya, ketiga-tiga maklumat tersebut memberikan cap jari yang unik kepadanya dalam data. Dengan menggunakan fakta ini, Sweeney dapat mengesan rekod perubatan Weld, dan, untuk memaklumkan kepadanya tentang prestasinya, dia menghantar satu salinan rekodnya (Ohm 2010) .

Rajah 6.5: Pengenalpastian semula data tanpa nama. Latanya Sweeney menggabungkan rekod kesihatan tanpa nama dengan rekod mengundi untuk mencari rekod perubatan Gabenor William Weld Diadaptasi dari Sweeney (2002), angka 1.

Rajah 6.5: Menanda semula data "tanpa nama". Latanya Sweeney menggabungkan rekod kesihatan "tanpa nama" dengan rekod mengundi untuk mencari rekod perubatan Gabenor William Weld Diadaptasi dari Sweeney (2002) , angka 1.

Kerja Sweeney menggambarkan struktur asas serangan pengenalan semula- untuk mengguna pakai istilah dari komuniti keselamatan komputer. Dalam serangan ini, dua set data, yang mana tidak dengan sendirinya mendedahkan maklumat sensitif, dihubungkan, dan melalui hubungan ini, maklumat sensitif terdedah.

Sebagai tindak balas kepada kerja-kerja Sweeney, dan kerja-kerja lain yang berkaitan, para penyelidik kini secara amnya mengeluarkan lebih banyak maklumat-apa yang dipanggil "maklumat identifikasi diri" (PII) (Narayanan and Shmatikov 2010) - mengenai proses "anonimisasi." kini menyedari bahawa data tertentu-seperti rekod perubatan, rekod kewangan, jawapan untuk pertanyaan kaji selidik tentang tingkah laku yang menyalahi undang-undang-mungkin terlalu sensitif untuk dibebaskan walaupun selepas "anonimisasi." Walau bagaimanapun, contoh-contoh yang akan saya berikan mencadangkan bahawa penyelidik sosial perlu untuk mengubah pemikiran mereka. Sebagai langkah pertama, adalah bijak untuk mengandaikan bahawa semua data berpotensi dikenalpasti dan semua data berpotensi sensitif. Dalam erti kata lain, daripada memikirkan bahawa risiko maklumat terpakai kepada subset kecil projek, kita harus mengandaikan bahawa ia terpakai-untuk beberapa tahap-kepada semua projek.

Kedua-dua aspek pengubahsuaian ini digambarkan oleh Hadiah Netflix. Seperti yang dijelaskan dalam bab 5, Netflix mengeluarkan 100 juta penarafan filem yang disediakan oleh hampir 500,000 ahli, dan mempunyai panggilan terbuka di mana orang dari seluruh dunia menyerahkan algoritma yang dapat meningkatkan kemampuan Netflix untuk mencadangkan filem. Sebelum melepaskan data, Netflix memadam sebarang maklumat mengenal pasti secara peribadi, seperti nama. Mereka juga melakukan langkah tambahan dan memperkenalkan beberapa masalah dalam beberapa rekod (contohnya, mengubah beberapa rating dari 4 bintang hingga 3 bintang). Mereka kemudiannya mendapati bahawa walaupun usaha mereka, data masih tidak diketahui tanpa nama.

Hanya dua minggu selepas data dikeluarkan, Arvind Narayanan dan Vitaly Shmatikov (2008) menunjukkan bahawa ia mungkin untuk mengetahui tentang keutamaan filem orang tertentu. Caranya untuk serangan semula pengenalan mereka adalah sama dengan Sweeney: menggabungkan dua sumber maklumat, satu dengan maklumat berpotensi sensitif dan tidak jelas mengenal pasti maklumat dan satu yang mengandungi identiti orang. Setiap daripada sumber data ini mungkin selamat secara individu, tetapi apabila ia digabungkan, dataset yang disatukan dapat membuat risiko maklumat. Dalam kes data Netflix, inilah bagaimana ia boleh berlaku. Bayangkan saya memilih untuk berkongsi pemikiran saya tentang aksi dan filem komedi dengan rakan sekerja saya, tetapi saya lebih suka tidak berkongsi pendapat saya mengenai filem agama dan politik. Rakan sekerja saya boleh menggunakan maklumat yang saya kongsi dengan mereka untuk mencari rekod saya dalam data Netflix; maklumat yang saya kongsikan boleh menjadi cap jari yang unik seperti tarikh kelahiran William Weld, kod zip, dan hubungan seks. Kemudian, jika mereka menemui cap jari unik saya dalam data, mereka dapat mengetahui penarafan saya mengenai semua filem, termasuk filem yang saya pilih untuk tidak dikongsi. Sebagai tambahan kepada serangan yang disasarkan seperti ini, Narayanan dan Shmatikov juga memperlihatkan bahawa mungkin dilakukan serangan luas - yang melibatkan banyak orang-dengan menggabungkan data Netflix dengan data penarafan peribadi dan filem yang telah dipilih oleh beberapa orang untuk menyiarkan di Pangkalan Data Filem Internet (IMDb). Sudah cukup, apa-apa maklumat yang merupakan cap jari unik kepada orang tertentu-walaupun set penarafan filem mereka-boleh digunakan untuk mengenal pasti mereka.

Walaupun data Netflix dapat dikenalpasti semula sama ada serangan yang disasarkan atau luas, ia masih mungkin kelihatan berisiko rendah. Lagipun, penilaian filem tidak kelihatan sangat sensitif. Walaupun itu mungkin benar pada umumnya, untuk beberapa 500,000 orang dalam dataset, penarafan filem mungkin agak sensitif. Sebenarnya, sebagai tindak balas kepada pengenalan semula, seorang wanita lesbian yang ditutupi menyertai saman tindakan kelas terhadap Netflix. Begini bagaimana masalah itu dinyatakan dalam tuntutan mereka (Singel 2009) :

"[M] data ovie dan penarafan mengandungi maklumat ... sifat yang sangat peribadi dan sensitif. Data filem ahli mendedahkan kepentingan peribadi Netflix dan / atau perjuangan dengan pelbagai isu yang sangat peribadi, termasuk seksualiti, penyakit mental, pemulihan daripada alkoholisme, dan pembunuhan dari incest, penyalahgunaan fizikal, keganasan rumah tangga, perzinaan, dan rogol. "

Pengenalan semula data Hadiah Netflix menggambarkan bahawa semua data berpotensi dikenalpasti dan semua data berpotensi sensitif. Pada ketika ini, anda mungkin berfikir bahawa ini hanya terpakai kepada data yang dikatakan mengenai orang. Menghairankan, itu bukanlah kes itu. Sebagai respons kepada permintaan Undang-undang Kebebasan Maklumat, Kerajaan New York mengeluarkan rekod setiap perjalanan teksi di New York pada tahun 2013, termasuk pickup dan drop off times, lokasi dan jumlah tambang (ingat dari bab 2 bahawa Farber (2015) menggunakan data yang sama untuk menguji teori-teori penting dalam ekonomi buruh). Data-data mengenai perjalanan teksi mungkin kelihatan tidak baik kerana mereka tidak memberikan maklumat tentang orang, tetapi Anthony Tockar menyedari bahawa dataset teksi ini sebenarnya mengandungi banyak maklumat sensitif mengenai orang. Untuk menggambarkan, dia melihat semua perjalanan bermula di Kelab Hustler-sebuah kelab jalur besar di New York-antara tengah malam dan 6 pagi dan kemudian mendapati lokasi drop-off mereka. Carian ini mendedahkan-pada intipati-senarai alamat sesetengah orang yang sering mengunjungi Kelab Hustler (Tockar 2014) . Sukar untuk membayangkan bahawa kerajaan bandar mempunyai ini dalam fikiran apabila ia mengeluarkan data. Malah, teknik yang sama ini boleh digunakan untuk mencari alamat rumah orang yang melawat mana-mana tempat di bandar itu-klinik perubatan, bangunan kerajaan, atau institusi keagamaan.

Kedua-dua kes Hadiah Netflix dan data teksi New York City menunjukkan bahawa orang yang berkemahiran tinggi gagal untuk menganggarkan risiko maklumat secara tepat dalam data yang mereka keluarkan-dan kes ini tidak semestinya unik (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Selanjutnya, dalam banyak kes tersebut, data yang bermasalah masih boleh didapati secara dalam talian, yang menunjukkan kesukaran untuk menghapuskan pembebasan data. Secara kolektif, contoh-contoh ini-serta penyelidikan dalam sains komputer tentang privasi-membawa kepada kesimpulan penting. Penyelidik harus menganggap bahawa semua data berpotensi dikenalpasti dan semua data berpotensi sensitif.

Malangnya, tiada penyelesaian mudah kepada fakta bahawa semua data berpotensi dikenalpasti dan semua data berpotensi sensitif. Walau bagaimanapun, satu cara untuk mengurangkan risiko maklumat semasa anda bekerja dengan data adalah membuat dan mengikuti pelan perlindungan data . Pelan ini akan mengurangkan kemungkinan data anda akan bocor dan akan mengurangkan bahaya jika kebocoran entah bagaimana berlaku. Ciri-ciri pelan perlindungan data, seperti bentuk penyulitan yang digunakan, akan berubah dari masa ke masa, tetapi Perkhidmatan Data UK membantu mengatur elemen pelan perlindungan data ke dalam lima kategori yang mereka panggil peti besi lima : projek selamat, orang yang selamat , tetapan selamat, data selamat, dan output selamat (jadual 6.2) (Desai, Ritchie, and Welpton 2016) . Tiada satu daripada lima peti keselamatan secara individu menyediakan perlindungan yang sempurna. Tetapi bersama-sama mereka membentuk satu set faktor yang kuat yang dapat mengurangkan risiko maklumat.

Jadual 6.2: "Lima Safes" adalah Prinsip untuk Merancang dan Melaksanakan Pelan Perlindungan Data (Desai, Ritchie, and Welpton 2016)
Selamat Tindakan
Projek selamat Hadkan projek dengan data kepada mereka yang beretika
Orang selamat Akses terhad kepada orang yang boleh dipercayai dengan data (misalnya, orang yang telah menjalani latihan etika)
Data selamat Data dikenalpasti dan diagregatkan setakat yang mungkin
Tetapan selamat Data disimpan dalam komputer dengan perlindungan fizikal yang sesuai (contohnya, bilik terkunci) dan perisian (misalnya, perlindungan kata laluan, disulitkan)
Output selamat Keluaran penyelidikan dikaji semula untuk mencegah pelanggaran privasi yang tidak sengaja

Sebagai tambahan untuk melindungi data anda semasa anda menggunakannya, satu langkah dalam proses penyelidikan di mana risiko maklumat sangat penting adalah perkongsian data dengan penyelidik lain. Perkongsian data di kalangan saintis adalah nilai teras usaha saintifik, dan ia sangat memudahkan perkembangan ilmu. Begini bagaimana Dewan Rumah UK menggambarkan pentingnya perkongsian data (Molloy 2011) :

"Akses kepada data adalah asas jika para penyelidik membiak, mengesahkan dan membina hasil yang dilaporkan dalam kesusasteraan. Anggapan tersebut mestilah, melainkan ada sebab yang kuat jika tidak, data harus didedahkan sepenuhnya dan tersedia secara terbuka. "

Namun, dengan berkongsi data anda dengan penyelidik yang lain, anda mungkin meningkatkan risiko maklumat kepada peserta anda. Oleh itu, ia mungkin kelihatan bahawa perkongsian data mewujudkan ketegangan asas antara kewajipan untuk berkongsi data dengan saintis lain dan kewajipan untuk meminimumkan risiko maklumat kepada peserta. Mujurlah, dilema ini tidak begitu teruk kerana ia muncul. Sebaliknya, adalah lebih baik untuk berfikir tentang perkongsian data seperti yang berlaku sepanjang kontinum, dengan setiap titik pada kontinum itu memberikan campuran manfaat yang berbeza kepada masyarakat dan risiko kepada peserta (angka 6.6).

Pada satu tahap yang melampau, anda boleh berkongsi data anda tanpa sesiapa, yang meminimumkan risiko kepada peserta tetapi juga meminimumkan keuntungan kepada masyarakat. Pada yang lain melampau, anda boleh melepaskan dan melupakan , di mana data "tanpa nama" dan dipos untuk semua orang. Selaras dengan tidak melepaskan data, melepaskan dan melupakan menawarkan kedua-dua faedah yang lebih tinggi kepada masyarakat dan risiko yang lebih tinggi kepada peserta. Di antara kedua-dua kes yang melampau ini adalah pelbagai kacukan, termasuk apa yang saya panggil pendekatan kebun berdinding . Di bawah pendekatan ini, data dikongsi dengan orang yang memenuhi kriteria tertentu dan yang bersetuju untuk terikat dengan peraturan tertentu (misalnya, pengawasan dari LHDN dan pelan perlindungan data). Pendekatan taman berdinding menyediakan banyak manfaat pelepasan dan lupa dengan risiko yang kurang. Sudah tentu, pendekatan sedemikian mewujudkan banyak soalan-siapa yang sepatutnya mempunyai akses, di bawah keadaan apa, dan berapa lama, siapa yang perlu membayar untuk menyelenggara dan polis kebun berdinding, dan sebagainya-tetapi ini tidak dapat diatasi. Sebenarnya, sudah ada kebun berdinding di tempat yang boleh digunakan penyelidik sekarang, seperti arkib data Konsortium Inter-universiti untuk Penyelidikan Politik dan Sosial di University of Michigan.

Rajah 6.6: Strategi pelepasan data boleh berlaku sepanjang kontinum. Di mana anda harus berada di kontinum ini bergantung kepada butir-butir khusus data anda, dan semakan pihak ketiga boleh membantu anda menentukan baki risiko dan faedah yang sesuai dalam kes anda. Bentuk tepat kurva ini bergantung pada spesifik data dan matlamat penyelidikan (Goroff 2015).

Rajah 6.6: Strategi pelepasan data boleh berlaku sepanjang kontinum. Di mana anda harus berada di kontinum ini bergantung kepada butir-butir khusus data anda, dan semakan pihak ketiga boleh membantu anda menentukan baki risiko dan faedah yang sesuai dalam kes anda. Bentuk tepat kurva ini bergantung pada spesifik data dan matlamat penyelidikan (Goroff 2015) .

Oleh itu, di manakah data dari kajian anda akan berterusan tanpa perkongsian, taman berdinding, dan melepaskan dan lupa? Ini bergantung kepada butiran data anda: penyelidik mesti mengimbangi Hormat untuk Orang, Kebaikan, Keadilan, dan Hormat terhadap Undang-undang dan Kepentingan Umum. Dilihat dari perspektif ini, perkongsian data bukanlah satu teka-teki etika yang tersendiri; ia adalah salah satu daripada banyak aspek penyelidikan di mana para penyelidik perlu mencari keseimbangan etika yang sesuai.

Sesetengah pengkritik umumnya menentang perkongsian data kerana, pada pendapat saya, mereka menumpukan pada risiko-yang tidak diragukan lagi nyata-dan mengabaikan manfaatnya. Oleh itu, untuk menggalakkan tumpuan terhadap kedua-dua risiko dan manfaat, saya ingin menawarkan analogi. Setiap tahun, kereta bertanggungjawab untuk beribu-ribu kematian, tetapi kami tidak cuba mengharamkan memandu. Malah, panggilan untuk mengharamkan memandu tidak masuk akal kerana memandu membolehkan banyak perkara yang menarik. Sebaliknya, masyarakat meletakkan sekatan ke atas siapa yang boleh memandu (misalnya, keperluan untuk menjadi umur tertentu dan telah lulus ujian tertentu) dan bagaimana mereka boleh memandu (contohnya, di bawah had laju). Masyarakat juga mempunyai orang yang ditugaskan untuk menguatkuasakan peraturan ini (misalnya, polis), dan kami menghukum orang yang ditangkap melanggarnya. Pemikiran seimbang yang sama yang berlaku oleh masyarakat untuk mengawal selia memandu juga boleh digunakan untuk perkongsian data. Ia bukannya membuat hujah-hujah absolutis untuk atau terhadap perkongsian data, saya fikir kita akan membuat kemajuan yang paling dengan menumpukan kepada bagaimana kita boleh mengurangkan risiko dan meningkatkan faedah daripada perkongsian data.

Untuk membuat kesimpulan, risiko maklumat meningkat secara dramatik, dan sangat sukar untuk diramal dan mengukur. Oleh itu, adalah yang terbaik untuk mengandaikan bahawa semua data berpotensi dikenalpasti dan berpotensi sensitif. Untuk mengurangkan risiko maklumat semasa membuat penyelidikan, penyelidik boleh membuat dan mengikuti pelan perlindungan data. Selanjutnya, risiko maklumat tidak menghalang penyelidik daripada berkongsi data dengan saintis lain.