6.6.2 Memahami dan mengurus risiko maklumat

Risiko maklumat risiko yang paling biasa dalam penyelidikan sosial; ia telah meningkat secara mendadak; dan ia adalah risiko yang paling sukar untuk difahami.

Cabaran etika kedua untuk umur sosial penyelidikan digital adalah risiko maklumat, potensi bahaya dari pendedahan maklumat (Council 2014) . kemudaratan maklumat dari pendedahan maklumat peribadi boleh menjadi ekonomi (contohnya, kehilangan kerja), sosial (contohnya, rasa malu), psikologi (contohnya, kemurungan), atau bahkan jenayah (contohnya, tangkap terhadap kelakuan yang haram). Malangnya, era digital meningkatkan risiko maklumat secara mendadak-terdapat hanya begitu banyak lebih banyak maklumat mengenai kelakuan kita. Dan, risiko maklumat telah terbukti sangat sukar untuk memahami dan menguruskan berbanding risiko yang kebimbangan dalam penyelidikan sosial umur analog, seperti risiko fizikal. Untuk melihat bagaimana era digital meningkatkan risiko maklumat, mempertimbangkan peralihan dari kertas untuk rekod perubatan elektronik. Kedua-dua jenis rekod mewujudkan risiko, tetapi rekod elektronik mewujudkan risiko lebih besar kerana pada skala besar-besaran mereka boleh dihantar kepada pihak yang tidak dibenarkan atau digabungkan dengan rekod lain. penyelidik sosial dalam era digital telah menghadapi masalah dengan risiko maklumat, sebahagiannya kerana mereka tidak memahami sepenuhnya bagaimana untuk mengukur dan menguruskannya. Jadi, saya akan menawarkan cara yang berguna untuk berfikir tentang risiko maklumat, dan kemudian saya akan memberikan anda beberapa nasihat untuk bagaimana untuk menguruskan risiko maklumat dalam penyelidikan anda dan dalam melepaskan data kepada penyelidik lain.

Salah satu cara yang penyelidik sosial mengurangkan risiko maklumat adalah "anonymization" data. "Anonymization" adalah proses mengeluarkan pengenalan peribadi yang jelas seperti nama, alamat, dan nombor telefon daripada data. Walau bagaimanapun, pendekatan ini adalah lebih kurang berkesan daripada ramai yang menyedari, dan ia adalah, sebenarnya, amat dan asasnya terhad. Atas sebab itu, setiap kali saya menerangkan "anonymization," Saya akan menggunakan tanda petikan untuk mengingatkan anda bahawa proses ini mewujudkan penampilan tidak mahu namanya disiarkan tetapi tidak mahu namanya disiarkan benar.

Satu contoh yang jelas kegagalan "anonymization" berasal dari akhir 1990-an di Massachusetts (Sweeney 2002) . Suruhanjaya Insurance Group (GIC) adalah sebuah agensi kerajaan yang bertanggungjawab untuk membeli insurans kesihatan untuk semua kakitangan kerajaan negeri. Melalui kajian ini, GIC dikumpul rekod kesihatan terperinci tentang beribu-ribu pekerja negeri. Dalam usaha untuk menggalakkan penyelidikan tentang cara-cara untuk meningkatkan kesihatan, GIC memutuskan untuk melepaskan rekod-rekod ini kepada penyelidik. Walau bagaimanapun, mereka tidak berkongsi semua data mereka; sebaliknya, mereka "tanpa nama" dengan membuang maklumat seperti nama dan alamat. Walau bagaimanapun, mereka meninggalkan maklumat lain yang mereka fikir boleh berguna untuk penyelidik seperti maklumat demografi (poskod, tarikh lahir, etnik, dan seks) dan maklumat perubatan (data lawatan, diagnosis, prosedur) (Rajah 6.4) (Ohm 2010) . Malangnya, ini "anonymization" tidak mencukupi untuk melindungi data.

Rajah 6.4: anonymization adalah proses mengeluarkan jelas mengenal pasti maklumat. Sebagai contoh, semasa mengumumkan rekod insurans perubatan pekerja kerajaan Suruhanjaya Insurance Group Massachusetts (GIC) dikeluarkan nama dan alamat dari fail. Saya menggunakan sebut harga sekitar anonymization perkataan kerana proses ini menyediakan akses kepada penampilan tidak mahu namanya disiarkan, tetapi tidak mahu namanya disiarkan yang sebenar.

Rajah 6.4: "anonymization" adalah proses mengeluarkan jelas mengenal pasti maklumat. Sebagai contoh, semasa mengumumkan rekod insurans perubatan pekerja kerajaan Suruhanjaya Insurance Group Massachusetts (GIC) dikeluarkan nama dan alamat dari fail. Saya menggunakan sebut harga sekitar perkataan "anonymization" kerana proses ini menyediakan akses kepada penampilan tidak mahu namanya disiarkan, tetapi tidak mahu namanya disiarkan yang sebenar.

Untuk menggambarkan kelemahan GIC "anonymization", Latanya Sweeney-kemudian seorang pelajar siswazah di MIT-bayar $ 20 hingga memperoleh rekod mengundi dari bandar Cambridge, kampung halaman Massachusetts Gabenor William Weld. Rekod-rekod ini mengundi termasuk maklumat seperti nama, alamat, poskod, tarikh lahir, dan jantina. Hakikat bahawa fail perubatan data dan fail pengundi dikongsi bidang-poskod, tarikh lahir, dan jantina bermakna Sweeney boleh menghubungkan mereka. Sweeney tahu bahawa hari jadi Weld adalah 31 Julai 1945, dan rekod mengundi dimasukkan hanya enam orang di Cambridge dengan hari jadi itu. Di samping itu, orang-orang enam orang, hanya tiga adalah lelaki. Dan, ketiga orang itu, hanya satu kongsi Weld poskod. Oleh itu, data pengundian menunjukkan bahawa sesiapa sahaja dalam data perubatan dengan kombinasi Weld tarikh lahir, jantina, dan kod zip adalah William Weld. Pada dasarnya, ketiga-tiga keping maklumat yang diberikan cap jari yang unik kepadanya dalam data. Menggunakan fakta ini, Sweeney dapat mengesan rekod perubatan Weld, dan untuk memberitahu dia feat, dia dihantar kepadanya satu salinan yang beliau (Ohm 2010) .

Rajah 6.5: Re-idenification data tanpa nama. Latanya Sweeney menggabungkan rekod kesihatan tanpa nama dengan rekod mengundi untuk mencari rekod perubatan Gabenor William Weld (Sweeney 2002).

Rajah 6.5: Re-idenification data "tanpa nama". Latanya Sweeney menggabungkan "tanpa nama" rekod kesihatan dengan rekod mengundi untuk mencari rekod perubatan Gabenor William Weld (Sweeney 2002) .

Kerja Sweeney ini menggambarkan struktur asas serangan de-anonymization -untuk menerima pakai istilah daripada masyarakat keselamatan komputer. Dalam serangan ini, dua set data, baik yang dengan sendirinya mendedahkan maklumat sensitif, berkait, dan melalui hubungan ini, maklumat sensitif terdedah. Dalam beberapa cara proses ini adalah sama dengan cara bahawa baking soda dan cuka, dua zat yang oleh diri mereka selamat, boleh digabungkan untuk menghasilkan hasil yang jahat.

Sebagai tindak balas kepada kerja Sweeney, dan kerja-kerja lain yang berkaitan, penyelidik kini secara amnya mengeluarkan banyak lagi maklumat-semua yang dikenali sebagai "maklumat peribadi" (PII) (Narayanan and Shmatikov 2010) -Semasa proses "anonymization." Di samping itu, ramai penyelidik sekarang sedar bahawa sesetengah data seperti rekod perubatan, rekod kewangan, jawapan untuk meninjau soalan mengenai menyalahi undang-undang tingkah laku mungkin terlalu sensitif untuk melepaskan walaupun selepas "anonymization." Bagaimanapun, lebih banyak contoh baru-baru ini bahawa saya akan dijelaskan di bawah menunjukkan bahawa penyelidik sosial perlu mengubah pemikiran mereka. Sebagai langkah pertama, ia adalah bijak untuk menganggap bahawa semua data adalah berpotensi dikenal pasti dan semua data berpotensi sensitif. Dengan kata lain, bukannya berfikir bahawa risiko maklumat untuk menampung satu subset kecil projek, kita harus menganggap bahawa ia terpakai ke tahap yang tertentu ke semua projek.

Kedua-dua aspek orientasi semula ini ialah ilustrasi bagi Hadiah Netflix. Seperti yang diterangkan dalam Bab 5, Netflix mengeluarkan 100 juta penilaian filem disediakan oleh hampir 500,000 ahli, dan mempunyai panggilan terbuka di mana orang dari seluruh dunia yang dikemukakan algoritma yang boleh meningkatkan keupayaan Netflix untuk mengesyorkan filem. Sebelum melepaskan data, Netflix mengalih keluar sebarang maklumat jelas secara peribadi-mengenal pasti, seperti nama. Netflix juga pergi langkah tambahan dan memperkenalkan pengusikan sedikit dalam beberapa rekod (contohnya, menukar beberapa penilaian dari 4 bintang untuk 3 bintang). Netflix akan menyedari, bagaimanapun, bahawa walaupun usaha mereka, data itu tidak bererti tanpa nama.

Hanya dua minggu selepas data telah dibebaskan Narayanan and Shmatikov (2008) menunjukkan bahawa ia adalah mungkin untuk belajar tentang pilihan filem-orang yang tertentu sahaja. Itu helah untuk menyerang semula pengenalan-mereka adalah sama dengan Sweeney kanak: bergabung bersama-sama dua sumber maklumat, satu dengan maklumat yang berpotensi sensitif dan tiada maklumat jelas mengenal pasti dan satu yang mengandungi identiti orang. Setiap satu daripada sumber-sumber data berkenaan secara berasingan selamat, tetapi apabila mereka digabungkan set data yang digabungkan itu boleh mewujudkan risiko maklumat. Dalam hal data Netflix, di sini adalah bagaimana ia boleh berlaku. Bayangkan bahawa saya memilih untuk berkongsi pandangan saya mengenai tindakan dan filem komedi dengan rakan sekerja saya, tetapi saya lebih suka untuk tidak berkongsi pendapat saya mengenai filem agama dan politik. Rakan sekerja saya boleh menggunakan maklumat yang saya telah berkongsi dengan mereka untuk mencari rekod saya dalam data Netflix; maklumat yang saya berkongsi boleh menjadi cap jari yang unik seperti tarikh William Weld itu lahir, poskod, dan seks. Kemudian, jika mereka mendapati cap jari yang unik saya dalam data, mereka boleh belajar penilaian saya tentang semua filem, termasuk filem di mana saya memilih untuk berkongsi. Selain jenis ini serangan disasarkan memberi tumpuan kepada diri yang satu, Narayanan and Shmatikov (2008) juga menunjukkan bahawa ia adalah mungkin untuk membuat -one serangan luas yang melibatkan ramai orang-dengan menggabungkan data Netflix dengan data Kedudukan peribadi dan filem bahawa beberapa orang telah memilih untuk pos di Pangkalan Data Filem Internet (IMDb). Apa-apa maklumat yang cap jari yang unik untuk tertentu orang-walaupun set filem penilaian-boleh digunakan untuk mengenal pasti mereka.

Walaupun data Netflix boleh semula dikenal pasti masuk sama ada serangan yang disasarkan atau luas, ia masih mungkin kelihatan berisiko rendah. Lagipun, penilaian filem seolah-olah tidak sangat sensitif. Walaupun yang mungkin benar secara umum, bagi sesetengah daripada 500,000 orang dalam set data, penilaian filem mungkin agak sensitif. Malah, sebagai tindak balas kepada de-anonymization yang wanita lesbian bicara menyertai saman-undang terhadap Netflix. Berikut adalah bagaimana masalah itu telah dinyatakan dalam tuntutan mereka (Singel 2009) :

"[M] ovie dan penilaian data mengandungi maklumat yang bersifat lebih sangat peribadi dan sensitif [sic]. data filem ahli mendedahkan faedah dan / atau perjuangan peribadi ahli Netflix dengan pelbagai isu-isu yang sangat peribadi, termasuk seksualiti, penyakit mental, pemulihan dari ketagihan arak, dan penganiayaan dari sumbang mahram, penderaan fizikal, keganasan rumah tangga, zina dan rogol. "

The de-anonymization data Netflix Hadiah menggambarkan kedua-dua bahawa semua data adalah berpotensi dikenal pasti dan bahawa semua data yang berpotensi sensitif. Pada ketika ini, anda mungkin berfikir bahawa ini hanya terpakai untuk data yang yang berupa sebagai mengenai orang. Yang menghairankan, yang tidak kes itu. Sebagai tindak balas kepada Kebebasan permintaan Maklumat Undang-undang, New York City Government dikeluarkan rekod tiap-tiap menaiki teksi di New York pada tahun 2013, termasuk pikap dan menurunkan kali, lokasi, dan jumlah tambang (ingat dari Bab 2 yang Farber (2015) menggunakan data ini untuk menguji teori-teori penting dalam bidang ekonomi buruh). Walaupun data ini tentang perjalanan teksi mungkin kelihatan tidak berbahaya kerana ia tidak seolah-olah menjadi maklumat mengenai orang, Anthony Tockar sedar bahawa ini dataset teksi sebenarnya mengandungi banyak maklumat yang berpotensi sensitif mengenai orang. Sebagai contoh, dia melihat semua perjalanan bermula di The Hustler Club-kelab jalur besar di New York-antara tengah malam dan 6 pagi dan kemudiannya mendapati lokasi drop-off mereka. Carian ini mendedahkan masuk intipati-senarai alamat sesetengah orang yang sering The Hustler Club (Tockar 2014) . Adalah sukar untuk membayangkan bahawa kerajaan bandar mempunyai ini dalam fikiran apabila ia mengeluarkan data. Malah, teknik yang sama ini boleh digunakan untuk mencari alamat rumah orang yang melawat mana-mana tempat di bandar-klinik perubatan, sebuah bangunan kerajaan, atau institusi agama.

Kedua-dua kes-Hadiah Netflix dan New York City teksi data menunjukkan bahawa orang yang agak mahir gagal betul menganggarkan risiko maklumat dalam data yang mereka dibebaskan, dan kes-kes ini tidak bererti unik (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Selanjutnya, dalam banyak kes-kes ini, data yang bermasalah masih boleh diperolehi secara dalam talian, yang menunjukkan kesukaran pernah membuat asal keluaran data. Secara kolektif ini contoh-serta penyelidikan dalam bidang sains komputer mengenai privasi-membawa kepada kesimpulan yang penting. Penyelidik harus menganggap bahawa semua data adalah berpotensi dikenal pasti dan semua data berpotensi sensitif.

Malangnya, tidak ada penyelesaian yang mudah kepada fakta bahawa semua data adalah berpotensi dikenal pasti dan semua data berpotensi sensitif. Walau bagaimanapun, salah satu cara untuk mengurangkan risiko maklumat semasa anda bekerja dengan data adalah untuk mewujudkan dan mengikuti pelan perlindungan data. Pelan ini akan berkurangan peluang bahawa data anda akan bocor dan akan mengurangkan bahaya jika kebocoran entah bagaimana berlaku. Khusus pelan perlindungan data, seperti yang bentuk penyulitan yang hendak digunakan, akan berubah dari masa ke masa, tetapi Services Data UK Sangat berminat menganjurkan unsur-unsur pelan perlindungan data ke dalam 5 kategori yang mereka panggil 5 peti besi: projek selamat, rakyat selamat , tetapan selamat, data selamat, dan output selamat (Jadual 6.2) (Desai, Ritchie, and Welpton 2016) . Tiada seorang pun daripada lima peti besi secara individu menyediakan perlindungan yang sempurna. Tetapi, bersama-sama mereka membentuk satu set yang kuat faktor yang boleh mengurangkan risiko maklumat.

Jadual 6.2: The 5 peti besi adalah prinsip-prinsip untuk mereka bentuk dan melaksanakan pelan perlindungan data (Desai, Ritchie, and Welpton 2016) .
selamat Tindakan
projek selamat menghadkan projek dengan data kepada mereka yang beretika
rakyat selamat akses adalah terhad kepada orang-orang yang boleh dipercayai dengan data (latihan etika contohnya, orang telah menjalani)
data selamat data akan dirahsiakan dan dijumlahkan setakat mana yang boleh
tetapan selamat data yang disimpan di dalam komputer dengan sesuai fizikal (contohnya, bilik dikunci) dan perisian (contohnya, perlindungan kata laluan, disulitkan) perlindungan
output selamat hasil penyelidikan dikaji semula untuk mengelakkan sengaja pelanggaran privasi

Selain melindungi data anda semasa anda menggunakannya, satu langkah dalam proses penyelidikan di mana risiko maklumat amat penting adalah perkongsian data dengan penyelidik lain. perkongsian data di kalangan saintis adalah nilai teras usaha saintifik, dan ia banyak kemudahan kemajuan ilmu. Berikut adalah cara UK House of Commons menyifatkan kepentingan perkongsian data:

"Akses kepada data adalah asas jika penyelidik untuk menghasilkan semula, mengesahkan dan membina kepada keputusan yang dilaporkan dalam kesusasteraan. anggapan mestilah bahawa, melainkan jika ada sebab yang kuat sebaliknya, data boleh didedahkan sepenuhnya dan diketahui umum. Selaras dengan prinsip ini, di mana mungkin, data yang berkaitan dengan penyelidikan yang dibiayai awam perlu dibuat secara meluas dan boleh didapati secara percuma. " (Molloy 2011)

Namun, dengan berkongsi data anda dengan penyelidik lain, anda boleh meningkatkan risiko maklumat kepada peserta anda. Oleh itu, ia mungkin kelihatan bahawa penyelidik yang ingin berkongsi mereka data atau diperlukan untuk berkongsi mereka data-menghadapi ketegangan asas. Dalam satu tangan mereka mempunyai kewajipan etika untuk berkongsi data mereka dengan ahli-ahli sains yang lain, terutamanya jika penyelidikan asal yang dibiayai awam. Namun, pada masa yang sama, penyelidik mempunyai kewajipan etika untuk mengurangkan, sebanyak mungkin, risiko maklumat tersebut kepada peserta mereka.

Mujurlah, dilema ini tidak begitu teruk kerana ia muncul. Adalah penting untuk memikirkan perkongsian data di sepanjang kontinum daripada ada perkongsian data untuk melepaskan dan lupa, di mana data adalah "tanpa nama" dan disiarkan untuk sesiapa sahaja untuk mengakses (Rajah 6.6). Kedua-dua jawatan yang melampau mempunyai risiko dan manfaat. Iaitu, ia tidak secara automatik perkara yang paling beretika untuk tidak berkongsi data anda; pendekatan seperti itu menghapuskan banyak potensi manfaat kepada masyarakat. Kembali ke Rasa, ikatan, dan Masa, satu contoh yang dibincangkan sebelum ini dalam bab, hujah terhadap pembebasan data yang memberi tumpuan hanya pada kemudaratan yang mungkin dan yang mengabaikan faedah mungkin terlalu berat sebelah; Saya akan menerangkan masalah dengan pendekatan ini berat sebelah, terlalu melindungi dengan lebih terperinci dalam di bawah apabila saya menawarkan nasihat tentang membuat keputusan dalam menghadapi ketidakpastian (Seksyen 6.6.4).

Rajah 6.6: Strategi pembebasan Data boleh jatuh di sepanjang kontinum. Anda harus di sepanjang kontinum ini bergantung kepada butiran khusus data anda. Dalam kes ini, kajian pihak ketiga boleh membantu anda membuat keputusan keseimbangan risiko dan manfaat dalam kes anda.

Rajah 6.6: Strategi pembebasan Data boleh jatuh di sepanjang kontinum. Anda harus di sepanjang kontinum ini bergantung kepada butiran khusus data anda. Dalam kes ini, kajian pihak ketiga boleh membantu anda membuat keputusan keseimbangan risiko dan manfaat dalam kes anda.

Di samping itu, di antara kedua-dua kes yang teruk adalah apa yang saya akan dipanggil pendekatan taman berdinding di mana data yang dikongsi dengan orang-orang yang memenuhi kriteria tertentu dan yang bersetuju untuk terikat dengan kaedah-kaedah tertentu (contohnya, pengawasan oleh LHDN dan satu pelan perlindungan data) . Pendekatan taman berdinding menyediakan banyak manfaat pelepasan dan lupa dengan risiko yang berkurangan. Sudah tentu, pendekatan taman berdinding mewujudkan banyak soalan-yang sepatutnya mempunyai akses, dalam keadaan apa, untuk berapa lama, siapa yang perlu membayar untuk mengekalkan dan mengawal taman berdinding dan lain-lain tetapi ini tidak dapat diatasi. Malah, ada yang sudah bekerja taman-taman berdinding di tempat itu penyelidik boleh gunakan sekarang, seperti arkib data daripada Inter-universiti Konsortium Penyelidikan Politik dan Sosial di Universiti Michigan.

Jadi, di mana data dari kajian anda hendaklah di atas kontinum ada perkongsian, taman berdinding, dan melepaskan dan melupakan? Ia bergantung kepada butiran data anda; penyelidik perlu mengimbangi Menghormati Orang, kemurahan, Keadilan, dan Menghormati Undang-undang dan kepentingan awam. Apabila menilai keseimbangan sesuai untuk keputusan lain penyelidik mendapatkan nasihat dan kelulusan IRBs, dan pelepasan data boleh menjadi hanya satu lagi sebahagian daripada proses itu. Dalam erti kata lain, walaupun sesetengah orang berfikir pelepasan data sebagai paya etika harapan, kita sudah mempunyai sistem di tempat untuk membantu penyelidik mengimbangi ini jenis dilema etika.

Satu cara terakhir untuk berfikir tentang perkongsian data adalah dengan analogi. Setiap tahun kereta adalah bertanggungjawab untuk beribu-ribu kematian, tetapi kita tidak cuba untuk mengharamkan memandu. Malah, seperti panggilan untuk mengharamkan memandu akan menjadi tidak masuk akal kerana memandu membolehkan banyak perkara yang indah. Sebaliknya, masyarakat meletakkan sekatan ke atas yang boleh memandu (contohnya, perlu umur tertentu, perlu lulus ujian tertentu) dan bagaimana mereka boleh memandu (contohnya, di bawah had laju). Masyarakat juga mempunyai orang-orang yang ditugaskan untuk menguatkuasakan peraturan-peraturan ini (misalnya, polis), dan kami menghukum orang-orang yang ditangkap melanggar mereka. Ini jenis sama pemikiran yang seimbang yang masyarakat boleh digunakan untuk mengawal selia memandu juga boleh digunakan untuk perkongsian data. Iaitu, bukannya membuat hujah mutlak untuk atau terhadap perkongsian data, saya rasa faedah terbesar adalah melalui jalan bagaimana kita boleh berkongsi lebih data yang lebih selamat.

Untuk menyimpulkan, risiko maklumat telah meningkat secara mendadak, dan ia adalah sangat sukar untuk meramalkan dan kuantiti. Oleh itu, adalah lebih baik untuk menganggap bahawa semua data adalah berpotensi dikenal pasti dan berpotensi sensitif. Untuk mengurangkan risiko maklumat ketika melakukan penyelidikan, penyelidik boleh membuat dan mengikuti pelan perlindungan data. Di samping itu, risiko maklumat tidak menghalang penyelidik daripada berkongsi data dengan saintis lain.