6.6.2 anlama ve yönetme bilgilendirme riski

Bilgi riski sosyal araştırmalarda en yaygın risktir; dramatik biçimde arttı; ve anlamak en zor risk.

Dijital çağ araştırmaları için ikinci etik zorluk bilgi riskidir , bilginin açığa çıkmasından kaynaklanan zarar potansiyeli (National Research Council 2014) . Kişisel bilgilerin ifşasından kaynaklanan bilgi zararları ekonomik olabilir (örneğin bir işi kaybetme), sosyal (örneğin utanç verici), psikolojik (örneğin, depresyon), hatta suçlu (ör. Yasadışı davranışlar için tutuklama) olabilir. Ne yazık ki, dijital çağ bilgi riskini önemli ölçüde artırıyor - davranışlarımız hakkında çok daha fazla bilgi var. Bilgi çağının riskinin, anal-yaş sosyal araştırmasında, örneğin fiziksel risk gibi endişeleri olan risklerle karşılaştırıldığında, anlaşılması ve yönetilmesi zor olduğu kanıtlanmıştır.

Sosyal araştırmacılar bilgilendirme riskini azaltmak tek yönlü veri "anonimleştirme" dir. "Anonimleştirme" isim, adres, ve verilerden telefon numarası gibi bariz kişisel tanımlayıcı kaldırma işlemidir. Ancak derin ve temelden sınırlı, bu yaklaşım birçok kişi farkında çok daha az etkili olduğunu ve aslında olduğunu. Ben tarif zaman bu süreç gizli görünümünü değil, gerçek anonimlik oluşturur bu nedenle, "anonimleştirmesi," Ben size hatırlatmak için tırnak işareti kullanmanız gerekir.

“Anonimleştirmenin başarısızlığı” nın canlı bir örneği, Massachusetts'teki 1990'ların sonlarından (Sweeney 2002) . Grup Sigorta Komisyonu (GIC), tüm devlet çalışanları için sağlık sigortası yaptırmakla sorumlu bir devlet kurumu idi. Bu çalışma sayesinde GIC binlerce devlet çalışanı hakkında ayrıntılı sağlık kayıtları topladı. Araştırmaları teşvik etmek için GIC, bu kayıtları araştırmacılara bırakmaya karar verdi. Ancak, tüm verilerini paylaşmadılar; daha doğrusu, isimleri ve adresleri gibi bilgileri çıkararak bu verileri “anonim hale getirirler”. Ancak, demografik bilgiler (posta kodu, doğum tarihi, etnik köken ve cinsiyet) ve tıbbi bilgiler (ziyaret verileri, tanı, prosedür) gibi araştırmacılar için yararlı olabileceğini düşündükleri diğer bilgileri bıraktılar (şekil 6.4) (Ohm 2010) . Maalesef bu “anonimleştirme” verileri korumak için yeterli değildi.

Şekil 6.4: Anonimleştirme, açık bir şekilde tanımlayıcı bilgilerin kaldırılması işlemidir. Örneğin, devlet çalışanlarının sağlık sigortası kayıtlarını yayınlarken, Massachusetts Grubu Sigorta Komisyonu (GIC) dosyalardan isim ve adresleri çıkardı. Sözcük anonimleştirmesi etrafındaki tırnak işaretlerini kullanırım, çünkü süreç anonimliğin görünmesini sağlar, ancak gerçek anonimlik değildir.

Şekil 6.4: “Anonimleştirme” açıkça tanımlayıcı bilgilerin kaldırılması sürecidir. Örneğin, devlet çalışanlarının sağlık sigortası kayıtlarını yayınlarken, Massachusetts Grubu Sigorta Komisyonu (GIC) dosyalardan isim ve adresleri çıkardı. “Anonimleştirme” kelimesinin etrafındaki tırnak işaretlerini kullanıyorum çünkü süreç anonimliğin ortaya çıkmasını sağlıyor ancak gerçek anonimlik değil.

GIC “anonimleştirme” nin eksikliklerini göstermek için, MIT'deki bir yüksek lisans öğrencisi olan Latanya Sweeney, Massachusetts valisi William Weld'in memleketi olan Cambridge şehrinin oylama kayıtlarını almak için 20 dolar ödedi. Bu oy kayıtlarında isim, adres, posta kodu, doğum tarihi ve cinsiyet gibi bilgiler yer almıştır. Tıbbi veri dosyasının ve seçmen dosyasının paylaştığı alanların (posta kodu, doğum tarihi ve cinsiyet) paylaşılması, Sweeney'in onları birbirine bağlayabileceği anlamına geliyordu. Sweeney, Weld'in doğumgününün 31 Temmuz 1945 olduğunu biliyordu ve oylama kayıtları, o doğumgünü ile Cambridge'de sadece altı kişiyi içeriyordu. Dahası, bu altı kişiden sadece üçü erkekti. Ve bu üç adamdan sadece bir tane Weld'in posta kodunu paylaştı. Böylece, oylama verileri Weld'in doğum tarihi, cinsiyeti ve posta kodu kombinasyonu ile tıbbi verilerinde herhangi birinin William Weld olduğunu gösterdi. Özünde, bu üç bilgi, verilerde kendisine benzersiz bir parmak izi sağlamıştır. Bu gerçeği kullanarak, Sweeney Weld'in tıbbi kayıtlarını tespit edebildi ve onu kendisine bildirmek için kayıtlarını kopyalıyordu (Ohm 2010) .

Şekil 6.5: Anonim verilerin yeniden gönderilmesi. Latanya Sweeney, anonimleştirilmiş sağlık kayıtlarını, Sweeney'den (2002) Vali William Weld Uyarlanmış tıbbi kayıtlarını bulmak için oy kayıtları ile birleştirdi, şekil 1.

Şekil 6.5: “anonim” verilerin yeniden gönderilmesi. Latanya Sweeney, “anonimleştirilmiş” sağlık kayıtlarını, Sweeney (2002) uyarlanan Vali William Weld'in tıbbi kayıtlarını bulmak için oy kayıtları ile birleştirdi, şekil 1.

Sweeney'nin çalışması, bilgisayar güvenliği topluluğundan bir terim kabul etmek için yeniden tanımlama saldırılarının temel yapısını gösteriyor. Bu saldırılarda, her ikisinin de hassas bilgileri ortaya koymadığı iki veri seti birbiriyle bağlantılıdır ve bu bağlantı yoluyla hassas bilgiler açığa çıkar.

Sweeney'nin çalışmalarına ve diğer ilgili çalışmalara yanıt olarak, araştırmacılar genellikle “anonimleştirme” sürecini gerçekleştiren “kişisel olarak tanımlayıcı bilgi” (PII) (Narayanan and Shmatikov 2010) adlandırılan çok daha fazla bilgiyi (Narayanan and Shmatikov 2010) . Ayrıca, birçok araştırmacı Artık tıbbi kayıtlar, mali kayıtlar, yasadışı davranışla ilgili anket sorularına verilen cevaplar gibi bazı verilerin, “anonimleştirme” den sonra bile yayınlamaya muhtemelen çok duyarlı olduğunu fark etmekteyim. Ancak, vereceğim örnekler sosyal araştırmacıların ihtiyaç duyduğunu göstermektedir. Düşüncelerini değiştirmek için. İlk adım olarak, tüm verilerin potansiyel olarak tanımlanabilir olduğunu ve tüm verilerin potansiyel olarak hassas olduğunu varsaymak akıllıca olacaktır. Başka bir deyişle, bilgi riskinin küçük bir proje alt kümesi için geçerli olduğunu düşünmek yerine, tüm projeler için bir dereceye kadar uygulandığını varsaymalıyız.

Bu yeniden oryantasyonun her iki yönü Netflix Ödülü tarafından gösterilmiştir. Beşinci bölümde açıklandığı gibi, Netflix neredeyse 500.000 üye tarafından sağlanan 100 milyon film derecelendirmesini yayınladı ve Netflix'in film önerme yeteneğini artırabilecek tüm dünyadaki kullanıcıların algoritmaları gönderdiği bir açık çağrı yaptı. Verileri yayınlamadan önce, Netflix, adlar gibi açık herhangi bir kişisel tanımlama bilgisini kaldırdı. Ayrıca, ekstra bir adım attılar ve bazı kayıtlarda (örneğin, 4 yıldızdan 3 yıldıza kadar bazı dereceleri değiştirerek) küçük sarsıntılar ortaya çıkardılar. Ancak, kısa bir süre sonra, çabalarına rağmen, verilerin hala anonim olmadıklarını keşfettiler.

Veriler serbest bırakıldıktan sadece iki hafta sonra, Arvind Narayanan ve Vitaly Shmatikov (2008) , belirli insanların film tercihlerini öğrenmenin mümkün olduğunu gösterdi. Yeniden tanımlama saldırılarının hilesi, Sweeney'inkine benzer: potansiyel olarak hassas bilgiye sahip olan ve açık bir şekilde tanımlayıcı bilgi ve insanların kimliklerini barındıran iki bilgi kaynağını bir araya getirin. Bu veri kaynaklarının her biri tek tek güvenli olabilir, ancak birleştirildiğinde, birleştirilmiş veri kümesi bilgi riski oluşturabilir. Netflix verisi durumunda, nasıl olabileceğini burada görebilirsiniz. Eylem ve komedi filmleriyle ilgili düşüncelerimi iş arkadaşlarımla paylaşmayı tercih ettiğimi, ancak dini ve siyasi filmler hakkındaki düşüncelerimi paylaşmamayı tercih ettiğimi düşünün. İş arkadaşlarım, Netflix verilerinde kayıtlarımı bulmak için onlarla paylaştığım bilgileri kullanabilirdi; paylaştığım bilgiler, William Weld'in doğum tarihi, posta kodu ve cinsiyeti gibi benzersiz bir parmak izi olabilir. Daha sonra, verilerde benzersiz parmakizi buldularsa, paylaşmamayı seçtiğim filmler de dahil olmak üzere tüm filmlerle ilgili derecelendirmeleri öğrenebilirler. Tek bir kişiye odaklanan bu tür hedefli saldırılara ek olarak, Narayanan ve Shmatikov, bazı kişilerin seçtiği kişisel ve film derecelendirme verileriyle Netflix verilerini birleştirerek çok sayıda kişinin dahil olduğu geniş bir saldırı gerçekleştirmenin mümkün olduğunu gösterdi. İnternet Film Veritabanında (IMDb) yayınlamak. Oldukça basit bir şekilde, belirli bir kişiye özgü bir parmak izi olan herhangi bir bilgi (film derecelendirme setleri bile) bunları tanımlamak için kullanılabilir.

Netflix verileri, hedeflenen veya geniş bir saldırıda yeniden tanımlanabilse de, yine de düşük riskli görünebilir. Sonuçta, film derecelendirmeleri çok hassas görünmüyor. Bu genel olarak doğru olsa da, veri kümesindeki 500.000 kişinin bir kısmı için, film derecelendirmeleri oldukça hassas olabilir. Aslında, yeniden tanımlanmaya karşılık, gizli bir lezbiyen kadın Netflix'e karşı bir sınıf aksiyon takımına katıldı. Sorunun kendi davalarında nasıl ifade edildiği (Singel 2009) :

“[M] ovie ve derecelendirme verileri… son derece kişisel ve hassas nitelikteki bilgileri içerir. Üyenin film verileri bir Netflix üyesinin kişisel ilgisini ve / veya cinsellik, akıl hastalığı, alkolizmden kurtulma ve ensest, fiziksel taciz, aile içi şiddet, zina ve tecavüzden mağduriyet dahil olmak üzere çeşitli kişisel konularla mücadele eder. ”

Netflix Ödülü verilerinin yeniden tanımlanması, tüm verilerin potansiyel olarak tanımlanabileceğini ve tüm verilerin potansiyel olarak hassas olduğunu gösterir. Bu noktada, bunun sadece insanlar hakkında olduğunu iddia eden veriler için geçerli olduğunu düşünebilirsiniz. Şaşırtıcı bir şekilde, durum böyle değil. Bilgi Edinme Özgürlüğü Yasası'nın talebi üzerine, New York Şehri Hükümeti, 2013 yılında New York'taki her taksi yolculuğunun rekorunu açıkladı, bunlar da teslim alma ve indirme süreleri, yerler ve ücret miktarları dahil olmak üzere (2. bölümden hatırlatma Farber (2015) Çalışma ekonomisinde önemli kuramları test etmek için benzer verileri kullandı). Taksi gezileriyle ilgili bu veriler, insanlarla ilgili bilgi vermedikleri için iyi huylu görünebilir, ancak Anthony Tockar bu taksi veri kümesinin aslında insanlar hakkında çok fazla hassas bilgiye sahip olduğunu fark etti. Göstermek gerekirse, New York'taki büyük bir striptiz kulübü olan Hustler Club'dan başlayarak gece yarısı ile 6:00 saatleri arasında başlayan tüm gezilere baktı ve daha sonra açılan yerlerini buldu. Bu arama, aslında - Hustler Club'a (Tockar 2014) katılan bazı kişilerin adreslerinin bir listesini ortaya çıkardı. Verileri serbest bıraktığında şehir hükümetinin bunu aklına getirdiğini düşünmek zor. Aslında, aynı teknik, şehirde herhangi bir yeri ziyaret eden kişilerin ev adreslerini bulmak için kullanılabilir - bir sağlık kliniği, hükümet binası veya dini bir kurum.

Netflix Ödülü ve New York City taksi verileriyle ilgili bu iki vaka, görece yetenekli kişilerin serbest bıraktıkları verilerdeki bilgi riskini doğru bir şekilde tahmin edemediklerini göstermektedir ve bu durumlar hiçbir şekilde benzersiz değildir (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Dahası, bu gibi birçok durumda, problemli veriler hâlâ çevrimiçi bir şekilde serbestçe temin edilebilmekte olup, bu da hiç bir zaman bir veri yayımını geri alma zorluğuna işaret etmektedir. Toplu olarak, bu örnekler - bilgisayar bilimi konusunda gizlilikle ilgili araştırmaların yanı sıra - önemli bir sonuca yol açmaktadır. Araştırmacılar, tüm verilerin potansiyel olarak tanımlanabilir olduğunu ve tüm verilerin potansiyel olarak hassas olduğunu varsaymalıdır.

Ne yazık ki, tüm verilerin potansiyel olarak tanımlanabildiği ve tüm verilerin potansiyel olarak hassas olduğu gerçeğine basit bir çözüm yoktur. Bununla birlikte, veri ile çalışırken bilgi riskini azaltmanın bir yolu da bir veri koruma planı oluşturmak ve uygulamaktır. Bu plan, verilerinizin sızması olasılığını azaltacak ve bir sızıntı meydana geldiğinde zararı azaltacaktır. Kullanılacak şifreleme şekli gibi veri koruma planlarının özellikleri zamanla değişecektir, ancak Birleşik Krallık Veri Servisleri, bir veri koruma planının unsurlarını beş kasa olarak adlandırdıkları beş kategoriye ayırır: güvenli projeler, güvenli insanlar Güvenli ayarlar, güvenli veri ve güvenli çıkışlar (tablo 6.2) (Desai, Ritchie, and Welpton 2016) . Beş kasadan hiçbiri tek başına mükemmel koruma sağlamaz. Ancak birlikte bilgi riskini azaltabilecek güçlü bir dizi faktör oluştururlar.

Tablo 6.2: “Beş Kasa”, Veri Koruma Planı Tasarlama ve Yürütme İlkeleridir (Desai, Ritchie, and Welpton 2016)
Kasa Aksiyon
Güvenli projeler Projeleri etik olanlara sınırlar.
Güvenli insanlar Erişim, verilerle güvenilen kişilerle sınırlıdır (örneğin, etik eğitim almış kişiler)
Güvenli veri Veriler mümkün olduğu ölçüde tanımlanmamış ve toplanmıştır
Güvenli ayarlar Veriler uygun fiziksel (örneğin kilitli oda) ve yazılım (örn. Şifre koruması, şifrelenmiş) koruması olan bilgisayarlarda saklanır.
Güvenli çıkış Kazayla gizlilik ihlallerini önlemek için araştırma çıktısı gözden geçirilir.

Verilerinizi kullanırken onları korumanın yanı sıra, bilgi işlem riskinin özellikle göze çarpan olduğu araştırma sürecinde bir adım diğer araştırmacılarla veri paylaşımıdır. Bilim insanları arasında veri paylaşımı, bilimsel çabaların temel bir değeridir ve bilginin ilerlemesini büyük ölçüde kolaylaştırır. İngiltere Avam Kamarası veri paylaşımının önemini şöyle açıkladı (Molloy 2011) :

“Araştırmacılar, literatürde bildirilen sonuçları yeniden üretecek, doğrulayacak ve inşa edeceklerse, verilere erişim temeldir. Varsayım, aksi halde güçlü bir neden olmadığı sürece, verilerin tam olarak açıklanması ve kamuya açık hale getirilmesi gerektiğidir. ”

Yine de, verilerinizi başka bir araştırmacıyla paylaşarak, katılımcılarınız için bilgi riskini artırıyor olabilirsiniz. Dolayısıyla, veri paylaşımının diğer bilim insanları ile veri paylaşma yükümlülüğü ile bilgi riskini katılımcılara karşı en aza indirme yükümlülüğü arasında temel bir gerilim yarattığı görülmektedir. Neyse ki, bu ikilem göründüğü kadar şiddetli değildir. Daha ziyade, veri paylaşımını bir süreklilik boyunca düşme olarak düşünmek daha iyidir; her bir nokta, topluma faydaların farklı bir karışımını ve katılımcılar için risk oluşturmasını sağlar (Şekil 6.6).

Bir uçta, verilerinizi hiç kimseyle paylaşamazsınız, bu da katılımcıların riskini en aza indirir, aynı zamanda topluma kazanımları en aza indirir. Diğer uçta, verilerin “anonimleştirildiği” ve herkes için gönderildiği yerlerde serbest bırakıp unutabilirsiniz . Verileri serbest bırakmamak, serbest bırakmak ve unutmak, topluma hem daha yüksek faydalar hem de katılımcılar için daha yüksek risk sunmaktadır. Bu iki aşırı durum arasında, duvarlı bir bahçe yaklaşımı olarak adlandırdığım şeyler de dahil olmak üzere bir dizi melez vardır. Bu yaklaşım altında, veriler belirli kriterleri karşılayan ve belirli kurallara bağlı olmayı kabul eden kişilerle paylaşılmaktadır (örneğin, IRB'den bir gözetim ve bir veri koruma planı). Duvarlı bahçe yaklaşımı, daha az riskle serbest bırakma ve unutmanın birçok yararını sağlar. Kuşkusuz böyle bir yaklaşım, kimin, hangi şartlar altında ve kimin ne kadar süreyle, duvarlı bahçeyi korumak için ne kadar ödeme yapması gerektiğini bilmesi gereken - çok fazla soru sormaktadır - ama bunlar aşılmaz değildir. Aslında, şimdilerde araştırmacıların halihazırda kullanabileceği duvarlı bahçeler var, örneğin Michigan Üniversitesinde Siyasi ve Sosyal Araştırmalar için Üniversitelerarası Konsorsiyum'un veri arşivi.

Şekil 6.6: Veri bırakma stratejileri bir süreklilik boyunca düşebilir. Bu süreklilikte nerede olmanız gerektiği, verilerinizin belirli ayrıntılarına bağlıdır ve üçüncü taraf incelemesi, uygun risk dengesine karar vermenize ve davanıza fayda sağlamanıza yardımcı olabilir. Bu eğrinin kesin şekli, verilerin ve araştırma hedeflerinin özelliklerine bağlıdır (Goroff 2015).

Şekil 6.6: Veri bırakma stratejileri bir süreklilik boyunca düşebilir. Bu süreklilikte nerede olmanız gerektiği, verilerinizin belirli ayrıntılarına bağlıdır ve üçüncü taraf incelemesi, uygun risk dengesine karar vermenize ve sizin durumunuza fayda sağlamanıza yardımcı olabilir. Bu eğrinin kesin şekli, verilerin ve araştırma hedeflerinin özelliklerine bağlıdır (Goroff 2015) .

Peki, çalışmalarınızdaki veriler paylaşım, duvarlı bahçe, serbest bırakma ve unutmanın devamlılığı konusunda nerede olmalı? Bu, verilerinizin ayrıntılarına bağlıdır: araştırmacılar, Kişilere Saygı, Yararlanma, Adalet ve Yasa ve Kamu Çıkarına Saygıyı dengelemelidir. Bu perspektiften bakıldığında, veri paylaşımı ayırt edici bir ahlaki değildir; Araştırmacıların uygun bir etik dengeyi bulması gereken birçok araştırmanın sadece bir tanesidir.

Bazı eleştirmenler genellikle veri paylaşımına karşı çıkıyorlar, çünkü bence, şüphesiz gerçek olan risklerine odaklanıyorlar ve faydalarını görmezden geliyorlar. Dolayısıyla, hem risklere hem de faydalara odaklanmayı teşvik etmek için, bir benzinlik sunmak istiyorum. Her yıl, binlerce ölümden araba sorumludur, ancak sürüşü yasaklamayı denemiyoruz. Aslında, sürmeyi yasaklama çağrısı saçmadır çünkü araba sürmek pek çok güzel şeyi mümkün kılar. Daha ziyade, toplum, kimin kullanabileceği (örneğin belirli bir yaş ve belirli testleri geçme ihtiyacı) ve nasıl kullanabilecekleri (örneğin hız limiti altında) konusunda kısıtlamalar getirmektedir. Toplumun ayrıca bu kuralları (örneğin polis) zorlamakla görevli olan insanlar vardır ve bunları ihlal eden kişileri cezalandırırız. Toplumun sürüşü düzenlemek için uyguladığı aynı tür dengeli düşünce, veri paylaşımına da uygulanabilir. Yani, veri paylaşımı için ya da bunlara karşı mutlak yanlı argümanlar yapmak yerine, riskleri nasıl azaltabileceğimize ve veri paylaşımının faydalarını nasıl artırabileceğimize odaklanarak en fazla ilerlemeyi yapacağız.

Sonuç olarak, bilgi riski önemli ölçüde artmıştır ve tahmin etmek ve ölçmek çok zordur. Bu nedenle, tüm verilerin potansiyel olarak tanımlanabilir ve potansiyel olarak hassas olduğunu varsaymak en iyisidir. Araştırma yaparken bilgi riskini azaltmak için, araştırmacılar bir veri koruma planı oluşturabilir ve takip edebilir. Ayrıca, bilgi riski araştırmacıların diğer bilim insanlarıyla veri paylaşmalarını engellemez.