6.6.2 anlama ve yönetme bilgilendirme riski

Bu çeviri bir bilgisayar tarafından oluşturuldu. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

6.6.2 anlama ve yönetme bilgilendirme riski

Bilgi riski sosyal araştırmalarda en sık görülen risk; önemli ölçüde arttı; ve bunu anlamak zor risktir.

Sosyal yaş dijital araştırmalar için ikinci etik zorluk bilgilendirme riski, bilgilerin açığa çıkma zarar potansiyeli olan (Council 2014) . kişisel bilgilerin ifşa bilgilendirme zararları ekonomik olabilir (örneğin, işini kaybetme), sosyal (örneğin, utanç), psikolojik (örneğin, depresyon), hatta suç (örneğin, yasadışı davranış için tutuklama). Ne yazık ki, dijital çağ bilgi riski önemli ölçüde-orada bizim davranış hakkında sadece çok fazla bilgi olduğunu artar. Ve, bilgilendirme riski gibi fiziksel risk olarak analog yaş, sosyal araştırmalarda endişeleri vardı risklere kıyasla anlamak ve yönetmek çok zor olduğu kanıtlanmıştır. Dijital çağ bilgilendirme riskini artırır nasıl görmek için elektronik sağlık kayıtları kağıt geçişi göz önünde bulundurun. kayıtların her iki tip risk oluşturacak, ama büyük bir ölçekte onlar yetkisiz bir tarafa iletilebilir veya diğer kayıtları ile birleşti çünkü elektronik kayıtları çok daha fazla risk oluşturmaktadır. tam ölçmek ve yönetmek için nasıl anlamadı, çünkü dijital çağda sosyal araştırmacılar zaten kısmen bilgilendirme riski ile sorun haline çalıştırmak. Yani, bilgilendirme riski düşünmek yararlı bir şekilde sunmak için gidiyorum, sonra ben size araştırma bilgilendirme riskini yönetmek için nasıl ve diğer araştırmacılara veri bırakmadan bazı tavsiyeler vermek için gidiyorum.

Sosyal araştırmacılar bilgilendirme riskini azaltmak tek yönlü veri "anonimleştirme" dir. "Anonimleştirme" isim, adres, ve verilerden telefon numarası gibi bariz kişisel tanımlayıcı kaldırma işlemidir. Ancak derin ve temelden sınırlı, bu yaklaşım birçok kişi farkında çok daha az etkili olduğunu ve aslında olduğunu. Ben tarif zaman bu süreç gizli görünümünü değil, gerçek anonimlik oluşturur bu nedenle, "anonimleştirmesi," Ben size hatırlatmak için tırnak işareti kullanmanız gerekir.

"Anonimleştirme" başarısızlık canlı bir örneği Massachusetts 1990'ların sonundan geliyor (Sweeney 2002) . Grup Sigorta Komisyonu (DEK) bütün devlet çalışanları için sağlık sigortası satın sorumlu devlet kurumu oldu. Bu çalışma sayesinde, GSK, devlet çalışanları binlerce hakkında detaylı sağlık kayıtlarını topladı. sağlığını geliştirmek için yolları hakkında araştırma teşvik amacıyla, GSK, araştırmacılara bu kayıtları tahliyesine karar verdi. Ancak, onlar kendi verileri paylaşmak vermedi; daha doğrusu, bu tür adı ve adresi gibi bilgileri kaldırarak "anonim". Ancak, onlar böyle demografik bilgiler (posta kodu, doğum tarihi, etnik köken ve cinsiyet) ve tıbbi bilgileri (ziyaret verileri, tanı, prosedür) (Şekil 6.4) olarak araştırmacılar için yararlı olabilir düşündüm diğer bilgileri sol (Ohm 2010) . Ne yazık ki, bu "anonimleştirme" verileri korumak için yeterli değildi.

Şekil 6.4: Anonimleştirme açıkça kaldırma tanımlayıcı bilgilerin işlemidir. Devlet, çalışanların sağlık sigortası albümle Örneğin, Massachusetts Grubu Sigorta Komisyonu (DEK) dosyaları adı ve adresi kaldırıldı. proses gerçek gizli gizli görünüm sağlar, ancak çünkü kelime anonimleştirme tırnak kullanın.

Şekil 6.4: "Anonimleştirme" Açıkçası kaldırma tanımlayıcı bilgilerin işlemidir. Devlet, çalışanların sağlık sigortası albümle Örneğin, Massachusetts Grubu Sigorta Komisyonu (DEK) dosyaları adı ve adresi kaldırıldı. proses gerçek gizli gizli görünüm sağlar, ancak çünkü kelime "anonimleştirme" tırnak kullanın.

GIC "anonimleştirme" eksikliklerini göstermek için, Latanya Sweeney-sonra Cambridge, Massachusetts valisi William Weld memleketi kentinden gelen oylama kayıtları elde etmek için 20 $ MİT ödemeli bir yüksek lisans öğrencisi. Bu oylama kayıtlar isim, adres, posta kodu, doğum tarihi ve cinsiyet gibi bilgileri içermektedir. Gerçek şu ki, tıbbi veri dosyası ve seçmen dosya paylaşılan alanlar-posta kodu, doğum tarihi ve cinsiyet anlamına Sweeney onları bağlantı olabilir. Sweeney kaynak doğum günü 31 Temmuz 1945 olduğunu biliyordu ve oylama kayıtları o doğum ile Cambridge sadece altı kişi dahil. Dahası, bu altı kişinin, sadece üç erkekti. Ve bu üç kişinin, sadece bir kaynak en posta kodu paylaştı. Böylece, oylama veri doğum tarihi, cinsiyet, ve posta kodu kaynak adlı kombinasyonu ile tıbbi verilerin herkes William Kaynak olduğunu gösterdi. Özünde, bu bilgi üç adet verilere ona benzersiz bir parmak izi sağladı. Bu gerçeği kullanarak, Sweeney kaynak tıbbi kayıtları bulmak için, ve onun feat onu bilgilendirmek başardı, o ona kayıtların bir kopyasını gönderilecek (Ohm 2010) .

6.5 Şekil: Yeniden idenification anonim veri. Latanya Sweeney Valisi William Weld tıbbi kayıtları (2002 Sweeney) bulmak için oylama kayıtları ile anonim sağlık kayıtlarını birleştirdi.

6.5 Şekil: Yeniden idenification "anonim" veri. Latanya Sweeney Valisi William Weld tıbbi kayıtlarını bulmak için oylama kayıtları ile "anonim" sağlık kayıtlarını kombine (Sweeney 2002) .

Sweeney çalışmaları bilgisayar güvenlik topluluğundan bir terim kabul -to de-anonimleştirme saldırıların temel yapısını göstermektedir. Bu saldırılarda, iki veri seti, ne tek başına hangi hassas bilgi ortaya bağlantılıdır ve bu bağlantı sayesinde, hassas bilgilerin maruz kalmaktadır. Bazı yönlerden bu süreç tozu ve sirke, kendileri tarafından güvenli iki madde pişirme, kötü bir sonuç üretmek üzere kombine edilebilir şekilde benzer.

Sweeney çalışmaları ve diğer ilgili çalışmalara karşılık olarak, araştırmacılar şimdi genellikle çok daha fazla bilgi hepsi sözde "Kişisel Tanımlama Bilgileri" (KB) kaldırmak (Narayanan and Shmatikov 2010) süreci -during "anonimleştirme." Dahası, birçok araştırmacı artık bazı veri gibi tıbbi kayıtların, finansal kayıtlar, yasadışı hakkında sorular anket cevapları sonra bile serbest bırakmak için muhtemelen çok hassas davranış-olduğunun farkında "anonimleştirme." Ancak, aşağıda tarif sosyal araştırmacılar gerektiğini işaret edeceğiz daha yeni örnekler düşüncelerini değiştirmek. İlk adım olarak, tüm verilerin potansiyel tanımlanabilir ve tüm veriler potansiyel olarak hassas olduğunu varsaymak akıllıca olacaktır. Diğer bir deyişle, bu bilgilendirme riski düşünerek projeler küçük bir alt için de geçerlidir ziyade, bunu uygular-o bazı tüm projeler dereceye arası üstlenmelidir.

Bu yeniden yönlendirme her iki yönü Netflix Ödülü ile gösterilmiştir. 5. Bölümde açıklandığı gibi, Netflix neredeyse 500.000 üyeleri tarafından sağlanan 100 milyon film derecelendirme yayımlanan ve dünyanın her yerinden insanlar film tavsiye Netflix yeteneğini geliştirebilir algoritmaları sunulan açık çağrı vardı. veri bırakmadan önce, Netflix gibi isimler gibi herhangi Açıkçası kişisel tanımlama bilgisi, kaldırıldı. Netflix da fazladan bir adım gitti ve (örneğin, 3 yıldızlı, 4 yıldızlı bazı derecelendirme değiştirme) bazı kayıtları hafif tedirginlikler tanıttı. Netflix yakında ancak onların çabalarına rağmen, veri hiçbir şekilde olduğunu isimsiz demektir keşfetti.

Veri sadece iki hafta sonra serbest bırakıldı Narayanan and Shmatikov (2008) belirli insanların film tercihleri hakkında bilgi edinmek için mümkün olduğunu gösterdi. onların yeniden tanımlama saldırı hüner Sweeney benzerdi: hassas olabilecek bilgiler ve hiçbir tabii ki tanımlayıcı bilgileri ve insanların kimliğini içeren biriyle birlikte iki bilgi kaynaklarını, bir birleştirme. Bu veri kaynaklarının her biri ayrı ayrı güvenli olabilir, ancak bunlar bir araya getirildiğinde birleştirilmiş veri kümesi bilgilendirme riski oluşturabilir. Netflix veri durumunda, burada olabilirdi nasıl. Benim co-işçi ile eylem ve komedi filmleri hakkında düşüncelerimi paylaşmayı tercih olduğunu, ancak dini ve siyasi filmler hakkında benim görüşü paylaşıyoruz tercih düşünün. Benim co-işçi Ben Netflix verilerine benim kayıtları bulmak için onlarla paylaştığınız bilgileri kullanabilirsiniz; Ben paylaşmak bilgi sadece William kaynak doğum tarihi, posta kodu ve cinsiyet gibi benzersiz bir parmak izi olabilir. onlar verilerde benim eşsiz parmak izi bulmak Sonra, onlar paylaşmak için tercih filmler dahil tüm filmler, hakkında benim derecelendirme öğrenebilirler. Tek bir kişi üzerinde duruldu hedeflenen bu tür saldırılara ek olarak, Narayanan and Shmatikov (2008) aynı zamanda kişisel ve film değerlendirme verileri ile Netflix verileri birleştirme-insanları çok ilgilendiren geniş bir saldırı -on yapmak mümkün olduğunu gösterdi bazı insanlar Internet Movie Database (IMDb) üzerine göndermek için seçtiniz. Film belirli bir kişi bile kendi kümesine özgü parmak izi her türlü bilgi puan-can onları tanımlamak için kullanılır.

Netflix veri ya hedefli veya geniş saldırıda yeniden tespit edilebilir olsa da, hala düşük riskli olarak görünebilir. Sonuçta, film derecelendirme çok hassas görünmüyor. genel olarak doğru olsa da, veri kümesi içinde 500.000 kişilik bazıları için, film derecelendirme oldukça hassas olabilir. Aslında, de-anonimleştirmesiyle yanıt olarak bir gizli tutan lezbiyen kadın Netflix'te karşı sınıf işlemi takım katıldı. Burada sorun kendi dava ifade edildi nasıl (Singel 2009) :

"[M] Ovie ve derecelendirme veriler daha çok kişisel ve hassas doğası [sic] bilgileri içerir. üyenin film veri cinsellik, ruhsal hastalık, alkolizm kurtarma ve mağdur ensest, fiziksel istismar, aile içi şiddet, zina ve tecavüz dahil olmak üzere çeşitli yüksek kişisel sorunları ile Netflix üyenin kişisel ilgi ve / veya mücadelelere ortaya çıkarır. "

Netflix Ödülü verilerinin de-anonimleştirme tüm veriler potansiyel tanımlanabilir hem o ve tüm veri potansiyel hassas olduğunu göstermektedir. Bu noktada, bu sadece o insanlar hakkında olduğu iddiasında verilere için de geçerli olduğunu düşünebilir. Şaşırtıcı, bu durum böyle değil. Bilişim Hukuku isteği bir Özgürlüğü yanıt olarak, New York Devlet pikap olmak üzere 2013 yılında New York'ta her taksi yolculuğu kayıtlarını yayınladı ve bu Bölüm 2 kez, yerleri ve ücret tutarları (çağırma düşüyorlar Farber (2015) çalışma ekonomisi önemli teorileri) test etmek için bu verileri kullanılmıştır. kişiler hakkında bilgi olabilir görünmüyor çünkü taksi geziler hakkında bu veriler huylu görünebilir, ancak Anthony Tockar bu taksi veri kümesi aslında insanlar hakkında potansiyel olarak hassas bilgi bir sürü içerdiğini fark etti. göstermek için, o da gece yarısı ile 6 arasında York-New içinde Hustler Kulübü-büyük striptiz kulübünde onların bırakma yerleri bulundu başlayan tüm geziler baktı. Bu arama ortaya in Hustler Kulübü sık bazı insanların adresleri özü-bir liste (Tockar 2014) . Veriyi serbest bırakıldığında şehir hükümet aklında bu vardı olduğunu hayal etmek zor. Aslında, bu aynı teknik şehir bir tıbbi klinik, bir hükümet binası veya bir dini kurum herhangi bir yeri ziyaret eden kişilerin ev adreslerini bulmak için kullanılabilir.

Hiçbir benzersiz anlamına gelir bu iki olgu-Netflix Ödülü ve nispeten yetenekli insanlar doğru onlar açıklanan verilere bilgilendirme riski tahmin etmek başarısız New York taksi veri göstermek ve bu durumlar vardır (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Dahası, bu vakaların çoğunda, sorunlu veriler hiç bir veri açıklaması geri alma zorluğu gösteren hala online serbestçe kullanılabilir. Topluca bu örnekler-yanı sıra önemli bir sonuca gizlilik açar hakkında bilgisayar bilimleri araştırma. Araştırmacılar tüm veriler potansiyel tanımlanabilir ve tüm veriler potansiyel olarak hassas olduğunu varsayalım gerekir.

Ne yazık ki, tüm veriler potansiyel tanımlanabilir ve tüm veriler potansiyel olarak hassas olması nedeniyle basit bir çözüm yoktur. Ancak, verilerle çalışırken bilgi riskini azaltmak için bir yol oluşturmak ve veri koruma planı takip etmektir. Bu plan veri sızıntı ve kaçak bir şekilde meydana gelirse zarar azalacak olasılığını azaltır olacaktır. Şifreleme biçimi kullanmak gibi hangi veri koruma planlarının özelliklerini, zamanla değişecek, ancak Birleşik Krallık Veri Hizmetleri yardımsever onlar 5 kasa diyoruz 5 kategoride bir veri koruma planının unsurlarını düzenler: güvenli projeler, güvenli insanlar güvenli ayarlar, güvenli veri ve güvenli çıkışları (Tablo 6.2) (Desai, Ritchie, and Welpton 2016) . Beş kasa hiçbiri ayrı ayrı mükemmel koruma sağlar. Ama, hep beraber bilgilendirme riskini azaltmak faktörlerin bir dizi güçlü oluştururlar.

Tablo 6.2: 5 kasalar tasarımı ve veri koruma planı yürütmek için ilkeler (Desai, Ritchie, and Welpton 2016) .
Kasa	Aksiyon
güvenli projeler	etik olanlar veri projeler sınırlar
güvenli insanlar	erişim verileri ile güvenilir olabilir insanlarla sınırlı (örneğin, insanlar geçirmiş etik eğitimi)
güvenli veri	veri de tespit ve mümkün olduğu ölçüde toplanır
güvenli ayarları	veriler (örneğin, şifre koruması, şifreli) korumaları uygun (örneğin, kilitli oda) fiziksel ve yazılım ile bilgisayar saklanır
güvenli çıkış	Araştırma çıkışı yanlışlıkla gizlilik ihlalleri önlemek için gözden geçirilir

Bunu kullanırken verilerinizi korumaya ek olarak, bilgilendirme riski özellikle belirgin olan araştırma sürecinde bir adım diğer araştırmacılarla birlikte veri paylaşımı olduğunu. Bilim adamları arasında veri paylaşımı, bilimsel çabanın temel bir değer olduğunu ve bilginin büyük ölçüde tesisleri gelişme. İşte Avam sırada House veri paylaşımının önemini tarif nasıl:

Araştırmacılar, yeniden doğrulamak ve literatürde bildirilmiştir sonuçları üzerine inşa eğer "verilere erişim esastır. karine güçlü bir neden olmadığı sürece, veri tamamen ifşa ve kamuya açık hale getirilmelidir ki olmalı. Tüm kamu tarafından finanse edilen araştırma ile ilgili olası veri yaygın ve serbestçe kullanılabilir hale getirilmelidir Bu prensibe, paralel olarak. " (Molloy 2011)

Yine, başka bir araştırmacı ile verilerinizi paylaşarak, sizin katılımcılara bilgilendirme riski artıyor olabilir. Nedenle, onların paylaşmak isteyen verileri ya da paylaşmak için gerekli olan araştırmacıların verilerini-olan temel bir gerginlik karşı karşıya olduğunu görünebilir. Bir yandan özgün araştırmalar kamu tarafından finanse edilmektedir, özellikle diğer bilim adamları ile veri paylaşımı için bir etik yükümlülüğü vardır. Oysa, aynı zamanda, araştırmacılar, mümkün olduğunca en aza indirmek için bir etik yükümlülüğü vardır, onların katılımcılara bilgi riski.

Neyse ki, bu ikilem göründüğü kadar ciddi değildir. Serbest ve veri "anonim" ve erişmek için herkes için yayınlanan nerede, unutmak için hiçbir veri paylaşımı bir süreç boyunca veri paylaşımı (Şekil 6.6) düşünmek önemlidir. Bu aşırı pozisyonların her ikisi de risk ve faydaları vardır. Yani otomatik olarak veri paylaşımı değil en etik bir şey değil, olduğu; Böyle bir yaklaşım, toplumun birçok potansiyel faydaları ortadan kaldırır. Geri dönen Taste, Kravatlar ve Zaman, önceki bölümde ele bir örnek, yalnızca olası zararları odaklanmak ve bu mümkün faydaları göz ardı veri sürümü karşı argümanlar aşırı tek taraflı olan; Ben belirsizlik (Bölüm 6.6.4) karşısında kararlar hakkında tavsiyelerde zaman aşağıda daha ayrıntılı olarak bu tek taraflı, aşırı koruyucu bir yaklaşımla sorunları anlatacağım.

6.6 Şekil: Veri bırakma stratejileri bir süreklilik boyunca düşebilir. Nerede bu süreklilik verilerinizin belirli ayrıntıları bağlıdır boyunca size olmalıdır. Bu durumda, üçüncü parti yorum sizin durumda uygun risk dengesini ve fayda karar yardımcı olabilir.

Dahası, bu iki uç durumlarda arasında Veri belirli ölçütlere uyan ve belli kurallara bağlı olmayı kabul eden kişilerle paylaşılır bir duvarlı bahçe yaklaşım denilen ne yapacaksınız (örneğin, bir IRB gelen gözetim ve veri koruma planları) . Bu duvarlı bahçe yaklaşım sürümü yararları pek sağlar ve daha az risk ile unutma. Tabii ki, bir duvarlı bahçe yaklaşımı birçok soru-erişimi olmalıdır ne şartlar altında, ne kadar uzun, korumak ve duvarlı bahçe polise kimin ödeyeceği için vb ama bunlar aşılamaz değildir yaratır. Aslında, zaten araştırmacılar, Michigan Üniversitesi Siyasal ve Sosyal Araştırmalar Üniversitelerarası Konsorsiyumu veri arşivi olarak, şu anda kullanabilirsiniz yerde duvarlı bahçeleri var çalışıyoruz.

Yani, nerede çalışma verileri ile paylaşımı, duvarlı bahçe süreklilik olmalı ve bırakın ve unutmak gerekir? Bu sizin veri ayrıntılarına bağlı; Araştırmacılar Kanun ve Kamu Yararı için kişiler, yararlılık, adalet Saygı ve saygı dengelemek zorundadır. diğer kararlar için uygun bir denge değerlendirirken araştırmacılar tavsiye ve IRBs onayını almak ve veri bırakma bu sürecin sadece bir parçası olabilir. Bazı insanlar umutsuz bir etik bataklık gibi veri sürüm düşünüyorum, ancak başka bir deyişle, biz zaten araştırmacılar etik ikilemler bu tür denge yardımcı olmak için yerinde sistemleri var.

veri paylaşımı düşünmek bir final yolu benzetme gereğidir. Her yıl araba ölümlerin binlerce sorumlu, ama biz sürüş yasağı çalışmayın. sürüş çok harika şeyler sağlar çünkü aslında, sürüş yasağı böyle bir çağrı saçma olurdu. Aksine, toplum sürebilirim kimin kısıtlamalar yerleştirir (örneğin, belli bir yaşa olması gerekir, bazı testleri geçti gerekir) ve onlar (hız sınırının altında, örneğin) sürücü nasıl. Toplum da bu kuralları (örneğin, polis) koymakla görevli insanlar var ve biz bunları ihlal yakalanan insanları cezalandırmak. toplum sürüş düzenleyen uygulanır dengeli Bu düşünce aynı tür, aynı zamanda veri paylaşımı için uygulanabilir. Bu oldukça ya da veri paylaşımı karşı mutlakiyetçi argümanlar yapmak yerine, ben büyük faydaları daha güvenli daha fazla veri paylaşabilir nasıl bulmaktan gelen düşünüyorum, olduğunu.

Sonuç olarak, bilgilendirme riski önemli ölçüde artmıştır ve tahmin ve ölçmek çok zordur. Bu nedenle, tüm veriler potansiyel tanımlanabilir ve potansiyel duyarlı olduğunu varsaymak en iyisidir. araştırma yaparken bilgilendirme riskini azaltmak için, araştırmacılar oluşturmak ve bir veri koruma planı takip edebilirsiniz. Ayrıca, bilgilendirme riski diğer bilim adamları ile veri paylaşımı araştırmacıların engel teşkil etmemektedir.