6.6.2了解和管理信息风险

这种翻译是由一个计算机创建。 ×

6.6.2了解和管理信息风险

信息风险是社会研究中最常见的风险;它急剧增加;这是最难理解的风险。

数字时代研究面临的第二个道德挑战是信息风险 ，即信息披露可能造成的损害(National Research Council 2014) 。来自个人信息披露的信息伤害可能是经济的（例如，失去工作），社交（例如，尴尬），心理（例如，抑郁），或甚至是犯罪（例如，因非法行为而被捕）。不幸的是，数字时代显着增加了信息风险 - 关于我们的行为的信息非常多。与模拟年龄社会研究中存在的风险（如物理风险）相比，信息风险已被证明非常难以理解和管理。

社会研究降低信息风险的方法之一是数据的“匿名”。 “匿名化”是除去明显的个人识别码，如姓名，地址，以及从数据的电话号码的过程。然而，这种方法是非常有效的少比许多人意识到，这是，其实有着深刻的限制。出于这个原因，每当我描述了“匿名”，我会用引号来提醒你，这个过程会创建匿名的外观，但不是真正的匿名。

“匿名化”失败的一个生动例子来自20世纪90年代末的马萨诸塞州(Sweeney 2002) 。集团保险委员会（GIC）是一个政府机构，负责为所有州雇员购买健康保险。通过这项工作，GIC收集了数千名州员工的详细健康记录。为了促进研究，GIC决定将这些记录发布给研究人员。但是，他们没有分享他们的所有数据;相反，他们通过删除名称和地址等信息来“匿名化”这些数据。然而，他们留下了他们认为可能对研究人员有用的其他信息，如人口统计信息（邮政编码，出生日期，种族和性别）和医疗信息（访问数据，诊断，程序）（图6.4） (Ohm 2010) 。不幸的是，这种“匿名化”不足以保护数据。

图6.4：匿名化是删除明显识别信息的过程。例如，在发布州雇员的医疗保险记录时，马萨诸塞州集团保险委员会（GIC）从文件中删除了姓名和地址。我在匿名化这个词周围使用了引号，因为这个过程提供了匿名的外观而不是实际的匿名性。

图6.4：“匿名化”是删除明显识别信息的过程。例如，在发布州雇员的医疗保险记录时，马萨诸塞州集团保险委员会（GIC）从文件中删除了姓名和地址。我在“匿名化”一词周围使用了引号，因为该过程提供匿名的外观，但不是实际的匿名。

为了说明GIC“匿名化”的缺点，当时麻省理工学院的研究生Latanya Sweeney花了20美元从马萨诸塞州州长威尔逊·韦尔德的家乡剑桥市获得投票记录。这些投票记录包括姓名，地址，邮政编码，出生日期和性别等信息。医疗数据文件和选民文件共享字段 - 邮政编码，出生日期和性别 - 这意味着Sweeney可以链接它们。斯威尼知道韦尔的生日是1945年7月31日，而那个生日那天，剑桥的投票记录只包括六个人。此外，在这六个人中，只有三个是男性。而且，在这三个人中，只有一个人共享了Weld的邮政编码。因此，投票数据显示，Weld将出生日期，性别和邮政编码相结合的医疗数据中的任何人都是William Weld。实质上，这三条信息在数据中为他提供了独特的指纹 。利用这个事实，斯威尼能够找到韦尔德的医疗记录，并告诉他她的壮举，她给他寄了一份他的记录(Ohm 2010) 。

图6.5：“匿名”数据的重新识别。 Latanya Sweeney将“匿名”健康记录与投票记录相结合，以查找州长William Weld的病历，改编自Sweeney (2002) ，图1。

Sweeney的工作说明了重新识别攻击的基本结构 - 采用计算机安全社区的术语。在这些攻击中，两个数据集（它们本身都不显示敏感信息）是相互关联的，并且通过这种联系，敏感信息被暴露出来。

为了回应斯威尼的工作以及其他相关工作，研究人员现在通常会删除更多信息 - 所有所谓的“个人识别信息”（PII） (Narayanan and Shmatikov 2010)在“匿名化”过程中。此外，许多研究人员现在意识到某些数据 - 例如医疗记录，财务记录，关于非法行为的调查问题的答案 - 即使在“匿名化”之后也可能过于敏感而无法释放。但是，我要提供的例子表明社会研究人员需要改变他们的想法。作为第一步，明智的做法是假设所有数据都是可识别的，并且所有数据都具有潜在的敏感性。换句话说，我们应该假设它在某种程度上适用于所有项目，而不是认为信息风险适用于一小部分项目。

Netflix奖项说明了这种重新定位的两个方面。如第5章所述，Netflix发布了近500,000名成员提供的1亿部电影评级，并且公开呼叫，来自世界各地的人们提交的算法可以提高Netflix推荐电影的能力。在发布数据之前，Netflix删除了任何明显的个人识别信息，例如姓名。他们还采取了额外步骤，并在一些记录中引入了轻微的扰动（例如，将一些评级从4星改为3星）。然而，他们很快发现，尽管他们付出了努力，但这些数据仍然不是匿名的。

数据发布仅两周后，Arvind Narayanan和Vitaly Shmatikov (2008)表明，有可能了解特定人群的电影偏好。他们重新识别攻击的伎俩类似于Sweeney's：将两个信息源合并在一起，一个具有潜在的敏感信息，没有明显的识别信息，另一个包含人的身份。这些数据源中的每一个都可以是单独安全的，但是当它们组合时，合并的数据集可能产生信息风险。对于Netflix数据，这里是如何发生的。想象一下，我选择与同事分享我对动作和喜剧电影的看法，但我不想分享我对宗教和政治电影的看法。我的同事可以使用我与他们分享的信息在Netflix数据中查找我的记录;我分享的信息可能是一个独特的指纹，就像William Weld的出生日期，邮政编码和性别一样。然后，如果他们在数据中找到我唯一的指纹，他们就可以了解我对所有电影的评分，包括我选择不分享的电影。除了针对单个人的这种针对性攻击之外 ，Narayanan和Shmatikov还表明，通过将Netflix数据与某些人选择的个人和电影评级数据合并，可以进行广泛的攻击 - 涉及许多人 -在互联网电影数据库（IMDb）上发布。很简单，任何作为特定人的唯一指纹的信息 - 甚至是他们的电影评级集 - 都可以用来识别它们。

即使可以在目标攻击或广泛攻击中重新识别Netflix数据，它仍然可能看起来风险较低。毕竟，电影收视率似乎不是很敏感。虽然这可能是正确的，但对于数据集中的500,000人中的一些人来说，电影评级可能非常敏感。事实上，为了回应重新识别，一名被关闭的女同性恋者加入了针对Netflix的集体诉讼。以下是他们在诉讼中表达问题的方式(Singel 2009) ：

“[M] ovie和评级数据包含......高度个人化和敏感性的信息。该成员的电影数据暴露了Netflix成员的个人兴趣和/或与各种高度个人问题的斗争，包括性行为，精神疾病，从酗酒中恢复，以及乱伦，身体虐待，家庭暴力，通奸和强奸的受害。“

重新识别Netflix Prize数据表明所有数据都是可识别的，并且所有数据都具有潜在的敏感性。此时，您可能认为这仅适用于声称与人有关的数据。令人惊讶的是，事实并非如此。根据“信息自由法”的要求，纽约市政府公布了2013年纽约每一次出租车的记录，包括上下车时间，地点和票价金额（从第2章回顾Farber (2015)使用类似的数据来测试劳动经济学中的重要理论。这些关于出租车旅行的数据似乎是良性的，因为它们似乎并没有提供有关人员的信息，但Anthony Tockar意识到这个出租车数据集实际上包含了许多关于人的潜在敏感信息。为了说明这一点，他看了所有从纽约的Hustler俱乐部开始的旅行 - 午夜到早上6点之间，然后找到他们的下车地点。这个搜索实质上揭示了一些经常光顾Hustler俱乐部(Tockar 2014)人的地址。很难想象市政府在发布数据时会想到这一点。事实上，这种相同的技术可用于查找访问城市任何地方的人的家庭住址 - 医疗诊所，政府大楼或宗教机构。

Netflix奖和纽约市出租车数据的这两个案例表明，相对技术人员无法正确估计他们发布的数据中的信息风险 - 这些案例绝不是独一无二的(Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) 。此外，在许多这样的情况下，有问题的数据仍然可以在线免费获得，这表明难以撤消数据释放。总的来说，这些例子 - 以及关于隐私的计算机科学研究 - 得出了一个重要的结论。研究人员应该假设所有数据都是可识别的，所有数据都可能具有敏感性。

不幸的是，没有简单的解决方案可以确定所有数据都是可识别的，并且所有数据都具有潜在的敏感性。但是，在处理数据时降低信息风险的一种方法是创建并遵循数据保护计划 。该计划将减少您的数据泄漏的可能性，并且如果以某种方式发生泄漏，将减少损害。数据保护计划的具体细节，例如使用哪种加密形式，将随着时间的推移而改变，但英国数据服务有助于将数据保护计划的要素分为五个类别，他们称之为五个保险柜 ：安全项目，安全人员，安全设置，安全数据和安全输出（表6.2） (Desai, Ritchie, and Welpton 2016) 。五个保险箱中没有一个单独提供完美的保护。但它们共同形成了一系列有力的因素，可以降低信息风险。

表6.2：“五个保险箱”是设计和执行数据保护计划的原则(Desai, Ritchie, and Welpton 2016)
安全	行动
安全的项目	将包含数据的项目限制为符合道德标准的项目
安全的人	访问仅限于可以信任数据的人（例如，经过道德培训的人）
安全数据	数据在可能的范围内被去除识别和汇总
安全设置	数据存储在具有适当物理（例如，锁定房间）和软件（例如，密码保护，加密）保护的计算机中
安全输出	审查研究成果以防止意外隐私泄露

除了在使用数据时保护数据，信息风险特别突出的研究过程中的一个步骤是与其他研究人员共享数据。科学家之间的数据共享是科学努力的核心价值，它极大地促进了知识的进步。以下是英国下议院如何描述数据共享的重要性(Molloy 2011) ：

“如果研究人员要复制，验证和建立文献中报道的结果，那么获取数据是至关重要的。推定必须是，除非有充分理由，否则数据应全面披露并公之于众。“

然而，通过与其他研究人员共享您的数据，您可能会增加参与者的信息风险。因此，数据共享似乎在与其他科学家共享数据的义务与尽量减少参与者的信息风险的义务之间产生了根本的紧张关系。幸运的是，这种困境并不像看上去那么严重。相反，最好将数据共享视为一个连续统一体，连续统一体上的每个点都为社会提供了不同的利益组合，为参与者带来了风险（图6.6）。

在一个极端情况下，您可以与任何人共享您的数据，从而最大限度地降低参与者的风险，同时最大限度地减少社会收益。在另一个极端，您可以释放并忘记 ，数据被“匿名化”并发布给每个人。相对于不发布数据，释放和遗忘为社会带来更高的利益，并为参与者带来更高的风险。在这两种极端情况之间是一系列混合动力车，包括我称之为围墙花园的方式。根据这种方法，数据与符合某些标准且同意受某些规则约束的人共享（例如，IRB和数据保护计划的监督）。有围墙的花园方法提供了释放和遗忘的许多好处，风险较小。当然，这种方法会产生许多问题 - 谁应该有权进入，在什么条件下，多长时间，谁应该支付维护和监管围墙花园等等 - 但这些都不是不可克服的。事实上，研究人员现在已经开始使用有围墙的花园，例如密歇根大学政治和社会研究大学联合会的数据档案。

图6.6：数据发布策略可以是一个连续统一体。您应该在此连续统一体取决于您的数据的具体细节，第三方审核可以帮助您确定您的案例中风险和收益的适当平衡。该曲线的确切形状取决于数据和研究目标的具体情况(Goroff 2015) 。

那么，你的研究数据应该放在哪里不分享，围墙花园，释放和遗忘？这取决于您的数据的细节：研究人员必须平衡对人，尊重，正义和尊重法律和公共利益的尊重。从这个角度来看，数据共享不是一个独特的道德难题;这只是研究的众多方面之一，研究人员必须找到适当的伦理平衡。

一些批评者普遍反对数据共享，因为在我看来，他们专注于风险 - 这无疑是真实的 - 并且忽视了它的好处。因此，为了鼓励关注风险和收益，我想提供一个类比。每年，汽车造成数千人死亡，但我们并不试图禁止驾驶。事实上，禁止驾驶的呼吁是荒谬的，因为驾驶可以带来许多美妙的事物。相反，社会限制谁可以驾驶（例如，需要成为特定年龄并通过某些测试）以及他们如何驾驶（例如，在速度限制下）。社会也有负责执行这些规则的人（例如，警察），并且我们惩罚那些被逮捕的人。社会适用于调节驾驶的这种平衡思维也可以应用于数据共享。也就是说，我认为通过关注如何降低风险并增加数据共享带来的好处，我们将取得最大的进步，而不是对数据共享进行绝对论支持。

总之，信息风险急剧增加，很难预测和量化。因此，最好假设所有数据都是可识别的并且可能是敏感的。为了在研究过程中降低信息风险，研究人员可以创建并遵循数据保护计划。此外，信息风险并不妨碍研究人员与其他科学家共享数据。