2.3.2.2不可访问

由企业和政府举行的数据是研究人员难以进入。

在2014年5月,美国国家安全议程开设了农村犹他州数据中心,有一个尴尬的名字,情报部门综合国家网络安全倡议的数据中心。不过,这个数据中心,这已经到了被称为犹他州数据中心,据报道,有惊人的能力。一份报告称,美国犹他州数据中心能够存储和处理各种形式的通信,包括“私人电子邮件的完整内容,手机通话,而谷歌的搜索,以及各种个人数据步道停车收据,旅游行程的,书店采购,和其他数字'垃圾袋'“ (Bamford 2012)除了 ​​有关的许多大数据捕获的信息,这将更加下面描述的敏感性质的令人担忧,犹他州数据中心是无法访问学者了丰富的数据源的一个极端的例子。更一般地,大数据来源有很多研究人员的控制和政府(如税务数据和教育数据)和公司的限制,这将是有用的(例如,查询搜索引擎和电话的元数据)。因此,这些数据不会立即在大学提供给研究人员,大多数甚至不会提供给政府或公司的研究人员。

根据我的经验,根据在大学许多研究人员误解了这个交通不便的来源。这些数据是不是因为无法进入人的企业和政府是愚蠢,懒惰,或漠不关心。相反,存在着严重的法律,技术,业务,并防止数据访问的伦理障碍。例如,条件方面的一些服务的网站的协议仅允许雇员使用的数据或以提高服务。因此,数据共享某些形式可能使公司从客户的合法诉讼。也有巨大的商业风险,参与分享数据的公司。试着想象一下,如果个人搜索数据意外地从谷歌泄露出来作为大学研究项目的一部分市民的反应如何。这样的数据泄露,如果极端情况下,甚至可能是公司的生存风险。因此谷歌和大多数大型企业,都非常厌恶风险约与研究人员共享数据。

事实上,数据知道阿卜杜勒·乔杜里的故事几乎每个人谁是在一个位置,以提供访问大量。 2006年,时任AOL研究的负责人,他有意释放他认为从65万AOL用户研究团体进行匿名搜索查询。据我所知,乔杜里和AOL的研究人员具有良好的意图,他们认为他们已经匿名数据。但是,他们错了。人们很快发现,数据并不像研究者认为是匿名的,记者从纽约时报能够识别人数据集轻松(Barbaro and Zeller Jr 2006)一旦这些问题被发现后,乔杜里移除AOL网站上的数据,但为时已晚。该数据已被转载到其他网站,这将很可能仍然可用,当你读这本书。由于他尝试共享与研究界的数据,乔杜里被解雇,而AOL首席技术官辞职(Hafner 2006) 。如本例所示,对于特定的个人公司以促进数据的访问的内部的益处是相当小,最坏的情况是可怕的。

研究可以,但是,获取数据无法访问给公众。各国政府,研究人员可以按照申请准入程序,并作为例子本章后面演出,研究人员可以偶尔访问企业数据。例如, Einav et al. (2015)与eBay的研究员,从网上拍卖研究数字痕迹合作。我会更多地谈论了来自这一合作在后面的章节(第2.4.3.2)的研究,但我现在提到它,因为它有我在成功的伙伴关系看成分的所有四个:研究员的兴趣,研究人员能力,公司利益和公司的能力。换句话说,Einav和他的同事有兴趣,有能力学习网上拍卖。而且,易趣也。但是,我见过很多可能的合作失败,因为无论是研究人员或公司缺少这些成分之一。

即使你能够开发出合作与业务,但是,也有一些缺点你。首先,你可以要求与可能受到限制的数据的问题;公司是不可能允许的研究,可以使他们看起来很糟糕。其次,你可能不能够与其他研究人员,这意味着其他研究人员将无法验证和扩展的结果共享数据。此外,这些合作伙伴可以创造至少所关注,人们可能会认为你的结果是通过你的伙伴关系影响的冲突的出现。所有这些缺点都可以解决,但很明显的是与不是每个人都可以访问数据的工作既有积极以及缺点是很重要的。

总之,很多大数据不可访问研究员。有严重的法律,技术,业务,并防止数据访问的道德障碍,这些障碍不会消失。各国政府普遍建立了使数据访问过程,但这个过程可以更即席在国家和地方层面。此外,在一些情况下,研究人员可以与企业伙伴获得数据访问,但是这可以创建各种研究人员的问题。