2.3.5无法访问

研究人员很难获得公司和政府持有的数据。

2014年5月,美国国家安全局在犹他州农村开设了一个数据中心,其名称尴尬,即智能社区综合国家网络安全倡议数据中心。然而,据称该数据中心已被称为犹他州数据中心,据称具有惊人的功能。一份报告称,它能够存储和处理所有形式的通信,包括“私人电子邮件,手机通话和谷歌搜索的完整内容,以及各种个人数据路径 - 停车收据,旅行路线,书店购买和其他数字'口袋垃圾'“ (Bamford 2012) 。除了引起对大数据中捕获的大部分信息的敏感性的担忧,这将在下面进一步描述,犹他州数据中心是研究人员无法访问的丰富数据源的极端例子。更一般地,许多有用的大数据源由政府(例如,税务数据和教育数据)或公司(例如,对搜索引擎的查询和电话元数据)进行控制和限制。因此,即使存在这些数据源,它们对于社会研究的目的也是无用的,因为它们是不可访问的。

根据我的经验,许多大学的研究人员误解了这种无法进入的来源。这些数据无法访问,不是因为公司和政府的人都是愚蠢,懒惰或漠不关心。相反,存在严重的法律,商业和道德障碍,阻碍了数据访问。例如,网站的某些服务条款协议仅允许员工使用数据或改进服务。因此,某些形式的数据共享可能会使公司面临来自客户的合法诉讼。参与共享数据的公司也存在重大业务风险。试着想象一下,如果个人搜索数据作为大学研究项目的一部分从Google中意外泄露出来,公众会如何回应。这种数据泄露,如果极端,甚至可能是公司的存在风险。因此谷歌和大多数大公司都非常厌恶与研究人员共享数据。

事实上,几乎每个能够提供大量数据访问权的人都知道Abdur Chowdhury的故事。 2006年,当他担任AOL研究负责人时,他故意向研究界发布了他认为是65,000名AOL用户的匿名搜索查询。据我所知,Chowdhury和AOL的研究人员有良好的意图,他们认为他们已经对数据进行了匿名化。但他们错了。人们很快发现这些数据并不像研究人员所想的那样匿名, 纽约时报的记者能够轻松识别数据集中的某些人(Barbaro and Zeller 2006) 。一旦发现这些问题,Chowdhury从AOL的网站上删除了数据,但为时已晚。这些数据已经转发到其他网站上,当您阅读本书时,它可能仍然可用。 Chowdhury被解雇,AOL的首席技术官辞职(Hafner 2006) 。正如这个例子所示,公司内部特定个人为数据访问提供便利的好处非常小,最糟糕的情况很糟糕。

但是,研究人员有时可以访问公众无法访问的数据。一些政府拥有研究人员可以遵循的程序来申请访问,正如本章后面的示例所示,研究人员偶尔可以访问公司数据。例如, Einav et al. (2015)与eBay的研究人员合作研究在线拍卖。我将在本章后面更多地讨论这次合作所带来的研究,但我现在提到它,因为它具有我在成功的合作伙伴关系中看到的所有四种成分:研究人员的兴趣,研究人员的能力,公司的兴趣和公司能力。 。我见过许多潜在的合作失败,因为研究人员或合作伙伴 - 无论是公司还是政府 - 缺乏这些成分之一。

但是,即使您能够与企业建立合作关系或获取受限制的政府数据,也会有一些缺点。首先,您可能无法与其他研究人员共享您的数据,这意味着其他研究人员将无法验证和扩展您的结果。其次,您可以提出的问题可能有限;公司不太可能允许研究使他们看起来很糟糕。最后,这些合作关系至少可以产生利益冲突,人们可能会认为您的结果会受到您的合作关系的影响。所有这些缺点都可以得到解决,但重要的是要明确处理每个人都无法访问的数据既有好处也有缺点。

总之,研究人员无法访问大量大数据。存在严重的法律,商业和道德障碍阻碍数据访问,并且随着技术的改进,这些障碍不会消失,因为它们不是技术障碍。一些国家政府已经建立了为某些数据集提供数据访问的程序,但该流程在州和地方层面尤其是临时性的。此外,在某些情况下,研究人员可以与公司合作获取数据访问权限,但这可能会给研究人员和公司带来各种问题。