2.3.1

大数据集是达到目的的一种手段;他们不是目的本身。

大数据源最广泛讨论的特征是它们很大。例如,许多论文首先讨论 - 有时吹牛 - 他们分析了多少数据。例如,在“ 科学”杂志上发表的一篇研究Google Books语料库中词汇使用趋势的论文包括以下内容(Michel et al. 2011)

“[我们的]语料库包含超过5000亿字,英语(3610亿),法语(450亿),西班牙语(450亿),德语(370亿),中文(130亿),俄语(350亿)和希伯来语(20亿)。最古老的作品发表于16世纪。早期的几十年每年只有几本书,包括数十万字。到1800年,语料库每年增长到9800万字;到1900年,18亿;到2000年,110亿。语料库不能被人读取。如果你试图仅从2000年开始阅读英语词条,以200字/分钟的合理速度阅读,不会中断食物或睡眠,则需要80年。字母序列比人类基因组长1000倍:如果你用直线写出它,它会到达月球并返回10倍。“

这些数据的规模无疑令人印象深刻,我们很幸运,Google Books团队已经向公众发布了这些数据(实际上,本章末尾的一些活动利用了这些数据)。但是,每当你看到这样的东西时,你应该问:所有数据真的在做什么吗?如果数据可以到达月球并且仅返回一次,他们可以做同样的研究吗?如果数据只能到达珠穆朗玛峰的顶部或​​埃菲尔铁塔的顶部怎么办?

事实上,在这种情况下,他们的研究确实有一些研究结果需要很长一段时间内的大量词汇。例如,他们探索的一件事是语法的演变,特别是不规则动词共轭率的变化。由于一些不规则动词非常罕见,因此需要大量数据来检测随时间的变化。然而,很多时候,研究人员似乎将大数据源的大小视为一个目的 - “看看我能够处理多少数据” - 而不是一种更重要的科学目标的手段。

根据我的经验,稀有事件的研究是大型数据集倾向于实现的三个特定科学目标之一。第二个是异质性的研究,Raj Chetty及其同事(2014)关于美国社会流动性的研究可以说明这一点。过去,许多研究人员通过比较父母和孩子的生活结果来研究社会流动性。从这些文献中得出的一致结论是,有利的父母倾向于有优势的孩子,但这种关系的强度随着时间和国家的不同而变化(Hout and DiPrete 2006) 。然而,最近,Chetty及其同事能够使用来自4千万人的税务记录来估计美国各地区代际流动的异质性(图2.1)。例如,他们发现,儿童在最低分位的家庭中从最低五分之一家庭到达最高五分位数的概率在加利福尼亚州圣何塞约为13%,但在北卡罗来纳州夏洛特只有约4%。如果你看一下图2.1,你可能会开始想知道为什么代际移动性在某些地方比其他地方更高。 Chetty和他的同事们提出了完全相同的问题,他们发现高流动性地区的居住隔离较少,收入不平等较少,小学更好,社会资本更多,家庭稳定性更高。当然,这些相关性本身并不表明这些因素会导致更高的移动性,但它们确实提出了可以在进一步工作中探索的可能机制,这正是Chetty及其同事在后续工作中所做的。注意数据的大小在这个项目中是如何真正重要的。如果Chetty和他的同事们使用了4万人而不是4千万人的税收记录,他们将无法估计区域异质性,他们也无法进行后续研究以试图找出造成这种变异的机制。

图2.1:给予父母最低20%的儿童获得收入分配前20%的机会的估计(Chetty等人,2014年)。区域层面的估计显示出异质性,自然会产生一些有趣而重要的问题,而这些问题并非来自单一的国家级估计。这些区域级估计的可能性部分是因为研究人员使用了大量的大数据来源:4000万人的税务记录。根据http://www.equality-of-opportunity.org/上提供的数据创建。

图2.1:给予父母最低20%的儿童获得收入分配前20%的机会的估计(Chetty et al. 2014) 。区域层面的估计显示出异质性,自然会产生一些有趣而重要的问题,而这些问题并非来自单一的国家级估计。这些区域级估计的可能性部分是因为研究人员使用了大量的大数据来源:4000万人的税务记录。根据http://www.equality-of-opportunity.org/上提供的数据创建。

最后,除了研究罕见事件和研究异质性之外,大型数据集还使研究人员能够发现微小差异。事实上,对行业大数据的关注主要集中在这些小差异上:可靠地检测到广告上1%到1.1%点击率之间的差异可以转化为数百万美元的额外收入。然而,在某些科学环境中,即使它们具有统计学意义,这种微小的差异可能也不是特别重要(Prentice and Miller 1992) 。但是,在某些策略设置中,它们在汇总查看时会变得很重要。例如,如果有两个公共卫生干预措施,一个比另一个更有效,那么选择更有效的干预措施最终可以挽救数千个额外的生命。

虽然正确使用时大的通常是一个很好的属性,但我注意到它有时会导致概念错误。出于某种原因,巨大似乎导致研究人员无视数据的生成方式。虽然bigness确实减少了担心随机错误的需要,但它实际上增加了担心系统错误的需要,我将在下面描述的错误类型是由数据创建方式的偏差引起的。例如,在我将在本章后面描述的一个项目中,研究人员使用2001年9月11日生成的信息来产生对恐怖袭击的反应的高分辨率情感时间表(Back, Küfner, and Egloff 2010) 。因为研究人员有大量的信息,他们并不需要担心他们观察到的模式 - 在一天中增加的愤怒 - 可以通过随机变化来解释。数据非常多,模式非常清晰,所有统计统计测试都表明这是一个真实的模式。但是,这些统计测试不知道数据是如何创建的。事实上,事实证明,许多模式可归因于一个机器人,它在一天中产生了越来越多无意义的消息。删除这个机器人完全破坏了论文中的一些主要发现(Pury 2011; Back, Küfner, and Egloff 2011) 。很简单,不考虑系统误差的研究人员面临使用其大型数据集来获得对不重要数量的精确估计的风险,例如自动机器人产生的无意义消息的情感内容。

总之,大数据集本身并不是目的,但它们可以实现某些类型的研究,包括罕见事件的研究,异质性的估计以及小差异的检测。大数据集似乎也导致一些研究人员无视他们的数据是如何创建的,这可能导致他们对不重要的数量进行精确估计。