2.4.1计数的东西

如果你把好的数据一个很好的问题简单的计数会很有意思。

虽然它用尖端的语言表达,但许多社会研究实际上只是在计算事物。在大数据时代,研究人员比以往任何时候都更重要,但这并不意味着他们应该随意开始计算。相反,研究人员应该问:什么东西值得数数?这似乎是一个完全主观的问题,但有一些一般模式。

通常学生会通过以下方式激励他们的计数研究:我会计算以前没有人曾经计算过的东西。例如,学生可能会说许多人研究过移民,很多人研究过双胞胎,但没有人研究过移民双胞胎。根据我的经验,这种策略,我称之为缺席动机 ,通常不会导致良好的研究。缺席的动机有点像说那边有一个洞,我会非常努力地填补它。但并不是每个洞都需要填补。

我认为更好的策略是寻找重要有趣 (或理想两者)的研究问题,而不是通过缺席来激励。这两个术语都有点难以定义,但考虑重要研究的一种方式是它会产生一些可衡量的影响,或者是决策者做出的一项重要决策。例如,衡量失业率很重要,因为它是推动政策决策的经济指标。一般来说,我认为研究人员非常清楚什么是重要的。因此,在本节的其余部分中,我将提供两个示例,我认为计数很有趣。在每种情况下,研究人员都没有随意计算;相反,他们在非常特殊的环境中进行计数,这些环境揭示了关于社会系统如何运作的更一般概念的重要见解。换句话说,很多使这些特定计数练习变得有趣的不是数据本身,而是来自这些更一般的想法。

简单计算能力的一个例子来自Henry Farber (2015)对纽约市出租车司机行为的研究。虽然这个小组可能听起来不是很有趣,但它是一个战略研究网站,用于测试劳动经济学中的两个相互竞争的理论。出于法伯研究的目的,出租车司机的工作环境有两个重要特征:(1)他们的小时工资每天波动,部分基于天气等因素,(2)他们的小时数工作可以根据他们的决定每天波动。这些特征导致了一个关于小时工资和工作小时数之间关系的有趣问题。经济学中的新古典模型预测出租车司机将在他们有更高的小时工资的日子里工作更多。或者,来自行为经济学的模型恰恰相反。如果司机设定了一个特定的收入目标 - 比如说每天100美元 - 并且在达到目标之前工作,那么司机最终会在他们赚取更多收入的日子里减少工作时间。例如,如果你是目标收入者,你可能最终在美好的一天工作四小时(每小时25美元),在糟糕的一天工作五小时(每小时20美元)。那么,司机在小时工资较高的日子(新古典主义模型所预测的)工作时间更长,或者每小时工资更低的小时工作(按行为经济模型预测)?

为了回答这个问题,Farber获得了2009年至2013年纽约市出租车每次出行的数据,这些数据现已公开发布。这些数据 - 由城市要求出租车使用的电子仪表收集 - 包括每次旅行的信息:开始时间,开始地点,结束时间,结束地点,票价和小费(如果小费是用信用卡支付的) 。使用这种计程车数据,法伯发现大多数司机在工资较高的日子工作更多,与新古典理论一致。

除了这一主要发现之外,Farber还能够利用数据的大小来更好地理解异质性和动态。他发现,随着时间的推移,新的司机逐渐学会在高工资日工作更长时间(例如,他们学会像新古典主义模型所预测的那样行事)。而那些表现得更像目标收入者的新车手更有可能退出出租车司机。由于数据集的大小,这两个更微妙的发现,这有助于解释当前驱动因素的观察行为。在短期内使用少数出租车司机的纸张旅行表的早期研究中,他们无法察觉(Camerer et al. 1997)

Farber的研究接近于使用大数据源进行研究的最佳情况,因为该城市收集的数据非常接近Farber将收集的数据(一个区别是Farber希望获得总数据)工资 - 票价加上提示 - 但城市数据仅包括信用卡支付的提示)。但是,仅靠数据还不够。 Farber研究的关键是为数据带来一个有趣的问题,这个问题除了这个特定的环境之外还有更大的影响。

计算事物的第二个例子来自Gary King,Jen​​nifer Pan和Molly Roberts (2013)关于中国政府在线审查的研究。然而,在这种情况下,研究人员必须收集他们自己的大数据,他们必须处理他们的数据不完整的事实。

国王和同事的动机是,中国的社交媒体帖子被一个被认为包括数万人的巨大国家机构审查。然而,研究人员和公民对于这些审查者如何决定应删除哪些内容几乎没有意识。中国学者实际上对哪类帖子最有可能被删除存在矛盾的期望。有些人认为审查人员关注的是批评国家的职位,而另一些人则认为他们专注于鼓励集体行为的职位,例如抗议活动。弄清楚哪些期望是正确的,这对于研究人员如何理解中国和其他参与审查的威权政府具有重要意义。因此,King及其同事希望将已发布和随后删除的帖子与已发布且从未删除的帖子进行比较。

收集这些职位涉及爬行超过1000名中国社交媒体网站,每一个不同的页面布局,查找相关的帖子,然后重新审视这些帖子,看看哪些随后删除了惊人的工程壮举。除了与大型网页检索相关的正常工程问题,这个项目有它需要的是非常快的,因为许多审查职位取下来,在不到24小时内更大的挑战。换句话说,一个缓慢的爬行会想念很多被审查的职位。此外,爬虫不得不做这一切的数据采集,同时逃避检测免得社交媒体网站阻止访问或以其他方式响应学习改变自己的政策。

当这项庞大的工程任务完成时,King及其同事已经在85个不同的预定主题上获得了大约1100万个帖子,每个帖子都有一个假定的敏感度。例如,一个高度敏感的话题是持不同政见的艺术家艾未未;一个中等敏感性的话题是人民币的升值和贬值,而一个低敏感度的话题是世界杯。在这1100万个职位中,约有200万人受到审查。有些令人惊讶的是,King及其同事发现,高度敏感话题的帖子仅比中低敏感话题的帖子略微受到审查。换句话说,中国的审查人员很可能会审查一个提到艾未未是一个提到世界杯的帖子的帖子。这些调查结果不支持政府审查敏感话题的所有帖子。

然而,按主题简单计算审查率可能会产生误导。例如,政府可能审查支持艾未未的帖子,但留下批评他的帖子。为了更仔细地区分帖子,研究人员需要衡量每个帖子的情绪 。不幸的是,尽管工作量很大,但在许多情况下使用预先存在的词典进行情绪检测的全自动方法仍然不是很好(回想一下创建2001年9月11日情节时间表的问题,在2.3.9节中描述)。因此,金和他的同事需要一种方式来标记他们的1100万社交媒体帖子,关于他们是否(1)批评国家,(2)支持国家,或(3)关于事件的无关或事实报道。这听起来像是一项庞大的工作,但是他们使用了一种在数据科学中很常见但在社会科学中相对罕见的强大技巧来解决它: 监督学习 ;见图2.5。

首先,在通常称为预处理的步骤中,研究人员将社交媒体帖子转换为文档术语矩阵 ,其中每个文档有一行,一列记录帖子是否包含特定单词(例如,抗议或交通) 。接下来,一组研究助理手工贴上了帖子样本的情绪。然后,他们使用这些手工标记的数据创建了一个机器学习模型,可以根据其特征推断帖子的情绪。最后,他们使用这个模型来估计所有1100万个帖子的情绪。

因此,不是手动阅读和标记1100万个帖子 - 这在后勤上是不可能的 - 金和同事手动标记了少量帖子,然后使用监督学习来估计所有帖子的情绪。完成这一分析后,他们得出结论,有些令人惊讶的是,删除一个帖子的可能性与它是否批评国家或支持国家无关。

图2.5:King,Pan和Roberts(2013)用于估计1100万中国社交媒体帖子情绪的简化示意图。首先,在预处理步骤中,研究人员将社交媒体帖子转换为文档术语矩阵(有关更多信息,请参阅Grimmer和Stewart(2013))。其次,他们手工编写了一小部分帖子的情绪。第三,他们训练了一种监督学习模型来对职位情绪进行分类。第四,他们使用监督学习模型来估计所有帖子的情绪。有关更详细的说明,请参阅King,Pan和Roberts(2013),附录B。

图2.5: King, Pan, and Roberts (2013)用于估计1100万中国社交媒体帖子情绪的简化示意图。首先,在预处理步骤中,研究人员将社交媒体帖子转换为文档术语矩阵 (有关更多信息,请参阅Grimmer and Stewart (2013) )。其次,他们手工编写了一小部分帖子的情绪。第三,他们训练了一种监督学习模型来对职位情绪进行分类。第四,他们使用监督学习模型来估计所有帖子的情绪。有关更详细的说明King, Pan, and Roberts (2013)请参阅King, Pan, and Roberts (2013) ,附录B。

最后,金和他的同事发现,只有三种类型的帖子经常被审查:色情,批评审查,以及具有集体行动潜力的那些(即可能导致大规模的抗议活动)。通过观察大量已删除的帖子和未删除的帖子,King和同事们能够通过观察和统计来了解审查的工作方式。此外,预示着本书将要出现的一个主题,他们使用的监督学习方法 - 手工标记一些结果,然后建立机器学习模型来标记其余部分 - 在数字时代的社会研究中变得非常普遍。您将在第3章(提问题)和第5章(创建大规模协作)中看到与图2.5非常类似的图片;这是多章中出现的为数不多的几个想法之一。

这些例子 - 纽约出租车司机的工作行为和中国政府的社交媒体审查行为 - 表明,在某些情况下,相对简单的大数据来源计数可以带来有趣和重要的研究。然而,在这两种情况下,研究人员都必须向大数据源提出有趣的问题;数据本身还不够。