3.6.1丰富的询问

在丰富的询问中,调查数据围绕包含一些重要测量但缺少其他测量的大数据源建立背景。

将调查数据和大数据源结合起来的一种方法是我称之为丰富的问题 。在丰富的询问中,大数据源包含一些重要的测量但缺少其他测量,因此研究人员在调查中收集这些缺失的测量值,然后将两个数据源链接在一起。富有问题的一个例子是Burke and Kraut (2014)关于Facebook上的互动是否会增加友谊力量的研究,我在3.2节中描述过。在这种情况下,Burke和Kraut将调查数据与Facebook日志数据结合起来。

然而,Burke和Kraut工作的环境意味着他们不必处理研究人员所做的丰富问题通常面临的两个大问题。首先,如果两个数据源中没有可用于确保一个数据集中的正确记录与正确记录匹配的唯一标识符,则实际将个体级数据集链接在一起,称为记录链接的过程可能很困难。在另一个数据集中。富裕问题的第二个主要问题是,大数据源的质量通常很难让研究人员评估,因为创建数据的过程可能是专有的,并且可能容易受到第2章中描述的许多问题的影响。换句话说,丰富的询问通常会涉及容易出错的调查与未知质量的黑匣子数据源之间的联系。然而,尽管有这些问题,丰富的要求可用于进行重要的研究,正如Stephen Ansolabehere和Eitan Hersh (2012)在他们对美国投票模式的研究中所证明的那样。

选民投票率一直是政治学广泛研究的主题,过去,研究人员对谁投票及其原因的理解通常基于对调查数据的分析。然而,在美国进行投票是一种不寻常的行为,因为政府记录每个公民是否投票(当然,政府没有记录每个公民投票的人)。多年来,这些政府投票记录以纸质形式提供,分散在全国各地的政府办公室中。这使政治科学家很难(但并非不可能)全面了解选民,并将人们在投票调查中所说的与他们的实际投票行为进行比较(Ansolabehere and Hersh 2012)

但是这些投票记录现已被数字化,许多私营公司已经系统地收集并合并它们,以生成包含所有美国人投票行为的综合主投票文件。 Ansolabehere和Hersh与其中一家公司--Catalist LCC合作 - 为了使用他们的主投票文件来帮助改善选民的情况。此外,由于他们的研究依赖于在数据收集和协调方面投入大量资源的公司收集和策划的数字记录,因此与以前在没有公司的帮助和使用模拟记录的情况下所做的努力相比,它提供了许多优势。

与第2章中的许多大数据源一样,Catalist主文件并未包含Ansolabehere和Hersh所需的大部分人口统计,态度和行为信息。事实上,他们特别感兴趣的是将调查中报告的投票行为与经过验证的投票行为(即凯利板数据库中的信息)进行比较。因此,Ansolabehere和Hersh收集了他们想要的数据,作为一项大型社会调查,本章前面提到的CCES。然后他们将数据提供给Catalist,并且Catalist给了他们一个合并的数据文件,其中包括经过验证的投票行为(来自凯利板),自我报告的投票行为(来自CCES)以及受访者的人口统计和态度(来自CCES)(图3.13)。换句话说,Ansolabehere和Hersh将投票记录数据与调查数据相结合,以便进行单独使用任何数据源无法进行的研究。

图3.13:Ansolabehere和Hersh(2012)的研究示意图。为了创建主数据文件,Catalist组合并协调来自许多不同来源的信息。无论多么小心,这种合并过程都会传播原始数据源中的错误,并会引入新的错误。第二个错误来源是调查数据和主数据文件之间的记录链接。如果每个人在两个数据源中都有一个稳定的唯一标识符,那么链接将是微不足道的。但是,凯利板人必须使用不完美的标识符来进行链接,在这种情况下,名称,性别,出生年份和家庭住址。不幸的是,在许多情况下,信息可能不完整或不准确;一个名叫Homer Simpson的选民可能会出现在Homer Jay Simpson,Homie J Simpson,甚至Homer Sampsin身上。尽管Catalist主数据文件可能存在错误,并且记录链接中存在错误,但Ansolabehere和Hersh能够通过几种不同类型的检查建立对其估算的信心。

图3.13: Ansolabehere and Hersh (2012)的研究示意图。为了创建主数据文件,Catalist组合并协调来自许多不同来源的信息。无论多么小心,这种合并过程都会传播原始数据源中的错误,并会引入新的错误。第二个错误来源是调查数据和主数据文件之间的记录链接。如果每个人在两个数据源中都有一个稳定的唯一标识符,那么链接将是微不足道的。但是,凯利板人必须使用不完美的标识符来进行链接,在这种情况下,名称,性别,出生年份和家庭住址。不幸的是,在许多情况下,信息可能不完整或不准确;一个名叫Homer Simpson的选民可能会出现在Homer Jay Simpson,Homie J Simpson,甚至Homer Sampsin身上。尽管Catalist主数据文件可能存在错误,并且记录链接中存在错误,但Ansolabehere和Hersh能够通过几种不同类型的检查建立对其估算的信心。

通过他们的综合数据文件,Ansolabehere和Hersh得出了三个重要结论。首先,投票过度报道猖獗:几乎一半的非投票者报告投票,如果有人报告投票,他们实际投票的可能性只有80%。其次,过度报道并不是随机的:过度报道在从事公共事务的高收入,受过良好教育的游击队员中更为常见。换句话说,最有可能投票的人也最有可能撒谎投票。第三,也是最关键的,由于过度报道的系统性,选民和非选民之间的实际差异小于他们仅从调查中看到的差异。例如,拥有学士学位的人报告投票的可能性大约高22个百分点,但实际投票的可能性仅高出10个百分点。事实证明,现有的基于资源的投票理论可以更好地预测谁将报告投票(这是研究人员过去使用的数据),而不是预测谁实际投票。因此, Ansolabehere and Hersh (2012)的实证研究结果要求新的理论来理解和预测投票。

但是,我们应该相信这些结果多少钱?请记住,这些结果取决于容易出错的链接到具有未知错误量的黑盒数据。更具体地说,结果取决于两个关键步骤:(1)Catalist组合许多不同数据源以产生准确的主数据文件的能力和(2)Catalist将调查数据链接到其主数据文件的能力。这些步骤中的每一步都很困难,任何一步的错误都可能导致研究人员得出错误的结论。然而,数据处理和链接对于凯利板公司作为一家公司的持续存在至关重要,因此它可以投入资源来解决这些问题,通常规模与学术研究人员无法匹敌。在他们的论文中,Ansolabehere和Hersh经历了许多步骤来检查这两个步骤的结果 - 尽管其中一些是专有的 - 这些检查可能对其他希望将调查数据与黑匣子大数据联系起来的研究人员有所帮助源。

研究人员可以从这项研究中得出什么一般教训?首先,通过利用调查数据丰富大数据来源和利用大数据来源丰富调查数据,都有巨大的价值(无论哪种方式都可以看到这一研究)。通过结合这两个数据源,研究人员能够做出一些不可能单独完成的事情。第二个一般性的教训是,虽然聚合的商业数据来源,例如来自凯利板的数据,不应被视为“基本事实”,但在某些情况下,它们可能是有用的。怀疑者有时会将这些汇总的商业数据源与绝对真理进行比较,并指出这些数据来源不足。然而,在这种情况下,怀疑论者正在进行错误的比较:研究人员使用的所有数据都没有达到绝对真理。相反,最好将聚合的商业数据源与其他可用数据源(例如,自我报告的投票行为)进行比较,这些数据源也总是存在错误。最后,Ansolabehere和Hersh的研究的第三个一般教训是,在某些情况下,研究人员可以从许多私营公司在收集和协调复杂社会数据集方面所做的巨额投资中受益。