2.3.4不完整

无论您的大数据有多大,它都可能没有您想要的信息。

大多数大数据来源都是不完整的 ,因为他们没有您想要的研究信息。这是为研究以外的目的而创建的数据的常见特征。许多社会科学家已经具备了处理不完整性的经验,例如现有的调查没有提出所需要的问题。不幸的是,大数据中的不完整性问题往往更加极端。根据我的经验,大数据往往缺少对社会研究有用的三种类型的信息:参与者的人口统计信息,其他平台上的行为以及操作理论结构的数据。

在这三种不完整性中,理论结构操作不完整的数据问题是最难解决的问题。根据我的经验,它经常被忽视。粗略地说, 理论构造是社会科学家研究和操作 理论构造的抽象概念,意味着提出一些方法来捕获具有可观察数据的构造。不幸的是,这个听起来简单的过程经常变得非常困难。例如,让我们想象一下,试图通过经验测试一个看似简单的说法,即更聪明的人赚更多的钱。为了测试这种说法,你需要衡量“智力”。但智力是什么? Gardner (2011)认为实际上有八种不同形式的智力。是否有可以准确衡量这些智力形式的程序?尽管心理学家做了大量的工作,但这些问题仍然没有明确的答案。

因此,即使是一个相对简单的主张 - 更聪明的人赚更多的钱 - 可​​能难以根据经验进行评估,因为在数据中操作理论结构可能很困难。其他重要但难以操作的理论结构的例子包括“规范”,“社会资本”和“民主”。社会科学家称理论结构与数据结构有效性之间的匹配(Cronbach and Meehl 1955) 。正如这个简短的结构列表所表明的那样,构造有效性是社会科学家长期以来一直在努力解决的问题。但根据我的经验,在处理非为研究目的而创建的数据时,构造有效性的问题甚至更大(Lazer 2015)

当您评估研究结果时,评估结构有效性的一种快速且有用的方法是获取结果,该结果通常用结构表示,并根据使用的数据重新表达。例如,考虑两项假设的研究,这些研究声称可以证明更聪明的人赚更多的钱。在第一项研究中,研究人员发现,在Raven Progressive Matrices Test中得分良好的人 - 一项经过深入研究的分析智能测试(Carpenter, Just, and Shell 1990) - 报告的纳税申报收入较高。在第二项研究中,研究人员发现Twitter上使用较长词的人更有可能提到奢侈品牌。在这两种情况下,这些研究人员都可以声称,他们已经表明,更聪明的人可以赚更多的钱。然而,在第一项研究中,理论结构很好地通过数据操作,而在第二项研究中它们不是。此外,如此示例所示,更多数据不会自动解决构造有效性问题。您应该怀疑第二项研究的结果是否涉及一百万条推文,十亿条推文或一万亿条推文。对于不熟悉构造有效性概念的研究人员,表2.2提供了一些使用数字跟踪数据操作理论构造的研究实例。

表2.2:用于操作理论结构的数字轨迹的例子
数据源 理论构造 参考
来自大学的电子邮件日志(仅限元数据) 社会关系 Kossinets and Watts (2006)Kossinets and Watts (2009)De Choudhury et al. (2010)
微博上的社交媒体帖子 公民参与 Zhang (2016)
来自公司的电子邮件日志(元数据和完整文本) 文化适合组织 Srivastava et al. (2017)

尽管用于捕获理论构造的数据不完整的问题很难解决,但是对于其他常见类型的不完整性存在共同的解决方案:不完整的人口统计信息和关于其他平台上的行为的不完整信息。第一个解决方案是实际收集您需要的数据;当我告诉你有关调查时,我会在第3章告诉你。第二个主要解决方案是做数据科学家所谓的用户属性推理和社会科学家称之为插补 。在这种方法中,研究人员使用他们对某些人的信息来推断其他人的属性。第三种可能的解决方案是组合多个数据源。此过程有时称为记录链接 。我最喜欢这个过程的比喻是由Dunn (1946)在关于记录链接的第一篇论文的第一段中写的:

“世界上每个人都创造了一本生命之书。本书从出生开始,以死亡结束。它的页面由生活中的主要事件记录组成。记录链接是将本书页面组装成卷的过程的名称。“

当邓恩写这篇文章时,他想象生命之书可能包括出生,婚姻,离婚和死亡等重大生活事件。然而,现在记录了很多关于人的信息,如果那些不同的页面(即我们的数字痕迹)可以绑定在一起,那么生命册可能是一个非常详细的肖像。这本生命之书可以成为研究人员的重要资源。但是,它也可以被称为毁灭数据库 (Ohm 2010) ,它可以用于各种不道德的目的,正如我将在第6章(伦理学)中所描述的那样。