3.6.1扩增问

这种翻译是由一个计算机创建。 ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.6.1扩增问

将您的调查数字轨迹能像大家问你的问题在任何时候。

要求一般有两种主要类别：抽样调查和普查。抽样调查，在那里你访问一个少数人，可以灵活，及时，价格相对便宜。然而，抽样调查，因为它们是基于一个样品，常常在他们的分辨率的限制;用抽样调查，往往是很难做出关于特定地理区域或特定人口群体的估计。普查，另一方面，试图在人群中采访的每一个人。他们有很大的分辨率，但它们通常价格昂贵，焦点狭窄（他们只包括一个小一些问题），而且不及时（它们发生在一个固定的时间表，如每10年） (Kish 1979) 。现在想象一下，如果研究人员能够结合抽样调查和普查的最佳特性;想象一下，如果研究人员能够每天问的每一个问题给大家。

显然，这种持续的，无处不在，永远在线调查是一种社会科学幻想。但是，我们似乎可以开始调查问题从少数人从许多人的数字轨迹相结合，这种近似。我把这种类型的组合扩增要求 。如果做得好，它可以帮助我们提供估计是更当地化（较小的地理区域），更细粒度的（特定人口群体），更及时。

问放大的一个例子来自约书亚Blumenstock，谁想要收集数据，这将有助于引导开发贫穷国家的工作。更具体地说，Blumenstock想建立一个系统来衡量财富和福祉的联合调查的灵活性和频率普查的完整性(Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) 。事实上，我已经在第一章中所描述Blumenstock工作的简要介绍。

要开始，Blumenstock与卢旺达最大的手机供应商合作。该公司为他提供了匿名交易记录大约1.5万用户覆盖的行为从2005年和2009年的日志包含有关每个呼叫和短信信息，如开始时间，持续时间，主叫方和接收器的大致地理位置。我们开始谈论统计问题之前，值得指出的是这第一步可能是最难的之一。正如第2章所述，大多数数码跟踪数据无法访问研究员。而且，许多公司有理由不愿分享自己的数据，因为它是私有的;这是他们的客户可能没有想到，他们的记录将被共享的大容量与研究人员。在这种情况下，研究人员把小心步骤匿名数据，他们的工作是由第三方（即，它们的IRB）监督。但是，尽管有这些努力，这些数据可能仍然辨认，他们有可能包含敏感信息(Mayer, Mutchler, and Mitchell 2016; Landau 2016) 。我将回到这些道德问题在第6章。

回想一下，Blumenstock感兴趣的衡量财富和福祉。但是，这些特征都不能直接在呼叫记录。换句话说，这些通话记录是不完整的这项研究，是进行了详细在第2章中讨论的数字轨迹的一个共同特点但是，它很可能是通话记录可能对财富和福祉的一些信息。因此，要求Blumenstock的问题可能是一个办法：就是它可以预测怎么会有人一项调查基于其数字跟踪数据回应？如果是这样，那么通过询问几个人，我们可以猜测其他人的答案。

要性的评估，从科学的基加利技术研究所Blumenstock和研究助理叫约一千手机客户样本。研究人员解释该项目的目标参与者，询问他们同意对调查的答复链接到的通话记录，然后问他们一系列的问题来衡量他们的财富和幸福，如“你拥有收音机吗？“”你自己的自行车吗？“（见图3.11的部分列表）。在所有参与调查的进行财政补偿。

接着，Blumenstock应用于数据科学共同的两步过程：特征工程随后监督学习。首先，在功能设计的步骤，每个人都被采访，Blumenstock转换的通话记录成一组关于每个人的特点;数据科学家可能把这些特色的“功能”和社会科学家们称他们为“变量”。例如，对于每个人，Blumenstock计算出具有活性的总天数，一个人一直在接触不同的人的数量，金额金钱花在通话时间，等等。重要的是，良好的功能要求的工程研究环境的知识。例如，如果是重要的国内，国际电话区分（我们可以期待谁打电话国际人要富裕），那么必须在功能设计步骤中完成。与卢旺达知之甚少一位研究员可能不包含此功能，然后将模型的预测业绩将受到影响。

接着，在监督学习步骤，Blumenstock构建统计模型来预测基于其特征每个人的调查响应。在这种情况下，Blumenstock采用Logistic回归10倍交叉验证，但他也可以使用其他各种统计或机器学习的方法。

那么如何做的工作？当时Blumenstock能够预知答案调查这样的问题：“你自己的电台吗？”“你自己的自行车吗？”使用从通话记录导出功能？有点。该预测的准确性是很高的一些特征（图3.11）。但是，它始终是重要的对一个简单的替代比较复杂的预测方法。在这种情况下，一个简单的选择是预测每个人都将给出最常见的答案。例如，97.3％的人报告拥有的，所以如果Blumenstock曾预测，每个人都将拥有汇报电台，他将不得不97.3％，这是惊人的相似，以他的更加复杂的程序（97.6％精度）的性能，精度收音机。换言之，所有的花式数据和建模提高预测的精确度从97.3％至97.6％。然而，对于其他的问题，比如“你自己的自行车吗？”时，预测从54.4％提高到67.6％。更一般地，如图3.12所示为某些特质Blumenstock没有改善远远超出只是让简单的基线预测，不过这对于其他性状有一定的提升。

图3.11：与通话记录训练的统计模型预测的准确性。结果从Blumenstock（2014年）的表2。

图3.11：与通话记录训练的统计模型预测的准确性。结果从表2 Blumenstock (2014) 。

图3.12：带通话记录简单的基线预测训练的统计模型的预测准确度的比较。点略微抖动，以避免重叠;看到Blumenstock（2014年）的表2精确值。

图3.12：带通话记录简单的基线预测训练的统计模型的预测准确度的比较。点略微抖动，以避免重叠;看看表2 Blumenstock (2014)的精确值。

在这一点上，你可能会想，这些结果是有点令人失望，但仅仅一年后，Blumenstock和两位同事-加布里埃尔卡达穆罗和罗伯特在-发表在科学论文基本上更好的结果(Blumenstock, Cadamuro, and On 2015) 。有用于改善两个主要的技术原因：1）他们用更复杂的方法（即一种新的方法以特色工程和更复杂的机器学习模型）和2），而不是试图去推断个体的调查问题的回答（例如， “你自己的收音机？”），他们试图推断复合财富指数。

Blumenstock和同事们展示了他们的做法在两个方面的表现。首先，他们发现，他们的样本中的人，他们可以这样做，从通话记录（图3.14），预测他们的财富的一个不错的工作。第二，更加重要的是，Blumenstock和他的同事发现，他们的做法可能产生的财富在卢旺达的地理分布的高品质的估计。更具体地说，他们用自己的机器学习模型，这是对他们的约1000人样本的训练，预测到所有150万人的财富通话记录。此外，通过嵌入在呼叫数据的地理空间数据（记得，呼叫数据包括最近的手机信号塔每个呼叫的位置），研究人员能够估计每个人居住的大致位置。把这些两个估计在一起，研究在制作极其精细的空间粒度用户丰富的地理分布的估计。例如，他们可以估算每个卢旺达的2148细胞（全国最小的行政单位）的平均财富。这些预测值，财富是如此精细，他们很难检查。因此，研究人员汇总他们的结果产生卢旺达的30个地区的平均财富的估计。这些区级的估计是密切相关，从金本位传统的调查估计，卢旺达人口与健康调查（图3.14）。虽然来自两个源的估计值是相似的，从Blumenstock和同事的估计是大约50便宜倍和10倍的速度（当在可变成本方面的测量费用）。在此成本急剧下降意味着，而不是被运行，每隔几年，因为是人口与健康调查的标准 - 小调查大数字跟踪数据相结合混合可以每月运行。

图3.13：Blumenstock，卡达穆罗的示意图，并在（2015年）。从电话公司的呼叫数据被转换为一个矩阵的一行的每个人，并为每一个特征（即，可变的）一列。接下来，研究人员建立了一个监督的学习模型通过特征矩阵来预测从人的调查答复。随后，监督学习模型被用来归咎于每个人的调查答复。从本质上说，研究人员使用了大约一千人的反应归咎于约一万人的财富。此外，研究人员估计住所的大致位置为基于它们的呼叫的位置的所有150万人。当这两个估计合并，估计财富和滞留的结果估计地方是相似的，从人口与健康调查，一个黄金标准的传统调查（图3.14）的估计。

图3.13：示意图Blumenstock, Cadamuro, and On (2015) 。从电话公司的呼叫数据转化为矩阵一行每人一列每个功能（即变量）。接下来，研究人员建立了一个监督的学习模型通过特征矩阵来预测从人的调查答复。随后，监督学习模型被用来归咎于每个人的调查答复。从本质上说，研究人员使用了大约一千人的反应归咎于约一万人的财富。此外，研究人员估计住所的大致位置为基于它们的呼叫的位置的所有150万人。当这两个估计合并，估计财富和滞留的结果估计地方是相似的，从人口与健康调查，一个黄金标准的传统调查（图3.14）的估计。

图3.14：从Blumenstock，卡达穆罗，并在（2015年）结果。在个人层面，研究人员能够从他们的通话记录预测一个人的财富做一个合理的工作。区级财富 - 这是基于财富和居住地，结果的个体层面估计的估计相似，从人口与健康调查，金标准的传统的调查结果。

图3.14：从结果Blumenstock, Cadamuro, and On (2015) 。在个人层面，研究人员能够从他们的通话记录预测一个人的财富做一个合理的工作。区级财富 - 这是基于财富和居住地，结果的个体层面估计的估计相似，从人口与健康调查，金标准的传统的调查结果。

总之，Blumenstock的扩增询问数字跟踪数据相结合的方法调查数据产生的估计与黄金标准调查估计媲美。这个特殊的例子也澄清了一些放大的要价与传统调查方法之间的权衡。首先，扩增问估计是更加及时，便宜很多，而且更精细。但是，另一方面，在这个时候，不存在用于这种扩增要价的一个有力的理论基础。即，此一实施例不显示时，将工作，当它不会。此外，放大要价的做法目前还没有很好的方法来量化围绕其估算的不确定性。然而，放大要价已在基于统计模型的事后分层三大领域深厚的关系(Little 1993) ，估算(Rubin 2004) ，和小面积估计(Rao and Molina 2015) -和，所以我期望的进展将迅速。

问放大遵循一个基本的食谱，可以根据您的具体情况。有两种成分和两个步骤。两种成分是1）的数字跟踪数据集是宽，但薄的（即，它具有需要有关每个人的许多人，但不中的信息）和2），该窄但厚（即一个调查，它具有只有少数人，但它有你需要为那些人的信息）。然后，有两个步骤。首先，对于这两个数据源的人，建立使用数字跟踪数据来预测调查的答案机器学习模型。接下来，使用机器学习模型归咎于每个人的问卷答案在数字跟踪数据。因此，如果你要问到很多人，从可能被用来预测他们的回答那些人找数字跟踪数据的一些问题。

比较Blumenstock的这个问题第一和第二次尝试也说明了有关从第二个时代第三时代办法过渡的重要一课调查研究：一开始不是结束。也就是说，很多时候，第一种方式将不会是最好的，但如果研究人员继续工作，事情可以变得更好。更一般地，评估新方法在数字化时代的社会研究时，提出两个不同的评估是非常重要的：1）现在如何做这项工作，并2）如何你觉得这可能会在今后的工作中作为数据的风景变化，研究人员更加关注这个问题。虽然研究人员进行培训，使第一样的评价（有多好是研究这个特殊片），第二次往往是更重要的。