2.4.2预测和临近预报

预测未来是很难,但预计目前比较容易。

被研究人员与观测数据的第二个主要策略是预测 。预测未来是非常困难的,但它可以为决策者很重要的,他们无论是在公司或政府的工作。

Kleinberg et al. (2015)提供了两个故事,澄清某些政策问题预测的重要性。试想一下,政策制定者,我会打电话给她的安娜,谁正面临着干旱和必须决定是否要聘请巫师做雨舞,增加雨水的机会。另一位政策制定者,我会打电话给他鲍伯,必须决定是否带伞的工作,以避免在回家的路上弄湿。无论安娜和Bob可以做出更好的决定,如果他们了解天气,但他们需要知道不同的事情。安娜需要了解雨舞是否会产生降雨。鲍勃,在另一方面,不需要理解因果关系的任何事情;他只是需要一个准确的预测。社会研究者往往专注于Kleinberg et al. (2015)称之为“雨舞蹈样”政策的问题,那些侧重于因果关系,而忽略了专注于预测“伞状”政策的问题。

我想不过重点,在一种特殊的预测称为临近预报 -a长期相结合,从“现在”和派生出来的“预测”,而不是预测未来,临近预报尝试预测目前(Choi and Varian 2012)换句话说,临近预报用来测量问题的预测方法。因此,它应该是谁需要他们的国家及时,准确的措施,政府特别有用。临近预报可以最清楚地与谷歌流感趋势的例子来说明。

想象一下,你感觉有点不舒服,所以你键入“流感药物”在搜索引擎中,收到链接的页面响应,然后按照其中一个来一个有用的网页。现在想象一下这个活动正在从搜索引擎的角度发挥出来。每一刻,数以百万计的查询都是从世界各地前来,和查询,什么该流Battelle (2006)已被称为“用心数据库” -提供了一个不断更新的窗口,进入集体的全球意识。但是,把这个信息流进入流感的患病率的测量是困难的。仅仅统计了查询的“流感药物”的数量可能无法正常工作。不是每个人谁拥有了流感药物流感的搜索,而不是大家谁流感偏方搜索有流感。

落后于谷歌流感趋势的重要和巧招是把测量问题转化为预测的问题 。美国疾病控制中心和预防中心(CDC)已收集来自全国各地的医生信息的流感监测系统。然而,一个问题与此CDC系统是有一个为期两周的报告滞后;花费从医生到达数据的时间被清洁,处理和发布。但是,处理一个新兴的疫情时,卫生局并不想知道有多少流感有两个星期前;他们想知道有现在多少流感。事实上,在社会数据的许多等传统光源,有数据收集波和报告的滞后之间的间隙。多数大数据源,在另一方面,永远在线(第2.3.1.2)。

因此,杰里米·金斯伯格和他的同事(2009)试图从谷歌搜索数据预测CDC的流感数据。这是“预测本”,因为研究人员试图测量现在有多少流感由从CDC,即测量本未来的数据预测将来的数据的一个例子。使用机器学习,他们在搜查到50万个不同的搜索字词,看看哪个最有预测疾病预防控制中心流感数据。最终,他们发现了一组45个不同的查询这似乎是最有预测性,且效果比较好:他们可以使用的搜索数据来预测疾病预防控制中心的数据。基于对本文发表在自然的一部分,谷歌流感趋势成为大数据的力量是经常重复的成功故事。

有两个重要的注意事项,以这种明显的成功,然而,理解这些警告将帮助您评估,做好预报和临近预报。首先,谷歌流感趋势的表现实际上比预测流感的基础上流感流行的两个最新的测量值的线性外推量的简单模型也好不了多少(Goel et al. 2010)而且,在某些时间段谷歌流感趋势实际上比这个简单的方法更糟糕(Lazer et al. 2014) 。换句话说,谷歌流感趋势与它的所有数据,机器学习和强大的计算并没有显着跑赢简单,更容易理解启发。这表明,评估任何预测或临近预报时,要比较的基准是很重要的。

关于谷歌流感趋势的第二个重要的条件是,其预测CDC的流感数据的能力是容易产生短期的失败和漂移的原因和算法混杂的长期衰退。例如,2009年猪流感爆发谷歌流感趋势在显着高估流感的量,大概是因为人们倾向于改变响应他们的搜索行为,以一个全球大流行的普遍恐惧(Cook et al. 2011; Olson et al. 2013) 。除了这些短期问题,性能随时间逐渐衰减。诊断为这个长期衰退的原因是困难的,因为谷歌搜索算法是专有的,但现在看来,在2011年谷歌所做的更改,将建议相关搜索词,当人们搜索诸如“发烧”和“咳嗽”症状(这也似乎此功能不再有效)。加入这项功能是,如果你正在运行一个搜索引擎业务做一个完全合理的事情,它有产生更多的健康相关的搜索效果。这可能为企业成功,但它造成谷歌流感趋势高估流感流行(Lazer et al. 2014)

幸运的是,这些问题与谷歌流感趋势是可以解决的。事实上,使用更仔细的方法, Lazer et al. (2014)Yang, Santillana, and Kou (2015)都能够取得更好的成绩。展望未来,我预计,临近预报的研究,随着研究人员结合大数据收集的数据,与米开朗基罗风格的结合杜尚式的现成品Custommades,将使政策制定者产生本更快,更精确的测量和对未来的预测。