2.4.2預測和臨近預報

預測未來是很難,但預計目前比較容易。

被研究人員與觀測數據的第二個主要策略是預測 。預測未來是非常困難的,但它可以為決策者很重要的,他們無論是在公司或政府的工作。

Kleinberg et al. (2015)提供了兩個故事,澄清某些政策問題預測的重要性。試想一下,政策制定者,我會打電話給她的安娜,誰正面臨著乾旱和必須決定是否要聘請巫師做雨舞,增加雨水的機會。另一位政策制定者,我會打電話給他鮑伯,必須決定是否帶傘的工作,以避免在回家的路上弄濕。無論安娜和Bob可以做出更好的決定,如果他們了解天氣,但他們需要知道不同的事情。安娜需要了解雨舞是否會產生降雨。鮑勃,在另一方面,不需要理解因果關係的任何事情;他只是需要一個準確的預測。社會研究者往往專注於Kleinberg et al. (2015)稱之為“雨舞蹈樣”政策的問題,那些側重於因果關係,而忽略了專注於預測“傘狀”政策的問題。

我想不過重點,在一種特殊的預測稱為臨近預報 -a長期相結合,從“現在”和派生出來的“預測”,而不是預測未來,臨近預報嘗試預測目前(Choi and Varian 2012)換句話說,臨近預報用來測量問題的預測方法。因此,它應該是誰需要大約各自國家及時,準確的措施,政府特別有用。臨近預報可以最清楚地與谷歌流感趨勢的例子來說明。

想像一下,你感覺有點不舒服,所以你鍵入“流感藥物”在搜索引擎中,收到鏈接的頁面響應,然後按照其中一個來一個有用的網頁。現在想像一下這個活動正在從搜索引擎的角度發揮出來。每一刻,數以百萬計的查詢都是從世界各地前來,和查詢,什麼該流Battelle (2006)已被稱為“用心數據庫” -提供了一個不斷更新的窗口,進入集體的全球意識。但是,把這個信息流進入流感的患病率的測量是困難的。僅僅統計了查詢的“流感藥物”的數量可能無法正常工作。不是每個人誰擁有了流感藥物流感的搜索,而不是大家誰流感偏方搜索有流感。

落後於谷歌流感趨勢的重要和巧招是把測量問題轉化為預測的問題 。美國疾病控制中心和預防中心(CDC)已收集來自全國各地的醫生信息的流感監測系統。然而,一個問題與此CDC系統是有一個為期兩週的報告滯後;花費從醫生到達數據的時間被清潔,處理和發布。但是,處理一個新興的疫情時,衛生局並不想知道有多少流感有兩個星期前;他們想知道有現在多少流感。事實上,在社會數據的許多等傳統光源,有數據收集波和報告的滯後之間的間隙。多數大數據源,在另一方面,永遠在線(第2.3.1.2)。

因此,傑里米·金斯伯格和他的同事(2009)試圖從谷歌搜索數據預測CDC的流感數據。這是“預測本”,因為研究人員試圖測量現在有多少流感由從CDC,即測量本未來的數據預測將來的數據的一個例子。使用機器學習,他們在搜查到50萬個不同的搜索字詞,看看哪個最有預測疾病預防控制中心流感數據。最終,他們發現了一組45個不同的查詢這似乎是最有預測性,且效果比較好:他們可以使用的搜索數據來預測疾病預防控制中心的數據。基於對本文發表在自然的一部分,谷歌流感趨勢成為大數據的力量是經常重複的成功故事。

有兩個重要的注意事項,以這種明顯的成功,然而,理解這些警告將幫助您評估,做好預報和臨近預報。首先,谷歌流感趨勢的表現實際上比預測流感的基礎上流感流行的兩個最新的測量值的線性外推量的簡單模型也好不了多少(Goel et al. 2010)而且,在某些時間段谷歌流感趨勢實際上比這個簡單的方法更糟糕(Lazer et al. 2014) 。換句話說,谷歌流感趨勢與它的所有數據,機器學習和強大的計算並沒有顯著跑贏簡單,更容易理解啟發。這表明,評估任何預測或臨近預報時,要比較的基準是很重要的。

關於谷歌流感趨勢的第二個重要的條件是,其預測CDC的流感數據的能力是容易產生短期的失敗和漂移的原因和算法混雜的長期衰退。例如,2009年豬流感爆發谷歌流感趨勢在顯著高估流感的量,大概是因為人們傾向於改變響應他們的搜索行為,以一個全球大流行的普遍恐懼(Cook et al. 2011; Olson et al. 2013) 。除了這些短期問題,性能隨時間逐漸衰減。診斷為這個長期衰退的原因是困難的,因為谷歌搜索算法是專有的,但現在看來,在2011年谷歌所做的更改,將建議相關搜索詞,當人們搜索諸如“發燒”和“咳嗽”症狀(這也似乎此功能不再有效)。加入這項功能是,如果你正在運行一個搜索引擎業務做一個完全合理的事情,它有產生更多的健康相關的搜索效果。這可能為企業成功,但它造成谷歌流感趨勢高估流感流行(Lazer et al. 2014)

幸運的是,這些問題與谷歌流感趨勢是可以解決的。事實上,使用更仔細的方法, Lazer et al. (2014)Yang, Santillana, and Kou (2015)都能夠取得更好的成績。展望未來,我預計,臨近預報的研究,隨著研究人員結合大數據收集的數據,與米開朗基羅風格的結合杜尚式的現成品Custommades,將使政策制定者產生本更快,更精確的測量和對未來的預測。