3.6.2放大詢問

放大詢問使用預測模型將來自少數人的調查數據與來自許多人的大數據源相結合。

將調查和大數據源結合起來的另一種方法是我稱之為放大詢問的過程 。在放大的詢問中,研究人員使用預測模型將少量調查數據與大數據源相結合,以便按比例或粒度產生估計,這是單獨使用任一數據源所無法實現的。放大詢問的一個重要例子來自Joshua Blumenstock的工作,他希望收集有助於指導窮國發展的數據。過去,收集此類數據的研究人員通常必須採用以下兩種方法之一:抽樣調查或人口普查。研究人員採訪少數人的抽樣調查可以靈活,及時,相對便宜。但是,這些調查由於是基於樣本,因此通常在解決方案上受到限制。通過抽樣調查,通常很難對特定地理區域或特定人口群體進行估算。另一方面,人口普查試圖採訪每個人,因此他們可以用來為小地理區域或人口群體提供估算。但人口普查通常很昂貴,重點狹窄(它們只包含少量問題),而且不及時(它們按照固定的時間表發生,例如每10年一次) (Kish 1979) 。想像一下研究人員是否可以結合兩者的最佳特徵,而不是堅持抽樣調查或人口普查。想像一下,如果研究人員每天都能向每個人提出每個問題。顯然,這種無所不在,永遠在線的調查是一種社會科學幻想。但看起來我們可以通過將來自少數人的調查問題與來自許多人的數字痕跡相結合來開始近似。

Blumenstock的研究始於他與盧旺達最大的移動電話提供商合作,該公司在2005年至2009年期間提供了約150萬客戶的匿名交易記錄。這些記錄包含有關每個電話和短信的信息,例如開始時間,持續時間,以及呼叫者和接收者的近似地理位置。在我談論統計問題之前,值得指出的是,這第一步可能是許多研究人員最難的一步。正如我在第2章中所描述的那樣,研究人員無法訪問大多數大數據源。特別是電話元數據尤其難以訪問,因為它基本上不可能匿名化,並且幾乎肯定包含參與者認為敏感的信息(Mayer, Mutchler, and Mitchell 2016; Landau 2016) 。在這種特殊情況下,研究人員小心翼翼地保護數據,他們的工作由第三方(即他們的IRB)監督。我將在第6章中更詳細地回到這些道德問題。

Blumenstock對衡量財富和福祉感興趣。但這些特徵並不直接存在於通話記錄中。換句話說,這些調用記錄對於這項研究來說是不完整的 - 這是大數據源的一個共同特徵,詳見第2章。但是,呼叫記錄似乎可能有一些間接提供有關財富和信息的信息。福利。鑑於這種可能性,Blumenstock詢問是否有可能培訓機器學習模型來預測某人將如何根據他們的通話記錄對調查做出回應。如果可行,那麼Blumenstock可以使用這個模型來預測所有150萬客戶的調查回复。

為了建立和培養這樣一個模型,來自基加利科學技術研究所的Blumenstock和研究助理稱隨機抽樣了大約一千名顧客。研究人員向參與者解釋了該項目的目標,要求他們同意將調查回復與呼叫記錄聯繫起來,然後向他們詢問一系列問題來衡量他們的財富和福祉,例如“你擁有一個收音機?“和”你有自行車?“(部分清單見圖3.14)。調查的所有參與者都獲得了經濟補償。

接下來,Blumenstock使用機器學習中常見的兩步程序:特徵工程,然後是監督學習。首先,在特色工程步驟中,對於接受采訪的每個人,Blumenstock將通話記錄轉換為關於每個人的一組特徵;數據科學家可能將這些特徵稱為“特徵”,社會科學家將其稱為“變量”。例如,對於每個人,Blumenstock計算了活動的總天數,一個人與之接觸的不同人數,花在通話時間上的金額,等等。至關重要的是,良好的特徵工程需要對研究環境的了解。例如,如果區分國內和國際電話(我們可能期望國際上呼叫更富裕的人)是很重要的,那麼必須在特徵工程步驟中完成。對盧旺達了解甚少的研究人員可能不會包含此功能,因此模型的預測性能會受到影響。

接下來,在監督學習步驟中,Blumenstock建立了一個模型,根據每個人的特徵預測每個人的調查反應。在這種情況下,Blumenstock使用邏輯回歸,但他可以使用各種其他統計或機器學習方法。

那麼它的效果如何? Blumenstock是否能夠使用來自通話記錄的功能預測調查問題的答案,例如“您是否擁有收音機?”和“您是否擁有自行車?”?為了評估其預測模型的性能,Blumenstock使用交叉驗證 ,這是一種常用於數據科學但很少用於社會科學的技術。交叉驗證的目標是通過訓練模型並在不同的數據子集上進行測試,對模型的預測性能進行公平的評估。特別是,Blumenstock將他的數據分成10塊,每塊100人。然後,他使用了九個塊來訓練他的模型,並且在剩餘的塊上評估訓練模型的預測性能。他重複了這個過程10次 - 每個數據塊得到一個回合作為驗證數據 - 並對結果進行平均。

對於某些特徵,預測的準確性很高(圖3.14);例如,如果有人擁有收音機,Blumenstock可以預測97.6%的準確率。這可能聽起來令人印象深刻,但將復雜的預測方法與簡單的替代方法進行比較總是很重要的。在這種情況下,一個簡單的替代方案是預測每個人都會給出最常見的答案。例如,97.3%的受訪者表示擁有收音機,所以如果Blumenstock預測每個人都會報告擁有收音機,他的準確率將達到97.3%,這與他更複雜程序的表現驚人地相似(準確率為97.6%) 。換句話說,所有奇特的數據和建模都將預測的準確性從97.3%提高到97.6%。但是,對於其他問題,例如“你有自行車嗎?”,預測從54.4%提高到67.6%。更一般地說,圖3.15顯示,對於某些特徵,Blumenstock除了進行簡單的基線預測之外沒有太大的改善,但是對於其他特徵,有一些改進。但是,僅僅看一下這些結果,您可能不會認為這種方法特別有希望。

圖3.14:使用通話記錄訓練的統計模型的預測準確性。改編自Blumenstock(2014),表2。

圖3.14:使用通話記錄訓練的統計模型的預測準確性。改編自Blumenstock (2014) ,表2。

圖3.15:使用呼叫記錄訓練的統計模型與簡單基線預測的預測準確性比較。點略有抖動以避免重疊。改編自Blumenstock(2014),表2。

圖3.15:使用呼叫記錄訓練的統計模型與簡單基線預測的預測準確性比較。點略有抖動以避免重疊。改編自Blumenstock (2014) ,表2。

然而,就在一年之後,Blumenstock和兩位同事Gabriel Cadamuro和Robert On發表了一篇科學論文,結果(Blumenstock, Cadamuro, and On 2015)(Blumenstock, Cadamuro, and On 2015) 。這種改進有兩個主要的技術原因:(1)他們使用更複雜的方法(即,一種新的特徵工程方法和一種更複雜的模型來預測特徵的響應)和(2)而不是試圖推斷對個體的反應調查問題(例如,“你是否擁有收音機?”),他們試圖推斷出綜合財富指數。這些技術改進意味著他們可以合理地使用呼叫記錄來預測樣本中人們的財富。

然而,預測樣本中的人員財富並不是研究的最終目標。請記住,最終目標是結合抽樣調查和人口普查的一些最佳特徵,以便在發展中國家產生準確,高分辨率的貧困估計。為了評估他們實現這一目標的能力,Blumenstock及其同事利用他們的模型和他們的數據來預測通話記錄中所有150萬人的財富。他們使用嵌入呼叫記錄中的地理空間信息(回想一下,數據包括每個呼叫最近的蜂窩塔的位置)來估計每個人的大致居住地點(圖3.17)。將這兩個估算結合起來,Blumenstock及其同事以非常精細的空間粒度估算了用戶財富的地理分佈。例如,他們可以估計盧旺達每個2,148個小區(該國最小的行政單位)的平均財富。

這些估計與這些地區的實際貧困水平相符的程度如何?在回答這個問題之前,我想強調一個事實,即有很多理由要持懷疑態度。例如,在個人層面進行預測的能力相當嘈雜(圖3.17)。而且,或許更重要的是,擁有移動電話的人可能與沒有移動電話的人有系統地不同。因此,布魯門斯托克及其同事可能會遭受覆蓋錯誤的類型,這種錯誤偏向於我之前描述的1936年文學摘要調查。

為了了解他們的估計質量,Blumenstock及其同事需要將它們與其他東西進行比較。幸運的是,在他們研究的同時,另一組研究人員正在盧旺達進行更傳統的社會調查。這項另一項調查是廣受尊重的人口與健康調查計劃的一部分,其預算龐大,採用了高質量的傳統方法。因此,人口與健康調查的估計數可以合理地被視為黃金標準估計數。比較兩個估計時,它們非常相似(圖3.17)。換句話說,通過將少量調查數據與通話記錄相結合,Blumenstock及其同事能夠產生與黃金標準方法相當的估計值。

懷疑論者可能會認為這些結果令人失望。畢竟,觀察它們的一種方式是通過使用大數據和機器學習,Blumenstock及其同事能夠通過現有方法產生可以更可靠地進行的估計。但我不認為這是考慮這項研究的正確方法,原因有兩個。首先,Blumenstock及其同事的估算速度提高了10倍,便宜了50倍(根據可變成本計算成本)。正如我在本章前面所論述的那樣,研究人員忽視成本處於危險之中。例如,在這種情況下,成本的急劇下降意味著不是每隔幾年運行一次 - 這是人口和健康調查的標準 - 這種調查可以每個月進行一次,這將為研究人員和政策提供許多優勢。製造商。不接受懷疑論者觀點的第二個原因是,這項研究提供了一個基本的配方,可以適應許多不同的研究情況。這個配方只有兩個成分和兩個步驟。成分是(1)一個廣泛而薄的大數據源(即,它有很多人,但不是你需要的關於每個人的信息)和(2)一個狹窄但厚的調查(即它只有一些人,但它確實有你需要的關於那些人的信息)。然後將這些成分分兩步合併。首先,對於兩個數據源中的人員,構建一個使用大數據源來預測調查答案的機器學習模型。接下來,使用該模型來估算大數據源中每個人的調查答案。因此,如果您有一些問題要問很多人, 那麼即使您不關心大數據源也要從那些可能用於預測答案的人那裡尋找大數據源 。也就是說,Blumenstock及其同事本身並不關心通話記錄;他們只關心通話記錄,因為它們可以用來預測他們關心的調查答案。這種特徵 - 僅對大數據源的間接興趣 - 使得放大的要求與我之前描述的嵌入式詢問不同。

圖3.16:Blumenstock,Cadamuro和On(2015)的研究示意圖。來自電話公司的呼叫記錄被轉換為矩陣,每個人一行,每個特徵一列(即變量)。接下來,研究人員建立了一個監督學習模型來預測來自逐個特徵矩陣的調查反應。然後,使用監督學習模型來估算所有150萬客戶的調查答复。此外,研究人員根據他們的電話位置估算了所有150萬客戶的大致居住地。當這兩個估計值 - 估計的財富和估計的居住地 - 結合起來時,結果與人口與健康調查的估計相似,這是一項黃金標準的傳統調查(圖3.17)。

圖3.16: Blumenstock, Cadamuro, and On (2015)的研究示意圖。來自電話公司的呼叫記錄被轉換為矩陣,每個人一行,每個特徵一列(即變量)。接下來,研究人員建立了一個監督學習模型來預測來自逐個特徵矩陣的調查反應。然後,使用監督學習模型來估算所有150萬客戶的調查答复。此外,研究人員根據他們的電話位置估算了所有150萬客戶的大致居住地。當這兩個估計值 - 估計的財富和估計的居住地 - 結合起來時,結果與人口與健康調查的估計相似,這是一項黃金標準的傳統調查(圖3.17)。

圖3.17:Blumenstock,Cadamuro和On(2015)的結果。在個人層面,研究人員能夠從他們的通話記錄中預測某人的財富。盧旺達30個地區的地區財富估計數 - 基於個人對財富和居住地的估計 - 與人口與健康調查結果相似,這是一項黃金標準的傳統調查。改編自Blumenstock,Cadamuro和On(2015),圖1a和3c。

圖3.17: Blumenstock, Cadamuro, and On (2015) 。在個人層面,研究人員能夠從他們的通話記錄中預測某人的財富。盧旺達30個地區的地區財富估計數 - 基於個人對財富和居住地的估計 - 與人口與健康調查結果相似,這是一項黃金標準的傳統調查。改編自Blumenstock, Cadamuro, and On (2015) ,圖1a和3c。

總之,Blumenstock的擴大詢問方法將調查數據與大數據源相結合,以產生與黃金標準調查相當的估計值。這個特殊的例子也澄清了放大詢問和傳統調查方法之間的一些權衡。放大的詢問估計更及時,更便宜,更精細。但是,另一方面,這種放大的問題還沒有強有力的理論依據。這個單一的例子沒有說明這種方法何時起作用,何時不起作用,使用這種方法的研究人員需要特別關注由於包括誰而未包括在他們的大數據源中所造成的可能偏差。此外,放大的詢問方法還沒有很好的方法來量化其估計值的不確定性。幸運的是,擴大的要求與統計學中的三個大區域(Rao and Molina 2015) ,插補(Rubin 2004)和基於模型的後分層(其本身與P.先生密切相關(Rubin 2004)有很大關係。我在前面章節中描述的方法(Little 1993) 。由於這些深層次的聯繫,我預計許多擴大要求的方法論基礎將很快得到改善。

最後,比較Blumenstock的第一次和第二次嘗試也說明了關於數字時代社會研究的一個重要教訓:開始並非結束。也就是說,很多時候,第一種方法不是最好的,但如果研究人員繼續工作,事情就會變得更好。更一般地說,在評估數字時代社會研究的新方法時,重要的是做出兩個不同的評估:(1)現在這樣做有多好? (2)隨著數據格局的變化以及研究人員對問題的關注度越來越高,未來的效果如何?雖然研究人員接受過第一種評估的培訓,但第二種評估往往更為重要。