2.4.3.1自然實驗

自然實驗參加世界隨機事件的優勢。隨機事件+永遠在線的數據系統=自然實驗

隨機對照實驗,讓公平的比較,最關鍵的是隨機化。然而,偶爾有事基本上隨機或接近的人分配到隨機不同處理世界。對使用自然實驗的策略,最明顯的例子來自於研究Angrist (1990)測量的軍種對收入的影響。

在越南戰爭中,美國通過草案增加了軍隊的規模。為了決定哪些公民將被稱為服役,美國政府召開了彩票。每一個生日派代表參加了一張紙,而這些論文被放置在一個大玻璃瓶。如圖2-5所示,紙張這些單是在同一時間從罐子1得出確定的順序年輕人將被稱為服務(年輕婦女不受草案)。根據調查結果,出生於9月14日男子被先叫,出生於4月24日男子被稱為第二,依此類推。最終,這張彩票,出生於195天不同的人被召集到服務,而出生171天的男子不叫。

圖2.5:國會議員亞歷山大Pirnie(R-NY)繪製兵役草案第一膠囊12月1日,1969年約書亞安格里斯特(1990年),再結合出自於社會保障局財報數據的選秀抽籤估計兵役的效果盈利。這是使用一個自然實驗研究的一個例子。資料來源:維基共享資源

圖2.5:國會議員亞歷山大Pirnie(R-NY)繪製兵役草案第一膠囊12月1日,1969年約書亞安格里斯特(1990)再結合出自於社會保障局財報數據的選秀抽籤估計兵役的效果盈利。這是使用一個自然實驗研究的一個例子。資料來源: 維基共享資源

儘管它可能不會立即顯現,一個選秀抽籤有著至關重要的相似性的隨機對照實驗:在這兩種情況下參與者隨機分配接受治療。在選秀抽籤的情況下,如果我們有興趣了解選秀資格,並在隨後的勞動力市場收益兵役的影響,我們可以為人們的生日是彩票截止以下(比較結果如9月14日四月24,等)的成果為人們的生日都是截止後(例如,2月20日,12月2日,等)。

鑑於這種治療正在起草已隨機分配,我們就可以測量這種治療對於已測得的任何結果的影響。例如, Angrist (1990)合併關於誰是隨機的草案,這是由社會保障局收集的財報數據得出結論說白了退伍軍人的收入均低於可比非退伍軍人的收入減少約15%選擇的信息。其他研究人員已經使用了類似的伎倆也。比如, Conley and Heerwig (2011)合併是誰在與2000年人口普查和2005年美國社區調查收集家庭數據的草案是隨機選擇的信息,發現該草案經過這麼長的,有小的長期效應在不同的結果,如住房使用權(擁有與租賃)和居住穩定性(在過去五年已經移動的可能性)的兵役。

這個例子說明,有時社會,政治或自然力量創造實驗或可被研究人員加以利用近實驗。通常,自然實驗是估算的設置原因和因果關係的最佳途徑它不是道德或實際運行的隨機對照實驗。他們是在非實驗數據發現比較公平的重要戰略。這種研究策略可以由這個公式來概括:

\ [\ {文字隨機的(或者,如果隨機)事件} + \ {文字永遠在線的數據流} = \ {文字自然實驗} \ qquad(2.1)\]

然而,自然實驗分析可以說是相當棘手。例如,在越南草案的情況下,不是每個人都誰是選秀資格的最終服務(有多種豁免)。而且,在同一時間,有些人誰沒有選秀資格自願服役。這是因為如果在一個新藥的臨床試驗,有些人在治療組沒有採取他們的藥和一些對照組的人莫名其妙地接受藥物。這個問題,稱為雙面違規,以及許多其它問題中更詳細地一些建議的讀數在本章的結束說明。

採取自然發生的隨機分配優勢的戰略先於數字化時代,但大數據的盛行使得這種策略更易於使用。一旦你意識到一些待遇已經被隨機分配的,大數據源可以提供你以比較的結果人們在治療和控制情況需要的結果數據。例如,在他的草案,並兵役的影響研究,安格里斯特利用從社會安全局的盈利記錄;沒有這一結果的數據,他的研究將是不可能。在這種情況下,社會安全局是永遠在線的大數據源。隨著越來越多的自動收集的數據源的存在,我們將有一個可以測量外源性變化產生的變化的影響的更多結果的數據。

為了說明在數字時代這種策略,讓我們考慮馬斯和莫雷蒂的(2009)上的對等對生產力的影響研究優雅。雖然表面上看起來可能安格里斯特的關於越南草案的影響的研究不同,在結構上它們都遵循EQ模式。 2.1。

馬斯和莫雷蒂測量同行如何影響員工的工作效率。在一方面,擁有一個辛勤工作的同行可能會導致工人增加,因為來自同伴的壓力他們的生產力。或者,在另一方面,一個辛勤工作的同行可能會導致其他工人更懈怠。研究對生產力同伴效應最明顯的方法是隨機對照試驗,其中工人被隨機分配到輪班不同生產力水平的工人,然後導致生產力為大家測量。但是,研究人員無法控制工人的時間表中的任何實際業務,所以馬斯和莫雷蒂不得不依靠它發生在一家超市自然實驗。

就像EQ。 2.1,他們的研究有兩個部分。首先,他們用從超市結賬系統日誌具有精確,個體,和始終對生產率的措施:每秒掃描的項目的數目。第二,由於該調度在這家超市所做的那樣,他們有近同行的隨機成分。換句話說,即使收銀員的調度不是由抽籤決定,它基本上是隨機的。在實踐中,我們在自然實驗的信心常常取決於此“作為假設”索賠隨機的合理性。採取這種隨機變化的優勢,馬斯和莫雷蒂發現,更高的生產力同行的工作提高了生產效率。進一步,馬斯和莫雷蒂所使用的大小和其數據的豐富性超越的原因和效果的估計以探索兩個比較重要和微妙的問題:這樣的效果(為哪種工人是效果大) 的異質性機制後面的效果(為什麼具有高生產率的同齡人帶來更高的生產力)。我們將回歸到治療效果和機制,在第5章這兩個重要的問題 - 異質性,當我們詳細討論實驗。

從對盈利和對生產力同行的效果研究的越南草案的影響的研究推廣,表2.3總結等研究具有此相同的結構:採用永遠在線的數據源來衡量某些事件的影響。如表2.3清楚,自然實驗是無處不在,如果你只是知道如何尋找他們。

表2.3:使用大數據源的自然實驗的例子。所有這些研究遵循相同的基本配方:隨機(或如果隨機的)事件+永遠在線數據系統。見Dunning (2012)更多的例子。
實質性重點 自然實驗的來源 永遠在線的數據源 引文
同行對生產力的影響 調度進程 結帳數據 Mas and Moretti (2009)
友誼形成 颶風 Facebook的 Phan and Airoldi (2015)
情緒蔓延 Facebook的 Coviello et al. (2014)
點對點傳輸經濟 地震 移動支付數據 Blumenstock, Fafchamps, and Eagle (2011)
個人消費行為 2013美國政府關門 個人財務數據 Baker and Yannelis (2015)
推薦系​​統的經濟影響 各個 亞馬遜瀏覽數據 Sharma, Hofman, and Watts (2015)
壓力對胎兒的影響 2006年以色列與黎巴嫩真主黨的戰爭 出生記錄 Torche and Shwed (2015)
維基百科上的閱讀行為 斯諾登啟示 維基百科日誌 Penney (2016)

在實踐中,研究人員利用兩種不同的策略尋找自然實驗,這兩者都會有收穫。一些研究人員開始與永遠在線的數據源,並期待在世界隨機事件;人與世界的隨機事件開始,並查找數據源,捕捉他們的影響。最後,注意的自然實驗的力量不是來自統計分析的複雜性,但是從護理發現歷史的一次幸運的意外創造了一個公平的比較。