4.3實驗兩個方面:實驗場和模數

實驗室實驗提供了控制,現場實驗提供了現實主義,以及數字現場試驗規模化相結合的控制和真實感。

實驗有許多不同的形狀和大小。過去,研究人員發現,在實驗室實驗現場實驗之間的連續組織中組織實驗是有幫助的。然而,現在,研究人員還應該在模擬實驗數字實驗之間的第二個連續體中組織實驗 。這個二維設計空間將幫助您了解不同方法的優點和缺點,並突出最大機會的領域(圖4.1)。

圖4.1:實驗設計空間示意圖。過去,實驗在實驗室範圍內變化。現在,它們在模擬 - 數字方面也有所不同。這個二維設計空間通過我在本章中描述的四個實驗來說明。在我看來,最大機會的領域是數字現場實驗。

圖4.1:實驗設計空間示意圖。過去,實驗在實驗室範圍內變化。現在,它們在模擬 - 數字方面也有所不同。這個二維設計空間通過我在本章中描述的四個實驗來說明。在我看來,最大機會的領域是數字現場實驗。

可以組織實驗的一個方面是實驗室場維度。社會科學中的許多實驗都是實驗室實驗 ,本科生在實驗室中為課程學分執行奇怪的任務。這種類型的實驗主導著心理學研究,因為它使研究人員能夠創建高度可控的設置,以精確地隔離和測試關於社會行為的特定理論。然而,對於某些問題,從如此不尋常的人在如此不尋常的環境中執行這些不尋常的任務中得出關於人類行為的強有力的結論,感到有些奇怪。這些擔憂導致了實地試驗 。野外實驗將隨機對照實驗的強大設計與更具代表性的參與者群體相結合,在更自然的環境中執行更常見的任務。

雖然有些人認為實驗室和野外實驗是競爭方法,但最好將它們視為互補的,具有不同的優點和缺點。例如, Correll, Benard, and Paik (2007)使用實驗室實驗和田間實驗試圖找到“母性懲罰”的來源。在美國,母親的收入低於沒有孩子的女性,即使是比較從事類似工作的具有類似技能的女性。這種模式有許多可能的解釋,其中之一是雇主對母親有偏見。 (有趣的是,對於父親來說,情況恰恰相反:他們的收入往往比同等無子女的收入高。)為了評估對母親的可能偏見,Correll和同事進行了兩次實驗:一次在實驗室,另一次在實地。

首先,在實驗室實驗中,他們告訴參與者,他們是大學本科生,一家公司正在尋找一個人來尋找一個人來領導其新的東海岸營銷部門。學生被告知該公司希望在招聘過程中提供幫助,並要求他們審查幾個潛在候選人的簡歷,並對候選人進行多方面評價,例如他們的智慧,熱情和工作承諾。此外,還詢問學生是否建議僱用申請人以及他們建議的起薪。然而,學生們並不知道,簡歷的具體構造是相似的,除了一件事:其中一些表示母性(通過列出參與家長教師協會),而有些則沒有。 Correll及其同事發現,學生不太可能建議僱用母親,並且他們提供較低的起薪。此外,通過對評級和與招聘相關的決策進行統計分析,Correll及其同事發現,母親的不利因素主要是因為她們在能力和承諾方面的評分較低。因此,該實驗室實驗允許Correll及其同事測量因果效應並為該效應提供可能的解釋。

當然,根據幾百名可能從未有過全職工作的本科生的決定,更不用說聘請某人,可能會對根據整個美國勞動力市場得出結論持懷疑態度。因此,Correll及其同事還進行了補充田間試驗。他們用假封面信和簡歷回復了數百個廣告宣傳的職位空缺。與本科生所展示的材料相似,有些簡歷表示母性,有些則沒有。 Correll及其同事發現,與同樣合格的沒有孩子的女性相比,母親接受采訪的可能性更小。換句話說,真正的雇主在自然環境中做出相應的決定,就像大學生一樣。他們出於同樣的原因做出了類似的決定嗎?不幸的是,我們不知道。研究人員無法要求雇主對候選人進行評級或解釋他們的決定。

這對實驗揭示了一般的實驗室和現場實驗。實驗室實驗為研究人員提供了幾乎完全控制參與者做出決策的環境。因此,例如,在實驗室實驗中,Correll及其同事能夠確保在安靜的環境中閱讀所有簡歷;在現場實驗中,有些簡歷甚至可能都沒有被閱讀過。此外,由於實驗室環境中的參與者知道他們正在接受研究,研究人員通常能夠收集更多數據,以幫助解釋參與者做出決定的原因。例如,Correll及其同事要求實驗室實驗的參與者對不同維度的候選人進行評分。這種過程數據可以幫助研究人員了解參與者如何處理簡歷的差異機制。

另一方面,我剛剛描述為優點的這些完全相同的特徵有時也被認為是缺點。喜歡現場實驗的研究人員認為,實驗室實驗的參與者可能會採取非常不同的行為,因為他們知道他們正在接受研究。例如,在實驗室實驗中,參與者可能已經猜到了研究的目標並改變了他們的行為,以免出現偏見。此外,喜歡現場實驗的研究人員可能會爭辯說,簡歷中的微小差異只能在非常乾淨,無菌的實驗室環境中脫穎而出,因此實驗室實驗將高估母親對實際招聘決策的影響。最後,許多實地實驗的支持者批評實驗室實驗依賴於WEIRD參與者:主要來自西方,受過教育,工業化,富裕和民主國家的學生(Henrich, Heine, and Norenzayan 2010a) 。 Correll及其同事(2007)的實驗說明了實驗室場連續體的兩個極端。在這兩個極端之間還存在各種混合設計,包括將非學生帶入實驗室或進入現場但仍然讓參與者執行不尋常任務的方法。

除了過去存在的實驗室場維度之外,數字時代意味著研究人員現在擁有第二個主要維度,實驗可以隨之變化:模擬 - 數字。正如純實驗室實驗,純田間實驗和各種雜交實驗一樣,有純模擬實驗,純數字實驗和各種雜交。提供這個維度的正式定義是棘手的,但一個有用的工作定義是全數字實驗是利用數字基礎設施來招募參與者,隨機化,提供治療和衡量結果的實驗。例如,Restivo和van de Rijt (2012)對barnstars和Wikipedia的研究是一個完全數字化的實驗,因為它使用數字系統來完成所有這四個步驟。同樣, 完全模擬實驗不會將這四個步驟中的任何一個用於數字基礎設施。心理學中的許多經典實驗都是完全模擬實驗。在這兩個極端之間,有部分數字實驗使用模擬和數字系統的組合。

當有人想到數字實驗時,他們會立即想到在線實驗。這是不幸的,因為運行數字實驗的機會不僅僅是在線。研究人員可以通過在物理世界中使用數字設備來運行部分數字實驗,以便提供治療或衡量結果。例如,研究人員可以使用智能手機在建築環境中提供治療或傳感器來衡量結果。事實上,正如我們將在本章後面看到的那樣,研究人員已經使用家用功率計來測量涉及850萬個家庭的能源消耗實驗的結果(Allcott 2015) 。隨著數字設備越來越多地融入人們的生活,傳感器融入建築環境,這些在物理世界中進行部分數字化實驗的機會將大大增加。換句話說,數字實驗不僅僅是在線實驗。

數字系統為實驗室 - 場地連續體中的各處實驗創造了新的可能性。例如,在純實驗室實驗中,研究人員可以使用數字系統更精細地衡量參與者的行為;這種改進測量的一個例子是眼睛跟踪設備,其提供精確和連續的凝視位置測量。數字時代也創造了在線運行實驗室式實驗的可能性。例如,研究人員迅速採用Amazon Mechanical Turk(MTurk)招募參與者進行在線實驗(圖4.2)。 MTurk將需要完成任務的“雇主”與希望完成這些任務的“工人”相匹配。然而,與傳統的勞動力市場不同,所涉及的任務通常只需要幾分鐘即可完成,而且雇主和工人之間的整個互動都是在線的。因為MTurk模仿傳統實驗室實驗的各個方面 - 付錢給人們完成他們不會免費做的任務 - 它自然適合某些類型的實驗。從本質上講,MTurk已經創建了用於管理參與者群體的基礎設施 - 招募和支付人員 - 研究人員利用該基礎設施來利用始終可用的參與者群體。

圖4.2:使用Amazon Mechanical Turk(MTurk)的數據發布的論文。 MTurk和其他在線勞動力市場為研究人員提供了一種招募參與者進行實驗的便捷方式。改編自Bohannon(2016)。

圖4.2:使用Amazon Mechanical Turk(MTurk)的數據發布的論文。 MTurk和其他在線勞動力市場為研究人員提供了一種招募參與者進行實驗的便捷方式。改編自Bohannon (2016)

數字系統為現場實驗創造了更多可能性。特別是,它們使研究人員能夠將與實驗室實驗相關的嚴格控制和過程數據與更多樣化的參與者以及與實驗室實驗相關的更多自然環境相結合。此外,數字現場實驗還提供了三個在模擬實驗中難以實現的機會。

首先,大多數模擬實驗室和現場實驗都有數百名參與者,而數字現場實驗可以有數百萬參與者。這種規模變化是因為一些數字實驗可以零可變成本生成數據。也就是說,一旦研究人員創建了實驗性基礎設施,增加參與者的數量通常不會增加成本。將參與者人數增加100倍或更多不僅僅是數量變化;這是一種質的變化,因為它使研究人員能夠從實驗中學習不同的東西(例如,治療效果的異質性),並運行完全不同的實驗設計(例如,大組實驗)。這一點非常重要,當我提供有關創建數字實驗的建議時,我將在本章末尾回到它。

其次,雖然大多數模擬實驗室和現場實驗將參與者視為難以區分的小部件,但數字現場實驗通常使用有關參與者的研究設計和分析階段的背景信息。這種背景信息稱為預處理信息 ,通常可用於數字實驗,因為它們是在永遠在線的測量系統上運行的(見第2章)。例如,Facebook的研究人員在數字現場實驗中有更多關於人的預處理信息,而不是大學研究人員在模擬現場實驗中對人們的了解。這種預處理可以實現更有效的實驗設計 - 例如阻斷(Higgins, Sävje, and Sekhon 2016)和參與者的有針對性招募(Eckles, Kizilcec, and Bakshy 2016) - 以及更有見地的分析 - 例如估計治療效果的異質性(Athey and Imbens 2016a)和協變量調整以提高精度(Bloniarz et al. 2016)

第三,儘管許多模擬實驗室和現場實驗在相對壓縮的時間內提供治療和測量結果,但是一些數字現場實驗在更長的時間尺度內發生。例如,Restivo和van de Rijt的實驗每天測量結果為90天,我將在本章後面(Ferraro, Miranda, and Price 2011)告訴你的其中一個實驗跟踪三年內的結果,基本上沒有成本。這三種機會大小,治療前信息以及縱向治療和結果數據 - 最常見的是在常規測量系統上運行實驗時(有關永遠在線測量系統的更多信息,請參見第2章)。

雖然數字現場實驗提供了許多可能性,但它們在模擬實驗室和模擬現場實驗中也存在一些缺點。例如,實驗不能用於研究過去,它們只能估計可以操縱的治療效果。此外,儘管實驗對於指導政策無疑是有用的,但由於環境依賴性,合規性問題和均衡效應等並發症,他們可以提供的確切指導有限(Banerjee and Duflo 2009; Deaton 2010) 。數字現場實驗還放大了現場實驗所產生的倫理問題 - 我將在本章後面和第6章中討論這個問題。