4.6.2更換,瑞風,和減少

讓與非實驗研究 ​​實驗更換,細化治療,並減少參加人數實驗更加人性化。

我想提供有關設計的數字實驗建議的第二件涉及道德。由於雷斯蒂沃和範·德·Rijt實驗在維基百科顯示barnstars,降低成本意味著道德將成為研究設計中越來越重要的組成部分。除了倫理框架指導人類受試者的研究,我將在第6章介紹,研究人員設計數字化實驗也可以利用從不同的來源倫理觀念:以指導涉及動物實驗的倫理原則。特別是,在人文實驗技術的里程碑式的著作原則Russell and Burch (1959)提出,要引導動物研究三個原則:替換,瑞風,和減少。我想提出,這些三個R的也可以使用,在稍微修改的形式,以指導人體實驗的設計。尤其是,

  • 替換:有可能的話微創方法替換實驗
  • 優化:優化處理,使之無害地
  • 減少:盡可能減少參與實驗的數量盡可能

為了使這三個R的混凝土和展示他們如何可能會帶來更好的,更人性化的實驗設計中,我將描述產生的倫理爭論在線田間試驗。然後,我將介紹三個R的是如何建議的實驗設計具體和實際的變化。

其中最道德爭論數碼領域的實驗是“情緒感染”,這是由亞當·克萊默,傑米Gillroy和杰弗裡·漢考克進行的(2014) 。試驗了在Facebook上的地方,被科學和實踐問題的混合動機。當時,用戶互動與Facebook的主要途徑是新聞聯播,從用戶的Facebook好友的算法策劃一套Facebook的狀態更新。 Facebook的一些批評人士認為,由於新聞飼料有大部分是積極的帖子,朋友們展示了他們最新的關黨可能會導致用戶因為他們的生活似乎比較那麼激動人心感到悲傷。另一方面,也許效果是完全相反;也許看到有一個很好的時間會讓你感到快樂你的朋友?為了解決這些相互競爭的假設和推進我們的一個人的情緒是如何被她的朋友們的影響理解的情緒,克萊默和他的同事跑了一個實驗。研究人員將70萬左右的用戶分為四組一個星期:一個“消極減少”群體,對他們的職位與否定詞(如,悲傷)隨機出現在新聞飼料堵塞;一個“積極降低”組為誰用積極的話(如高興)職位,隨機堵塞;與兩個對照組。在為“消極降低”組,對照組,定崗,隨機擋在同樣的速度為“消極降低”組,但不考慮情感內容。對於“陽性減少”組對照組以並行的方式被構成。該實驗的設計示出了適當的對照組並不總是一個沒有變化。相反,有時在對照組中以創建精確的​​比較結果,一個研究的問題,需要接收的處理。在所有情況下,從新聞飼料被封鎖的帖子仍然可供用戶通過Facebook網站的其他部分。

克萊默和他的同事發現,參與者的積極性降低情況下,積極的話在他們的狀態更新的比例下降和否定詞的比例上升。另一方面,對於參與者消極減小條件下,陽性詞的百分比增加,並且否定詞的百分比降低(圖4.23)。不過,這些影響是相當小的:在治療和對照之間正反字差異在1,000字約1。

圖4.23:情緒感染的證據(克萊默,蓋爾利和漢考克2014年)。積極詞彙和實驗條件否定詞的百分比。條代表估計標準誤差。

圖4.23:情緒感染的證據(Kramer, Guillory, and Hancock 2014) 。積極詞彙和實驗條件否定詞的百分比。條代表估計標準誤差。

我已經把這個實驗的科學方面的討論在進一步閱讀的部分在本章的最後,但不幸的是,這個實驗是最知名的產生倫理爭論。本文發表美國國家科學院論文集 ,僅僅幾天之後,有一個從研究人員和記者一個巨大的嘩然。 1)參加者沒有提供超出標準的Facebook條件方面的服務,有些想法可能造成傷害的參與者和2)研究沒有進行第三方倫理治療任何同意:集中在兩個要點本文圍繞憤慨回顧(Grimmelmann 2015)在這次辯論中提出的道德問題導致該雜誌迅速發布關於道德和倫理審查過程研究中的一個罕見的“關注的社論表達” (Verma 2014) 。在隨後的幾年中,實驗仍然是激烈爭論和分歧的根源,而這種分歧可能已經駛入正在由公司執行的陰影許多其他實驗意想不到的效果(Meyer 2014)

在這種背景下對情緒感染,我現在想表明3 R的可以建議真正研究具體的,實際的改進(無論你可能會個人認為這個特定實驗的倫理學)。第一個R是更換 :研究者應尋求如有可能,創傷小,風險技術,以取代實驗。例如,而不是運行實驗,研究人員能夠利用了自然實驗 。正如第2章所述,自然實驗的情況下在近似的治療的隨機分配世界有事(如抽獎來決定誰將會應徵入伍)。自然實驗的優點是,研究者不必提供治療;環境不適合您。換句話說,具有天然的實驗中,研究人員也不會需要實驗操縱人們的新聞聯播。

事實上,幾乎同時與情緒感染實驗, Coviello et al. (2014)是利用什麼可以被稱為情緒感染的自然實驗。他們的方法,它採用一種叫做工具變量法,是有點複雜,如果你以前從來沒有見過。因此,為了解釋為什麼需要,讓我們建立它。一些研究人員可能要學習情緒感染的第一個想法是在天在您的新聞飼料是非常積極的,以自己的帖子在天在您的新聞飼料是非常不利的比較你的帖子。這種做法將被罰款,如果目標只是來預測你的帖子的情感內容,但是這種方法是有問題的,如果我們的目標是研究你的新聞飼料對你的帖子的因果關係。看到這一設計問題,可以考慮感恩。在美國,正面帖秒殺和負面帖子暴跌感恩節。因此,在感恩節,研究人員就可以看到你的新聞飼料是非常積極的,而且您發布積極的事情為好。但是,你的積極的帖子可能已造成的感恩節不是你的新聞飼料的內容。相反,為了估計因果效應研究人員需要的東西,改變你的新聞飼料的含量,而不直接更改你的情緒。幸運的是,這樣的事情發生的所有的時間:天氣。

科維洛和他的同事發現,雨天在別人的城市將平均減少由約1個百分點的正職位的比例,並增加由約1個百分點的負職位的比例。然後,科維洛和他的同事利用這個事實來研究情緒傳染,而無需操縱實驗人的新聞飼料。從本質上說他們做了什麼是衡量你的職位如何在你的朋友居住的城市,天氣的影響。為了說明為什麼這是有道理的,假設你住在紐約市,你有一個朋友,誰住在西雅圖。現在想像一下,有一天它開始在西雅圖下雨。這雨在西雅圖不會直接影響你的心情,但它會導致你的新聞飼料是因為你的朋友的帖子不太積極和更多的負面。因此,在西雅圖的雨隨機操縱你的新聞飼料。談到這種直覺到一個可靠的統計方法是複雜的(和科維洛和他的同事使用的確切方法是有點不標準),所以我已經把更詳細的討論,在進一步閱讀的部分。最重要的是要記住的科維洛和他的同事的做法是,它使他們學習情緒傳染,而不需要進行實驗,它可能危害參與者,它可能是在其他許多設置,您可以替換其他實驗的情況下技術。

第二次在3盧比是瑞風 :研究者應努力改進他們的治療,以造成傷害最小的可能。例如,而不是阻止,這是正或負的內容,研究人員可能提高,這是正或負的內容。這提高設計會改變參與者的新聞聯播的情感內容,但它會解決的關心的問題之一評論家表示:該實驗可能造成參與者會錯過他們的新聞飼料的重要信息。由克萊默和他的同事使用的設計,一條消息,是很重要的是可能被阻止為一體,是沒有的。然而,用升壓的設計,這將被移位的消息將是那些不太重要。

最後,第三個R是減少 :研究者應尋求可能的話,以減少他們的實驗參與者的數量。在過去,這種減少自然發生由於模擬實驗的可變成本是高的,其中鼓勵研究來優化其設計和分析。然而,當存在零可變費用數據,研究人員不面對他們的實驗的大小成本約束,這具有導致不必要的大實驗的潛力。

例如,克萊默和同事也可以使用他們的參與者 - 例如預處理過帳前處理信息的行為,以使他們的分析更有效。更具體地,而不是比較在治療組和對照條件陽性字的比例,克萊默和同事可能比較的條件之間正詞語的比例的改變 ;一種方法通常被稱為差 - 在差異和其密切相關的,我的章節中前面描述的混合設計(圖4.5)。也就是說,對於每個參加者,研究人員可能已經創建了一個變化得分(治療後行為 - 預處理行為),然後比較參與者在治療和控制條件的變化分值。這種差異合的差異的方法是更有效的統計學上,這意味著,研究人員可以實現使用小得多的樣品相同的統計置信度。換句話說,通過不參與處理像“小工具”,研究人員往往能獲得更精確的估計。

而無需將原始數據是很難確切地知道如何更有效的差合的差異的方法將是在這種情況下。但是, Deng et al. (2013)報導,在Bing搜索引擎三個在線實驗中,他們能約50%,以減少他們的估計的方差,以及類似的結果已經報告在Netflix的一些在線實驗(Xie and Aurisset 2016)這50%的方差減少意味著情緒感染的研究人員可能已經能夠削減他們的樣本中的一半,如果他們用了一個稍微不同的分析方法。換句話說,在分析一個微小的變化,35萬人也許可以避免在參與實驗。

在這一點上,你可能會奇怪,為什麼研究者應該關心,如果35萬人均情緒感染不必要的。有跡象表明,讓過多的大小所關注的適當情緒感染的兩個特定的功能,而這些功能是由許多數字田間試驗共享:1)有對實驗是否會造成傷害,至少有一些參與者和2)參與是不確定性自主性。在具有這兩個特性的實驗似乎是可取的保持實驗盡可能小。

總之,三R's - 替換,優化,減少,提供的原則,可以幫助研究人員建立道德在他們的實驗設計。當然,每到情緒感染這些可能的變化引入了權衡。例如,從自然實驗的證據並不總是那樣乾淨的隨機試驗的證據和提高可能更後勤困難比塊來實現。所以,這表明這些改變的目的不是去猜測其他研究人員的決定。相反,它是來說明如何三個R的可以在一個實際的情況被應用。