5.2.2政治宣言的人群編碼

編碼政治宣言,一些通常由專家完成的,可以通過產生更大的再現性和柔軟性的人計算項目來執行。

與Galaxy Zoo類似,社交研究人員希望對圖像或文本進行編碼,分類或標記。這種研究的一個例子是政治宣言的編碼。在選舉期間,政黨製作宣言,描述其政策立場和指導思想。例如,這是2010年英國工黨的一份宣言:

“數以百萬計的人在我們的公共服務工作體現英國的最佳值,從而有助於使人們充分利用他們自己的生活,同時保護他們免受他們不應該承擔自己的風險。正如我們需要有關政府在使市場公平工作中的作用更大膽,我們還需要政府的大膽改革。“

這些宣言包含政治科學家的寶貴數據,特別是那些研究選舉和政策辯論動態的人。為了系統地從這些宣言中提取信息,研究人員創建了“宣言”項目,該項目從50個國家的近1,000個政黨收集了4,000份宣言,然後組織政治科學家對其進行系統編碼。每個宣言中的每個句子都由專家使用56類方案編碼。這項合作努力的結果是一個大型數據集,總結了這些宣言中嵌入的信息,該數據集已被用於200多篇科學論文。

Kenneth Benoit及其同事(2016)決定採用先前由專家執行的宣言編碼任務,並將其轉變為人類計算項目。結果,他們創建了一個更可重複且更靈活的編碼過程,更不用說更便宜和更快。

Benoit及其同事在英國最近六次選舉期間產生的18份宣言中使用了分組 - 應用 - 聯合策略與來自微任務勞動力市場的工人(亞馬遜機械土耳其人和CrowdFlower)是微任務勞動力市場的例子;更多關於此類市場,見第4章)。研究人員把每一個宣言,把它分解成句子。接下來,一個人應用的編碼方案到每個句子。特別是,讀者被要求將每個句子分類為經濟政策(左或右),社會政策(自由主義或保守主義)或兩者(圖5.5)。每個句子由大約五個不同的人編碼。最後,這些評級使用統計模型進行組合 ,該模型考慮了個人評估者效果和句子難度效應。總而言之,Benoit及其同事從大約1,500人那裡收集了200,000個評級。

圖5.5:Benoit等人的編碼方案。 (2016)。讀者被要求將每個句子分類為經濟政策(左或右),社會政策(自由主義或保守主義),或兩者都沒有。改編自Benoit等人。 (2016),圖1。

圖5.5: Benoit et al. (2016)編碼方案Benoit et al. (2016) 。讀者被要求將每個句子分類為經濟政策(左或右),社會政策(自由主義或保守主義),或兩者都沒有。改編自Benoit et al. (2016) ,圖1。

為了評估人群編碼的質量,Benoit及其同事還有大約10名政治學專家教授和研究生 - 使用類似的程序對相同的宣言進行評分。雖然人群成員的評級比專家評級更為可變,但一致的人群評級與共識專家評級非常一致(圖5.6)。這種比較表明,與Galaxy Zoo一樣,人類計算項目可以產生高質量的結果。

圖5.6:當編寫來自英國的18個黨派宣言時,專家估計(x軸)和人群估計(y軸)非常一致(Benoit等人,2016)。編寫的宣言來自三個政黨(保守黨,工黨和自由民主黨)和六個選舉(1987年,1992年,1997年,2001年,2005年和2010年)。改編自Benoit等人。 (2016),圖3。

圖5.6:在編寫來自英國的18個黨派宣言時,專家估計( \(x\) axis)和人群估計( \(y\) axis)非常一致(Benoit et al. 2016) 。編寫的宣言來自三個政黨(保守黨,工黨和自由民主黨)和六個選舉(1987年,1992年,1997年,2001年,2005年和2010年)。改編自Benoit et al. (2016) ,圖3。

在此結果的基礎上,Benoit及其同事使用他們的人群編碼系統進行研究,這是使用Manifesto項目使用的專家運行編碼系統所不可能完成的。例如,“宣言”項目沒有對移民問題的宣言進行編碼,因為當編碼方案是在20世紀80年代中期開發時,這不是一個突出的主題。而且,在這一點上,“宣言”項目在邏輯上是不可行的,可以返回並重新編寫其宣言以捕獲這些信息。因此,似乎對研究移民政治感興趣的研究人員運氣不佳。然而,Benoit及其同事能夠使用他們的人工計算系統來快速,輕鬆地對他們的研究問題進行編碼定制。

為了研究移民政策,他們在2010年英國大選中編寫了八方的宣言。每份宣言中的每一句話都被編碼為是否與移民有關,如果是,則是否為移民,中立或反移民。在啟動他們的項目後的5個小時內,結果就出現了。他們收集了超過22,000份回复,總費用為360美元。此外,人群的估計顯示與先前的專家調查顯著一致。然後,作為最後的測試,兩個月後,研究人員再現了他們的人群編碼。在幾個小時內,他們創建了一個新的人群編碼數據集,與其原始的人群編碼數據集緊密匹配。換句話說,人類計算使他們能夠生成與專家評估一致且具有可再現性的政治文本編碼。此外,由於人工計算快速而便宜,因此他們很容易根據他們關於移民的具體研究問題定制他們的數據收集。