5.2.2 đám đông-mã hóa của bản tuyên ngôn chính trị

Mã hóa bản tuyên ngôn chính trị, một cái gì đó thường được thực hiện bởi các chuyên gia, có thể được thực hiện bởi một dự án tính toán của con người dẫn đến khả năng tái hơn và linh hoạt.

Tương tự như Galaxy Zoo, có rất nhiều tình huống mà các nhà nghiên cứu xã hội muốn viết mã, phân loại hoặc gắn nhãn một hình ảnh hoặc một đoạn văn bản. Một ví dụ của loại nghiên cứu này là mã hóa các biểu hiện chính trị. Trong các cuộc bầu cử, các đảng chính trị tạo ra các biểu hiện mô tả các vị trí chính sách và triết lý hướng dẫn của họ. Ví dụ, đây là một bản tuyên ngôn của Đảng Lao động tại Vương quốc Anh từ năm 2010:

"Hàng triệu người làm việc trong các dịch vụ công cộng của chúng tôi là hiện thân của những giá trị tốt nhất của Anh, giúp trao quyền cho người dân để làm cho hầu hết cuộc sống của mình trong khi bảo vệ họ khỏi những rủi ro mà họ không cần phải chịu đựng một mình. Cũng như chúng ta cần phải mạnh bạo hơn về vai trò của chính phủ trong việc đưa ra thị trường làm việc công bằng, chúng ta cũng cần phải được cải cách táo bạo của chính phủ. "

Những biểu hiện này chứa dữ liệu có giá trị cho các nhà khoa học chính trị, đặc biệt là những nghiên cứu về bầu cử và động lực của các cuộc tranh luận chính sách. Để trích xuất một cách có hệ thống thông tin từ các biểu hiện này, các nhà nghiên cứu đã tạo ra Dự án Manifesto, thu thập 4.000 bản tuyên ngôn từ gần 1.000 đảng ở 50 quốc gia và sau đó tổ chức các nhà khoa học chính trị để mã hóa chúng một cách có hệ thống. Mỗi câu trong mỗi tuyên ngôn được mã hóa bởi một chuyên gia sử dụng lược đồ 56 loại. Kết quả của nỗ lực hợp tác này là một tập dữ liệu khổng lồ tóm tắt thông tin được nhúng trong các tệp kê khai này và tập dữ liệu này đã được sử dụng trong hơn 200 bài báo khoa học.

Kenneth Benoit và các đồng nghiệp (2016) đã quyết định thực hiện nhiệm vụ mã hóa tuyên ngôn đã được các chuyên gia thực hiện trước đó và biến nó thành một dự án tính toán của con người. Kết quả là, họ đã tạo ra một quy trình mã hóa có khả năng tái sản xuất và linh hoạt hơn, chưa kể đến rẻ hơn và nhanh hơn.

Làm việc với 18 manifestos được tạo ra trong sáu cuộc bầu cử gần đây tại Vương quốc Anh, Benoit và các cộng sự đã sử dụng chiến lược kết hợp phân chia áp dụng với công nhân từ thị trường lao động microtask (Amazon Mechanical Turk và CrowdFlower là ví dụ về thị trường lao động microtask; , xem Chương 4). Các nhà nghiên cứu lấy từng bản tuyên ngôn và chia nó thành câu. Tiếp theo, một người áp dụng lược đồ mã hóa cho mỗi câu. Đặc biệt, người đọc được yêu cầu phân loại từng câu như đề cập đến chính sách kinh tế (trái hoặc phải), chính sách xã hội (tự do hoặc bảo thủ), hoặc không (hình 5.5). Mỗi câu được viết bởi khoảng năm người khác nhau. Cuối cùng, các xếp hạng này được kết hợp bằng cách sử dụng một mô hình thống kê tính cả hiệu ứng của từng cá nhân và hiệu ứng khó khăn của câu. Tổng cộng, Benoit và các đồng nghiệp đã thu thập 200.000 xếp hạng từ khoảng 1.500 người.

Hình 5.5: Lược đồ mã hóa từ Benoit et al. (2016). Người đọc được yêu cầu phân loại từng câu như đề cập đến chính sách kinh tế (trái hoặc phải), với chính sách xã hội (tự do hoặc bảo thủ), hoặc cho cả hai. Chuyển thể từ Benoit et al. (2016), hình 1.

Hình 5.5: Lược đồ mã hóa từ Benoit et al. (2016) . Người đọc được yêu cầu phân loại từng câu như đề cập đến chính sách kinh tế (trái hoặc phải), với chính sách xã hội (tự do hoặc bảo thủ), hoặc cho cả hai. Chuyển thể từ Benoit et al. (2016) , hình 1.

Để đánh giá chất lượng của mã hóa đám đông, Benoit và các đồng nghiệp cũng có khoảng 10 chuyên gia - giáo sư và sinh viên cao học về khoa học chính trị - đánh giá cùng một biểu hiện bằng cách sử dụng một quy trình tương tự. Mặc dù xếp hạng từ các thành viên của đám đông thay đổi nhiều hơn so với xếp hạng của các chuyên gia, xếp hạng đám đông đồng thuận đã có sự đồng thuận đáng kể với xếp hạng của chuyên gia đồng thuận (hình 5.6). So sánh này cho thấy, giống như Galaxy Zoo, các dự án tính toán con người có thể tạo ra kết quả chất lượng cao.

Hình 5.6: Ước tính của chuyên gia (trục x) và ước tính đám đông (trục y) đã được thỏa thuận đáng kể khi mã hóa 18 biểu hiện của bên từ Vương quốc Anh (Benoit et al. 2016). Các bản kê khai được lấy từ ba đảng chính trị (đảng Bảo thủ, Lao động và Dân chủ Tự do) và sáu cuộc bầu cử (1987, 1992, 1997, 2001, 2005, và 2010). Chuyển thể từ Benoit et al. (2016), hình 3.

Hình 5.6: Các ước tính của chuyên gia ( \(x\) -axis) và ước tính đám đông ( \(y\) -axis) đã được thỏa thuận đáng kể khi mã hóa 18 biểu hiện bên từ Vương quốc Anh (Benoit et al. 2016) . Các bản kê khai được lấy từ ba đảng chính trị (đảng Bảo thủ, Lao động và Dân chủ Tự do) và sáu cuộc bầu cử (1987, 1992, 1997, 2001, 2005, và 2010). Chuyển thể từ Benoit et al. (2016) , hình 3.

Xây dựng trên kết quả này, Benoit và các đồng nghiệp đã sử dụng hệ thống mã hóa đám đông của họ để thực hiện nghiên cứu không thể với hệ thống mã hóa do chuyên gia chạy bởi Dự án Tuyên ngôn. Ví dụ, Dự án Tuyên ngôn đã không mã hóa các biểu hiện về chủ đề nhập cư vì đó không phải là một chủ đề nổi bật khi kế hoạch mã hóa được phát triển vào giữa những năm 1980. Và, tại thời điểm này, nó là không thể truy cập được cho Dự án Tuyên ngôn để quay trở lại và recode manifestos của họ để nắm bắt thông tin này. Do đó, nó sẽ xuất hiện mà các nhà nghiên cứu quan tâm đến nghiên cứu chính trị của nhập cư là ra khỏi may mắn. Tuy nhiên, Benoit và các đồng nghiệp đã có thể sử dụng hệ thống tính toán của con người để thực hiện việc mã hóa này - tùy chỉnh cho câu hỏi nghiên cứu của họ — nhanh chóng và dễ dàng.

Để nghiên cứu chính sách nhập cư, họ đã mã hóa các biểu hiện cho tám đảng trong cuộc tổng tuyển cử năm 2010 tại Vương quốc Anh. Mỗi câu trong mỗi tuyên ngôn được mã hóa là liệu nó có liên quan đến nhập cư hay không, và nếu có, cho dù đó là nhập cư, trung lập hay chống nhập cư. Trong vòng 5 giờ sau khi tung ra dự án, kết quả đã được thu thập. Họ đã thu thập được hơn 22.000 câu trả lời với tổng chi phí là 360 đô la. Hơn nữa, các ước tính từ đám đông cho thấy thỏa thuận đáng chú ý với một cuộc khảo sát trước đó của các chuyên gia. Sau đó, như là một thử nghiệm cuối cùng, hai tháng sau, các nhà nghiên cứu sao chép mã hóa đám đông của họ. Trong vòng vài giờ, họ đã tạo ra một tập dữ liệu được mã hóa đám đông mới phù hợp chặt chẽ với tập dữ liệu được mã hóa ban đầu của họ. Nói cách khác, tính toán con người cho phép họ tạo ra mã hóa các văn bản chính trị đã đồng ý với các đánh giá của chuyên gia và có thể tái sản xuất được. Hơn nữa, vì tính toán của con người nhanh và rẻ, nên họ dễ dàng tùy chỉnh bộ sưu tập dữ liệu của họ cho câu hỏi nghiên cứu cụ thể về nhập cư.