5.2.2 Crowd-codificación dos manifestos políticos

Codificación manifestos políticos, algo tipicamente realizada por expertos, pode ser realizada por un proxecto de computación humana obtendo maior reproducibilidade e flexibilidade.

Similar ao Galaxy Zoo, hai moitas situacións nas que os investigadores sociais queren codificar, clasificar ou etiquetar unha imaxe ou un fragmento de texto. Un exemplo deste tipo de investigación é a codificación de manifestos políticos. Durante as eleccións, os partidos políticos producen manifestos que describen as súas posicións políticas e guían filosofías. Por exemplo, aquí hai unha peza do manifesto do Partido Laborista no Reino Unido a partir de 2010:

"Millóns de persoas que traballan nos nosos servizos públicos incorporan os mellores valores de Gran Bretaña, axudando capacitar as persoas para facer o máximo das súas propias vidas, protexendo os contra os riscos que non deberían ter que soportar por conta propia. Así como necesitamos ser máis ousado sobre o papel do goberno en facer os mercados funcionan axeitadamente, necesitamos ser reformadores ousadas do goberno. "

Estes manifestos conteñen datos valiosos para os científicos políticos, especialmente os que estudan eleccións e as dinámicas dos debates políticos. Para extraer a información de forma sistemática a partir destes manifestos, os investigadores crearon o Proxecto Manifesto, que recolleron 4.000 manifestos de case 1.000 partidos en 50 países e logo organizaron os científicos políticos para codificalos sistematicamente. Cada frase en cada manifesto foi codificada por un experto usando un esquema de 56 categorías. O resultado deste esforzo de colaboración é un conxunto de datos masivo que resume a información integrada nestes manifestos, e este conxunto de datos foi utilizado en máis de 200 artigos científicos.

Kenneth Benoit e colegas (2016) decidiron levar a cabo o traballo de codificación de manifesto que anteriormente realizaran os expertos e convertelo nun proxecto de computación humano. Como resultado, crearon un proceso de codificación máis reproducible e flexible, por non dicir máis barato e máis rápido.

Traballando con 18 manifestos xerados durante seis últimas eleccións no Reino Unido, Benoit e os seus colegas utilizaron a estratexia de combinación dividida-aplicada con traballadores dun mercado laboral de microondas (Amazon Mechanical Turk e CrowdFlower son exemplos de mercados de traballo de microondas, para máis en tales mercados ver o capítulo 4). Os investigadores tomaron cada manifesto e dividírono en frases. A continuación, unha persoa aplicou o esquema de codificación a cada frase. En particular, pedíuselle aos lectores que clasifiquen cada frase como referente á política económica (esquerda ou dereita), á política social (liberal ou conservadora), ou a ningún dos dous (figura 5.5). Cada frase foi codificada por preto de cinco persoas diferentes. Finalmente, estas clasificacións combináronse utilizando un modelo estatístico que representaba tanto efectos individuais como efectos de dificultade de oración. En total, Benoit e os seus colegas recolleron 200.000 clasificacións de aproximadamente 1.500 persoas.

Figura 5.5: Esquema de codificación de Benoit et al. (2016). Os lectores pediron que clasificar cada frase como referente á política económica (esquerda ou dereita), á política social (liberal ou conservadora), ou a ningún dos dous. Adaptado de Benoit et al. (2016), figura 1.

Figura 5.5: Esquema de codificación de Benoit et al. (2016) . Os lectores pediron que clasificar cada frase como referente á política económica (esquerda ou dereita), á política social (liberal ou conservadora), ou a ningún dos dous. Adaptado de Benoit et al. (2016) , figura 1.

Para evaluar a calidade da codificación da multitude, Benoit e os colegas tamén tiñan preto de 10 expertos-profesores e estudantes de posgrao en ciencia política-valoran os mesmos manifestos usando un procedemento similar. Aínda que as cualificacións dos membros da multitude eran máis variables que as cualificacións dos expertos, o rating de consenso alcanzou notable acordo coa cualificación de consenso (figura 5.6). Esta comparación mostra que, como no Galaxy Zoo, os proxectos de cálculo humano poden producir resultados de alta calidade.

Figura 5.6: As estimacións de expertos (eixe x) e as estimacións de multitudes (eixo y) foron de notable acordo ao codificar 18 manifestacións do partido do Reino Unido (Benoit et al., 2016). Os manifestos codificados eran de tres partidos políticos (conservadores, obreiros e demócratas liberais) e seis eleccións (1987, 1992, 1997, 2001, 2005 e 2010). Adaptado de Benoit et al. (2016), figura 3.

Figura 5.6: As estimacións de expertos ( \(x\) -axis) e as estimacións de multitudes ( \(y\) -axis) foron de notable acordo ao codificar 18 manifestacións do partido do Reino Unido (Benoit et al. 2016) . Os manifestos codificados eran de tres partidos políticos (conservadores, obreiros e demócratas liberais) e seis eleccións (1987, 1992, 1997, 2001, 2005 e 2010). Adaptado de Benoit et al. (2016) , figura 3.

Baseándose neste resultado, Benoit e os seus compañeiros utilizaron o seu sistema de codificación multitude para realizar investigacións imposibles co sistema de codificación de expertos empregado polo Proxecto Manifesto. Por exemplo, o Proxecto Manifesto non codificou os manifestos sobre o tema da inmigración porque este non era un tema destacado cando o esquema de codificación desenvolveuse a mediados dos anos oitenta. E, neste punto, é logísticamente infeável para que o Proxecto Manifesto volva e recode os seus manifestos para capturar esta información. Por iso, parece que os investigadores interesados ​​en estudar a política da inmigración están fóra de sorte. Non obstante, Benoit e os seus colegas puideron usar o seu sistema de computación humana para facer isto codificado personalizado á súa pregunta de investigación: de xeito rápido e sinxelo.

Para estudar a política de inmigración, codificaron os manifestos para oito partidos nas eleccións xerais de 2010 no Reino Unido. Cada frase en cada manifesto foi codificada en canto a si relacionada coa inmigración e, se é así, se se trataba da inmigración, a neutralidade ou a inmigración. No prazo de 5 horas do lanzamento do seu proxecto, estaban os resultados. Recolleron máis de 22.000 respostas cun custo total de 360 ​​dólares. Ademais, as estimacións da multitude mostraron un notable acordo cunha enquisa previa de expertos. Entón, como proba final, dous meses despois, os investigadores reproduciron a súa multitude de codificación. Dentro dunhas horas, crearon un novo conxunto de datos codificados por multitudes que combinaron de cerca o seu conxunto orixinal de datos multitude. Noutras palabras, a computación humana permitiulles xerar codificación de textos políticos que coincidían con avaliacións de expertos e era reproducible. Ademais, porque a computación humana era rápida e barata, era fácil para eles personalizar a súa recollida de datos á súa pregunta de investigación específica sobre a inmigración.