5.2.2 Crowd-codage des manifestes politiques

Codage manifestes politiques, quelque chose de typiquement fait par des experts, peut être effectuée par un projet de calcul humain résultant en une plus grande reproductibilité et de flexibilité.

Semblable à Galaxy Zoo, il existe de nombreuses situations où les chercheurs en sciences sociales veulent coder, classer ou étiqueter une image ou un morceau de texte. Un exemple de ce type de recherche est le codage des manifestes politiques. Pendant les élections, les partis politiques produisent des manifestes décrivant leurs positions politiques et philosophies directrices. Par exemple, voici un extrait du manifeste du Parti travailliste au Royaume-Uni à partir de 2010:

"Des millions de personnes qui travaillent dans nos services publics incarnent les meilleures valeurs de la Grande-Bretagne, en aidant l'autonomisation des gens à tirer le meilleur parti de leur propre vie tout en les protégeant contre les risques qu'ils ne devraient pas avoir à supporter leur propre chef. Tout comme nous devons être plus audacieux sur le rôle du gouvernement dans le fonctionnement des marchés assez, nous devons aussi être réformateurs audacieux de gouvernement ".

Ces manifestes contiennent des données précieuses pour les politologues, en particulier ceux qui étudient les élections et la dynamique des débats politiques. Afin d'extraire systématiquement des informations de ces manifestes, les chercheurs ont créé le Manifesto Project, qui a rassemblé 4 000 manifestes de près de 1 000 partis dans 50 pays, puis organisé des politologues pour les coder systématiquement. Chaque phrase de chaque manifeste a été codée par un expert utilisant un schéma de 56 catégories. Le résultat de cet effort de collaboration est un ensemble de données massif résumant les informations contenues dans ces manifestes, et cet ensemble de données a été utilisé dans plus de 200 articles scientifiques.

Kenneth Benoit et ses collègues (2016) décidé de prendre la tâche de codage du manifeste qui avait été précédemment effectuée par des experts et de la transformer en un projet de calcul humain. En conséquence, ils ont créé un processus de codage plus reproductible et plus flexible, sans parler d'un coût moins élevé et plus rapide.

Travaillant avec 18 manifestes générés lors de six élections récentes au Royaume-Uni, Benoit et ses collègues ont utilisé la stratégie split-apply-combine avec des travailleurs d'un marché du travail microtask (Amazon Mechanical Turk et CrowdFlower sont des exemples de marchés du travail , voir le chapitre 4). Les chercheurs ont pris chaque manifeste et l'ont divisé en phrases. Ensuite, une personne a appliqué le schéma de codage à chaque phrase. En particulier, les lecteurs ont été invités à classer chaque phrase comme se référant à la politique économique (gauche ou droite), à ​​la politique sociale (libérale ou conservatrice), ou à aucune des deux (figure 5.5). Chaque phrase a été codée par environ cinq personnes différentes. Enfin, ces cotes ont été combinées à l' aide d'un modèle statistique qui tenait compte à la fois des effets de l'évaluateur individuel et de l'effet de la peine. Au total, Benoit et ses collègues ont recueilli 200 000 évaluations auprès d'environ 1 500 personnes.

Figure 5.5: Schéma de codification de Benoit et al. (2016). Les lecteurs ont été invités à classer chaque phrase comme se référant à la politique économique (gauche ou droite), à ​​la politique sociale (libérale ou conservatrice), ou à aucune des deux. Adapté de Benoit et al. (2016), figure 1.

Figure 5.5: Schéma de codification de Benoit et al. (2016) . Les lecteurs ont été invités à classer chaque phrase comme se référant à la politique économique (gauche ou droite), à ​​la politique sociale (libérale ou conservatrice), ou à aucune des deux. Adapté de Benoit et al. (2016) , figure 1.

Afin d'évaluer la qualité du codage de la foule, Benoit et ses collègues ont également eu environ 10 experts-professeurs et étudiants diplômés en science politique-noter les mêmes manifestes en utilisant une procédure similaire. Bien que les notes des membres de la foule aient été plus variables que les notes des experts, la note de la foule consensus a été remarquablement d'accord avec la note d'expert par consensus (figure 5.6). Cette comparaison montre que, comme avec Galaxy Zoo, les projets de calcul humain peuvent produire des résultats de haute qualité.

Figure 5.6: Les estimations d'experts (axe des x) et les estimations des foules (axe des y) étaient remarquablement concordantes lors du codage de 18 manifestes de partis du Royaume-Uni (Benoit et al., 2016). Les manifestes codés provenaient de trois partis politiques (conservateurs, travaillistes et libéraux démocrates) et de six élections (1987, 1992, 1997, 2001, 2005 et 2010). Adapté de Benoit et al. (2016), figure 3.

Figure 5.6: Les estimations d'experts ( \(x\) -axis) et les estimations de foule ( \(y\) -axis) étaient remarquablement concordantes lors du codage de 18 manifestes de partis du Royaume-Uni (Benoit et al. 2016) . Les manifestes codés provenaient de trois partis politiques (conservateurs, travaillistes et libéraux démocrates) et de six élections (1987, 1992, 1997, 2001, 2005 et 2010). Adapté de Benoit et al. (2016) , figure 3.

Fort de ce résultat, Benoit et ses collègues ont utilisé leur système de codage de foule pour faire des recherches qui étaient impossibles avec le système de codage géré par des experts utilisé par le Projet Manifeste. Par exemple, le Manifeste n'a pas codé les manifestes sur le thème de l'immigration parce que ce n'était pas un sujet saillant lorsque le système de codage a été mis au point au milieu des années 1980. Et, à ce stade, il est logistiquement impossible pour le Projet Manifeste de revenir en arrière et de recoder leurs manifestes pour capturer cette information. Par conséquent, il semblerait que les chercheurs intéressés par l'étude de la politique de l'immigration n'aient pas de chance. Cependant, Benoit et ses collègues ont pu utiliser leur système de calcul humain pour faire ce codage - adapté à leur question de recherche - rapidement et facilement.

Afin d'étudier la politique d'immigration, ils ont codé les manifestes de huit partis lors des élections générales de 2010 au Royaume-Uni. Chaque phrase de chaque manifeste était codée pour savoir si elle était liée à l'immigration et, dans l'affirmative, si elle était favorable à l'immigration, neutre ou anti-immigration. Dans les cinq heures suivant le lancement de leur projet, les résultats étaient connus. Ils avaient recueilli plus de 22 000 réponses pour un coût total de 360 ​​$. En outre, les estimations de la foule ont montré un accord remarquable avec une enquête antérieure d'experts. Ensuite, en tant que test final, deux mois plus tard, les chercheurs ont reproduit leur code de foule. En l'espace de quelques heures, ils ont créé un nouveau jeu de données codées en fonction de la foule qui correspond étroitement à leur ensemble de données initial codé en foule. En d'autres termes, le calcul humain leur a permis de générer un codage de textes politiques en accord avec les évaluations d'experts et reproductible. De plus, comme le calcul humain était rapide et bon marché, il leur était facile de personnaliser leur collecte de données en fonction de leur question de recherche spécifique sur l'immigration.