5.2.2 Crowd-codage des manifestes politiques

Codage manifestes politiques, quelque chose de typiquement fait par des experts, peut être effectuée par un projet de calcul humain résultant en une plus grande reproductibilité et de flexibilité.

Semblable à Galaxy Zoo, il existe de nombreuses situations où les chercheurs sociaux veulent code, classifient ou étiquettent une image ou un morceau de texte. Un exemple de ce type de recherche est le codage des manifestes politiques. Pendant les élections, les partis politiques produisent des manifestes décrivant leurs positions politiques et directeurs philosophies. Par exemple, voici un morceau du manifeste du Parti travailliste en Grande-Bretagne à partir de 2010:

"Des millions de personnes qui travaillent dans nos services publics incarnent les meilleures valeurs de la Grande-Bretagne, en aidant l'autonomisation des gens à tirer le meilleur parti de leur propre vie tout en les protégeant contre les risques qu'ils ne devraient pas avoir à supporter leur propre chef. Tout comme nous devons être plus audacieux sur le rôle du gouvernement dans le fonctionnement des marchés assez, nous devons aussi être réformateurs audacieux de gouvernement ".

Ces manifestes contiennent des données précieuses pour les scientifiques politiques, notamment les élections qui étudient et la dynamique des débats politiques. Afin d'extraire systématiquement l' information de ces manifestes, les chercheurs ont créé le Projet Manifeste , qui a organisé des politologues pour coder 4000 manifestes de près de 1.000 partis dans 50 pays. Chaque phrase dans chaque manifeste a été codé par un expert en utilisant un schéma de 56 catégorie. Le résultat de cet effort de collaboration est un ensemble de données massif résumant l'information contenue dans ces manifestes, et cet ensemble de données a été utilisé dans plus de 200 articles scientifiques.

Kenneth Benoit et ses collègues (2015) ont décidé de prendre la tâche de codage manifeste qui avait déjà été réalisée par des experts et la transformer en un projet de calcul humain. En conséquence, ils ont créé un procédé de codage qui est plus reproductible et plus flexible, sans parler moins coûteux et plus rapide.

Travailler avec 18 manifestes générés au cours de six élections récentes au Royaume-Uni, Benoit et ses collègues ont utilisé le split-apply-combiner stratégie avec les travailleurs d'un marché du travail micro-tâches (Amazon Mechanical Turk et Crowdflower sont des exemples de marchés du travail micro-tâches; pour plus sur les marchés du travail des micro-tâches, voir le chapitre 4). Les chercheurs ont pris chacun manifeste et divisés en phrases. Ensuite, note humaine a été appliquée à chaque phrase. En particulier, si la phrase impliquait une déclaration de politique générale, il a été codé selon deux dimensions: économique (de gauche à très très à droite) et sociale (de libérale conservatrice) (Figure 5.5). Chaque phrase a été codée par environ 5 personnes différentes. Enfin, ces évaluations ont été combinées en utilisant un modèle statistique qui a représenté les deux effets RATER individuels et de la difficulté des effets de la peine. En tout, Benoit et ses collègues ont recueilli 200.000 notes provenant d'environ 1.500 travailleurs.

Figure 5.5: schéma de codage de Benoit et al. (2015) (figure 1).

Figure 5.5: schéma de codage de Benoit et al. (2015) (figure 1).

Afin d'évaluer la qualité du codage de la foule, Benoit et ses collègues ont également eu environ 10 experts-professeurs et étudiants diplômés en science politique à taux les mêmes manifestes en utilisant une procédure similaire. Bien que les évaluations des membres de la foule étaient plus variables que les évaluations des experts, le consensus note de la foule avait remarquable accord avec l'estimation d'experts de consensus (Figure 5.6). Cette comparaison montre que, comme avec Galaxy Zoo, les projets de calcul humains peuvent produire des résultats de haute qualité.

Figure 5.6: estimations d'experts (axe des x) et les estimations de la foule (axe y) étaient en accord remarquable lors du codage 18 manifestes des partis de la Grande-Bretagne (Benoit et al 2015).. Les manifestes codés étaient de trois partis politiques (conservateurs, travail, libéraux-démocrates) et six élections (1987, 1992, 1997, 2001, 2005, 2010).

Figure 5.6: estimations d' experts (axe des x) et les estimations de la foule (axe y) étaient en accord remarquable lors du codage 18 manifestes des partis de la Grande - Bretagne (Benoit et al. 2015) . Les manifestes codés étaient de trois partis politiques (conservateurs, travail, libéraux-démocrates) et six élections (1987, 1992, 1997, 2001, 2005, 2010).

Fort de ce résultat, Benoit et ses collègues ont utilisé leur système de foule codant pour faire des recherches qui était impossible avec le projet Manifeste. Par exemple, le projet de Manifeste n'a pas défini les manifestes sur le thème de l'immigration parce que cela n'a pas été un sujet saillant lorsque le schéma de codage a été développé au milieu des années 1980. Et, à ce stade, il est logistiquement infaisable pour le projet Manifeste pour revenir en arrière et re-coder leurs manifestes pour capturer ces informations. Par conséquent, il semblerait que les chercheurs intéressés à étudier la politique de l'immigration sont hors de la chance. Cependant, Benoit et ses collègues ont pu utiliser leur système de calcul humain pour faire ce codage-personnalisé à leur question de recherche-rapidement et facilement.

Afin d'étudier la politique d'immigration, ils ont codé les manifestes pour les huit partis à l'élection de 2010 en Grande-Bretagne. Chaque phrase dans chaque manifeste a été codé comme si elle liée à l'immigration, et si oui, si elle était favorable à l'immigration, neutre ou anti-immigration. Dans les 5 heures de lancement de leur projet, les résultats étaient. Ils avaient recueilli plus de 22.000 réponses à un coût total de 360 ​​$. En outre, les estimations de la foule ont montré remarquable accord avec une enquête antérieure d'experts. Puis, comme un test final, deux mois plus tard, les chercheurs ont reproduit leur public-codage. En quelques heures, ils avaient créé un nouvel ensemble de données de foule codées qui correspondent étroitement leur ensemble de données de foule codées d'origine. En d'autres termes, le calcul humain leur a permis de générer un codage de textes politiques qui étaient d'accord avec les évaluations d'experts et était reproductible. En outre, parce que le calcul humain était rapide et pas cher, il était facile pour eux de personnaliser leur collecte de données à leur question de recherche spécifique sur l'immigration.