5.2.2 Crowd-koding av politiske manifester

Coding politiske manifester, noe vanligvis gjort av eksperter, kan utføres av en menneskelig beregning prosjekt som resulterer i større reproduserbarhet og fleksibilitet.

I likhet med Galaxy Zoo er det mange situasjoner hvor sosiale forskere vil kode, klassifisere eller merke et bilde eller tekststykke. Et eksempel på denne typen forskning er kodingen av politiske manifester. Under valg produserer politiske partier manifester som beskriver deres politiske stillinger og veileder filosofier. For eksempel er her et parti av Arbeiderpartiets manifest i Storbritannia fra 2010:

"Millioner av mennesker som jobber i våre offentlige tjenester legemliggjøre de beste verdiene i Storbritannia, bidrar hjelpe mennesker til å få mest mulig ut av sitt eget liv mens beskytte dem mot farer de ikke bør ha for å bære på egen hånd. Akkurat som vi trenger å være dristigere om statens rolle i å gjøre markedene fungerer ganske, trenger vi også å være dristige reformatorer av regjeringen. "

Disse manifestene inneholder verdifulle data for politiske forskere, særlig de som studerer valg og dynamikken i politiske debatter. For å systematisk trekke ut informasjon fra disse manifestene, skapte forskere The Manifesto Project, som samlet 4000 manifest fra nesten 1000 partier i 50 land og deretter organisert politiske forskere for systematisk å kode dem. Hver setning i hvert manifest ble kodet av en ekspert ved hjelp av en 56-kategori-skjema. Resultatet av denne samarbeidsprosessen er et massivt datasett som sammenfatter informasjonen som er innebygd i disse manifestene, og dette datasettet har blitt brukt i mer enn 200 vitenskapelige artikler.

Kenneth Benoit og kollegaer (2016) bestemte seg for å ta manifestkodingsoppgaven som tidligere hadde blitt utført av eksperter og gjøre det til et menneskelig beregningsprosjekt. Som et resultat opprettet de en kodingsprosess som er mer reproduserbar og mer fleksibel, for ikke å nevne billigere og raskere.

Benoit og kollegaer jobbet med 18 manifester generert under seks nyligvalgte valg i Storbritannia. Benoit og kollegaer brukte splitt-søk-kombinere strategi med arbeidere fra et mikrotask arbeidsmarked (Amazon Mechanical Turk og CrowdFlower er eksempler på mikrotask arbeidsmarkeder, for mer på slike markeder , se kapittel 4). Forskerne tok hvert manifest og splittet det i setninger. Deretter en person søkt koding ordningen til hver setning. Spesielt ble leserne bedt om å klassifisere hver setning som referanse til økonomisk politikk (venstre eller høyre), til sosialpolitikk (liberal eller konservativ), eller til ingen av dem (figur 5.5). Hver setning ble kodet av omtrent fem forskjellige personer. Til slutt ble disse vurderingene kombinert ved hjelp av en statistisk modell som utgjorde både individuelle rater effekter og vanskelighetsgrad. I alt samlet Benoit og kolleger 200 000 rangeringer fra rundt 1500 personer.

Figur 5.5: Kodingsskjema fra Benoit et al. (2016). Leserne ble bedt om å klassifisere hver setning som referanse til økonomisk politikk (venstre eller høyre), til sosialpolitikk (liberal eller konservativ), eller til verken. Tilpasset fra Benoit et al. (2016), figur 1.

Figur 5.5: Kodingsskjema fra Benoit et al. (2016) . Leserne ble bedt om å klassifisere hver setning som referanse til økonomisk politikk (venstre eller høyre), til sosialpolitikk (liberal eller konservativ), eller til verken. Tilpasset fra Benoit et al. (2016) , figur 1.

For å kunne vurdere kvaliteten på mengden koding hadde Benoit og kollegaer også rundt 10 eksperter-professorer og studenter i statsvitenskap - vurdere de samme manifestene ved hjelp av en lignende prosedyre. Selv om klassifiseringen fra medlemmer av mengden var mer variabel enn karakteristikkene fra ekspertene, hadde konsensusmengdenes vurdering en bemerkelsesverdig avtale med konsensus-ekspertvurderingen (figur 5.6). Denne sammenligningen viser at, som med Galaxy Zoo, kan menneskelige beregningsprosjekter produsere resultater av høy kvalitet.

Figur 5.6: Ekspertestimater (x-akse) og mengdeestimater (y-akse) var i bemerkelsesverdig avtale ved koding av 18 partifag fra Storbritannia (Benoit et al. 2016). Manifestene kodet var fra tre politiske partier (konservative, arbeidskraft og liberale demokrater) og seks valg (1987, 1992, 1997, 2001, 2005 og 2010). Tilpasset fra Benoit et al. (2016), figur 3.

Figur 5.6: Ekspertestimater ( \(x\) -aks) og mengdeestimater ( \(y\) -aks) var i bemerkelsesverdig avtale når man kodet 18 partifordeler fra Storbritannia (Benoit et al. 2016) . Manifestene kodet var fra tre politiske partier (konservative, arbeidskraft og liberale demokrater) og seks valg (1987, 1992, 1997, 2001, 2005 og 2010). Tilpasset fra Benoit et al. (2016) , figur 3.

Basert på dette resultatet brukte Benoit og kolleger sitt publikum-kodingssystem for å gjøre forskning som var umulig med ekspertkjøringssystemet som ble brukt av Manifesto Project. Manifestprosjektet har for eksempel ikke kalt manifestene om emnet immigrasjon fordi det ikke var et fremtredende tema da kodingsordningen ble utviklet i midten av 1980-tallet. Og på dette tidspunktet er det logistisk umulig for manifestprosjektet å gå tilbake og omkode sine manifester for å fange denne informasjonen. Derfor ser det ut til at forskere som er interessert i å studere innvandringspolitikken, er ute av lykke. Imidlertid var Benoit og kollegaer i stand til å bruke sitt menneskelige beregningssystem for å gjøre dette koding-tilpasset sitt forskningsspørsmål raskt og enkelt.

For å studere innvandringspolitikken kodet de manifestene for åtte parter i 2010-valget i Storbritannia. Hver setning i hvert manifest var kodet for om det var knyttet til innvandring, og i så fall, om det var innvandring, nøytral eller anti-innvandring. Innen 5 timer etter lanseringen av prosjektet, var resultatene inne. De hadde samlet mer enn 22.000 svar til en total kostnad på $ 360. Videre viste estimatene fra mengden en bemerkelsesverdig avtale med en tidligere undersøkelse av eksperter. Så, som en sluttprøve, to måneder senere reproduserte forskerne sin mengdekoding. Innen noen få timer hadde de opprettet et nytt publikumskodet datasett som tett matchet deres opprinnelige mengdekodede datasett. Med andre ord gjorde menneskelig beregning dem til å generere koding av politiske tekster som ble avtalt med ekspertvurderinger og var reproducerbar. Videre, fordi menneskelig beregning var rask og billig, var det enkelt for dem å tilpasse datainnsamlingen til deres spesifikke forskningsspørsmål om innvandring.