3.6.2 Beriket forlangende

Selv om det kan være rotete, kan beriket forlangende være kraftig.

En annen tilnærming til å håndtere den ufullstendig av digitale spor data er å berike det direkte med surveydata, en prosess som jeg vil kalle beriket forlangende. Et eksempel på beriket forlangende er studiet av Burke and Kraut (2014) , som jeg beskrev tidligere i kapitlet (avsnitt 3.2), om hvorvidt samspill på Facebook øker vennskap styrke. I så fall, Burke og Kraut kombinert måledata med Facebook loggdata.

Innstillingen som Burke og Kraut jobbet i, men mente at de ikke trenger å forholde seg til to store problemer som forskere gjør beriket spørre ansikt. Først faktisk knytte sammen datasettene-en prosess som kalles rekord kobling, matching av en post i en datasettet med den aktuelle posten i det andre datasettet-kan være vanskelig og utsatt for feil (vi vil se et eksempel på dette problemet nedenfor ). Det andre hovedproblem av anriket spør er at kvaliteten på de digitale spor vil ofte være vanskelig for forskere å vurdere. For eksempel, noen ganger prosessen der det samles inn er proprietær og kan være utsatt for mange av de problemene som er beskrevet i kapittel 2. Med andre ord, vil beriket spør ofte innebære utsatt for feil linking av undersøkelsene til svart boks datakilder ukjent kvalitet. Til tross for bekymring for at disse to problemene innføre, er det mulig å gjennomføre viktig forskning med denne strategien som ble demonstrert av Stephen Ansolabehere og Eitan Hersh (2012) i sin forskning på stemmemønstre i USA. Det er verdt å gå over denne studien i detalj fordi mange av de strategier som Ansolabehere og Hersh utviklet vil være nyttig i andre anvendelser av anriket forlangende.

Valgdeltakelsen har vært gjenstand for omfattende forskning i statsvitenskap, og i det siste, forskernes forståelse av som stemmer og hvorfor har generelt vært basert på analyse av surveydata. Stemmegivning i USA, derimot, er en uvanlig oppførsel i at regjeringen poster om hver borger har stemt (selvfølgelig, regjeringen tar ikke opp som på hver borger stemmer for). For mange år, disse statlige stemme postene var tilgjengelig på papirskjema, spredt i ulike lokale offentlige kontorer rundt om i landet. Dette gjorde det vanskelig, men ikke umulig, for statsvitere å ha et fullstendig bilde av velgerne og å sammenligne hva folk sier i undersøkelser om stemmegivning til deres faktiske stemmegivningen (Ansolabehere and Hersh 2012) .

Men, nå er disse stemmerett rekorder har blitt digitalisert, og en rekke private selskaper har systematisk samlet inn og slått sammen disse stemme postene til å produsere omfattende mester stemmefiler som registrerer stemmegivningen oppførsel av alle amerikanere. Ansolabehere og Hersh samarbeider med en av disse selskapene-Catalist LCC-in for å kunne bruke sin herre stemme fil for å bidra til å utvikle et bedre bilde av velgerne. Videre, fordi det støttet seg på digitale registre innsamlet og kuratert av et selskap, det tilbys en rekke fordeler i forhold til tidligere innsats fra forskere som hadde blitt gjort uten hjelp av selskaper og bruk av analoge plater.

Som mange av de digitale spor kilder i kapittel 2, gjorde Catalist hovedfilen ikke inneholder mye av den demografiske, holdnings, og atferdsmessige informasjon som Ansolabehere og Hersh nødvendig. I tillegg til denne informasjonen, Ansolabehere og Hersh var spesielt interessert i å sammenligne rapportert stemmegivningen til godkjent stemmegivning (dvs. informasjonen i Catalist database). Så forskerne samlet inn data som de ønsket som en del av Cooperative Congressional Valgundersøkelsen (CCES), en stor sosial undersøkelse. Deretter forskerne ga disse dataene til Catalist, og Catalist ga forskerne sikkerhets et fusjonert datafil som inkluderte validert valgatferd (fra Catalist), selvrapportert valgatferd (fra CCES) og demografi og holdninger respondentene (fra CCES ). Med andre ord, Ansolabehere og Hersh beriket stemmedata med surveydata, og den resulterende sammenslåtte filen gjør dem i stand til å gjøre noe som verken fil aktivert individuelt.

Ved berikende Catalist mester datafil med undersøkelsen data, Ansolabehere og Hersh kom til tre viktige konklusjoner. Først overrapportering av stemmegivningen er frodig: nesten halvparten av de ikke-velgere rapportert stemmegivning. Eller en annen måte å se på det er hvis noen rapportert stemme, det er bare en 80% sjanse for at de faktisk stemte. For det andre, overrapportering er ikke tilfeldig; overrapportering er mer vanlig blant høy inntekt, velutdannede, partisaner som er engasjert i offentlige anliggender. Med andre ord, de menneskene som er mest sannsynlig til å stemme er også mest sannsynlig til å lyve om stemmegivning. For det tredje, og mest kritisk, på grunn av den systematiske natur overrapportering, de faktiske forskjellene mellom velgerne og ikke-velgere er mindre enn de vises bare fra undersøkelser. For eksempel, de med en bachelorgrad er ca 22 prosentpoeng mer sannsynlig å rapportere stemmegivning, men er bare 10 prosentpoeng mer sannsynlig å faktisk stemme. Videre eksisterende ressursbaserte teorier om stemmegivning er mye flinkere til å forutsi hvem som vil rapportere stemme enn som faktisk stemmer, en empirisk funn som krever nye teorier for å forstå og forutsi stemmegivning.

Men, hvor mye skal vi stole på disse resultatene? Husk disse resultatene avhenger utsatt for feil linking til svart-box data med ukjente mengder av feil. Mer spesifikt, resultatene hengsel på to viktige trinn: 1) evne Catalist å kombinere mange ulike datakilder for å produsere en nøyaktig mester datafile og 2) evne til Catalist å koble undersøkelsen data til sin herre datafilen. Hvert av disse trinnene er ganske vanskelig og feil i begge trinn kan føre forskere til gale konklusjoner. Men både databehandling og matching er avgjørende for den fortsatte eksistens av Catalist som et selskap, så det kan investere ressurser i å løse disse problemene, ofte på en skala som ingen individuell akademisk forsker eller forskergruppe kan matche. I den videre lesing på slutten av kapitlet beskriver jeg disse problemene i mer detalj og hvordan Ansolabehere og Hersh bygge tillit i sine resultater. Selv om disse detaljene er spesifikke for denne studien, vil saker som ligner på disse oppstår for andre forskere som ønsker å knytte til svart boks digital spordatakilder.

Hva er de generelle lærdommer forskerne kan trekke fra denne studien? Først, det er enorm verdi fra berikende digitale spor med undersøkelsen data. For det andre, selv om disse aggregeres, kommersielle datakilder bør ikke anses som "bakken sannhet", i noen tilfeller kan de være nyttig. Faktisk er det best å sammenligne disse datakildene ikke absolutte sannhet (som de alltid kommer til kort). Snarere er det bedre å sammenligne dem med andre tilgjengelige datakilder, som alltid har feil også.