3.6.2 preguntar Enriquit

Tot i que pot ser una mica incòmode, que demana enriquit pot ser de gran abast.

Un enfocament diferent per tractar amb el caràcter incomplet de les dades de rastreig digital és enriquir-la directament amb les dades de l'enquesta, un procés que vaig a cridar preguntant enriquit. Un exemple de preguntar enriquit és l'estudi de Burke and Kraut (2014) , que he descrit anteriorment en el capítol (secció 3.2), sobre si la interacció a Facebook augmenta la força de l'amistat. En aquest cas, Burke i Kraut van combinar les dades de l'enquesta amb les dades de registre de Facebook.

La configuració que Burke i Kraut estaven treballant en el, però, vol dir que ells no han de fer front a dos grans problemes que els investigadors que fan la cara demanant enriquit. En primer lloc, en realitat vincular entre si els conjunts de dades, un procés anomenat fusió de registres, l'adequació d'un registre en un conjunt de dades amb el registre corresponent en l'altre conjunt de dades, pot ser difícil i propens a errors (veurem un exemple d'aquest problema més endavant ). El segon problema principal de preguntar enriquit és que la qualitat de les empremtes digitals freqüentment serà difícil per als investigadors avaluar. Per exemple, de vegades el procés a través del qual es recull és propietari i podria ser susceptible a molts dels problemes que es descriuen en el capítol 2. En altres paraules, que demana enriquit sovint suposen vinculació propens a errors de les enquestes a les fonts de dades de requadre negre de desconegut qualitat. Tot i les preocupacions que aquests dos problemes s'introdueixen, és possible dur a terme importants investigacions amb aquesta estratègia com es va demostrar per Stephen Ansolabehere i Eitan Hersh (2012) en la seva investigació sobre els patrons de votació als EUA .. Val la pena repassar aquest estudi amb cert detall perquè moltes de les estratègies que Ansolabehere i Hersh van desenvolupar serà útil en altres aplicacions de demanar enriquit.

La participació electoral ha estat objecte d'una àmplia investigació en ciències polítiques, i en el passat, comprensió dels investigadors de qui vota i per què generalment s'ha basat en l'anàlisi de les dades de l'enquesta. La votació als EUA, però, és un comportament inusual en què els registres del govern si cada ciutadà ha votat (per descomptat, el govern no discogràfiques que cada ciutadà vota per). Durant molts anys, aquests registres de votació governamentals estaven disponibles en formularis de paper, dispersos en diverses oficines governamentals locals a tot el país. Això fa que sigui difícil, però no impossible, per als científics polítics per tenir una imatge completa dels electors, i comparar el que es diu en les enquestes sobre la votació per al seu comportament electoral real (Ansolabehere and Hersh 2012) .

No obstant això, ara aquests registres de votació han estat digitalitzades, i una sèrie d'empreses privades han recopilat i es va fusionar aquests registres de votació per produir arxius complets de votació mestra que registren el comportament del vot de tots els nord-americans. Ansolabehere i Hersh es van associar amb una d'aquestes empreses Catalist-LCC-per tal d'utilitzar el seu arxiu principal de votants per ajudar a desenvolupar una idea més clara dels electors. A més, perquè es va basar en registres digitals recollides i curada per una empresa, que ofereix una sèrie d'avantatges sobre els anteriors esforços dels investigadors que s'havien fet sense l'ajuda de les empreses i l'ús de discos analògics.

Com molts dels orígens de seguiment digitals en el capítol 2, l'arxiu mestre Catalist no incloïa gran part de la informació demogràfica, d'actitud i de comportament que necessiten Ansolabehere i Hersh. A més d'aquesta informació, Ansolabehere i Hersh estaven particularment interessats en comparar el comportament de vot informat que el comportament de votació validat (és a dir, la informació continguda a la base de dades Catalist). Per tant, els investigadors van recollir les dades que volien com a part de l'Estudi Cooperatiu del Congrés Elecció (CCES), una gran enquesta social. A continuació, els investigadors van donar a aquestes dades a Catalist, i Catalist van donar als investigadors un arxiu resultant de la fusió de dades que incloïa va validar el comportament electoral (de Catalist), el comportament electoral d'auto-informe (de CCES) i les dades demogràfiques i les actituds dels enquestats (de CCES ). En altres paraules, Ansolabehere i Hersh enriqueixen les dades de la votació amb dades de l'enquesta, i l'arxiu combinat resultant els permet fer una cosa que cap dels arxius activar de forma individual.

A l'enriquir l'arxiu de dades mestres Catalist amb dades de l'enquesta, Ansolabehere i Hersh van arribar a tres conclusions importants. En primer lloc, la informació deficient de la votació està molt estès: gairebé la meitat dels no votants va informar de votació. O bé, una altra manera de veure això és que si algú va informar de votació, només hi ha una probabilitat del 80% que en realitat van votar. En segon lloc, la informació deficient no és a l'atzar; excés d'informació és més comú entre els d'ingressos alts, ben educada, partidaris que es dediquen als afers públics. En altres paraules, les persones que tenen més probabilitats de votar també són més propensos a mentir sobre la votació. En tercer lloc, i el més crític, a causa de la naturalesa sistemàtica de la informació deficient, les diferències reals entre els votants i no votants són més petites del que semblen simplement a partir d'enquestes. Per exemple, els que tenen una llicenciatura són aproximadament 22 punts percentuals més propensos a informar de votació, però són només 10 punts percentuals més probabilitats de vot real. A més, les teories basades en els recursos electorals actuals són molt millors per a predir qui reportarà la votació que en realitat vots, una troballa empíric que exigeix ​​noves teories per entendre i predir la votació.

Però, quant hauríem de confiar en aquests resultats? Recordeu que aquests resultats depenen de la vinculació propens a errors a les dades de requadre negre amb quantitats desconegudes d'error. Més específicament, els resultats depenen de dos passos fonamentals: 1) la capacitat de Catalist combinar moltes fonts de dades dispars per produir un arxiu de dades principal precís i 2) la capacitat de Catalist per enllaçar les dades de l'enquesta al seu arxiu de dades principal. Cada un d'aquests passos és força difícil i errors en qualsevol pas es podria portar els investigadors a conclusions errònies. No obstant això, tant el processament i l'ajust de dades són fonamentals per a l'existència contínua de Catalist com una empresa perquè pugui invertir recursos en la solució d'aquests problemes, sovint en una escala que cap investigador acadèmic individual o un grup d'investigadors poden igualar. En la lectura, a més, al final del capítol, descric aquests problemes en major detall i com Ansolabehere i Hersh construir confiança en els resultats. Tot i que aquests detalls són específics d'aquest estudi, es plantegen qüestions similars a les d'altres investigadors que desitgin enllaçar a-box negre fonts de dades de rastreig digital.

Quines són les lliçons generals investigadors poden extreure d'aquest estudi? En primer lloc, hi ha un enorme valor a partir d'enriquiment d'empremtes digitals amb dades de l'enquesta. En segon lloc, tot i que aquests agregats, fonts de dades comercials no han de considerar-se "veritat terreny", en alguns casos, poden ser útils. De fet, el millor és comparar aquestes fonts de dades no a la veritat absoluta (de la qual sempre es quedarà curt). Més aviat, és millor comparar amb altres fonts de dades disponibles, que invariablement tenen errors també.