3.6.1 Enriquit preguntant

En les consultes enriquides, les dades de l'enquesta generen un context al voltant d'una gran font de dades que conté algunes mesures importants, però manquen d'altres.

Una forma de combinar les dades de les enquestes i les grans fonts de dades és un procés al que enriquiré preguntant . En una pregunta enriquida, una gran font de dades conté algunes mesures importants, però manca d'altres mesuraments, de manera que l'investigador recopila aquestes mesures que falten en una enquesta i, a continuació, uneix les dues fonts de dades junts. Un exemple de pregunta enriquida és l'estudi de Burke and Kraut (2014) sobre si interactuar a Facebook augmenta la força d'amistat, que he descrit a la secció 3.2). En aquest cas, Burke i Kraut van combinar dades d'enquestes amb dades de registre de Facebook.

L'ambient en què Burke i Kraut estaven treballant, però, va fer que no haguessin d'afrontar dos grans problemes que els investigadors enriquien per preguntar-se sobretot a la cara. En primer lloc, en realitat, unir els conjunts de dades a nivell individual, un procés anomenat enllaç de registre pot ser difícil si no hi ha cap identificador únic en ambdós orígens de dades que es pugui utilitzar per garantir que el registre correcte en un conjunt de dades coincideixi amb el registre correcte en l'altre conjunt de dades. El segon problema principal amb el plantejament enriquit és que la qualitat de la gran font de dades sovint serà difícil per als investigadors avaluar perquè el procés pel qual es creen les dades pot ser propietari i podria ser susceptible a molts dels problemes descrits al capítol 2. Dit d'una altra manera, l'enriquiment de la pregunta sovint implica una connexió propensa a l'error de les enquestes a fonts de dades de caixa negra de qualitat desconeguda. Malgrat aquests problemes, però, l'enriquiment de la pregunta pot ser utilitzat per dur a terme investigacions importants, com ho demostraven Stephen Ansolabehere i Eitan Hersh (2012) en la seva investigació sobre patrons de vot a Estats Units.

La participació en el vot ha estat objecte d'una àmplia investigació en ciències polítiques i, en el passat, la comprensió dels investigadors sobre els vots i per què s'ha basat en l'anàlisi de les dades de l'enquesta. La votació als Estats Units, però, és un comportament inusual en què el govern registra si cada ciutadà ha votat (per descomptat, el govern no registra qui voti cada ciutadà). Durant molts anys, aquests registres de vots governamentals estaven disponibles en forma de paper, dispersos en diverses oficines del govern local del país. Això va fer molt difícil, però no impossible, que els científics polítics tinguessin una imatge completa de l'electorat i comparessin el que diuen els enquestes sobre la votació amb el seu comportament de vot real (Ansolabehere and Hersh 2012) .

Però aquests registres de vots s'han digitalitzat i diverses empreses privades han recopilat i fusionat sistemàticament per a produir fitxers mestres de vot complet que contenen el comportament de vot de tots els nord-americans. Ansolabehere i Hersh es van associar amb una d'aquestes empreses -Catalist LCC- per utilitzar el seu arxiu de votació mestre per ajudar a desenvolupar una millor imatge de l'electorat. A més, perquè el seu estudi es basava en registres digitals recopilats i comissariat per una empresa que havia invertit recursos substancials en la recopilació i harmonització de dades, oferia diversos avantatges respecte als esforços anteriors que s'havien fet sense l'ajuda de les empreses i utilitzant registres analògics.

Com moltes de les grans fonts de dades del capítol 2, l'arxiu mestre catalitzador no va incloure gran part de la informació demogràfica, actitudinal i de comportament que Ansolabehere i Hersh necessitaven. De fet, estaven especialment interessats a comparar el comportament del vot rebut en enquestes amb el comportament de vot validat (és a dir, la informació a la base de dades catalitzadora). Així, Ansolabehere i Hersh van recollir les dades que volien com una gran enquesta social, el CCES, esmentat anteriorment en aquest capítol. A continuació, van donar les seves dades a Catalyst, i el catalitzador els va retornar un fitxer de dades fusionat que incloïa el comportament de vot validat (del catalitzador), el comportament de vots autoritzat (de CCES) i les dades demogràfiques i actituds dels enquestats (CCES) (figura 3.13). En altres paraules, Ansolabehere i Hersh van combinar les dades dels registres de vots amb les dades de les enquestes per fer investigacions que no van ser possibles amb cap origen de dades de forma individual.

Figura 3.13: Esquema de l'estudi d'Ansolabehere i Hersh (2012). Per crear el fitxer de dades mestre, Catalyst combina i harmonitza la informació de moltes fonts diferents. Aquest procés de fusió, per molt que sigui prudent, generarà errors en les fonts de dades originals i introduirà nous errors. Una segona font d'errors és el registre d'enllaç entre les dades de l'enquesta i el fitxer de dades mestre. Si cada persona tingués un identificador únic i estable, tant a les fonts de dades, el vincle seria trivial. Però, el catalista va haver de fer el vincle amb identificadors imperfectes, en aquest cas el nom, el sexe, l'any de naixement i l'adreça d'origen. Desafortunadament, per a molts casos, podria haver-hi informació incompleta o inexacta; un elector anomenat Homer Simpson podria aparèixer com Homer Jay Simpson, Homie J Simpson, o fins i tot Homer Sampsin. Tot i la possibilitat d'errors en el fitxer de dades mestre catalitzador i els errors en el registre d'enllaços, Ansolabehere i Hersh van poder generar confiança en les seves estimacions a través de diversos tipus de xecs diferents.

Figura 3.13: Esquema de l'estudi d' Ansolabehere and Hersh (2012) . Per crear el fitxer de dades mestre, Catalyst combina i harmonitza la informació de moltes fonts diferents. Aquest procés de fusió, per molt que sigui prudent, generarà errors en les fonts de dades originals i introduirà nous errors. Una segona font d'errors és el registre d'enllaç entre les dades de l'enquesta i el fitxer de dades mestre. Si cada persona tingués un identificador únic i estable, tant a les fonts de dades, el vincle seria trivial. Però, el catalista va haver de fer el vincle amb identificadors imperfectes, en aquest cas el nom, el sexe, l'any de naixement i l'adreça d'origen. Desafortunadament, per a molts casos, podria haver-hi informació incompleta o inexacta; un elector anomenat Homer Simpson podria aparèixer com Homer Jay Simpson, Homie J Simpson, o fins i tot Homer Sampsin. Tot i la possibilitat d'errors en el fitxer de dades mestre catalitzador i els errors en el registre d'enllaços, Ansolabehere i Hersh van poder generar confiança en les seves estimacions a través de diversos tipus de xecs diferents.

Amb el seu fitxer de dades combinat, Ansolabehere i Hersh van arribar a tres conclusions importants. En primer lloc, la notificació excessiva de la votació és desenfrenada: gairebé la meitat dels no votants van votar, i si algú va informar de la votació, només hi ha un 80% de probabilitats que hagin votat. En segon lloc, la sobreinformació no és aleatòria: la sobreinformació és més freqüent entre partidaris d'alt ingrés, ben educats i partidaris que es dediquen a assumptes públics. En altres paraules, les persones que tenen més probabilitat de votar també tenen més possibilitats de votar. En tercer lloc, i de manera més crítica, a causa de la naturalesa sistemàtica de l'informe excessiu, les diferències reals entre els votants i els no votants són més petits del que només apareixen a partir d'enquestes. Per exemple, els que tenen un títol de batxillerat tenen uns 22 punts percentuals més propensos a reportar vots, però només tenen 10 punts percentuals més que votar. Resulta, potser no sorprenentment, que les teories existents de recursos basades en recursos són molt millors a l'hora de predir qui informarà de les votacions (que són les dades que els investigadors han utilitzat en el passat) que en previsió del que realment vota. Així, la troballa empírica d' Ansolabehere and Hersh (2012) exigeix ​​noves teories per comprendre i predir la votació.

Però, quant hem de confiar en aquests resultats? Recordeu que aquests resultats depenen de la connexió amb propietats d'error a les dades del quadre negre amb quantitats d'error desconegudes. Més específicament, els resultats s'adhereixen a dos passos clau: (1) la capacitat de Catalyst per combinar moltes fonts de dades dispars per produir un fitxer de dades mestre exacte i (2) la capacitat de Catalyst d'enllaçar les dades de l'enquesta al seu fitxer de dades mestre. Cadascun d'aquests passos és difícil, i els errors en qualsevol dels dos passos podrien conduir els investigadors a obtenir conclusions incorrectes. Tanmateix, tant el processament de dades com la vinculació són fonamentals per a l'existència continuada de Catalyst com a empresa, de manera que pot invertir recursos per resoldre aquests problemes, sovint a una escala que cap investigador acadèmic pot igualar. En el seu article, Ansolabehere i Hersh van a través d'una sèrie de passos per comprovar els resultats d'aquests dos passos, tot i que alguns d'ells són propietaris, i aquests controls poden ser útils per a altres investigadors que vulguin enllaçar les dades de les enquestes a les grans dades en casella negra fonts.

Quines són les lliçons generals que els investigadors poden treure d'aquest estudi? En primer lloc, hi ha un gran valor tant d'enriquir grans fonts de dades amb dades d'enquestes com d'enriquir dades d'enquestes amb grans fonts de dades (podeu veure aquest estudi en qualsevol dels casos). En combinar aquestes dues fonts de dades, els investigadors van poder fer alguna cosa que no era possible ni individualment. La segona lliçó general és que tot i que les fonts de dades comercials agregades, com ara les dades de Catalist, no s'han de considerar "veritats fonamentals", en alguns casos, poden ser útils. Els escèptics a vegades comparen aquesta font d'informació agregada i comercial amb la Veritat absoluta i assenyalen que aquestes fonts de dades són curtes. Tanmateix, en aquest cas, els escèptics fan una comparació equivocada: totes les dades que els investigadors utilitzen no arriben a la Veritat absoluta. En comptes d'això, és millor comparar les fonts de dades comercials agregades amb altres fonts de dades disponibles (p. Ex., Un comportament de vots autoinformat), que també presenta errors. Finalment, la tercera lliçó general de l'estudi d'Ansolabehere i Hersh és que, en algunes situacions, els investigadors poden beneficiar-se de les grans inversions que moltes empreses privades fan per recollir i harmonitzar complexos conjunts de dades socials.