3.6.1 pregunta enriquecida

En una consulta enriquecida, los datos de levantamiento construyen contexto alrededor de una gran fuente de datos que contiene algunas medidas importantes pero que carecen de otras.

Una forma de combinar datos de encuestas y grandes fuentes de datos es un proceso que llamaré preguntas enriquecidas . En las preguntas enriquecidas, una gran fuente de datos contiene algunas medidas importantes pero carece de otras medidas, por lo que el investigador recopila estas mediciones faltantes en una encuesta y luego vincula las dos fuentes de datos. Un ejemplo de pregunta enriquecida es el estudio de Burke and Kraut (2014) sobre si interactuar en Facebook aumenta la fuerza de amistad, que describí en la sección 3.2). En ese caso, Burke y Kraut combinaron los datos de la encuesta con los datos de registro de Facebook.

El entorno en el que Burke y Kraut estaban trabajando, sin embargo, significaba que no tenían que lidiar con dos grandes problemas que normalmente enfrentan los investigadores que hacen preguntas enriquecidas. En primer lugar, vincular los conjuntos de datos de nivel individual, un proceso llamado enlace de registros , puede ser difícil si no existe un identificador único en ambas fuentes de datos que pueda usarse para asegurar que el registro correcto en un conjunto de datos coincida con el registro correcto en el otro conjunto de datos. El segundo problema principal con las preguntas enriquecidas es que la calidad de la fuente de big data con frecuencia será difícil de evaluar para los investigadores porque el proceso a través del cual se crean los datos puede ser propietario y podría ser susceptible a muchos de los problemas descritos en el capítulo 2. En otras palabras, las solicitudes enriquecidas con frecuencia implican enlaces de encuestas propensos a errores a fuentes de datos de caja negra de calidad desconocida. Sin embargo, a pesar de estos problemas, las preguntas enriquecidas pueden usarse para realizar investigaciones importantes, como lo demostraron Stephen Ansolabehere y Eitan Hersh (2012) en sus investigaciones sobre los patrones de votación en los Estados Unidos.

La participación de votantes ha sido objeto de una amplia investigación en ciencias políticas, y, en el pasado, la comprensión de los investigadores sobre quién vota y por qué se ha basado generalmente en el análisis de los datos de encuestas. Sin embargo, votar en los Estados Unidos es un comportamiento inusual en el sentido de que el gobierno registra si cada ciudadano ha votado (por supuesto, el gobierno no registra para quién vota cada ciudadano). Durante muchos años, estos registros de votación gubernamentales estuvieron disponibles en formularios impresos, diseminados en varias oficinas del gobierno local en todo el país. Esto hizo que fuera muy difícil, pero no imposible, para los científicos políticos tener una imagen completa del electorado y comparar lo que dice la gente en las encuestas sobre votación con su comportamiento electoral real (Ansolabehere and Hersh 2012) .

Pero estos registros de votación se han digitalizado ahora, y varias empresas privadas los han recopilado sistemáticamente y los han fusionado para producir archivos integrales de votación maestra que contienen el comportamiento de votación de todos los estadounidenses. Ansolabehere y Hersh se asociaron con una de estas compañías, Catalist LCC, para usar su archivo de votación principal para ayudar a desarrollar una mejor imagen del electorado. Además, debido a que su estudio se basó en registros digitales recopilados y comisariados por una empresa que había invertido recursos sustanciales en la recopilación y armonización de datos, ofreció una serie de ventajas sobre los esfuerzos anteriores que se habían realizado sin la ayuda de compañías y utilizando registros analógicos.

Al igual que muchas de las fuentes de big data en el capítulo 2, el archivo maestro Catalist no incluyó mucha de la información demográfica, de actitud y de comportamiento que necesitaban Ansolabehere y Hersh. De hecho, estaban particularmente interesados ​​en comparar el comportamiento de votación reportado en encuestas con comportamiento de votación validado (es decir, la información en la base de datos de Catalist). Entonces, Ansolabehere y Hersh recopilaron los datos que querían como una gran encuesta social, la CCES, mencionada anteriormente en este capítulo. Luego dieron sus datos a Catalist, y Catalist les devolvió un archivo de datos combinados que incluía un comportamiento de votación validado (de Catalist), el comportamiento de votación autoinformado (de CCES) y la demografía y las actitudes de los encuestados (de CCES) (figura 3.13). En otras palabras, Ansolabehere y Hersh combinaron los datos de los registros de votación con los datos de la encuesta para investigar de forma individual.

Figura 3.13: Esquema del estudio de Ansolabehere y Hersh (2012). Para crear el archivo de datos maestro, Catalist combina y armoniza información de muchas fuentes diferentes. Este proceso de fusión, sin importar cuán cuidadoso sea, propagará errores en las fuentes de datos originales e introducirá nuevos errores. Una segunda fuente de errores es el enlace de registro entre los datos de la encuesta y el archivo de datos maestro. Si cada persona tuviese un identificador único y estable en ambas fuentes de datos, entonces la vinculación sería trivial. Pero, Catalist tuvo que hacer el enlace utilizando identificadores imperfectos, en este caso, nombre, sexo, año de nacimiento y domicilio. Lamentablemente, en muchos casos puede haber información incompleta o imprecisa; un votante llamado Homer Simpson podría aparecer como Homer Jay Simpson, Homie J Simpson, o incluso Homer Sampsin. A pesar de la posibilidad de errores en el archivo de datos maestro Catalist y errores en el enlace de registro, Ansolabehere y Hersh fueron capaces de generar confianza en sus estimaciones a través de varios tipos diferentes de controles.

Figura 3.13: Esquema del estudio de Ansolabehere and Hersh (2012) . Para crear el archivo de datos maestro, Catalist combina y armoniza información de muchas fuentes diferentes. Este proceso de fusión, sin importar cuán cuidadoso sea, propagará errores en las fuentes de datos originales e introducirá nuevos errores. Una segunda fuente de errores es el enlace de registro entre los datos de la encuesta y el archivo de datos maestro. Si cada persona tuviese un identificador único y estable en ambas fuentes de datos, entonces la vinculación sería trivial. Pero, Catalist tuvo que hacer el enlace utilizando identificadores imperfectos, en este caso, nombre, sexo, año de nacimiento y domicilio. Lamentablemente, en muchos casos puede haber información incompleta o imprecisa; un votante llamado Homer Simpson podría aparecer como Homer Jay Simpson, Homie J Simpson, o incluso Homer Sampsin. A pesar de la posibilidad de errores en el archivo de datos maestro Catalist y errores en el enlace de registro, Ansolabehere y Hersh fueron capaces de generar confianza en sus estimaciones a través de varios tipos diferentes de controles.

Con su archivo combinado de datos, Ansolabehere y Hersh llegaron a tres conclusiones importantes. En primer lugar, la sobreinformación de las votaciones es desenfrenada: casi la mitad de los no votantes informó haber votado, y si alguien reportó haber votado, solo hay un 80% de posibilidades de que realmente voten. En segundo lugar, la sobreinformación no es aleatoria: la sobreinformación es más común entre los partidarios de altos ingresos y bien educados que se dedican a asuntos públicos. En otras palabras, las personas que tienen más probabilidades de votar también son más propensas a mentir sobre votar. En tercer lugar, y de manera más crítica, debido a la naturaleza sistemática de la sobreinformación, las diferencias reales entre votantes y no votantes son menores de lo que parecen solo a partir de las encuestas. Por ejemplo, aquellos con un título universitario tienen aproximadamente 22 puntos porcentuales más de probabilidades de informar sobre el voto, pero solo tienen 10 puntos porcentuales más de probabilidad de votar realmente. Resulta, tal vez no sorprendente, que las teorías de votación basadas en recursos existentes son mucho mejores para predecir quién informará la votación (que es la información que los investigadores han usado en el pasado) que para predecir quién realmente vota. Por lo tanto, el hallazgo empírico de Ansolabehere and Hersh (2012) requiere nuevas teorías para comprender y predecir el voto.

Pero, ¿cuánto deberíamos confiar en estos resultados? Recuerde, estos resultados dependen del enlace propenso a errores a los datos de la caja negra con cantidades desconocidas de error. Más específicamente, los resultados dependen de dos pasos clave: (1) la capacidad de Catalist para combinar muchas fuentes de datos dispares para producir un archivo de datos maestro preciso y (2) la capacidad de Catalist para vincular los datos de la encuesta a su archivo de datos maestro. Cada uno de estos pasos es difícil, y los errores en cualquiera de los pasos podrían llevar a los investigadores a conclusiones erróneas. Sin embargo, tanto el procesamiento de datos como la vinculación son fundamentales para la existencia continua de Catalist como empresa, por lo que puede invertir recursos para resolver estos problemas, a menudo a una escala que ningún investigador académico puede igualar. En su documento, Ansolabehere y Hersh realizan una serie de pasos para verificar los resultados de estos dos pasos, aunque algunos de ellos son exclusivos, y estas verificaciones pueden ser útiles para otros investigadores que deseen vincular los datos de la encuesta con big data de la caja negra. fuentes.

¿Cuáles son las lecciones generales que los investigadores pueden extraer de este estudio? En primer lugar, hay un gran valor tanto para enriquecer las fuentes de datos grandes con los datos de encuestas como para enriquecer los datos de las encuestas con grandes fuentes de datos (puede ver este estudio en ambos casos). Al combinar estas dos fuentes de datos, los investigadores pudieron hacer algo que era imposible, ya sea individualmente. La segunda lección general es que aunque las fuentes de datos comerciales agregadas, como los datos de Catalist, no se deben considerar como "verdad fundamental", en algunos casos, pueden ser útiles. Los escépticos a veces comparan esta fuente de datos comercial agregada con la Verdad absoluta y señalan que estas fuentes de datos son insuficientes. Sin embargo, en este caso, los escépticos están haciendo una comparación equivocada: todos los datos que usan los investigadores no llegan a la Verdad absoluta. En cambio, es mejor comparar las fuentes de datos comerciales agregados con otras fuentes de datos disponibles (por ejemplo, comportamiento de votación autoinformado), que invariablemente también tienen errores. Finalmente, la tercera lección general del estudio de Ansolabehere y Hersh es que, en algunas situaciones, los investigadores pueden beneficiarse de las enormes inversiones que muchas compañías privadas están haciendo para recopilar y armonizar conjuntos de datos sociales complejos.