3.6.1 enriquecemento

En solicitude enriquecida, os datos de enquisas compilan o contexto en torno a unha gran fonte de datos que contén algunhas medidas importantes pero non teñen outros.

Unha forma de combinar datos de enquisas e grandes fontes de datos é un proceso que eu chamo enriquecido preguntándolle . En solicitude enriquecedora, unha gran fonte de datos contén algunhas medidas importantes, pero carece de outras medidas para que o investigador coloque estas medidas faltantes nunha enquisa e logo vinte as dúas fontes de datos xuntos. Un exemplo de solicitude enriquecida é o estudo realizado por Burke and Kraut (2014) sobre se interactuar en Facebook aumenta a forza de amizade que describín no apartado 3.2). Nese caso, Burke e Kraut combinaron datos de enquisas con datos de rexistro de Facebook.

A configuración na que traballaban Burke e Kraut, con todo, fixo que non tivesen que afrontar dous grandes problemas que os investigadores facían enriquecedores preguntándolle normalmente cara. En primeiro lugar, realmente unindo os conxuntos de datos a nivel individual, un proceso chamado ligazón de rexistro pode ser difícil se non hai un identificador único en ambas fontes de datos que pode ser usado para garantir que o rexistro correcto nun só conxunto de datos coincida co rexistro correcto no outro conxunto de datos. O segundo problema principal co enriquecemento de que se pregunte é que a calidade da fonte de datos grande a miúdo será difícil para os investigadores de evaluar porque o proceso polo que se crean os datos pode ser propiedade e podería ser susceptible a moitos dos problemas descritos no capítulo 2. Noutras palabras, a solicitude enriquecida implicará frecuentemente ligazóns propias de erros de enquisas a fontes de datos de caixa negra de calidade descoñecida. A pesar destes problemas, con todo, o enriquecemento da pregunta pode ser usado para levar a cabo investigacións importantes, como demostraron Stephen Ansolabehere e Eitan Hersh (2012) na súa investigación sobre patróns de voto nos Estados Unidos.

A participación electoral foi obxecto dunha extensa investigación na ciencia política e, no pasado, a comprensión dos investigadores sobre o voto e polo por qué se baseou na análise dos datos da enquisa. A votación nos Estados Unidos, porén, é un comportamento inusual porque o goberno rexistra se cada cidadán votou (por suposto, o goberno non rexistra a quen votan cada cidadán). Durante moitos anos, estes rexistros gobernamentais de voto estaban dispoñibles en papel, distribuídos en varias oficinas gobernamentais locais en todo o país. Isto fixo que sexa difícil, pero non imposible, que os científicos políticos teñan unha visión completa do electorado e que poidan comparar o que a xente di en enquisas sobre a votación co seu comportamento de voto real (Ansolabehere and Hersh 2012) .

Pero estes rexistros de votación agora se digitalizaron e varias empresas privadas recolleron sistemáticamente e fusionáronas para producir ficheiros de votación mestra completos que conteñan o comportamento de voto de todos os estadounidenses. Ansolabehere e Hersh asociáronse cunha destas compañías -Catalist LCC- para utilizar o seu ficheiro de votación mestre para axudar a desenvolver unha mellor imaxe do electorado. Ademais, debido a que o seu estudo baseábase nos rexistros dixitais recollidos e comisariados por unha empresa que investira recursos substanciais na recollida e harmonización de datos, ofreceu varias vantaxes sobre os esforzos previos que se fixeron sen a axuda de empresas e utilizando rexistros analóxicos.

Do mesmo xeito que moitas das grandes fontes de datos do capítulo 2, o ficheiro mestre catalítico non inclúe gran parte da información demográfica, actitudinal e de comportamento que necesitaba Ansolabehere e Hersh. De feito, estaban especialmente interesados ​​en comparar o comportamento de voto rexistrado nas enquisas con comportamento de voto validado (é dicir, a información na base de datos Catalyst). Así, Ansolabehere e Hersh recolleron os datos que desexaban como unha gran enquisa social, a CCES, mencionada anteriormente neste capítulo. A continuación, entregaron os seus datos a Catalyst, e Catalist devolveunos un arquivo de datos combinados que incluía un comportamento de voto validado (de Catalyst), o comportamento de voto autorrealizado (de CCES) e as demográficas e actitudes dos enquisados ​​(de CCES) (figura 3.13). Noutras palabras, Ansolabehere e Hersh combinaron os datos dos rexistros de voto cos datos da enquisa para realizar investigacións que non foron posibles con ningunha fonte de datos individualmente.

Figura 3.13: Esquemas do estudo de Ansolabehere e Hersh (2012). Para crear o ficheiro de datos mestre, Catalist combina e harmoniza a información de moitas fontes diferentes. Este proceso de fusión, non importa o coidado, propaga erros nas fontes de datos orixinais e introducirá novos erros. Unha segunda fonte de erros é a ligazón de rexistro entre os datos da enquisa eo ficheiro de datos mestre. Se cada persoa tiña un identificador único e estable en ambas as fontes de datos, a conexión sería trivial. Pero o catalista tivo que facer o vínculo con identificadores imperfectos, neste caso, nome, xénero, ano de nacemento e domicilio. Por desgraza, para moitos casos pode haber información incompleta ou inexacta; un elector chamado Homer Simpson podería aparecer como Homer Jay Simpson, Homie J Simpson ou incluso Homer Sampsin. A pesar do potencial de erros no ficheiro de datos mestre catalyst e dos erros no enlace de rexistro, Ansolabehere e Hersh conseguiron construír a confianza nas súas estimacións a través de varios tipos diferentes de controis.

Figura 3.13: Esquemas do estudo de Ansolabehere and Hersh (2012) . Para crear o ficheiro de datos mestre, Catalist combina e harmoniza a información de moitas fontes diferentes. Este proceso de fusión, non importa o coidado, propaga erros nas fontes de datos orixinais e introducirá novos erros. Unha segunda fonte de erros é a ligazón de rexistro entre os datos da enquisa eo ficheiro de datos mestre. Se cada persoa tiña un identificador único e estable en ambas as fontes de datos, a conexión sería trivial. Pero o catalista tivo que facer o vínculo con identificadores imperfectos, neste caso, nome, xénero, ano de nacemento e domicilio. Por desgraza, para moitos casos pode haber información incompleta ou inexacta; un elector chamado Homer Simpson podería aparecer como Homer Jay Simpson, Homie J Simpson ou incluso Homer Sampsin. A pesar do potencial de erros no ficheiro de datos mestre catalyst e dos erros no enlace de rexistro, Ansolabehere e Hersh conseguiron construír a confianza nas súas estimacións a través de varios tipos diferentes de controis.

Co seu ficheiro de datos combinado, Ansolabehere e Hersh chegaron a tres conclusións importantes. En primeiro lugar, a notificación excesiva da votación é desenfreada: case a metade dos non votantes informan de votar e, se alguén informou de votar, só hai un 80% de posibilidades de votar. En segundo lugar, a notificación excesiva non é aleatoria: o exceso de información é máis común entre partidarios de alta renda e ben educados que se dedican a asuntos públicos. Noutras palabras, as persoas que teñen máis probabilidades de votar tamén son máis propensas a mentir sobre a votación. En terceiro lugar, e de forma máis crítica, debido á natureza sistemática dos informes excesivos, as diferenzas reais entre os votantes e os non votantes son menores que as que aparecen só nas enquisas. Por exemplo, os que teñen un título de bacharelato son preto de 22 puntos porcentuais máis propensos a informar a votación, pero son só 10 puntos porcentuais máis que realmente votan. Resulta que quizais non sorprendente que as teorías existentes sobre o voto de recursos sexan moito mellores para predicir quen informará sobre a votación (que son os datos que os investigadores usaron no pasado) do que están a predicir quen realmente vota. Así, o achado empírico de Ansolabehere and Hersh (2012) esixe novas teorías para comprender e predicir a votación.

Pero canto debemos confiar nestes resultados? Lembre que estes resultados dependen da ligazón de erros aos datos da caixa negra con cantidades de erro descoñecidas. Máis específicamente, os resultados entran en dúas etapas clave: (1) a capacidade de Catalyst para combinar moitas fontes de datos dispares para producir un ficheiro de datos mestre preciso e (2) a capacidade de Catalyst para vincular os datos da enquisa co seu ficheiro de datos mestre. Cada un destes pasos é difícil e os erros en calquera paso poden levar aos investigadores ás conclusións erróneas. Non obstante, tanto o procesamento de datos como o enlace son críticos para a existencia continuada de Catalyst como empresa, polo que pode investir recursos na resolución destes problemas, moitas veces a unha escala que ningún investigador académico pode igualar. No seu artigo, Ansolabehere e Hersh pasan por unha serie de pasos para comprobar os resultados destes dous pasos, aínda que algúns deles son propietarios, e estes cheques poden ser útiles para outros investigadores que desexen vincular os datos da enquisa a grandes datos de caixa negra fontes.

Cales son as clases xerais que os investigadores poden sacar deste estudo? En primeiro lugar, hai un tremendo valor tanto de enriquecer grandes fontes de datos con datos de enquisas como de enriquecer datos de enquisas con grandes fontes de datos (podes ver este estudo de calquera xeito). Ao combinar estas dúas fontes de datos, os investigadores foron quen de facer algo imposible individualmente. A segunda lección xeral é que, aínda que se agreguen, as fontes de datos comerciais, como os datos de Catalist, non deberían considerarse "verdade fundamental", nalgúns casos, poden ser útiles. Os escépticos ás veces comparan esta fonte de datos agregada e comercial coa verdade absoluta e sinalan que estas fontes de datos quedan curtas. Non obstante, neste caso, os escépticos están facendo unha comparación incorrecta: todos os datos que os investigadores usan quedan sen a verdade absoluta. En vez diso, é mellor comparar as fontes de datos comerciais agregadas con outras fontes de datos dispoñibles (por exemplo, comportamento de voto autorrepresentado), que invariablemente tamén ten erros. Finalmente, a terceira lección xeral do estudo de Ansolabehere e Hersh é que, nalgunhas situacións, os investigadores poden beneficiarse dos enormes investimentos que moitas empresas privadas realizan na recollida e harmonización de conxuntos de datos sociais complexos.