3.6.1 Pedido Enriquecido

Em pedidos sofisticados, os dados da pesquisa criam contexto em torno de uma grande fonte de dados que contém algumas medidas importantes, mas não outras.

Uma maneira de combinar dados de pesquisa e grandes fontes de dados é um processo que chamarei de solicitação avançada . Na pergunta enriquecida, uma grande fonte de dados contém algumas medidas importantes, mas não possui outras medidas, de modo que o pesquisador coleta essas medições ausentes em uma pesquisa e, em seguida, vincula as duas fontes de dados. Um exemplo de pergunta enriquecida é o estudo de Burke and Kraut (2014) sobre se a interação no Facebook aumenta a força da amizade, que descrevi na seção 3.2). Nesse caso, Burke e Kraut combinaram dados de pesquisa com dados de registro do Facebook.

O cenário em que Burke e Kraut estavam trabalhando, no entanto, significava que eles não precisavam lidar com dois grandes problemas que os pesquisadores que fazem pedidos enriquecidos normalmente enfrentam. Primeiro, vincular os conjuntos de dados de nível individual, um processo chamado de vinculação de registros , pode ser difícil se não houver um identificador exclusivo nas duas fontes de dados que possam ser usadas para garantir que o registro correto em um conjunto de dados seja correspondido com o registro correto no outro conjunto de dados. O segundo principal problema com a pergunta enriquecida é que a qualidade da fonte de big data será freqüentemente difícil para os pesquisadores avaliarem, porque o processo pelo qual os dados são criados pode ser proprietário e pode ser suscetível a muitos dos problemas descritos no capítulo 2. Em outras palavras, a pergunta enriquecida freqüentemente envolverá links propensos a erros de pesquisas para fontes de dados de caixa preta de qualidade desconhecida. Apesar desses problemas, no entanto, o questionamento enriquecido pode ser usado para conduzir pesquisas importantes, como foi demonstrado por Stephen Ansolabehere e Eitan Hersh (2012) em sua pesquisa sobre padrões de votação nos Estados Unidos.

A afluência de eleitores tem sido objeto de extensa pesquisa em ciência política e, no passado, a compreensão dos pesquisadores sobre quem vota e por que geralmente se baseou na análise dos dados da pesquisa. Votar nos Estados Unidos, no entanto, é um comportamento incomum, pois o governo registra se cada cidadão votou (é claro que o governo não registra para quem cada cidadão vota). Por muitos anos, esses registros de votação governamental estavam disponíveis em formulários em papel, espalhados em vários escritórios do governo local em todo o país. Isso tornou muito difícil, mas não impossível, para os cientistas políticos terem uma visão completa do eleitorado e comparar o que as pessoas dizem nas pesquisas sobre a votação com seu comportamento eleitoral real (Ansolabehere and Hersh 2012) .

Mas esses registros de votação já foram digitalizados, e várias empresas privadas os recolheram e mesclaram sistematicamente para produzir arquivos de votação mestres abrangentes que contêm o comportamento de voto de todos os americanos. Ansolabehere e Hersh fizeram uma parceria com uma dessas empresas - a Catalist LCC - para usar seu arquivo de votação principal para ajudar a desenvolver uma imagem melhor do eleitorado. Além disso, como o estudo se baseou em registros digitais coletados e com curadoria de uma empresa que investiu recursos substanciais em coleta e harmonização de dados, ofereceu uma série de vantagens em relação aos esforços anteriores realizados sem o auxílio de empresas e com registros analógicos.

Como muitas das grandes fontes de dados do capítulo 2, o arquivo mestre da Catalunha não incluía grande parte das informações demográficas, atitudinais e comportamentais de que Ansolabehere e Hersh precisavam. De fato, eles estavam particularmente interessados ​​em comparar o comportamento de voto relatado em pesquisas com o comportamento de voto validado (isto é, as informações no banco de dados de Catalis). Então Ansolabehere e Hersh coletaram os dados que eles queriam como um grande levantamento social, o CCES, mencionado anteriormente neste capítulo. Então eles deram seus dados para Catalist, e Catalist devolveu um arquivo de dados que incluiu o comportamento de voto validado (do Catalist), o comportamento de voto auto-relatado (do CCES) e os dados demográficos e atitudes dos entrevistados (do CCES) 3,13). Em outras palavras, Ansolabehere e Hersh combinaram os dados dos registros de votação com os dados da pesquisa para realizar pesquisas que não eram possíveis com qualquer fonte de dados individualmente.

Figura 3.13: Esquema do estudo de Ansolabehere e Hersh (2012). Para criar o arquivo de dados mestre, o Catalist combina e harmoniza informações de várias fontes diferentes. Esse processo de mesclagem, não importa o quão cuidadoso, propagará erros nas origens de dados originais e introduzirá novos erros. Uma segunda fonte de erros é a ligação de registro entre os dados da pesquisa e o arquivo de dados mestre. Se cada pessoa tivesse um identificador único e estável em ambas as fontes de dados, a vinculação seria trivial. Mas, Catalist teve que fazer a ligação usando identificadores imperfeitos, neste nome de caso, sexo, ano de nascimento e endereço residencial. Infelizmente, em muitos casos, pode haver informações incompletas ou imprecisas; um eleitor chamado Homer Simpson poderia aparecer como Homer Jay Simpson, Homie J Simpson ou mesmo Homer Sampsin. Apesar do potencial de erros no arquivo de dados mestre da Catalis e de erros na vinculação de registros, a Ansolabehere e a Hersh conseguiram criar confiança em suas estimativas através de vários tipos diferentes de verificações.

Figura 3.13: Esquema do estudo de Ansolabehere and Hersh (2012) . Para criar o arquivo de dados mestre, o Catalist combina e harmoniza informações de várias fontes diferentes. Esse processo de mesclagem, não importa o quão cuidadoso, propagará erros nas origens de dados originais e introduzirá novos erros. Uma segunda fonte de erros é a ligação de registro entre os dados da pesquisa e o arquivo de dados mestre. Se cada pessoa tivesse um identificador único e estável em ambas as fontes de dados, a vinculação seria trivial. Mas, Catalist teve que fazer a ligação usando identificadores imperfeitos, neste nome de caso, sexo, ano de nascimento e endereço residencial. Infelizmente, em muitos casos, pode haver informações incompletas ou imprecisas; um eleitor chamado Homer Simpson poderia aparecer como Homer Jay Simpson, Homie J Simpson ou mesmo Homer Sampsin. Apesar do potencial de erros no arquivo de dados mestre da Catalis e de erros na vinculação de registros, a Ansolabehere e a Hersh conseguiram criar confiança em suas estimativas através de vários tipos diferentes de verificações.

Com o arquivo de dados combinado, Ansolabehere e Hersh chegaram a três conclusões importantes. Primeiro, o excesso de relatos de votação é desenfreado: quase metade dos não-votantes relatou votar, e se alguém relatou votar, há apenas uma chance de 80% de que eles realmente votaram. Segundo, o excesso de relatos não é aleatório: o excesso de relatórios é mais comum entre os partidários de alta renda e com boa educação que estão engajados nos assuntos públicos. Em outras palavras, as pessoas com maior probabilidade de votar também tendem a mentir sobre o voto. Terceiro, e mais criticamente, por causa da natureza sistemática do excesso de relatórios, as diferenças reais entre eleitores e não-votantes são menores do que as que aparecem apenas nas pesquisas. Por exemplo, aqueles com um grau de bacharel são cerca de 22 pontos percentuais mais propensos a reportar o voto, mas são apenas 10 pontos percentuais mais propensos a realmente votar. Acontece, talvez não surpreendentemente, que as teorias de votação baseadas em recursos existentes sejam muito melhores em prever quem relatará o voto (que são os dados que os pesquisadores usaram no passado) do que em prever quem realmente vota. Assim, o achado empírico de Ansolabehere and Hersh (2012) exige novas teorias para entender e prever o voto.

Mas quanto devemos confiar nesses resultados? Lembre-se de que esses resultados dependem de links propensos a erros para dados de caixa preta com quantidades desconhecidas de erros. Mais especificamente, os resultados dependem de duas etapas principais: (1) a capacidade do Catalist de combinar muitas fontes de dados diferentes para produzir um arquivo de dados mestre preciso e (2) a capacidade do Catalist de vincular os dados da pesquisa ao seu arquivo de dados mestre. Cada um desses passos é difícil, e os erros em ambas as etapas podem levar os pesquisadores às conclusões erradas. No entanto, tanto o processamento quanto a vinculação de dados são essenciais para a continuidade da existência da Catalist como empresa, de modo que ela possa investir recursos na solução desses problemas, muitas vezes em uma escala que nenhum pesquisador acadêmico pode igualar. Em seu trabalho, Ansolabehere e Hersh passam por uma série de etapas para verificar os resultados dessas duas etapas - mesmo que algumas delas sejam proprietárias - e essas verificações podem ser úteis para outros pesquisadores que desejam vincular dados de pesquisa a big data de caixa preta. fontes.

Quais são as lições gerais que os pesquisadores podem extrair deste estudo? Primeiro, há um enorme valor, tanto no enriquecimento de fontes de big data com dados de pesquisas, quanto no enriquecimento de dados de pesquisas com grandes fontes de dados (você pode ver este estudo de qualquer forma). Ao combinar essas duas fontes de dados, os pesquisadores conseguiram fazer algo que era impossível individualmente. A segunda lição geral é que, embora agregadas, as fontes de dados comerciais, como os dados do catalista, não devem ser consideradas como “verdade básica”, em alguns casos, podem ser úteis. Os céticos às vezes comparam essas fontes de dados comerciais agregadas com a Verdade absoluta e ressaltam que essas fontes de dados são insuficientes. No entanto, neste caso, os céticos estão fazendo a comparação errada: todos os dados que os pesquisadores usam ficam aquém da verdade absoluta. Em vez disso, é melhor comparar fontes de dados comerciais agregadas com outras fontes de dados disponíveis (por exemplo, comportamento de voto auto-relatado), que invariavelmente também apresentam erros. Finalmente, a terceira lição geral do estudo de Ansolabehere e Hersh é que, em algumas situações, os pesquisadores podem se beneficiar dos enormes investimentos que muitas empresas privadas estão fazendo na coleta e harmonização de conjuntos de dados sociais complexos.