3.4 A quem perguntar

A era digital está dificultando a amostragem probabilística na prática e está criando novas oportunidades para a amostragem não probabilística.

Na história da amostragem, houve duas abordagens concorrentes: métodos de amostragem probabilística e métodos de amostragem não probabilísticos. Embora ambas as abordagens tenham sido usadas nos primeiros dias de amostragem, a amostragem probabilística passou a dominar, e muitos pesquisadores sociais são ensinados a ver a amostragem não probabilística com grande ceticismo. No entanto, como descreverei abaixo, as mudanças criadas pela era digital significam que é hora de os pesquisadores reconsiderarem a amostragem não probabilística. Em particular, a amostragem probabilística tem se tornado difícil na prática, e a amostragem não-probabilística tem se tornado mais rápida, barata e melhor. Pesquisas mais rápidas e mais baratas não são apenas fins em si mesmas: elas permitem novas oportunidades, como pesquisas mais frequentes e amostras maiores. Por exemplo, usando métodos não probabilísticos, o Estudo Eleitoral Cooperativo (CCES) é capaz de ter aproximadamente 10 vezes mais participantes do que estudos anteriores usando amostragem probabilística. Essa amostra muito maior permite que pesquisadores políticos estudem a variação de atitudes e comportamentos em subgrupos e contextos sociais. Além disso, toda essa escala agregada veio sem diminuir a qualidade das estimativas (Ansolabehere and Rivers 2013) .

Atualmente, a abordagem dominante de amostragem para pesquisa social é a amostragem probabilística . Na amostragem probabilística, todos os membros da população-alvo têm uma probabilidade conhecida, não nula, de amostragem, e todas as pessoas que são amostradas respondem à pesquisa. Quando essas condições são satisfeitas, os resultados matemáticos elegantes oferecem garantias prováveis ​​sobre a capacidade de um pesquisador de usar a amostra para fazer inferências sobre a população-alvo.

No mundo real, no entanto, as condições subjacentes a esses resultados matemáticos raramente são cumpridas. Por exemplo, há frequentemente erros de cobertura e não resposta. Por causa desses problemas, os pesquisadores muitas vezes têm de empregar uma variedade de ajustes estatísticos para inferir a partir de sua amostra para sua população-alvo. Assim, é importante distinguir entre amostragem probabilística em teoria , que tem fortes garantias teóricas, e amostragem probabilística na prática , que não oferece tais garantias e depende de uma variedade de ajustes estatísticos.

Com o tempo, as diferenças entre a amostragem probabilística na teoria e a amostragem probabilística na prática vêm aumentando. Por exemplo, as taxas de não resposta têm aumentado constantemente, mesmo em pesquisas caras e de alta qualidade (Figura 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . As taxas de não resposta são muito mais altas em pesquisas telefônicas comerciais - às vezes até mesmo de 90% (Kohut et al. 2012) . Esses aumentos na falta de resposta ameaçam a qualidade das estimativas, porque as estimativas dependem cada vez mais dos modelos estatísticos que os pesquisadores usam para ajustar a não resposta. Além disso, essas quedas na qualidade ocorreram apesar dos esforços cada vez mais dispendiosos dos pesquisadores da pesquisa em manter altas taxas de resposta. Algumas pessoas temem que estas tendências gêmeas de qualidade decrescente e custo crescente ameacem a base da pesquisa de opinião (National Research Council 2013) .

Figura 3.5: A não resposta tem sido cada vez mais constante, mesmo em pesquisas caras e de alta qualidade (National Research Council 2013; B. D. Meyer, Mok e Sullivan 2015). As taxas de não resposta são muito mais altas para pesquisas de telefones comerciais, às vezes chegando a 90% (Kohut et al., 2012). Essas tendências de longo prazo na não resposta significam que a coleta de dados é mais cara e as estimativas são menos confiáveis. Adaptado de B. D. Meyer, Mok e Sullivan (2015), figura 1.

Figura 3.5: A não resposta tem sido cada vez mais constante, mesmo em pesquisas caras e de alta qualidade (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . As taxas de não resposta são muito mais altas para pesquisas de telefones comerciais, às vezes chegando a 90% (Kohut et al. 2012) . Essas tendências de longo prazo na não resposta significam que a coleta de dados é mais cara e as estimativas são menos confiáveis. Adaptado de BD Meyer, Mok, and Sullivan (2015) , figura 1.

Ao mesmo tempo em que tem havido dificuldades crescentes nos métodos de amostragem probabilística, também houve desenvolvimentos interessantes em métodos de amostragem não probabilística . Há uma variedade de estilos de métodos de amostragem não probabilística, mas a única coisa que eles têm em comum é que eles não podem se encaixar facilmente na estrutura matemática da amostragem probabilística (Baker et al. 2013) . Em outras palavras, em métodos de amostragem não probabilísticos, nem todos têm uma probabilidade de inclusão conhecida e diferente de zero. Métodos de amostragem não probabilísticos têm uma péssima reputação entre os pesquisadores sociais e estão associados a alguns dos mais dramáticos fracassos dos pesquisadores, como o fiasco Literary Digest (discutido anteriormente) e “Dewey Defeats Truman”, a previsão incorreta sobre os EUA. eleições presidenciais de 1948 (figura 3.6).

Figura 3.6: O Presidente Harry Truman segurando a manchete de um jornal que anunciou incorretamente sua derrota. Este título foi baseado em parte em estimativas de amostras não probabilísticas (Mosteller 1949; Bean 1950; Freedman, Pisani e Purves 2007). Embora Dewey Defeats Truman tenha ocorrido em 1948, ainda é um dos motivos pelos quais alguns pesquisadores são céticos quanto às estimativas de amostras não probabilísticas. Fonte: Biblioteca e Museu Harry S. Truman.

Figura 3.6: O Presidente Harry Truman segurando a manchete de um jornal que anunciou incorretamente sua derrota. Este título foi baseado em parte em estimativas de amostras não probabilísticas (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) . Embora “Dewey Defeats Truman” tenha ocorrido em 1948, ainda está entre os motivos pelos quais alguns pesquisadores são céticos quanto às estimativas de amostras não probabilísticas. Fonte: Biblioteca e Museu Harry S. Truman .

Uma forma de amostragem não probabilística que é particularmente adequada à era digital é o uso de painéis on-line . Pesquisadores que usam painéis on-line dependem de algum fornecedor de painel - geralmente uma empresa, governo ou universidade - para construir um grupo grande e diversificado de pessoas que concordam em servir como respondentes para pesquisas. Esses participantes do painel geralmente são recrutados usando uma variedade de métodos ad hoc, como anúncios de banner on-line. Em seguida, um pesquisador pode pagar ao provedor do painel pelo acesso a uma amostra de entrevistados com características desejadas (por exemplo, representativa nacional de adultos). Esses painéis on-line são métodos não-probabilísticos, porque nem todos têm uma probabilidade de inclusão conhecida e diferente de zero. Embora painéis on-line não-probabilísticos já estejam sendo usados ​​por pesquisadores sociais (por exemplo, o CCES), ainda há algum debate sobre a qualidade das estimativas que vêm deles (Callegaro et al. 2014) .

Apesar desses debates, acho que há duas razões para que os pesquisadores sociais reconsiderem a amostragem não probabilística. Primeiro, na era digital, houve muitos desenvolvimentos na coleta e análise de amostras não probabilísticas. Esses métodos mais recentes são diferentes o suficiente dos métodos que causaram problemas no passado que eu acho que faz sentido pensar neles como “amostragem não probabilística 2.0”. A segunda razão pela qual os pesquisadores deveriam reconsiderar a amostragem não-probabilística é porque a amostragem probabilística em prática são cada vez mais difíceis. Quando há altas taxas de não-resposta - como há agora em pesquisas reais - as probabilidades reais de inclusão dos entrevistados não são conhecidas e, assim, amostras probabilísticas e amostras não-probabilísticas não são tão diferentes quanto muitos pesquisadores acreditam.

Como eu disse anteriormente, amostras não-probabilísticas são vistas com grande ceticismo por muitos pesquisadores sociais, em parte por causa de seu papel em algumas das falhas mais embaraçosas nos primeiros dias da pesquisa de opinião. Um exemplo claro de quão longe chegamos com amostras não probabilísticas é a pesquisa feita por Wei Wang, David Rothschild, Sharad Goel e Andrew Gelman (2015) que recuperou corretamente o resultado da eleição de 2012 dos EUA usando uma amostra não probabilística de Usuários americanos do Xbox - uma amostra decididamente não aleatória de americanos. Os pesquisadores recrutaram entrevistados do sistema de jogos XBox e, como você poderia esperar, a amostra do Xbox distorcia jovens masculinos e distorcidos: jovens de 18 a 29 anos compõem 19% do eleitorado, mas 65% da amostra do Xbox, e homens compõem 47% do eleitorado, mas 93% da amostra do Xbox (figura 3.7). Devido a esses fortes vieses demográficos, os dados brutos do Xbox eram um indicador fraco dos retornos eleitorais. Ele previu uma forte vitória de Mitt Romney sobre Barack Obama. Novamente, este é outro exemplo dos perigos de amostras não probabilísticas brutas e não ajustadas e lembra o fiasco da Literary Digest .

Figura 3.7: Demografia dos entrevistados em W. Wang et al. (2015). Como os entrevistados foram recrutados no XBox, eles eram mais propensos a ser jovens e mais propensos a ser do sexo masculino, em relação aos eleitores nas eleições de 2012. Adaptado de W. Wang et al. (2015), figura 1.

Figura 3.7: Demografia dos entrevistados em W. Wang et al. (2015) . Como os entrevistados foram recrutados no XBox, eles eram mais propensos a ser jovens e mais propensos a ser do sexo masculino, em relação aos eleitores nas eleições de 2012. Adaptado de W. Wang et al. (2015) , figura 1.

No entanto, Wang e seus colegas estavam cientes desses problemas e tentaram ajustar seu processo de amostragem não aleatória ao fazer estimativas. Em particular, eles usaram pós-estratificação , uma técnica que também é amplamente usada para ajustar amostras de probabilidade que têm erros de cobertura e não resposta.

A idéia principal de pós-estratificação é usar informações auxiliares sobre a população-alvo para ajudar a melhorar a estimativa que vem de uma amostra. Ao usar a pós-estratificação para fazer estimativas a partir de sua amostra não-probabilística, Wang e seu colega dividiram a população em diferentes grupos, estimaram o apoio para Obama em cada grupo e então tomaram uma média ponderada das estimativas do grupo para produzir uma estimativa geral. Por exemplo, eles poderiam dividir a população em dois grupos (homens e mulheres), estimar o apoio a Obama entre homens e mulheres e, em seguida, estimar o apoio geral a Obama, tomando uma média ponderada para explicar o fato de que as mulheres fazem até 53% do eleitorado e os homens 47%. Grosso modo, a pós-estratificação ajuda a corrigir uma amostra desequilibrada trazendo informações auxiliares sobre os tamanhos dos grupos.

A chave para a pós-estratificação é formar os grupos certos. Se você puder dividir a população em grupos homogêneos de tal forma que as propensões de resposta sejam as mesmas para todos em cada grupo, então a pós-estratificação produzirá estimativas imparciais. Em outras palavras, a pós-estratificação por gênero produzirá estimativas imparciais se todos os homens tiverem a propensão à resposta e todas as mulheres tiverem a mesma propensão à resposta. Essa suposição é chamada de pressuposto de propensão homogênea-resposta-dentro de grupos , e eu a descrevo um pouco mais nas anotações matemáticas no final deste capítulo.

Naturalmente, parece improvável que as propensões de resposta sejam as mesmas para todos os homens e todas as mulheres. No entanto, a hipótese de propensão homogênea-resposta dentro do grupo torna-se mais plausível à medida que o número de grupos aumenta. Aproximadamente, torna-se mais fácil dividir a população em grupos homogêneos se você criar mais grupos. Por exemplo, pode parecer implausível que todas as mulheres tenham a mesma propensão a respostas, mas pode parecer mais plausível que haja a mesma propensão a respostas para todas as mulheres de 18 a 29 anos, que se formaram na faculdade e que moram na Califórnia. . Assim, à medida que o número de grupos utilizados na pós-estratificação aumenta, as suposições necessárias para apoiar o método se tornam mais razoáveis. Dado esse fato, os pesquisadores muitas vezes desejam criar um grande número de grupos para pós-estratificação. No entanto, à medida que o número de grupos aumenta, os pesquisadores enfrentam um problema diferente: a dispersão dos dados. Se houver apenas um pequeno número de pessoas em cada grupo, as estimativas serão mais incertas e, no caso extremo, em que há um grupo que não tem respondentes, a pós-estratificação se rompe completamente.

Há duas maneiras de sair dessa tensão inerente entre a plausibilidade da hipótese de resposta homogênea à propensão dentro de grupos e a demanda por tamanhos de amostra razoáveis ​​em cada grupo. Primeiro, os pesquisadores podem coletar uma amostra maior e mais diversificada, o que ajuda a garantir tamanhos de amostra razoáveis ​​em cada grupo. Segundo, eles podem usar um modelo estatístico mais sofisticado para fazer estimativas dentro de grupos. E, de fato, às vezes os pesquisadores fazem as duas coisas, como Wang e seus colegas fizeram com o estudo da eleição usando respondentes do Xbox.

Como eles estavam usando um método de amostragem não probabilística com entrevistas administradas por computador (falarei mais sobre entrevistas administradas por computador na seção 3.5), Wang e seus colegas tiveram uma coleta de dados muito barata, que lhes permitiu coletar informações de 345.858 participantes únicos. , um número enorme pelos padrões de votação eleitoral. Esse enorme tamanho de amostra permitiu que eles formassem um grande número de grupos de pós-estratificação. Enquanto a pós-estratificação tipicamente envolve o corte da população em centenas de grupos, Wang e seus colegas dividiram a população em 176.256 grupos definidos por gênero (2 categorias), raça (4 categorias), idade (4 categorias), educação (4 categorias), estado. (51 categorias), ID do partido (3 categorias), ideologia (3 categorias) e voto 2008 (3 categorias). Em outras palavras, o enorme tamanho da amostra, que foi possibilitado pela coleta de dados de baixo custo, permitiu que eles fizessem uma suposição mais plausível em seu processo de estimativa.

Mesmo com 345.858 participantes únicos, ainda havia muitos, muitos grupos para os quais Wang e seus colegas quase não tinham respondentes. Portanto, eles usaram uma técnica chamada de regressão multinível para estimar o suporte em cada grupo. Essencialmente, para estimar o apoio a Obama dentro de um grupo específico, a regressão multinível reuniu informações de muitos grupos intimamente relacionados. Por exemplo, imagine tentar estimar o apoio a Obama entre as mulheres hispânicas entre 18 e 29 anos, que são graduadas em faculdades, que são democratas registradas, que se identificam como moderadas e que votaram em Obama em 2008. Este é um , grupo muito específico, e é possível que não haja ninguém na amostra com essas características. Portanto, para fazer estimativas sobre esse grupo, a regressão multinível usa um modelo estatístico para reunir estimativas de pessoas em grupos muito semelhantes.

Assim, Wang e seus colegas usaram uma abordagem que combinava regressão multinível e pós-estratificação, de modo que chamaram sua estratégia de regressão multinível com pós-estratificação ou, mais afetivamente, “Sr. P. ”Quando Wang e seus colegas usaram o Sr. P. para fazer estimativas a partir da amostra não probabilística do XBox, eles produziram estimativas muito próximas do apoio geral que Obama recebeu na eleição de 2012 (figura 3.8). Na verdade, suas estimativas eram mais precisas do que um agregado de pesquisas de opinião pública tradicionais. Assim, neste caso, ajustes estatísticos - especificamente o Sr. P. - parecem fazer um bom trabalho corrigindo os vieses em dados não probabilísticos; preconceitos que eram claramente visíveis quando você olha para as estimativas dos dados não ajustados do Xbox.

Figura 3.8: Estimativas de W. Wang et al. (2015). Amostra XBox não ajustada produziu estimativas imprecisas. Mas, a amostra ponderada do XBox produziu estimativas mais precisas do que uma média de pesquisas por telefone baseadas em probabilidades. Adaptado de W. Wang et al. (2015), figuras 2 e 3.

Figura 3.8: Estimativas de W. Wang et al. (2015) . Amostra XBox não ajustada produziu estimativas imprecisas. Mas, a amostra ponderada do XBox produziu estimativas mais precisas do que uma média de pesquisas por telefone baseadas em probabilidades. Adaptado de W. Wang et al. (2015) , figuras 2 e 3.

Há duas lições principais do estudo de Wang e colegas. Primeiro, amostras não probabilísticas não ajustadas podem levar a estimativas ruins; Esta é uma lição que muitos pesquisadores já ouviram antes. A segunda lição, no entanto, é que as amostras não probabilísticas, quando analisadas adequadamente, podem realmente produzir boas estimativas; Amostras não-probabilísticas não precisam automaticamente levar a algo como o fiasco da Literary Digest .

Indo adiante, se você estiver tentando decidir entre usar uma abordagem de amostragem probabilística e uma abordagem de amostragem não probabilística, terá que enfrentar uma escolha difícil. Às vezes, os pesquisadores querem uma regra rápida e rígida (por exemplo, sempre usam métodos de amostragem probabilística), mas é cada vez mais difícil oferecer essa regra. Pesquisadores enfrentam uma escolha difícil entre os métodos de amostragem probabilística na prática - que são cada vez mais caros e distantes dos resultados teóricos que justificam seu uso - e métodos de amostragem não probabilísticos - que são mais baratos e mais rápidos, mas menos familiares e mais variados. Uma coisa que fica clara, porém, é que se você for forçado a trabalhar com amostras não probabilísticas ou com fontes big data não representativas (pense no Capítulo 2), há uma forte razão para acreditar que as estimativas feitas usando pós-estratificação e as técnicas relacionadas serão melhores do que as estimativas brutas não ajustadas.