3.4.2 amostras não probabilística: Ponderação

Com amostras não probabilísticas, pesos pode desfazer as distorções causadas pelo processo de amostragem assumido.

Da mesma forma que os investigadores peso respostas a partir de amostras de probabilidade, eles também podem peso respostas de amostras não-probabilidade. Por exemplo, como uma alternativa para os CPS, imagine que você colocou banners em milhares de sites para recrutar participantes para um levantamento para estimar a taxa de desemprego. Naturalmente, você seria cético de que a média simples da sua amostra seria uma boa estimativa da taxa de desemprego. Seu ceticismo é, provavelmente, porque você acha que algumas pessoas são mais propensos a completar a sua pesquisa do que outros. Por exemplo, pessoas que não passam muito tempo na web são menos propensos a completar a sua pesquisa.

Como vimos na última seção, no entanto, se sabemos como a amostra foi selecionada, como fazemos com probabilidade amostras, então podemos desfazer as distorções causadas pelo processo de amostragem. Infelizmente, quando se trabalha com amostras não probabilísticas, não sabemos como a amostra foi selecionada. Mas, podemos fazer suposições sobre o processo de amostragem e, em seguida, aplicar ponderação da mesma forma. Se estas suposições estão corretas, então a ponderação irá desfazer as distorções causadas pelo processo de amostragem.

Por exemplo, imagine que em resposta a seus banners, você recrutados 100.000 respondentes. No entanto, você não acredita que essas 100.000 respondentes são uma amostra aleatória simples de adultos americanos. Na verdade, quando você compara seus respondentes para a população dos EUA, você acha que as pessoas de alguns estados (por exemplo, New York) estão sobre-representados e que as pessoas de alguns estados (por exemplo, Alasca) estão sub-representadas. Assim, a taxa de desemprego da sua amostra é provável que seja uma má estimativa da taxa de desemprego na população-alvo.

Uma maneira de desfazer a distorção que aconteceu no processo de amostragem é atribuir pesos para cada pessoa; mais baixos pesos para pessoas de estados que estão sobre-representados na amostra (por exemplo, New York) e pesos mais altos para pessoas de estados que estão sub-representados na amostra (por exemplo, Alaska). Mais especificamente, o peso de cada inquirido está relacionada com a sua prevalência na sua amostra em relação à sua prevalência na população dos EUA. Este procedimento de ponderação é chamado de pós-estratificação, ea ideia de pesagem deve lembrá-lo do exemplo da Seção 3.4.1, onde os entrevistados de Rhode Island foram dadas menos peso do que os entrevistados da Califórnia. Pós-estratificação requer que você saiba o suficiente para colocar seus entrevistados em grupos e saber a proporção da população-alvo em cada grupo.

Embora a ponderação da amostra de probabilidade e da amostra não-probabilística são os mesmos matematicamente (ver anexo técnico), eles funcionam bem em diferentes situações. Se o pesquisador tem uma amostra probabilística perfeita (ou seja, nenhum erro cobertura e não não-resposta), então ponderação irá produzir estimativas imparciais para todos os caracteres em todos os casos. Esta garantia forte teórica é por isso que os defensores de amostras probabilísticas encontrá-los tão atraente. Por outro lado, as amostras não probabilísticas de ponderação só irá produzir estimativas imparciais para todos os caracteres se as propensões de resposta são os mesmos para todos em cada grupo. Em outras palavras, o pensamento de volta ao nosso exemplo, usando pós-estratificação irá produzir estimativas imparciais se todos em Nova York tem a mesma probabilidade de participar e todos no Alasca tem a mesma probabilidade de participar e assim por diante. Esta suposição é chamado a suposição de resposta-propensões homogêneos-dentro-grupos, e que desempenha um papel-chave em saber se pós-estratificação vai funcionar bem com amostras não probabilísticas.

Infelizmente, no nosso exemplo, parece improvável que seja verdade a suposição de resposta homogênea-propensões-dentro-grupos. Ou seja, parece improvável que todos no Alasca tem a mesma probabilidade de estar em sua pesquisa. Mas, existem três pontos importantes a ter em mente sobre pós-estratificação, todos os quais fazem parecer mais promissor.

Em primeiro lugar, homogêneo-resposta-propensões-dentro-grupos suposição torna-se mais plausível, como o número de grupos aumenta. E, os pesquisadores não estão limitados a grupos apenas com base em uma única dimensão geográfica. Por exemplo, poderíamos criar grupos com base no estado, idade, sexo e nível de educação. Parece mais plausível que há propensões resposta homogênea dentro do grupo de 18-29, graduados do sexo feminino, universitários que vivem no Alasca do que dentro do grupo de todas as pessoas que vivem no Alasca. Assim, como o número de grupos utilizados para o pós-estratificação aumenta, os pressupostos necessários para apoiar que se tornam mais razoável. Dado este fato, parece que a pesquisadores gostaria de criar um grande número de grupos de pós-estratificação. Mas, como o número de grupos aumenta, pesquisadores correr em um problema diferente: a dispersão de dados. Se há apenas um pequeno número de pessoas em cada grupo, em seguida, as estimativas serão mais incerto, e no caso extremo em que há um grupo que não tem entrevistados, em seguida, pós-estratificação rompe completamente. Há duas maneiras de sair desta tensão inerente entre a plausibilidade de homogeneous- suposição de resposta de propensão-dentro-grupos ea demanda por tamanhos de amostra razoáveis ​​em cada grupo. Uma abordagem é mover-se para um modelo estatístico mais sofisticado para calcular os pesos eo outro é para recolher uma amostra maior, mais diversificado, o que ajuda a assegurar a dimensão das amostras razoáveis ​​em cada grupo. E, por vezes, os pesquisadores fazer as duas coisas, como eu vou descrever em mais detalhes abaixo.

A segunda consideração quando se trabalha com pós-estratificação das amostras não probabilística é que o pressuposto homogênea-resposta de propensão-dentro-grupos já é freqüentemente feita ao analisar amostras probabilísticas. A razão que esta suposição é necessária para amostras probabilísticas na prática é que as amostras de probabilidade têm de não-resposta, bem como o método mais comum para o ajuste de não-resposta é pós-estratificação, como descrito acima. Claro, só porque muitos pesquisadores fazer uma certa suposição não significa que você deve fazê-lo também. Mas, isso não significa que ao comparar amostras não probabilísticas de amostras probabilísticas, na prática, devemos ter em mente que ambos dependem de pressupostos e informação auxiliar, a fim de produzir estimativas. Em configurações mais realistas, não há simplesmente nenhuma abordagem livre de pressuposto para a inferência.

Finalmente, se você se preocupa com uma estimativa, em particular, em nosso exemplo o desemprego taxa, então você precisa de uma condição mais fraca do que-resposta-de propensão-dentro-grupos homogéneos suposição. Especificamente, você não precisa assumir que todos têm a mesma propensão de resposta, você só precisa assumir que não existe uma correlação entre a propensão de resposta e taxa de desemprego dentro de cada grupo. Claro que, mesmo esta condição não mais fraco vai realizar em algumas situações. Por exemplo, imagine estimar a proporção de americanos que fazem trabalho voluntário. Se as pessoas que fazem trabalho voluntário são mais propensos a concordar em participar de uma pesquisa, em seguida, os investigadores vão sistematicamente sobre-estimar a quantidade de voluntariado, mesmo que eles fazem ajustes de pós-estratificação, resultado que foi demonstrado empiricamente por Abraham, Helms, and Presser (2009) .

Como eu disse anteriormente, as amostras não probabilísticas são vistos com grande ceticismo por cientistas sociais, em parte por causa de seu papel em algumas das falhas mais embaraçosos nos primeiros dias de pesquisa de opinião. Um exemplo claro do quão longe nós viemos com amostras não probabilísticas é a pesquisa de Wei Wang, David Rothschild, Sharad Goel, e Andrew Gelman que corretamente recuperou o resultado da eleição de 2012 EUA com uma amostra não-probabilística dos usuários americanos Xbox -a amostra decididamente não-aleatória de americanos (Wang et al. 2015) . Os pesquisadores recrutaram participantes do sistema de jogos XBox, e como você poderia esperar, a amostra Xbox enviesada masculino e enviesada jovens: 18 - crianças de 29 anos compõem 19% do eleitorado, mas 65% da amostra Xbox e os homens compõem 47% do eleitorado e 93% da amostra Xbox (Figura 3.4). Devido a estas fortes tendências demográficas, os dados Xbox crua era um pobre indicador de retornos eleitorais. Ele previu uma forte vitória para Mitt Romney sobre Barack Obama. Novamente, este é outro exemplo dos perigos de amostras não probabilísticas crus, não ajustados e é uma reminiscência do fiasco Literary Digest.

Figura 3.4: Demografia dos inquiridos em Wang et al. (2015). Porque respondentes foram recrutados de XBox, eles eram mais propensos a ser jovem e mais propensos a ser do sexo masculino, em relação aos eleitores na eleição de 2012.

Figura 3.4: Demografia dos inquiridos em Wang et al. (2015) . Porque respondentes foram recrutados de XBox, eles eram mais propensos a ser jovem e mais propensos a ser do sexo masculino, em relação aos eleitores na eleição de 2012.

No entanto, Wang e seus colegas estavam cientes desses problemas e tentou ponderar os entrevistados para corrigir o processo de amostragem. Em particular, eles usaram uma forma mais sofisticada do pós-estratificação de que lhe falei. Vale a pena aprender um pouco mais sobre a sua abordagem porque constrói intuição sobre pós-estratificação, ea versão especial Wang e seus colegas usaram é uma das abordagens mais interessantes para amostras não probabilísticas de ponderação.

No nosso exemplo simples sobre como estimar o desemprego na Seção 3.4.1, dividimos a população em grupos com base no Estado de residência. Em contraste, Wang e seus colegas dividiu a população em em 176,256 grupos definidos por: sexo (2 categorias), raça (4 categorias), idade (4 categorias), educação (4 categorias), Estado (51 categorias), ID do partido (3 Categorias), ideologia (3 categorias) e 2008 votos (3 categorias). Com mais grupos, os pesquisadores esperavam que seria cada vez mais provável que dentro de cada grupo, a propensão resposta foi não correlacionadas com suporte para Obama. Em seguida, em vez de construir pesos a nível individual, como fizemos no nosso exemplo, Wang e seus colegas usaram um modelo complexo para estimar a proporção de pessoas em cada grupo que votariam em Obama. Finalmente, eles combinaram essas estimativas de grupos de apoio com o tamanho conhecido de cada grupo para produzir um nível global estimado de apoio. Em outras palavras, eles cortaram-se a população em diferentes grupos, estimou o apoio a Obama em cada grupo, e depois levou uma média ponderada das estimativas do grupo para produzir uma estimativa global.

Assim, o grande desafio na sua abordagem é a de estimar o apoio para Obama em cada um destes grupos 176,256. Embora o seu painel incluiu 345,858 participantes originais, um número enorme pelos padrões de polling eleição, havia muitos, muitos grupos para os quais Wang e seus colegas quase não tinha entrevistados. Portanto, para estimar o apoio em cada grupo eles usaram uma técnica chamada de regressão multinível com o pós-estratificação, o que os pesquisadores chamam carinhosamente Sr. P. Essencialmente, para estimar o apoio a Obama dentro de um grupo específico, o Sr. P. piscinas informações de muitos grupos intimamente relacionados. Por exemplo, considere o desafio de estimar o apoio a Obama entre os hispânicos do sexo feminino, entre 18-29 anos de idade, que são graduados universitários, que estão registrados democratas, que se auto-identificam como moderados, e que votaram em Obama em 2008. Este é um grupo muito, muito específica, e que é possível que não há ninguém na amostra com estas características. Portanto, para fazer estimativas sobre esse grupo, o Sr. P. piscinas em conjunto estima das pessoas em grupos muito semelhantes.

Usando essa estratégia de análise, Wang e seus colegas foram capazes de utilizar a amostra não-probabilística XBox para estimar muito de perto o apoio global que Obama recebeu na eleição de 2012 (Figura 3.5). Na verdade as suas estimativas foram mais precisos do que um agregado de pesquisas de opinião pública. Assim, neste caso, a ponderação especificamente o Sr. P.-parece estar a fazer um bom trabalho corrigindo os desvios nos dados não-probabilística; preconceitos que são visíveis quando você olha para as estimativas a partir dos dados do Xbox não ajustados.

Figura 3.5: Estimativas de Wang et al. (2015). amostra XBox não ajustada produziu estimativas imprecisas. Mas, a amostra XBox ponderada produziu estimativas que eram mais precisos do que uma média de inquéritos telefónicos com base em probabilidade.

Figura 3.5: Estimativas de Wang et al. (2015) . amostra XBox não ajustada produziu estimativas imprecisas. Mas, a amostra XBox ponderada produziu estimativas que eram mais precisos do que uma média de inquéritos telefónicos com base em probabilidade.

Existem dois principais lições do estudo de Wang e seus colegas. Em primeiro lugar, as amostras não probabilísticas não ajustados podem levar a estimativas ruins; esta é uma lição que muitos pesquisadores têm ouvido antes. No entanto, a segunda lição é que as amostras não probabilísticas, quando ponderados corretamente, pode realmente produzir muito boas estimativas. Na verdade, as suas estimativas foram mais precisos do que as estimativas de pollster.com, uma agregação de mais pesquisas eleitorais tradicionais.

Finalmente, existem limitações importantes para o que podemos aprender com isso um estudo específico. Só porque pós-estratificação trabalhou bem neste caso particular, não há garantia de que ele vai trabalhar bem em outros casos. Na verdade, as eleições são, talvez, uma das definições mais fáceis porque os pesquisadores têm estudado eleições há quase 100 anos, não há feedback regular (podemos ver quem ganha as eleições), e identificação do partido e características demográficas são relativamente preditivo da votação. Neste momento, falta-nos a teoria sólida e experiência empírica saber quando pesando ajustes para amostras não probabilísticas irá produzir estimativas suficientemente precisos. Uma coisa que é clara, no entanto, é se você é forçado a trabalhar com amostras não probabilísticas, então há uma forte razão para acreditar que as estimativas ajustadas será melhor do que as estimativas não corrigidos.