3.4.3 amostras não probabilística: harmonização amostra

Esta tradução foi criado por um computador. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.3 amostras não probabilística: harmonização amostra

Nem todas as amostras não são a mesma probabilidade. Podemos adicionar mais controle na parte frontal.

A abordagem Wang e seus colegas utilizados para estimar o resultado da eleição presidencial de 2012 US dependia inteiramente de melhorias na análise dos dados. Ou seja, eles coletaram tantas respostas como poderia e, em seguida, tentou re-peso-los. Uma estratégia complementar para trabalhar com amostragem não probabilística é ter mais controle sobre o processo de recolha de dados.

O exemplo mais simples de um processo de amostragem não probabilística parcialmente controlada é amostragem por quotas, uma técnica que remonta aos primeiros dias da investigação de pesquisa. Na amostragem por quotas, os pesquisadores dividir a população em grupos diferentes (por exemplo, jovens, mulheres jovens, etc) e quotas, em seguida, definido para o número de pessoas a serem selecionadas em cada grupo. Os entrevistados são selecionados de forma aleatória até que o pesquisador encontrou sua quota em cada grupo. Por causa das quotas, a amostra resultante se parece mais com a população-alvo do que seria verdade de outra forma, mas porque as probabilidades de inclusão são desconhecidos muitos pesquisadores estão céticos de amostragem por quotas. Na verdade, amostragem por quotas foi uma das causas da "Dewey Derrotas Truman" erro nas 1948 votações presidenciais nos EUA. Porque fornece algum controle sobre o processo de amostragem, no entanto, pode-se ver como amostragem por quotas pode ter algumas vantagens sobre a coleta de dados completamente descontrolada.

Indo além da amostragem por quotas, abordagens mais modernas para controlar o processo de amostragem não probabilística são agora possíveis. Uma tal abordagem é chamada correspondente amostra, e é utilizado por alguns fornecedores comerciais painel on-line. Na sua forma mais simples, combinando amostra requer duas fontes de dados: 1) um registo completo da população e 2) um grande painel de voluntários. É importante que os voluntários não precisa de ser uma amostra de probabilidade a partir de qualquer população; para enfatizar que não há requisitos para a seleção para o painel, eu vou chamá-lo de um painel sujo. Além disso, tanto o registo da população e o painel sujo deve incluir alguma informação auxiliar sobre cada pessoa, neste exemplo, eu vou considerar idade e sexo, mas em situações realistas esta informação auxiliar poderia ser muito mais detalhado. O truque de correspondência amostra é selecionar amostras de um painel sujo de uma forma que produz amostras que se parecem com amostras probabilísticas.

Coincidindo amostra começa quando uma amostra de probabilidade simulada é feita a partir do registo da população; esta amostra simulada torna-se uma amostra alvo. Em seguida, com base na informação auxiliar, casos da amostra alvo são combinadas com as pessoas no painel sujo para formar uma amostra correspondente. Por exemplo, se houver uma fêmea 25 anos de idade na amostra alvo, em seguida, o pesquisador se encontra uma fêmea de 25 anos a partir do painel sujo para a amostra correspondente. Finalmente, os membros da amostra correspondeu são entrevistados para produzir o conjunto final dos entrevistados.

Mesmo que a amostra parece combinados da amostra alvo, é importante lembrar que a amostra combinado não é uma amostra de probabilidade. amostras emparelhadas só pode corresponder à amostra-alvo sobre a informação auxiliar conhecido (por exemplo, idade e sexo), mas não em características não mensuráveis. Por exemplo, se as pessoas no painel sujo tendem a ser mais pobres, afinal, uma razão para participar de um painel de pesquisa é para ganhar dinheiro, então mesmo que a amostra combinado parece com a amostra-alvo em termos de idade e sexo ainda terá um viés para as pessoas pobres. A magia da verdadeira amostragem probabilística é para descartar problemas em ambas as características medidas e não medidas (um ponto que é consistente com a nossa discussão de harmonização para inferência causal a partir de estudos observacionais no Capítulo 2).

Na prática, a correspondência da amostra depende de ter uma grande e diversificada painel ansioso para concluir inquéritos e, portanto, é feito principalmente por empresas que podem pagar para desenvolver e manter um tal painel. Além disso, na prática, pode haver problemas com correspondência (por vezes um bom jogo para alguém na amostra-alvo não existe no painel) e não-resposta (às vezes as pessoas da amostra correspondeu recusar-se a participar da pesquisa). Portanto, na prática, os pesquisadores fazendo a correspondência amostra também realizar algum tipo de ajuste de pós-estratificação de fazer estimativas.

É difícil fornecer garantias teóricas úteis sobre correspondência de amostra, mas na prática ele pode executar bem. Por exemplo, Stephen Ansolabehere e Brian Schaffner (2014) comparou três inquéritos paralelos de cerca de 1.000 pessoas realizados em 2010, utilizando três amostras diferentes e entrevistando métodos: correio, telefone, e um painel de Internet utilizando a correspondência de amostra e de ajuste de pós-estratificação. As estimativas das três abordagens foram bastante semelhante às estimativas de valores de referência de alta qualidade, tais como o levantamento atual População (CPS) e do National Health Interview Survey (SNIS). Mais especificamente, ambas as pesquisas de Internet e e-mail estavam fora por uma média de 3 pontos percentuais eo levantamento telefone estava desligado de 4 pontos percentuais. Erros esta grandes são aproximadamente o que se esperaria a partir de amostras de cerca de 1.000 pessoas. Embora, nenhum destes modos produzidos substancialmente melhores dados, tanto a pesquisa Internet e telefone (que levou dias ou semanas) foram substancialmente mais rápida de campo do que o levantamento mail (que levou oito meses), ea pesquisa Internet, que usou correspondência de amostra, era mais barato do que os outros dois modos.

Em conclusão, os cientistas e estatísticos sociais são incrivelmente céticos de inferências a partir dessas amostras não probabilísticas, em parte porque eles estão associados com algumas falhas embaraçosas de pesquisa de opinião, tais como a pesquisa Literary Digest. Em parte, concordo com esse ceticismo: amostras não probabilísticas não ajustados são susceptíveis de produzir estimativas ruins. No entanto, se os pesquisadores podem ajustar os preconceitos no processo de amostragem (eg, pós-estratificação) ou controlar o processo de amostragem pouco (por exemplo, correspondência de amostra), eles podem produzir melhores estimativas, e até mesmo as estimativas de qualidade suficiente para a maioria dos propósitos. Claro, seria melhor para fazer amostragem probabilística perfeitamente executada, mas que já não parece ser uma opção realista.

Ambas as amostras não probabilísticas e amostras probabilísticas variam em sua qualidade, e atualmente é provável que o caso que a maioria das estimativas de amostras probabilísticas são mais confiáveis do que as estimativas de amostras não probabilísticas. Mas, mesmo agora, as estimativas de amostras não probabilísticas bem conduzidos são provavelmente melhores do que as estimativas de amostras probabilísticas mal conduzidos. Além disso, as amostras não probabilísticas são substancialmente mais barato. Assim, parece que a probabilidade de amostragem não-vs probabilidade oferece um custo-qualidade trade-off (Figura 3.6). Olhando para a frente, eu espero que as estimativas de amostras não probabilísticas bem-feito vai se tornar mais barato e melhor. Além disso, devido à quebra nas pesquisas de telefone fixo e aumento das taxas de não-resposta, espero que as amostras de probabilidade se tornarão mais caros e de menor qualidade. Devido a estas tendências de longo prazo, acho que a amostragem não probabilística se tornará cada vez mais importante na terceira era da investigação de pesquisa.

Figura 3.6: Probabilidade de amostragem na prática e amostragem não probabilística são ambos grandes categorias heterogêneas. Em geral, existe uma boa relação custo-erro trade-off com a amostragem não-probabilidade sendo menor custo, mas maior erro. No entanto, bem-feito amostragem não probabilística pode produzir estimativas melhores do que amostragem probabilística mal-feito. No futuro, espero que a amostragem não probabilística vai ficar melhor e mais barato, enquanto amostragem probabilística vai ficar pior e mais caro.