3.4.1 coleta e análise de dados de dados: Probabilidade de amostragem

Pesos pode desfazer distorções intencionalmente causados pelo processo de amostragem.

Amostras probabilísticas são aqueles em que todas as pessoas têm um conhecido probabilidade não nula, da inclusão, eo design mais simples amostragem probabilística é simples amostragem aleatória onde cada pessoa tem igual probabilidade de inclusão. Quando os entrevistados são selecionados através de amostragem aleatória simples com perfeita execução (por exemplo, nenhum erro de cobertura e nenhuma não-resposta), em seguida, a estimativa é linear porque a amostra-em média,-se uma versão em miniatura da população.

amostragem aleatória simples raramente é utilizada, na prática, no entanto. Em vez disso, os pesquisadores intencionalmente selecionar pessoas com probabilidades desiguais de inclusão, a fim de reduzir custos e aumentar a precisão. Quando os pesquisadores intencionalmente selecionar pessoas com diferentes probabilidades de inclusão, em seguida, são necessários ajustes para desfazer as distorções causadas pelo processo de amostragem. Em outras palavras, como é que generalizar a partir de uma amostra depende de como a amostra foi seleccionado.

Por exemplo, o Current Population Survey (CPS) é usado pelo governo dos EUA para estimar a taxa de desemprego. A cada mês cerca de 100.000 pessoas são entrevistados, quer face-a-face ou por telefone, e os resultados são usados para produzir a taxa de desemprego estimada. Porque o governo pretende estimar a taxa de desemprego em cada estado, ela não pode fazer uma amostra aleatória simples de adultos porque isso iria produzir muito poucos entrevistados em estados com populações pequenas (por exemplo, Rhode Island) e muitos dos estados com grandes populações (por exemplo, , Califórnia). Em vez disso, os CPS amostras de pessoas em diferentes estados em taxas diferentes, um processo chamado de amostragem estratificada com probabilidade desigual de seleção. Por exemplo, se os CPS queria 2.000 entrevistados por estado, em seguida, os adultos em Rhode Island teria cerca de 30 vezes maior probabilidade de inclusão que os adultos na Califórnia (Rhode Island: 2.000 entrevistados por 800.000 adultos vs California: 2.000 entrevistados por 30.000.000 adultos). Como veremos mais tarde, este tipo de amostragem com probabilidade desigual acontece com fontes on-line de dados também, mas ao contrário dos CPS, o mecanismo de amostragem geralmente não é conhecido ou controlado pelo pesquisador.

Dado o seu desenho amostral, o CPS não é directamente representativa de os EUA; que inclui muitas pessoas de Rhode Island e muito poucos da Califórnia. Portanto, seria imprudente para estimar a taxa de desemprego no país com a taxa de desemprego na amostra. Em vez de a média da amostra, é melhor tomar uma média ponderada, em que os pesos explicar o fato de que as pessoas de Rhode Island eram mais propensos a ser incluído do que as pessoas da Califórnia. Por exemplo, cada pessoa da Califórnia seria upweighted- eles contam mais na estimativa e cada pessoa a partir de Rhode Island seria downweighted-se contaria menos na estimativa. Em essência, você terá mais voz às pessoas que são menos propensos a aprender sobre.

Este exemplo brinquedo ilustra um ponto importante, mas comumente mal entendido: a amostra não precisa ser uma versão em miniatura da população, a fim de produzir boas estimativas. Se se sabe o suficiente sobre a forma como os dados foram coletados, em seguida, que a informação pode ser usada ao fazer estimativas da amostra. A abordagem que acabei de descrever e que eu descrever matematicamente na técnica apêndice-recai no âmbito amostragem probabilística clássica. Agora, eu vou lhe mostrar como essa mesma idéia pode ser aplicada a amostras não probabilísticas.