3.4.1 recollida e análise de datos de datos: Probabilidade de mostraxe

Pesos pode desfacer distorsións intencionalmente causados polo proceso de mostraxe.

Mostras probabilísticas son aqueles en que todas as persoas teñen un coñecido probabilidade non nula, de inclusión, eo deseño máis sinxelo mostraxe probabilística é simple mostraxe aleatoria onde cada persoa ten igual probabilidade de inclusión. Cando os entrevistados son seleccionados mediante mostraxe aleatoria simple con perfecta execución (por exemplo, ningún erro de cuberta e ningunha non-resposta), a continuación, a estimación é lineal porque a mostra-media, -se unha versión en miniatura da poboación.

mostraxe aleatoria simple raramente se utiliza, na práctica, con todo. Pola contra, os investigadores intencionalmente seleccionar persoas con probabilidades desiguais de inclusión, a fin de reducir custos e aumentar a precisión. Cando os investigadores intencionalmente seleccionar persoas con diferentes probabilidades de inclusión, a continuación, son necesarios axustes para desfacer as distorsións causadas polo proceso de mostraxe. Noutras palabras, como é que xeneralizar a partir dunha mostra depende de como a mostra foi seleccionado.

Por exemplo, o Current Population Survey (CPS) é usado polo goberno de Estados Unidos para estimar a taxa de paro. Cada mes preto de 100.000 persoas son entrevistados, quere cara a cara ou por teléfono, e os resultados son usados para producir a taxa de paro estimada. Porque o goberno pretende estimar a taxa de paro en cada estado, non pode facer unha mostra aleatoria simple de adultos porque poderían producir moi poucos entrevistados en estados con poboacións pequenas (por exemplo, Rhode Island) e moitos dos estados con grandes poboacións (por exemplo, , California). Pola contra, os CPS mostras de persoas en diferentes estados en taxas diferentes, nun proceso chamado de mostraxe estratificada con probabilidade desigual de selección. Por exemplo, se os CPS quería 2.000 entrevistados por estado, a continuación, os adultos en Rhode Island tería uns 30 veces máis probabilidades de inclusión que os adultos en California (Rhode Island: 2.000 entrevistados por 800.000 adultos vs California: 2.000 entrevistados por 30.000.000 adultos). Como veremos máis tarde, este tipo de mostraxe con probabilidade desigual acontece con fontes en liña de datos tamén, pero a diferenza dos CPS, o mecanismo de mostraxe xeralmente non é coñecido ou controlado polo investigador.

Dado o seu deseño amostral, o CPS non é directamente representativa de EEUU; que inclúe moitas persoas de Rhode Island e moi poucos de California. Polo tanto, sería boa idea para estimar a taxa de paro no país coa taxa de paro na mostra. En vez de a media da mostra, é mellor tomar unha media ponderada, en que os pesos explicar o feito de que a xente de Rhode Island eran máis propensos a ser incluído que a xente de California. Por exemplo, cada persoa de California sería upweighted- eles contan máis na estimación e cada persoa desde Rhode Island sería downweighted se contaría menos na estimación. En esencia, terá máis voz ás persoas que son menos propensos a aprender sobre.

Este exemplo xoguete ilustra un punto importante, pero comunmente mal entendido: a mostra non debe ser unha versión en miniatura da poboación, a fin de producir boas estimacións. Se se sabe o suficiente sobre o xeito no que os datos foron recollidos, logo que a información pode ser usada ao facer estimacións da mostra. A visión que acabo de describir e que eu describir matemáticamente na técnica apéndice-recae no ámbito mostraxe probabilística clásica. Agora, eu vou lle amosar como esa mesma idea pode ser aplicada a mostras non probabilísticas.