Notas matemáticas

En este apéndice, describiré algunas de las ideas del capítulo en una forma ligeramente más matemática. El objetivo aquí es ayudarlo a sentirse cómodo con la notación y el marco matemático utilizado por los investigadores de la encuesta para que pueda hacer la transición a algunos de los materiales técnicos escritos sobre estos temas. Comenzaré introduciendo el muestreo probabilístico, luego pasaré al muestreo probabilístico sin respuesta, y finalmente al muestreo no probabilístico.

Muestreo de probabilidad

Como un ejemplo corriente, consideremos el objetivo de estimar la tasa de desempleo en los Estados Unidos. Sea \(U = \{1, \ldots, k, \ldots, N\}\) la población objetivo y deje \(y_k\) en el valor de la variable de resultado para la persona \(k\) . En este ejemplo, \(y_k\) es si la persona \(k\) está desempleada. Finalmente, supongamos que \(F = \{1, \ldots, k, \ldots, N\}\) es la población de cuadros, que por simplicidad se supone que es la misma que la población objetivo.

Un diseño de muestreo básico es un muestreo aleatorio simple sin reemplazo. En este caso, es igualmente probable que cada persona se incluya en la muestra \(s = \{1, \ldots, i, \ldots, n\}\) . Cuando los datos se recopilan con este diseño de muestreo, los investigadores pueden estimar la tasa de desempleo de la población con la media de la muestra:

\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]

donde \(\bar{y}\) es la tasa de desempleo en la población y \(\hat{\bar{y}}\) es la estimación de la tasa de desempleo (el \(\hat{ }\) es comúnmente usado para indicar un estimador).

En realidad, los investigadores rara vez usan muestreo aleatorio simple sin reemplazo. Por una variedad de razones (una de las cuales describiré en un momento), los investigadores a menudo crean muestras con probabilidades desiguales de inclusión. Por ejemplo, los investigadores podrían seleccionar personas en Florida con mayor probabilidad de inclusión que las personas en California. En este caso, la media muestral (ecuación 3.1) podría no ser un buen estimador. En cambio, cuando hay probabilidades desiguales de inclusión, los investigadores usan

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]

donde \(\hat{\bar{y}}\) es la estimación de la tasa de desempleo y \(\pi_i\) es la probabilidad de inclusión de la persona \(i\) . Siguiendo la práctica estándar, llamaré al estimador en eq. 3.2 el estimador de Horvitz-Thompson. El estimador de Horvitz-Thompson es extremadamente útil porque conduce a estimaciones insesgadas para cualquier diseño de muestreo de probabilidad (Horvitz and Thompson 1952) . Debido a que el estimador de Horvitz-Thompson aparece con tanta frecuencia, es útil notar que se puede volver a escribir como

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]

donde \(w_i = 1 / \pi_i\) . Como eq. 3.3 revela, el estimador de Horvitz-Thompson es una media ponderada de la muestra donde los pesos están inversamente relacionados con la probabilidad de selección. En otras palabras, cuanto menos probable es que una persona sea incluida en la muestra, más peso debe tener esa persona en la estimación.

Como se describió anteriormente, los investigadores a menudo toman muestras de personas con probabilidades desiguales de inclusión. Un ejemplo de un diseño que puede conducir a probabilidades desiguales de inclusión es el muestreo estratificado , que es importante comprender porque está estrechamente relacionado con el procedimiento de estimación llamado post-estratificación . En el muestreo estratificado, un investigador divide la población objetivo en \(H\) grupos mutuamente exclusivos y exhaustivos. Estos grupos se llaman estratos y se indican como \(U_1, \ldots, U_h, \ldots, U_H\) . En este ejemplo, los estratos son estados. Los tamaños de los grupos se indican como \(N_1, \ldots, N_h, \ldots, N_H\) . Es posible que un investigador desee utilizar un muestreo estratificado para asegurarse de tener suficientes personas en cada estado para hacer estimaciones del desempleo a nivel estatal.

Una vez que la población se haya dividido en estratos , suponga que el investigador selecciona una muestra aleatoria simple sin reemplazo de tamaño \(n_h\) , independientemente de cada estrato. Además, suponga que todos los seleccionados en la muestra se convierten en encuestados (en la siguiente sección manejaré la falta de respuesta). En este caso, la probabilidad de inclusión es

\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]

Debido a que estas probabilidades pueden variar de persona a persona, al hacer una estimación de este diseño de muestreo, los investigadores deben ponderar a cada encuestado por el inverso de su probabilidad de inclusión utilizando el estimador de Horvitz-Thompson (ecuación 3.2).

Aunque el estimador de Horvitz-Thompson es imparcial, los investigadores pueden producir estimaciones más precisas (es decir, menor varianza) combinando la muestra con información auxiliar . Algunas personas encuentran sorprendente que esto sea cierto incluso cuando existe un muestreo probabilístico perfectamente ejecutado. Estas técnicas que utilizan información auxiliar son particularmente importantes porque, como mostraré más adelante, la información auxiliar es crítica para realizar estimaciones a partir de muestras probabilísticas con muestras que no responden y muestras que no son de probabilidad.

Una técnica común para utilizar información auxiliar es la post-estratificación . Imagine, por ejemplo, que un investigador conoce la cantidad de hombres y mujeres en cada uno de los 50 estados; podemos denotar estos tamaños de grupos como \(N_1, N_2, \ldots, N_{100}\) . Para combinar esta información auxiliar con la muestra, el investigador puede dividir la muestra en grupos \(H\) (en este caso 100), hacer una estimación para cada grupo y luego crear un promedio ponderado de estos grupos significa:

\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]

Aproximadamente, el estimador en eq. 3.5 es probable que sea más preciso porque usa la información conocida de la población-el \(N_h\) -para corregir las estimaciones si se selecciona una muestra desequilibrada. Una forma de pensarlo es que la post-estratificación es como aproximar la estratificación después de que los datos ya han sido recolectados.

En conclusión, esta sección ha descrito algunos diseños de muestreo: muestreo aleatorio simple sin reemplazos, muestreo con probabilidad desigual y muestreo estratificado. También ha descrito dos ideas principales sobre la estimación: el estimador de Horvitz-Thompson y la post-estratificación. Para una definición más formal de los diseños de muestreo probabilístico, vea el capítulo 2 de Särndal, Swensson, and Wretman (2003) . Para un tratamiento más formal y completo del muestreo estratificado, ver la sección 3.7 de Särndal, Swensson, and Wretman (2003) . Para una descripción técnica de las propiedades del estimador de Horvitz-Thompson, vea Horvitz and Thompson (1952) , Overton and Stehman (1995) , o la sección 2.8 de @sarndal_model_2003. Para un tratamiento más formal de la post-estratificación, ver Holt and Smith (1979) , Smith (1991) , Little (1993) , o la sección 7.6 de Särndal, Swensson, and Wretman (2003) .

Muestreo de probabilidad sin respuesta

Casi todas las encuestas reales tienen falta de respuesta; es decir, no todos en la población de muestra responden a todas las preguntas. Hay dos tipos principales de falta de respuesta: la falta de respuesta del elemento y la falta de respuesta de la unidad . En el ítem sin respuesta, algunos encuestados no responden algunos ítems (p. Ej., Algunas veces los encuestados no quieren responder preguntas que consideran sensibles). En la unidad sin respuesta, algunas personas que se seleccionan para la población de muestra no responden en absoluto a la encuesta. Las dos razones más comunes para la falta de respuesta de la unidad son que la persona de la muestra no puede ser contactada y la persona de la muestra es contactada pero se niega a participar. En esta sección, me enfocaré en la falta de respuesta de la unidad; los lectores interesados ​​en la falta de respuesta del ítem deben ver a Little y Rubin (2002) .

Los investigadores a menudo piensan en encuestas con falta de respuesta de la unidad como un proceso de muestreo en dos etapas. En la primera etapa, el investigador selecciona una muestra \(s\) tal que cada persona tiene una probabilidad de inclusión \(\pi_i\) (donde \(0 < \pi_i \leq 1\) ). Luego, en la segunda etapa, las personas que se seleccionan en la muestra responden con la probabilidad \(\phi_i\) (donde \(0 < \phi_i \leq 1\) ). Este proceso de dos etapas da como resultado el conjunto final de encuestados \(r\) . Una diferencia importante entre estas dos etapas es que los investigadores controlan el proceso de selección de la muestra, pero no controlan cuáles de las personas incluidas en la muestra se convierten en encuestados. Al unir estos dos procesos, la probabilidad de que alguien sea un encuestado

\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]

En aras de la simplicidad, consideraré el caso en que el diseño de muestra original es un muestreo aleatorio simple sin reemplazo. Si un investigador selecciona una muestra de tamaño \(n_s\) que rinde \(n_r\) encuestados, y si el investigador ignora la falta de respuesta y utiliza la media de los encuestados, entonces el sesgo de la estimación será:

\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]

donde \(cor(\phi, y)\) es la correlación de población entre la propensión de respuesta y el resultado (p. ej., estado de desempleo), \(S(y)\) es la desviación estándar de la población del resultado (p. ej., desempleo estado), \(S(\phi)\) es la desviación estándar de población de la propensión de respuesta, y \(\bar{\phi}\) es la propensión de respuesta media poblacional (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Eq. 3.7 muestra que la falta de respuesta no introducirá un sesgo si se cumple alguna de las siguientes condiciones:

  • No hay variación en el estado de desempleo \((S(y) = 0)\) .
  • No hay variación en las propensiones de respuesta \((S(\phi) = 0)\) .
  • No hay correlación entre la propensión a la respuesta y el estado de desempleo \((cor(\phi, y) = 0)\) .

Desafortunadamente, ninguna de estas condiciones parece probable. Parece inverosímil que no habrá variación en el estado laboral o que no habrá variación en las propensiones de respuesta. Por lo tanto, el término clave en eq. 3.7 es la correlación: \(cor(\phi, y)\) . Por ejemplo, si las personas son los desempleados con mayor probabilidad de responder, entonces la tasa de empleo estimada estará sesgada hacia arriba.

El truco para hacer estimaciones cuando no hay respuesta es usar información auxiliar. Por ejemplo, una forma en que puede usar información auxiliar es la post-estratificación (recuérdese la ecuación 3.5 de arriba). Resulta que el sesgo del estimador post-estratificación es:

\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]

donde \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , y \(\bar{\phi}^{(h)}\) se definen como arriba, pero están restringidos a personas del grupo \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Por lo tanto, el sesgo general será pequeño si el sesgo en cada grupo posterior a la estratificación es pequeño. Hay dos formas en las que me gusta pensar en minimizar el sesgo en cada grupo posterior a la estratificación. Primero, quiere tratar de formar grupos homogéneos donde hay poca variación en la propensión de respuesta ( \(S(\phi)^{(h)} \approx 0\) ) y el resultado ( \(S(y)^{(h)} \approx 0\) ). En segundo lugar, desea formar grupos donde las personas que ve sean como las personas que no ve ( \(cor(\phi, y)^{(h)} \approx 0\) ). Comparando eq. 3.7 y eq. 3.8 ayuda a aclarar cuándo la estratificación posterior puede reducir el sesgo causado por la falta de respuesta.

En conclusión, esta sección proporcionó un modelo para el muestreo probabilístico con falta de respuesta y mostró el sesgo que la falta de respuesta puede introducir tanto sin y con ajustes posteriores a la estratificación. Bethlehem (1988) ofrece una derivación del sesgo causado por la falta de respuesta para diseños de muestreo más generales. Para más información sobre el uso de la post-estratificación para ajustar la falta de respuesta, ver Smith (1991) y Gelman and Carlin (2002) . La post-estratificación es parte de una familia más general de técnicas llamadas estimadores de calibración, ver Zhang (2000) para un tratamiento de longitud de artículo y Särndal and Lundström (2005) para un tratamiento de duración de un libro. Para más información sobre otros métodos de ponderación para el ajuste por falta de respuesta, ver Kalton and Flores-Cervantes (2003) , Brick (2013) , y Särndal and Lundström (2005) .

Muestreo no probabilístico

El muestreo no probabilístico incluye una gran variedad de diseños (Baker et al. 2013) . Centrándose específicamente en la muestra de usuarios de Xbox por Wang y sus colegas (W. Wang et al. 2015) , puede pensar en ese tipo de muestra como aquella en la que la parte clave del diseño de muestreo no es la \(\pi_i\) ( la probabilidad de inclusión impulsada por el investigador), pero la \(\phi_i\) (las propensiones de respuesta impulsadas por el respondedor). Naturalmente, esto no es ideal porque los \(\phi_i\) son desconocidos. Pero, como mostraron Wang y sus colegas, este tipo de muestra opt-in -incluso de un marco de muestreo con un enorme error de cobertura- no tiene por qué ser catastrófico si el investigador tiene buena información auxiliar y un buen modelo estadístico para explicar estos problemas.

Bethlehem (2010) amplía muchas de las derivaciones anteriores sobre post-estratificación para incluir errores de falta de respuesta y de cobertura. Además de la estratificación posterior, otras técnicas para trabajar con muestras no probabilísticas -y muestras probabilísticas con errores de cobertura y falta de respuesta- incluyen el emparejamiento de muestras (Ansolabehere and Rivers 2013; ??? ) , la ponderación de la propensión al puntaje (Lee 2006; Schonlau et al. 2009) y calibración (Lee and Valliant 2009) . Un tema común entre estas técnicas es el uso de la información auxiliar.