3.4.3 Las muestras no probabilísticas: coincidencia de la muestra

No todas las muestras no probabilísticas son los mismos. Podemos añadir más control en la parte delantera.

El enfoque Wang y sus colegas utilizaron para estimar el resultado de la elección presidencial de Estados Unidos 2012 dependían enteramente de las mejoras en el análisis de datos. Es decir, que recogen tantas respuestas como pudieron y luego trataron de volver a ponderar ellos. Una estrategia complementaria para trabajar con el muestreo no probabilístico es tener un mayor control sobre el proceso de recolección de datos.

El ejemplo más simple de un proceso de muestreo no probabilístico parcialmente controlado es el muestreo por cuotas, una técnica que se remonta a los primeros días de la investigación de la encuesta. En el muestreo por cuotas, los investigadores dividen la población en diferentes grupos (por ejemplo, los hombres jóvenes, mujeres jóvenes, etc) y las cuotas a continuación, ajuste para el número de personas a ser seleccionada en cada grupo. Los encuestados son seleccionados de una manera casual hasta que el investigador ha cumplido con su cuota en cada grupo. Debido a las cuotas, la muestra resultante se parece más a la población diana de lo que sería cierto lo contrario, sino porque las probabilidades de inclusión se desconocen muchos investigadores son escépticos de muestreo por cuotas. De hecho, el muestreo por cuotas fue una de las causas de la "Dewey derrota a Truman" error en las encuestas presidenciales en Estados Unidos 1948. Debido a que proporciona algún control sobre el proceso de muestreo, sin embargo, se puede ver cómo el muestreo por cuotas podría tener algunas ventajas sobre una colección de datos completamente incontrolada.

Yendo más allá de muestreo por cuotas, los enfoques más modernos para el control del proceso de muestreo no probabilístico son ahora posibles. Uno de ellos se llama juego de la muestra y es usado por algunos proveedores comerciales panel en línea. En su forma más simple la comparación de muestras requiere dos fuentes de datos: 1) un registro completo de la población y 2) un gran grupo de voluntarios. Es importante que los voluntarios no necesitan ser una muestra de probabilidad de cualquier población; hacer hincapié en que no hay requisitos para la selección en el panel, lo llamaré un panel sucio. Además, tanto el registro de la población y el panel sucia deben incluir alguna información auxiliar acerca de cada persona, en este ejemplo, voy a considerar la edad y el sexo, pero en situaciones realistas esta información auxiliar podría ser mucho más detallada. El truco de la coincidencia de la muestra es seleccionar muestras de un panel sucio de una manera que produce muestras que se ven como muestras de probabilidad.

coincidencia de la muestra comienza cuando una muestra de probabilidad simulada se toma del registro de la población; esta muestra simulada se convierte en una muestra objetivo. Luego, basándose en la información auxiliar, casos de la muestra diana se hacen coincidir con las personas en el panel sucio para formar una muestra pareada. Por ejemplo, si hay una mujer de 25 años de edad de la muestra objetivo, entonces el investigador encuentra una mujer de 25 años desde el panel sucia para estar en la muestra pareada. Por último, los miembros de la muestra pareada son entrevistados para producir el conjunto final de los encuestados.

A pesar de que la muestra pareada parece que el objetivo de la muestra, es importante recordar que la muestra equivalente no es una muestra de probabilidad. diferentes muestras sólo pueden coincidir con el objetivo de la muestra sobre la información auxiliar conocido (por ejemplo, la edad y el sexo), pero no en características no medidas. Por ejemplo, si la gente en el panel sucio tienden a ser más pobres, después de todo, una de las razones para unirse a un panel de encuestas es ganar dinero, entonces incluso si la muestra pareada parece que el objetivo de la muestra en función de la edad y el sexo aún tendrá un sesgo hacia los pobres. La magia del verdadero muestreo probabilístico es para descartar problemas en ambas características medidas y no medidas (un punto que es consistente con nuestra discusión de juego para la inferencia causal a partir de estudios observacionales en el capítulo 2).

En la práctica, a juego de la muestra depende de tener un panel grande y diverso ansioso por completar encuestas, y por lo tanto se hace principalmente por empresas que pueden permitirse el lujo de desarrollar y mantener un panel de este tipo. Además, en la práctica, puede haber problemas con el juego (a veces un buen partido para alguien en la muestra objetivo no existe en el panel) y la falta de respuesta (a veces la gente en la muestra pareada se niegan a participar en la encuesta). Por lo tanto, en la práctica, los investigadores que hacen juego muestra también llevan a cabo algún tipo de ajuste posterior a la estratificación de hacer estimaciones.

Es difícil dar garantías teóricas útiles sobre el juego de la muestra, pero en la práctica puede funcionar bien. Por ejemplo, Stephen Ansolabehere y Brian Schaffner (2014) compararon tres encuestas paralelas de cerca de 1.000 personas llevadas a cabo en 2010 utilizando tres muestras diferentes y métodos de entrevista: correo electrónico, teléfono, y un panel de Internet mediante la comparación de la muestra y el ajuste posterior a la estratificación. Las estimaciones de los tres enfoques eran bastante similares a las estimaciones de los puntos de referencia de alta calidad tales como la Current Population Survey (CPS) y la Encuesta Nacional de Salud (ENS). Más específicamente, las encuestas de Internet y de correo estaban fuera en un promedio de 3 puntos porcentuales y la encuesta telefónica fue de 4 puntos porcentuales. Los errores de este tamaño son aproximadamente lo que cabría esperar a partir de muestras de alrededor de 1.000 personas. A pesar de que ninguno de estos modos producidos sustancialmente mejores datos, tanto la encuesta de Internet y el teléfono (que tomó días o semanas) fueron sustancialmente más rápido que el campo de la encuesta por correo (que tardó ocho meses), y la encuesta de Internet, que utiliza a juego de la muestra, era más barato que los otros dos modos.

En conclusión, los científicos sociales y los estadísticos son muy escépticos de inferencias a partir de estas muestras no probabilísticas, en parte porque se asocian con algunos fallos embarazosos de la investigación por encuestas como la encuesta de resumen literario. En parte, estoy de acuerdo con este escepticismo: las muestras no probabilísticas no ajustados son susceptibles de producir malos cálculos. Sin embargo, si los investigadores pueden ajustar los sesgos en el proceso de muestreo (por ejemplo, después de la estratificación) o controlar el proceso de muestreo algo (por ejemplo: correspondencia de la muestra), que puede producir mejores estimaciones, e incluso las estimaciones de calidad suficiente para la mayoría de los propósitos. Por supuesto, sería mejor que hacer el muestreo probabilístico ejecutado a la perfección, pero que ya no parece ser una opción realista.

Ambas muestras no probabilísticas y las muestras de probabilidad varían en su calidad, y en la actualidad es probable que el caso que la mayoría de las estimaciones de las muestras de probabilidad son más fiables que las estimaciones de las muestras no probabilísticas. Pero, incluso ahora, las estimaciones de las muestras no probabilísticas bien realizados son probablemente mejores que las estimaciones de muestras de probabilidad realizadas mal. Además, las muestras no probabilísticas son sustancialmente más barato. Por lo tanto, parece que la probabilidad vs muestreo no probabilístico ofrece una relación coste-calidad disyuntiva (Figura 3.6). Mirando hacia el futuro, espero que las estimaciones de las muestras no probabilísticas bien hecho se volverán más barato y mejor. Además, debido a la ruptura de las encuestas de telefonía fija y el aumento de las tasas de no respuesta, espero que las muestras de probabilidad serán más caros y de menor calidad. Debido a estas tendencias a largo plazo, creo que el muestreo no probabilístico será cada vez más importante en la tercera era de la investigación de la encuesta.

Figura 3.6: El muestreo probabilístico en la práctica y el muestreo no probabilístico son los dos grandes categorías, heterogéneos. En general, hay un costo de errores disyuntiva de ser el muestreo no probabilístico coste menor pero mayor error. Sin embargo, el muestreo no probabilístico bien hecho puede producir mejores estimaciones que el muestreo probabilístico se hace mal. En el futuro, espero que el muestreo no probabilístico será mejor y más barato, mientras que el muestreo probabilístico se pondrá peor y más caro.

Figura 3.6: El muestreo probabilístico en la práctica y el muestreo no probabilístico son los dos grandes categorías, heterogéneos. En general, hay un costo de errores disyuntiva de ser el muestreo no probabilístico coste menor pero mayor error. Sin embargo, el muestreo no probabilístico bien hecho puede producir mejores estimaciones que el muestreo probabilístico se hace mal. En el futuro, espero que el muestreo no probabilístico será mejor y más barato, mientras que el muestreo probabilístico se pondrá peor y más caro.