3.4 ¿A quién preguntar

Esta traducción fue creado por un ordenador. ×

3.4 ¿A quién preguntar

La era digital está haciendo que el muestreo probabilístico en la práctica sea más difícil y está creando nuevas oportunidades para el muestreo no probabilístico.

En la historia del muestreo, ha habido dos enfoques que compiten entre sí: los métodos de muestreo probabilístico y los métodos de muestreo no probabilístico. Aunque ambos enfoques se utilizaron en los primeros días de muestreo, el muestreo probabilístico ha llegado a dominar, y muchos investigadores sociales se les enseña a ver el muestreo no probabilístico con gran escepticismo. Sin embargo, como describiré a continuación, los cambios creados por la era digital significan que es hora de que los investigadores reconsideren el muestreo no probabilístico. En particular, el muestreo probabilístico se ha vuelto difícil en la práctica, y el muestreo no probabilístico se ha vuelto más rápido, más barato y mejor. Las encuestas más rápidas y más baratas no son solo fines en sí mismas: permiten nuevas oportunidades, como encuestas más frecuentes y tamaños de muestra más grandes. Por ejemplo, al usar métodos no probabilísticos, el Estudio Cooperativo de Elecciones del Congreso (CCES, por sus siglas en inglés) puede tener aproximadamente 10 veces más participantes que los estudios anteriores que usan muestreo probabilístico. Esta muestra mucho más amplia permite a los investigadores políticos estudiar la variación en las actitudes y el comportamiento a través de subgrupos y contextos sociales. Además, toda esta escala agregada vino sin disminuciones en la calidad de las estimaciones (Ansolabehere and Rivers 2013) .

Actualmente, el enfoque dominante del muestreo para la investigación social es el muestreo probabilístico . En el muestreo probabilístico, todos los miembros de la población objetivo tienen una probabilidad conocida, diferente de cero, de ser muestreados, y todas las personas que se muestrean responden a la encuesta. Cuando se cumplen estas condiciones, los resultados matemáticos elegantes ofrecen garantías comprobables sobre la capacidad del investigador de utilizar la muestra para hacer inferencias sobre la población objetivo.

En el mundo real, sin embargo, las condiciones subyacentes a estos resultados matemáticos rara vez se cumplen. Por ejemplo, a menudo hay errores de cobertura y falta de respuesta. Debido a estos problemas, los investigadores a menudo tienen que emplear una variedad de ajustes estadísticos para hacer inferencia de su muestra a su población objetivo. Por lo tanto, es importante distinguir entre el muestreo probabilístico en teoría , que tiene sólidas garantías teóricas y el muestreo probabilístico en la práctica , que no ofrece tales garantías y depende de una variedad de ajustes estadísticos.

Con el tiempo, las diferencias entre el muestreo probabilístico en teoría y el muestreo probabilístico en la práctica han ido en aumento. Por ejemplo, las tasas de falta de respuesta han aumentado constantemente, incluso en encuestas de alta calidad y costosas (figura 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Las tasas de falta de respuesta son mucho más altas en las encuestas telefónicas comerciales, a veces tan altas como el 90% (Kohut et al. 2012) . Estos aumentos en la falta de respuesta amenazan la calidad de las estimaciones porque las estimaciones dependen cada vez más de los modelos estadísticos que usan los investigadores para ajustar la falta de respuesta. Además, estas disminuciones en la calidad han sucedido a pesar de los esfuerzos cada vez más caros de los investigadores de la encuesta para mantener altas tasas de respuesta. Algunas personas temen que estas tendencias gemelas de calidad decreciente y costos en aumento amenacen la base de la investigación de encuestas (National Research Council 2013) .

Figura 3.5: La falta de respuesta ha sido cada vez más constante, incluso en encuestas costosas de alta calidad (Consejo Nacional de Investigación 2013, B. D. Meyer, Mok y Sullivan 2015). Las tasas de falta de respuesta son mucho más altas para las encuestas de teléfonos comerciales, a veces incluso tan altas como el 90% (Kohut et al., 2012). Estas tendencias a largo plazo en la falta de respuesta significan que la recopilación de datos es más costosa y las estimaciones son menos confiables. Adaptado de B. D. Meyer, Mok y Sullivan (2015), figura 1.

Figura 3.5: La falta de respuesta ha sido cada vez más constante, incluso en encuestas caras de alta calidad (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Las tasas de falta de respuesta son mucho más altas para las encuestas de teléfonos comerciales, a veces incluso tan altas como el 90% (Kohut et al. 2012) . Estas tendencias a largo plazo en la falta de respuesta significan que la recopilación de datos es más costosa y las estimaciones son menos confiables. Adaptado de BD Meyer, Mok, and Sullivan (2015) , figura 1.

Al mismo tiempo que ha habido dificultades crecientes para los métodos de muestreo probabilístico, también ha habido desarrollos interesantes en los métodos de muestreo no probabilístico . Hay una variedad de estilos de métodos de muestreo no probabilísticos, pero lo único que tienen en común es que no pueden encajar fácilmente en el marco matemático del muestreo probabilístico (Baker et al. 2013) . En otras palabras, en los métodos de muestreo no probabilísticos no todos tienen una probabilidad de inclusión conocida y distinta de cero. Los métodos de muestreo no probabilístico tienen una reputación terrible entre los investigadores sociales y están asociados con algunos de los fracasos más dramáticos de los investigadores de encuestas, como el fiasco Literary Digest (discutido anteriormente) y "Dewey Derrotas Truman", la predicción incorrecta sobre los Estados Unidos. elecciones presidenciales de 1948 (figura 3.6).

Figura 3.6: El presidente Harry Truman alzando el titular de un periódico que había anunciado incorrectamente su derrota. Este título se basó en parte en estimaciones de muestras no probabilísticas (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) . Aunque "Dewey Derrotas a Truman" sucedió en 1948, sigue siendo una de las razones por las que algunos investigadores son escépticos sobre las estimaciones de muestras no probabilísticas. Fuente: Harry S. Truman Library & Museum .

Una forma de muestreo no probabilístico especialmente adecuada para la era digital es el uso de paneles en línea . Los investigadores que utilizan paneles en línea dependen de algún proveedor de panel, generalmente una empresa, gobierno o universidad, para construir un grupo grande y diverso de personas que acepten servir como encuestados. Estos participantes del panel a menudo son reclutados utilizando una variedad de métodos ad hoc, como anuncios publicitarios en línea. Luego, un investigador puede pagarle al proveedor del panel el acceso a una muestra de encuestados con las características deseadas (p. Ej., Representante nacional de adultos). Estos paneles en línea son métodos no probabilísticos porque no todos tienen una probabilidad de inclusión conocida, distinta de cero. Aunque los investigadores sociales ya han utilizado los paneles en línea no probabilísticos (p. Ej., El CCES), todavía existe cierto debate sobre la calidad de las estimaciones que provienen de ellos (Callegaro et al. 2014) .

A pesar de estos debates, creo que hay dos razones por las que es el momento adecuado para que los investigadores sociales reconsideren el muestreo no probabilístico. Primero, en la era digital, ha habido muchos desarrollos en la recolección y análisis de muestras no probabilísticas. Estos métodos más nuevos son lo suficientemente diferentes de los métodos que causaron problemas en el pasado y creo que tiene sentido considerarlos como "muestreo no probabilístico 2.0". La segunda razón por la que los investigadores deberían reconsiderar el muestreo no probabilístico es porque el muestreo probabilístico en la práctica se vuelve cada vez más difícil. Cuando hay altas tasas de falta de respuesta, como en la actualidad hay encuestas reales, no se conocen las probabilidades reales de inclusión para los encuestados, y por lo tanto, las muestras probabilísticas y no probabilísticas no son tan diferentes como muchos investigadores creen.

Como dije anteriormente, muchos investigadores sociales ven las muestras no probables con gran escepticismo, en parte debido a su papel en algunas de las fallas más embarazosas en los primeros días de la investigación de encuestas. Un ejemplo claro de lo lejos que hemos llegado con muestras no probables es la investigación de Wei Wang, David Rothschild, Sharad Goel y Andrew Gelman (2015) que recuperó correctamente el resultado de las elecciones estadounidenses de 2012 utilizando una muestra no probabilística de Usuarios estadounidenses de Xbox: una muestra decididamente no aleatoria de estadounidenses. Los investigadores reclutaron encuestados del sistema de juegos Xbox, y como era de esperar, la muestra de Xbox sesgó a los hombres y sesgó jóvenes: 18 a 29 años de edad constituyen el 19% del electorado, pero el 65% de la muestra de Xbox, y los hombres constituyen el 47% del electorado pero el 93% de la muestra de Xbox (figura 3.7). Debido a estos fuertes sesgos demográficos, los datos crudos de Xbox fueron un indicador pobre de los resultados de las elecciones. Predijo una fuerte victoria para Mitt Romney sobre Barack Obama. De nuevo, este es otro ejemplo de los peligros de las muestras crudas, no ajustadas y no probables, y es una reminiscencia del fiasco Literary Digest .

Figura 3.7: Demografía de los encuestados en W. Wang et al. (2015) . Debido a que los encuestados fueron reclutados de XBox, tenían más probabilidades de ser jóvenes y más probabilidades de ser hombres, en relación con los votantes en las elecciones de 2012. Adaptado de W. Wang et al. (2015) , figura 1.

Sin embargo, Wang y sus colegas eran conscientes de estos problemas e intentaron ajustar su proceso de muestreo no aleatorio al hacer estimaciones. En particular, utilizaron post-estratificación , una técnica que también se usa ampliamente para ajustar las muestras probabilísticas que tienen errores de cobertura y falta de respuesta.

La idea principal de la post-estratificación es utilizar información auxiliar sobre la población objetivo para ayudar a mejorar la estimación que proviene de una muestra. Al usar post-estratificación para hacer estimaciones de su muestra no probabilística, Wang y su colega dividieron la población en diferentes grupos, estimaron el apoyo a Obama en cada grupo y luego tomaron un promedio ponderado de las estimaciones del grupo para producir una estimación global. Por ejemplo, podrían dividir a la población en dos grupos (hombres y mujeres), estimar el apoyo a Obama entre hombres y mujeres, y luego estimar el apoyo general a Obama tomando un promedio ponderado para dar cuenta del hecho de que las mujeres hacen hasta el 53% del electorado y los hombres el 47%. Aproximadamente, la post-estratificación ayuda a corregir una muestra desequilibrada al traer información auxiliar sobre los tamaños de los grupos.

La clave para la post-estratificación es formar los grupos correctos. Si puede dividir la población en grupos homogéneos de modo que las propensiones de respuesta sean las mismas para todos en cada grupo, la post-estratificación generará estimaciones no sesgadas. En otras palabras, post-estratificación por género producirá estimaciones insesgadas si todos los hombres tienen la propensión a la respuesta y todas las mujeres tienen la misma propensión a la respuesta. Esta suposición se denomina suposición homogénea de propensiones de respuesta dentro de grupos , y la describo un poco más en las notas matemáticas al final de este capítulo.

Por supuesto, parece poco probable que las propensiones de respuesta sean las mismas para todos los hombres y todas las mujeres. Sin embargo, la suposición homogénea de propensiones de respuesta dentro de grupos se vuelve más plausible a medida que aumenta el número de grupos. Aproximadamente, es más fácil dividir la población en grupos homogéneos si crea más grupos. Por ejemplo, podría parecer inverosímil que todas las mujeres tengan la misma propensión a la respuesta, pero podría parecer más plausible que exista la misma propensión a la respuesta para todas las mujeres de entre 18 y 29 años que se graduaron de la universidad y que viven en California. . Por lo tanto, a medida que aumenta el número de grupos utilizados en la post-estratificación, las suposiciones necesarias para respaldar el método se vuelven más razonables. Dado este hecho, los investigadores a menudo quieren crear una gran cantidad de grupos para la post-estratificación. Sin embargo, a medida que aumenta el número de grupos, los investigadores se topan con un problema diferente: escasez de datos. Si solo hay un pequeño número de personas en cada grupo, entonces las estimaciones serán más inciertas, y en el caso extremo en que haya un grupo que no tenga encuestados, la post-estratificación se romperá por completo.

Hay dos maneras de salir de esta tensión inherente entre la verosimilitud de la suposición homogénea de propensión a la respuesta dentro de los grupos y la demanda de tamaños de muestra razonables en cada grupo. Primero, los investigadores pueden recolectar una muestra más grande y más diversa, lo que ayuda a asegurar tamaños de muestra razonables en cada grupo. Segundo, pueden usar un modelo estadístico más sofisticado para hacer estimaciones dentro de los grupos. Y, de hecho, a veces los investigadores hacen las dos cosas, como lo hicieron Wang y sus colegas con su estudio de las elecciones usando encuestados de Xbox.

Debido a que estaban utilizando un método de muestreo no probabilístico con entrevistas administradas por computadora (hablaré más sobre entrevistas administradas por computadora en la sección 3.5), Wang y sus colegas obtuvieron datos muy económicos, lo que les permitió recopilar información de 345,858 participantes únicos. , un gran número según los estándares de las encuestas electorales. Este tamaño de muestra masivo les permitió formar una gran cantidad de grupos de post-estratificación. Mientras que la post-estratificación típicamente implica cortar a la población en cientos de grupos, Wang y sus colegas dividieron la población en 176,256 grupos definidos por género (2 categorías), raza (4 categorías), edad (4 categorías), educación (4 categorías), estado (51 categorías), identificación del partido (3 categorías), ideología (3 categorías) y votación de 2008 (3 categorías). En otras palabras, su enorme tamaño de muestra, que fue habilitado por la recolección de datos de bajo costo, les permitió hacer una suposición más plausible en su proceso de estimación.

Incluso con 345,858 participantes únicos, sin embargo, todavía había muchos, muchos grupos para los cuales Wang y sus colegas casi no respondieron. Por lo tanto, usaron una técnica llamada regresión multinivel para estimar el soporte en cada grupo. Esencialmente, para estimar el apoyo a Obama dentro de un grupo específico, la regresión multinivel reunió información de muchos grupos estrechamente relacionados. Por ejemplo, imagínese tratando de estimar el apoyo a Obama entre las mujeres hispanas de entre 18 y 29 años, que son graduadas de la universidad, que están registradas como Demócratas, que se autoidentifican como moderadas, y que votaron por Obama en 2008. Esta es una muy , grupo muy específico, y es posible que no haya nadie en la muestra con estas características. Por lo tanto, para realizar estimaciones sobre este grupo, la regresión multinivel utiliza un modelo estadístico para agrupar las estimaciones de personas en grupos muy similares.

Por lo tanto, Wang y sus colegas utilizaron un enfoque que combinaba la regresión multinivel y la post-estratificación, por lo que llamaron a su estrategia regresión multinivel con post-estratificación o, más afectuosamente, "Sr. P. "Cuando Wang y sus colegas usaron al Sr. P. para hacer estimaciones de la muestra no probabilística de XBox, produjeron estimaciones muy cercanas al apoyo general que recibió Obama en las elecciones de 2012 (figura 3.8). De hecho, sus estimaciones fueron más precisas que un agregado de encuestas de opinión pública tradicionales. Por lo tanto, en este caso, los ajustes estadísticos, específicamente el Sr. P., parecen hacer un buen trabajo corrigiendo los sesgos en los datos no probabilísticos; sesgos que fueron claramente visibles cuando se observan las estimaciones de los datos de Xbox no ajustados.

Figura 3.8: Estimaciones de W. Wang et al. (2015) . La muestra XBox no ajustada produjo estimaciones inexactas. Sin embargo, la muestra ponderada de XBox produjo estimaciones que fueron más precisas que un promedio de encuestas telefónicas basadas en la probabilidad. Adaptado de W. Wang et al. (2015) , figuras 2 y 3.

Hay dos lecciones principales del estudio de Wang y sus colegas. En primer lugar, las muestras no probabilísticas no ajustadas pueden generar estimaciones erróneas; esta es una lección que muchos investigadores han escuchado antes. La segunda lección, sin embargo, es que las muestras no probabilísticas, cuando se analizan adecuadamente, en realidad pueden producir buenas estimaciones; las muestras no probabilísticas no necesariamente conducen a algo así como el fiasco Literary Digest .

En el futuro, si está intentando decidir entre utilizar un enfoque de muestreo probabilístico y un enfoque de muestreo no probabilístico, se enfrenta a una elección difícil. A veces los investigadores quieren una regla rápida y rígida (p. Ej., Siempre usan métodos de muestreo probabilístico), pero es cada vez más difícil ofrecer esa regla. Los investigadores enfrentan una difícil elección entre los métodos de muestreo probabilístico en la práctica -que son cada vez más caros y están lejos de los resultados teóricos que justifican su uso- y los métodos de muestreo no probabilístico -que son más baratos y rápidos, pero menos familiares y más variados. Sin embargo, una cosa que está clara es que si se ve forzado a trabajar con muestras no probabilísticas o grandes fuentes de datos no representativas (piense en el Capítulo 2), entonces hay una fuerte razón para creer que las estimaciones se hicieron usando la post-estratificación y las técnicas relacionadas serán mejores que las estimaciones crudas no ajustadas.