3.4.2 mostras non probabilística: Ponderación

Con mostras non probabilísticas, pesos pode desfacer as distorsións causadas polo proceso de mostraxe asumido.

Do mesmo xeito que os investigadores peso respostas a partir de mostras de probabilidade, eles tamén poden peso respostas de mostras non probabilidade. Por exemplo, como unha alternativa para os CPS, imaxina que puxo banners en miles de sitios para contratar asistentes a un levantamento para estimar a taxa de paro. Por suposto, sería escéptico de que a media simple do seu mostra sería unha boa estimación da taxa de desemprego. O seu escepticismo é, probablemente, porque pensas que algunhas persoas son máis propensos a completar a súa investigación que outros. Por exemplo, persoas que non pasan moito tempo na web son menos propensos a completar a súa investigación.

Como vimos no último apartado, no entanto, se sabemos como a mostra foi seleccionada, como facemos con probabilidade mostras, entón podemos desfacer as distorsións causadas polo proceso de mostraxe. Desafortunadamente, cando se traballa con mostras non probabilísticas, non sabemos como a mostra foi seleccionada. Pero podemos facer suposicións sobre o proceso de mostraxe e, a continuación, aplicar ponderación do mesmo xeito. Se estas suposicións son correctos, entón a ponderación pode desfacer as distorsións causadas polo proceso de mostraxe.

Por exemplo, imaxina que en resposta a seus banners, vostede recrutados 100.000 respondentes. Con todo, non cre que esas 100.000 respondentes son unha mostra aleatoria simple de adultos americanos. De feito, cando compara os seus respondentes á poboación estadounidense, pensas que a xente dalgúns estados (por exemplo, New York) están sobre-representados e que a xente dalgúns estados (por exemplo, Alaska) están sub-representadas. Así, a taxa de desemprego da súa mostra é probable que sexa unha mala estimación da taxa de desemprego na poboación obxectivo.

Un xeito de desfacer a distorsión que pasou no proceso de mostraxe é asignar pesos para cada persoa; máis baixos pesos para persoas de estados que están sobre-representados na mostra (por exemplo, New York) e pesos máis altos para persoas de estados que están sub-representados na mostra (por exemplo, Alaska). En concreto, o peso de cada inquirido está relacionada coa súa prevalencia na súa mostra en relación á súa prevalencia na poboación de Estados Unidos. Este procedemento de ponderación chámase post-estratificación, ea idea de pesaxe debe lembra-lo do exemplo da Sección 3.4.1, onde os entrevistados de Rhode Island foron dadas menos peso que os entrevistados de California. Post-estratificación require que vostede sabe o suficiente para poñer os seus entrevistados en grupos e coñecer a proporción da poboación obxectivo de cada grupo.

Aínda que a ponderación da mostra de probabilidade e da mostra non probabilística son os mesmos matematicamente (ver anexo técnico), funcionan ben en diferentes situacións. Se o investigador ten unha mostra probabilística perfecta (é dicir, ningún erro cobertura e non non-resposta), entón ponderación xerará estimacións imparciais para todos os caracteres en todos os casos. Esta garantía forte teórica é por iso que os defensores de mostras probabilísticas atopalos tan atractivo. Por outra banda, as mostras non probabilísticas de ponderación só pode producir estimacións imparciais para todos os caracteres que as propensões de resposta son os mesmos para todos en cada grupo. Noutras palabras, o pensamento de volta ao noso exemplo, usando post-estratificación xerará estimacións imparciais todos en Nova York ten a mesma probabilidade de participar e todo en Alasca ten a mesma probabilidade de participar e así por diante. Esta suposición é chamado a suposición de resposta-propensões homoxéneo-dentro-grupos, e que ten un papel clave en saber se pos-estratificación vai funcionar ben con mostras non probabilísticas.

Desafortunadamente, o noso exemplo, parece improbable que sexa verdade a suposición de resposta homoxénea-propensões-dentro-grupos. É dicir, parece improbable que todos en Alasca ten a mesma probabilidade de estar na súa busca. Pero, hai tres puntos importantes a ter en conta sobre post-estratificación, todos os cales fan parecer máis prometedor.

En primeiro lugar, homoxéneo-resposta-propensões-dentro-grupos suposición faise máis plausible, como o número de grupos aumenta. E, os investigadores non están limitados a grupos só en base a unha única dimensión xeográfica. Por exemplo, poderiamos crear grupos segundo o estado, idade, sexo e nivel de educación. Parece máis plausible que hai propensões resposta homoxénea dentro do grupo de 18-29, graduados do sexo feminino, universitarios que viven en Alaska que dentro do grupo de todas as persoas que viven en Alasca. Así, como o número de grupos utilizados para o post-estratificación aumenta, os presupostos necesarios para apoiar que se fan máis razoable. Dado este feito, parece que a investigadores quere crear un gran número de grupos de post-estratificación. Pero, como o número de grupos aumenta, investigadores correr nun problema diferente: a dispersión de datos. Se hai só un pequeno número de persoas en cada grupo, a continuación, as estimacións serán máis incerto, e no caso extremo en que hai un grupo que non ten entrevistados, logo post-estratificación rompe por completo. Hai dous xeitos de saír desta tensión intrínseca entre a plausibilidade de homogeneous- suposición de resposta de propensión-dentro-grupos ea demanda de tamaños de mostra razoables en cada grupo. Unha visión é moverse para un modelo estatístico máis sofisticado para calcular os pesos eo outro é para recoller unha mostra máis grande, máis diversificado, o que axuda a asegurar a dimensión das mostras razoables en cada grupo. E, ás veces, os investigadores facer as dúas cousas, como eu vou describir con máis detalle embaixo.

A segunda consideración cando se traballa con post-estratificación das mostras non probabilística é que o presuposto homoxénea-resposta de propensión-dentro-grupos xa é frecuentemente feita ao analizar mostras probabilísticas. A razón que esta suposición é necesaria para mostras probabilísticas na práctica é que as mostras de probabilidade teñen de non-resposta, así como o método máis común para o axuste de non-resposta é post-estratificación, como descrito anteriormente. Por suposto, só porque moitos investigadores facer unha correcta suposición non significa que ten que facelo tamén. Pero iso non significa que ao comparar mostras non probabilísticas de mostras probabilísticas, na práctica, hai que ter en conta que ambos dependen de presupostos e información auxiliar, a fin de producir estimacións. Configuración máis realistas, non hai simplemente ningunha visión libre de presuposto para a inferencia.

Finalmente, se se preocupa unha estimación, en particular, no noso exemplo o paro taxa, entón tes que de unha condición máis feble do que-resposta-de propensión-dentro-grupos homogéneos suposición. Especialmente, non asumir que todos teñen a mesma propensión de resposta, só precisa asumir que non hai unha correlación entre a propensión de resposta e taxa de desemprego dentro de cada grupo. Claro que, mesmo esta condición non máis débil vai realizar en ocasións. Por exemplo, imaxina estimar a proporción de americanos que fan traballo voluntario. As persoas que fan traballo voluntario son máis propensos a aceptar que participar nunha investigación, a continuación, os investigadores van sistematicamente sobreestimar a cantidade de voluntariado, aínda que eles fan axustes de post-estratificación, resultado que se demostrou empiricamente por Abraham, Helms, and Presser (2009) .

Como dixo anteriormente, as mostras non probabilísticas son vistos con gran escepticismo por científicos sociais, en parte por mor do seu papel en algunhas das fallas máis embaraçosos nos primeiros días de investigación de opinión. Un exemplo claro do quão lonxe nós vimos con mostras non probabilísticas é a investigación de Wei Wang, David Rothschild, Sharad Goel, e Andrew Gelman que correctamente recuperou o resultado da elección de 2012 EUA cunha mostra non probabilística dos usuarios americanos Xbox -a mostra decididamente non aleatoria de americanos (Wang et al. 2015) . Os investigadores recrutaron participantes do sistema de xogos Xbox, e como podería esperar, a mostra Xbox enviesada masculino e enviesada mozos: 18 - nenos de 29 anos compoñen 19% do electorado, pero o 65% da mostra Xbox e os homes compoñen 47% do electorado e 93% da mostra Xbox (Figura 3.4). Debido a estas fortes tendencias demográficas, os datos Xbox crúa era un pobre indicador de retorno electorais. El previu unha forte vitoria para Mitt Romney sobre Barack Obama. De novo, este é outro exemplo dos perigos de mostras non probabilísticas crus, non axustados e é unha reminiscencia do fiasco Literary Digest.

Figura 3.4: Demografía dos enquisados ​​en Wang et al. (2015). Porque respondentes foron recrutados de XBox, eran máis propensos a ser novo e máis propensos a ser do sexo masculino, en relación aos electores na elección de 2012.

Figura 3.4: Demografía dos enquisados ​​en Wang et al. (2015) . Porque respondentes foron recrutados de XBox, eran máis propensos a ser novo e máis propensos a ser do sexo masculino, en relación aos electores na elección de 2012.

Con todo, Wang e os seus colegas estaban conscientes destes problemas e intentou ponderar os entrevistados para resolver o procedemento de mostraxe. En particular, utilizaban unha forma máis sofisticada do pos-estratificación de que lle falei. Paga a pena aprender un pouco máis sobre a súa visión por constrúe intuición sobre post-estratificación, ea versión especial Wang e os seus colegas usaron é unha das propostas máis interesantes para mostras non probabilísticas de ponderación.

No noso exemplo simple sobre como calcular o desemprego na Sección 3.4.1, dividimos a poboación en grupos segundo o Estado de residencia. En contraste, Wang e os seus colegas dividiu a poboación en en 176,256 grupos definidos por: sexo (2 categorías), raza (4 categorías), idade (4 categorías), educación (4 categorías), Estado (51 categorías), ID do partido (3 categorías), ideoloxía (3 categorías) e 2008 votos (3 categorías). Con máis grupos, os investigadores esperaban que sería cada vez máis probable que dentro de cada grupo, a propensión resposta foi non correlacionadas con soporte para Obama. A continuación, en vez de construír pesos a nivel individual, como fixemos no noso exemplo, Wang e os seus colegas usaron un modelo complexo para estimar a proporción de persoas en cada grupo que votarían en Obama. Finalmente, eles combinaron esas estimacións de grupos de apoio co tamaño coñecido de cada grupo para producir un nivel global estimado de apoio. Noutras palabras, eles cortaron-se a poboación en diferentes grupos, estimou o apoio a Obama en cada grupo, e logo levou unha media ponderada das estimacións do grupo para producir unha estimación global.

Así, o gran reto na súa visión é a de estimar o apoio para Obama en cada un destes grupos 176,256. Aínda que o seu panel incluíu 345,858 participantes orixinais, un número enorme polos patróns de polling elección, había moitos, moitos grupos aos que Wang e os seus colegas apenas tiña entrevistados. Polo tanto, para calcular o apoio en cada grupo utilizaban unha técnica chamada de regresión multinivel co post-estratificación, o que os investigadores chaman cariñosamente Sr P. Esencialmente, para estimar o apoio a Obama dentro dun grupo específico, o Sr P. piscinas información de moitos grupos intimamente relacionados. Por exemplo, considerada o reto de estimar o apoio a Obama entre os hispanos do sexo feminino, entre 18-29 anos de idade, que son graduados universitarios, que están rexistrados demócratas, que se auto-identifican como moderados, e que votaron por Obama en 2008. Este é un grupo moi, moi específica, e que é posible que non hai ninguén na mostra destas características. Polo tanto, para facer estimacións sobre este grupo, o Sr P. piscinas xuntos estima da xente en grupos moi semellantes.

Usando esta estratexia de análise, Wang e os seus compañeiros foron capaces de utilizar a mostra non probabilística XBox para estimar moi de cerca o apoio global que Obama recibiu na elección de 2012 (Figura 3.5). En realidade as estimacións foron máis precisos que un agregado de enquisas de opinión pública. Así, neste caso, a ponderación especialmente o Sr P.-parece estar a facer un bo traballo corrixindo as desviacións nos datos non probabilística; prexuízos que son visibles cando mira para as estimacións a partir dos datos da Xbox non axustados.

Figura 3.5: Estimacións de Wang et al. (2015). mostra XBox non axustada produciu estimacións imprecisas. Pero, a mostra XBox ponderada produciu estimacións que eran máis precisos que unha media de enquisas telefónicos en base a probabilidade.

Figura 3.5: Estimacións de Wang et al. (2015) . mostra XBox non axustada produciu estimacións imprecisas. Pero, a mostra XBox ponderada produciu estimacións que eran máis precisos que unha media de enquisas telefónicos en base a probabilidade.

Existen dous principais leccións do estudo de Wang e os seus colegas. En primeiro lugar, as mostras non probabilísticas non axustados poden levar a estimacións malas; esta é unha lección que moitos investigadores oído antes. Con todo, a segunda lección é que as mostras non probabilísticas cando ponderados correctamente, pode realmente producir moi boas estimacións. En realidade, as súas estimacións foron máis precisos que as estimacións de pollster.com, unha agregación de máis investigacións electorais tradicionais.

Finalmente, existen limitacións importantes para o que podemos aprender con iso un estudo específico. Só porque post-estratificación traballou ben neste caso particular, non hai garantía de que vai traballar ben noutros casos. De feito, as eleccións son, quizais, unha das definicións máis fáciles porque os investigadores estudaron eleccións hai case 100 anos, non hai producto regular (podemos ver quen gaña as eleccións), e identificación do partido e características demográficas son relativamente preditivo da votación. Neste momento, falta-nos a teoría sólida e experiencia empírica saber cando pesando axustes para mostras non probabilísticas xerará estimacións suficientemente precisos. Unha cousa que está clara, con todo, é se é forzado a traballar con mostras non probabilísticas, entón hai unha forte razón para crer que as estimacións axustadas será mellor que as estimacións non corrixidos.