3.4.3 mostras non probabilística: harmonización mostra

Esta tradución foi creado por un ordenador. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.3 mostras non probabilística: harmonización mostra

Non todas as mostras non son a mesma probabilidade. Podemos engadir máis control na parte dianteira.

O enfoque Wang e os seus colegas utilizan para estimar o resultado da elección presidencial de 2012 US dependía enteiramente de melloras na análise dos datos. É dicir, recadaron tantas respostas como podería e, a continuación, intentou volver peso-los. Unha estratexia complementaria para traballar con mostraxe non probabilística é ter máis control sobre o proceso de recollida de datos.

O exemplo máis simple dun proceso de mostraxe non probabilística parcialmente controlada é mostraxe por cotas, unha técnica que se remonta aos primeiros días da investigación de investigación. Na mostraxe por cotas, os investigadores dividir a poboación en grupos diferentes (por exemplo, novas, mulleres novas, etc) e cotas, a continuación, definido para o número de persoas a seren seleccionadas en cada grupo. Os entrevistados son seleccionados de forma aleatoria a que o investigador atopou a súa cota en cada grupo. Para cuotas, a mostra resultante se parece máis a poboación obxectivo do que sería feito doutra forma, senón porque as probabilidades de inclusión son descoñecidos moitos investigadores están escépticos de mostraxe por cotas. De feito, mostraxe por cotas foi unha das causas da "Dewey Derrotas Truman" erro nas 1948 votacións presidenciais nos EUA. Porque ofrece un control sobre o proceso de mostraxe, con todo, pódese ver como mostraxe por cotas pode algunhas vantaxes sobre a obtención de datos totalmente descontrolada.

Indo alén da mostraxe por cotas, enfoques máis modernas para controlar o proceso de mostraxe non probabilística son agora posibles. Unha tal visión é chamada correspondente mostra, e é utilizado por algúns provedores comerciais panel en liña. Na súa forma máis simple, combinando mostra require dúas fontes de datos: 1) un rexistro completo da poboación e 2) un gran panel de voluntarios. É importante que os voluntarios non ten que ser unha mostra de probabilidade a partir de calquera poboación; para salientar que non hai requisitos para a selección para o panel, eu vou chamalo dun panel sucio. Ademais, tanto o rexistro da poboación eo panel sucio incluirá información auxiliar sobre cada persoa, neste exemplo, eu vou considerar idade e sexo, pero en situacións realistas esta información auxiliar podería ser moito máis detallado. O truco de correspondencia mostra é seleccionar mostras dun panel sucio dunha forma que produce mostras que se parecen con mostras probabilísticas.

Coincidindo mostra comeza cando unha mostra de probabilidade simulada está feita a partir do rexistro da poboación; esta mostra simulada faise unha mostra obxectivo. Logo, con base na información auxiliar, casos da mostra obxecto de aprendizaxe son combinadas coas persoas no panel sucio para formar unha mostra correspondente. Por exemplo, se hai unha femia de 25 anos de idade na mostra obxecto de aprendizaxe, a continuación, o investigador se atopa unha femia de 25 anos dende o panel sucio para a mostra correspondente. Finalmente, os membros da mostra correspondeu son entrevistados para que o conxunto final dos entrevistados.

Aínda que a mostra parece combinados da mostra obxecto de aprendizaxe, é importante lembrar que a mostra combinado non é unha mostra de probabilidade. mostras emparelhadas só pode corresponder á mostra de destino sobre a información auxiliar coñecido (por exemplo, idade e sexo), pero non en características non medibles. Por exemplo, se a xente no panel sucio tenden a ser máis pobres, ao final, unha razón para participar nun panel de investigación é para gañar cartos, entón aínda que a mostra combinado parece coa mostra de destino en termos de idade e sexo aínda terá un viés para as persoas pobres. A maxia da verdadeira mostraxe probabilística é para descartar problemas en ambas as características medidas e non medidas (un punto que é consistente coa nosa discusión de harmonización para inferencia causal a partir de estudos observacionais no capítulo 2).

Na práctica, a correspondencia da mostra depende de ter unha gran e diversa panel desexando concluír enquisas e, polo tanto, está feito principalmente por empresas que poden pagar para desenvolver e manter un tal panel. Ademais, na práctica, pode haber problemas con correspondencia (por veces un bo partido para alguén na mostra de destino non existe no panel) e non-resposta (ás veces a xente da mostra correspondeu rexeitarse a participar na investigación). Polo tanto, na práctica, os investigadores facendo a correspondencia mostra tamén realizar algún tipo de axuste de post-estratificación de facer estimacións.

É difícil proporcionar garantías teóricas útil sobre correspondencia de mostra, pero na práctica pode executar ben. Por exemplo, Stephen Ansolabehere e Brian Schaffner (2014) comparou tres enquisas paralelos de preto de 1.000 persoas realizados en 2010, utilizando tres mostras diferentes e entrevistando métodos: correo, teléfono, e un panel de Internet utilizando a correspondencia de mostra e de axuste de post-estratificación. As estimacións das tres enfoques foron moi semellante ás estimacións de valores de referencia de alta calidade, tales como o levantamento actual Poboación (CPS) e do National Health Interview Survey (SNIS). En concreto, ambas as pescudas de Internet e correo electrónico estaban fóra por unha media de 3 puntos porcentuais eo levantamento teléfono estaba apagado de 4 puntos porcentuais. Erros esta grandes son aproximadamente o que se esperaría a partir de mostras de preto de 1.000 persoas. Aínda que, ningún destes modos producidos substancialmente mellores datos, tanto a procura Internet e teléfono (que levou días ou semanas) foron substancialmente máis rápida de campo que o levantamento e (que levou oito meses), ea busca de Internet, que usou correspondencia de mostra, era máis barato que os outros dous modos.

En conclusión, os científicos e estatísticos sociais son incriblemente escépticos de inferencias a partir desas mostras non probabilísticas, en parte porque están asociados con algúns fallos embaraçosas de investigación de opinión, tales como a busca Literary Digest. En parte, de acordo con este escepticismo: mostras non probabilísticas non axustados son susceptibles de producir estimacións malas. Con todo, se os investigadores poden axustar os prexuízos no proceso de mostraxe (eg, post-estratificación) ou controlar o proceso de mostraxe pouco (por exemplo, a correspondencia de mostra), poden producir mellores estimacións, e mesmo as estimacións de calidade suficiente para a maioría dos propósitos. Por suposto, sería mellor para facer mostraxe probabilística perfectamente executada, pero que xa non parece ser unha opción realista.

Ambas mostras non probabilísticas e mostras probabilísticas varían na súa calidade, e actualmente é probable que o caso de que a maioría das estimacións de mostras probabilísticas son máis fiables que as estimacións de mostras non probabilísticas. Pero, aínda agora, as estimacións de mostras non probabilísticas ben conducidos son probablemente mellor que as estimacións de mostras probabilísticas mal conducidos. Ademais, as mostras non probabilísticas son substancialmente máis barato. Así, parece que a probabilidade de mostraxe non vs probabilidade ofrece un custo-calidade trade-off (Figura 3.6). Mirando cara diante, eu espero que as estimacións de mostras non probabilísticas ben feito vai facer máis barato e mellor. Ademais, debido á quebra nas enquisas de teléfono fixo e aumento dos tipos de non-resposta, espero que as mostras de probabilidade se farán máis caros e de menor calidade. Debido a estas tendencias de longo prazo, creo que a mostraxe non probabilística se fará cada vez máis importante na terceira era da investigación de investigación.

Figura 3.6: Probabilidade de mostraxe na práctica e mostraxe non probabilística son ambos grandes categorías heteroxéneas. En xeral, hai unha boa relación custo-erro trade-off coa mostraxe non probabilidade sendo menor custo, senón maior erro. Con todo, ben feito mostraxe non probabilística pode producir estimacións mellores que mostraxe probabilística mal feito. No futuro, espero que a mostraxe non probabilística pode ir mellor e máis barato, mentres mostraxe probabilística pode ir peor e máis caro.