3.4 A quen preguntar

A era dixital fai que a probabilidade de mostraxe na práctica sexa máis difícil e crea novas oportunidades para a mostraxe non probábel.

Na historia da mostraxe, houbo dous enfoques competitivos: métodos de mostraxe de probabilidade e métodos de mostraxe non probabilísticos. Aínda que os dous enfoques usáronse nos primeiros días da mostraxe, a mostraxe de probabilidade chegou a dominarse e moitos investigadores sociais están a ensinar a ver mostras non probables cun gran escepticismo. Non obstante, como describirei a continuación, os cambios creados pola era dixital significan que é hora de que os investigadores reconsidere a mostraxe non probábel. En particular, a mostraxe de probabilidades dificultaba moito na práctica e a mostraxe non probábel foi cada vez máis rápida, máis barata e mellor. Enquisas máis rápidas e máis baratas non son só extremos en si mesmos: permiten novas oportunidades, como enquisas máis frecuentes e tamaños de mostra máis grandes. Por exemplo, mediante o uso de métodos non probábeis, o Estudo de Elección do Congreso Cooperativo (CCES) pode ter aproximadamente 10 veces máis participantes que estudos anteriores usando a mostraxe de probabilidade. Esta mostra moito máis grande permite aos investigadores políticos estudar a variación das actitudes e do comportamento entre subgrupos e contextos sociais. Ademais, toda esta escala agregada viña sen descensos na calidade das estimacións (Ansolabehere and Rivers 2013) .

Actualmente, a aproximación dominante á mostraxe para a investigación social é a mostraxe de probabilidade . Na mostraxe de probabilidade, todos os membros da poboación obxecto de aprendizaxe teñen unha probabilidade coñecida e non cero de ser probada, e todas as persoas que se muestran responden á enquisa. Cando se cumpren estas condicións, os resultados matemáticos elegantes ofrecen probables garantías sobre a capacidade do investigador de usar a mostra para inferencias sobre a poboación obxecto de aprendizaxe.

No mundo real, con todo, as condicións subxacentes a estes resultados matemáticos son raramente coñecidos. Por exemplo, moitas veces hai erros de cobertura e non resposta. Debido a estes problemas, os investigadores adoitan empregar unha variedade de axustes estatísticos para facer inferencia da súa mostra á súa poboación obxecto de aprendizaxe. Así, é importante distinguir entre a mostraxe de probabilidade en teoría , que ten fortes avaliacións teóricas e probabilidade de mostraxe na práctica , que non ofrece tales garantías e que depende de varios axustes estatísticos.

Co tempo, as diferenzas entre a mostraxe de probabilidade na teoría e probabilidade de mostraxe na práctica aumentaron. Por exemplo, as taxas de non resposta aumentaron constantemente, mesmo en enquisas caras e de alta calidade (figura 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . As taxas de non resposta son moito máis elevadas nas enquisas telefónicas comerciais, ás veces incluso ata o 90% (Kohut et al. 2012) . Estes incrementos de non resposta ameazan a calidade das estimacións porque as estimacións dependen cada vez máis dos modelos estatísticos que utilizan os investigadores para axustarse a non resposta. Ademais, estas baixas en calidade pasaron a pesar dos esforzos cada vez máis caros dos investigadores encuestados para manter altas taxas de resposta. Algunhas persoas temen que estas tendencias xemelgas de diminución da calidade e custo crecente ameacen a fundación da investigación de investigación (National Research Council 2013) .

Figura 3.5: Nonresponse foi cada vez máis constante, mesmo en enquisas caras de alta calidade (National Research Council 2013; B.D. Meyer, Mok e Sullivan 2015). As taxas de non resposta son moito máis elevadas nas enquisas de teléfonos comerciais, ás veces incluso ata o 90% (Kohut et al., 2012). Estas tendencias a longo prazo de non resposta significan que a recollida de datos é máis caro e as estimacións son menos fiables. Adaptado de B. D. Meyer, Mok e Sullivan (2015), figura 1.

Figura 3.5: A falta de resposta foi cada vez máis estable, mesmo en enquisas caras de alta calidade (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . As taxas de non resposta son moito máis elevadas nas enquisas de teléfonos comerciais, ás veces incluso ata o 90% (Kohut et al. 2012) . Estas tendencias a longo prazo de non resposta significan que a recollida de datos é máis caro e as estimacións son menos fiables. Adaptado de BD Meyer, Mok, and Sullivan (2015) , figura 1.

Ao mesmo tempo que houbo crecentes dificultades para os métodos de mostraxe de probabilidade, tamén houbo desenvolvementos interesantes nos métodos de mostraxe non probabilísticos . Hai unha variedade de estilos de métodos de mostraxe non probabilidade, pero o único que teñen en común é que non poden encaixar facilmente no marco matemático de mostraxe de probabilidade (Baker et al. 2013) . Noutras palabras, en métodos de mostraxe non probables non todos teñen unha probabilidade de inclusión coñecida e non cero. Os métodos de mostraxe non probabilidade teñen unha reputación terrible entre os investigadores sociais e están asociados a algúns dos fallos máis dramáticos dos investigadores de enquisas, como o fiasco de Literary Digest (discutido anteriormente) e "Dewey Defeats Truman", a predicción incorrecta sobre EE. UU. As eleccións presidenciais de 1948 (figura 3.6).

Figura 3.6: o presidente Harry Truman sostivo o título dun xornal que anunciara incorrectamente a súa derrota. Este título baseouse en parte en estimacións de mostras non probabilísticas (Mosteller 1949; Bean 1950; Freedman, Pisani e Purves 2007). Aínda que Dewey derrota a Truman en 1948, aínda está entre a razón de que algúns investigadores son escépticos sobre as estimacións de mostras non probabilísticas. Fonte: Biblioteca e Museo Harry S. Truman.

Figura 3.6: o presidente Harry Truman sostivo o título dun xornal que anunciara incorrectamente a súa derrota. Este título baseouse en parte en estimacións de mostras non probabilísticas (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) . Aínda que "Dewey Defeats Truman" ocorreu en 1948, aínda está entre a razón que algúns investigadores están escépticos sobre as estimacións de mostras non probabilísticas. Fonte: Biblioteca e Museo Harry S. Truman .

Unha forma de mostraxe non probábel que é particularmente adecuada para a era dixital é a utilización de paneis en liña . Os investigadores que usan paneis en liña dependen dalgúns proveedores de taboleiro (xeralmente unha empresa, goberno ou universidade) para construír un gran e diverso grupo de persoas que aceptan servir como enquisados ​​para enquisas. Estes panel participantes son frecuentemente recrutados usando unha variedade de métodos ad hoc como os anuncios de banners en liña. A continuación, un investigador pode pagar ao provedor do panel para o acceso a unha mostra de entrevistados coas características desexadas (por exemplo, representantes a nivel nacional de adultos). Estes paneis en liña son métodos non probables porque non todos teñen unha probabilidade de inclusión coñecida e non cero. Aínda que os investigadores sociais (por exemplo, o CCES) xa usan paneis en liña sen probabilidade, aínda hai un debate sobre a calidade das estimacións que provén deles (Callegaro et al. 2014) .

A pesar destes debates, creo que hai dúas razóns polas que o tempo é correcto para que os investigadores sociais reconsideren a mostraxe sen probabilidade. En primeiro lugar, na era dixital, houbo moitos desenvolvementos na recollida e análise de mostras non probabilísticas. Estes métodos máis novos son bastante diferentes dos métodos que causaron problemas no pasado que creo que ten sentido pensar neles como "mostraxe non probábel 2.0". A segunda razón pola cal os investigadores deben reconsiderar a mostraxe non probábel é porque a mostraxe de probabilidade en A práctica é cada vez máis difícil. Cando hai altas taxas de non resposta -como hai en enquisas reais agora- non se coñecen as probabilidades reais de inclusión para os entrevistados e, polo tanto, as mostras de probabilidade e as probas non probables non son tan diferentes como moitos investigadores creen.

Como dicía anteriormente, moitos investigadores sociais observan con gran escepticismo as mostras non probabilísticas, en parte por mor do seu papel nalgúns dos fallos máis vergoñosos nos primeiros días da investigación de enquisas. Un claro exemplo de ata que punto chegamos con mostras non probables é a investigación realizada por Wei Wang, David Rothschild, Sharad Goel e Andrew Gelman (2015) que recuperaron correctamente o resultado das eleccións de 2012 en Estados Unidos mediante unha mostra de probabilidade non probábel Usuarios de Xbox estadounidenses: unha mostra decididamente non aleatoria de estadounidenses. Os investigadores reclutaron aos entrevistados do sistema de xogos de XBox e, como era de esperar, a mostra de Xbox distorsionaba aos mozos e os homes desviados: os de 18 a 29 anos formaban o 19% do electorado pero o 65% da mostra de Xbox e os homes compoñen o 47% do electorado pero o 93% da mostra de Xbox (figura 3.7). Por mor destes prexuízos demográficos fortes, os datos de Xbox en bruto foron un pobre indicador das declaracións electorais. Predicou unha forte vitoria para Mitt Romney por Barack Obama. Unha vez máis, este é outro exemplo dos perigos das mostras non probadas non aleatorias e é unha reminiscencia do fiasco de Literary Digest .

Figura 3.7: Demografía dos respondentes en W. Wang et al. (2015). Como os entrevistados foron recrutados desde XBox, eran máis propensos a ser novos e máis propensos a ser homes, en relación aos electores nas eleccións de 2012. Adaptado de W. Wang et al. (2015), figura 1.

Figura 3.7: Demografía dos respondentes en W. Wang et al. (2015) . Como os entrevistados foron recrutados desde XBox, eran máis propensos a ser novos e máis propensos a ser homes, en relación aos electores nas eleccións de 2012. Adaptado de W. Wang et al. (2015) , figura 1.

Con todo, Wang e os seus colegas tiveron coñecemento destes problemas e intentaron axustarse ao seu proceso de mostraxe non aleatoria ao realizar estimacións. En particular, utilizaron a postratratación , unha técnica que tamén se usa ampliamente para axustar mostras de probabilidade que teñen erros de cobertura e non resposta.

A idea principal da postestratificación é utilizar información auxiliar sobre a poboación obxecto de aprendizaxe para axudar a mellorar a estimación que provén dunha mostra. Ao usar a postestratación para facer estimacións da súa mostra non probábel, Wang e o seu compañeiro picaron a poboación en diferentes grupos, estimaron o apoio a Obama en cada grupo e logo tomaron unha media ponderada das estimacións do grupo para producir unha estimación global. Por exemplo, podían dividir a poboación en dous grupos (homes e mulleres), estimou o apoio a Obama entre homes e mulleres, e entón estimou o apoio xeral para Obama tomando unha media ponderada para dar conta do feito de que as mulleres fan o 53% do electorado e os homes o 47%. Aproximadamente, a postestratificación axuda a corrixir unha mostra desequilibrada ao traer información auxiliar sobre os tamaños dos grupos.

A clave para a postestratificación é formar os grupos correctos. Se pode cortar a poboación en grupos homoxéneos de forma tal que as propensións de resposta son iguais para todos en cada grupo, entón a postestratificación producirá estimacións imparciais. Noutras palabras, a postratación por xénero producirá estimacións imparciais se todos os homes teñen a propensión de resposta e todas as mulleres teñen a mesma propensión de resposta. Esta suposición chámase suposición homoxénea-resposta-propensión-dentro dos grupos , e descríbeno un pouco máis nas notas matemáticas ao final deste capítulo.

Por suposto, parece pouco probable que as propensións de resposta sexan iguais para todos os homes e todas as mulleres. Non obstante, a suposición homoxénea-resposta-propensión-dentro dos grupos faise máis plausible a medida que aumenta o número de grupos. Aproximadamente, faise máis doado cortar a poboación en grupos homoxéneos se creas máis grupos. Por exemplo, pode parecer inverosível que todas as mulleres teñan a mesma propensión de resposta, pero pode parecer máis plausible que exista a mesma propensión de resposta para todas as mulleres que teñen entre 18 e 29 anos, que se formaron na facultade e que viven en California . Así, dado que a cantidade de grupos utilizados na postestratificación é maior, as hipóteses necesarias para soportar o método fanse máis razoables. Dado isto, os investigadores adoitan querer crear unha gran cantidade de grupos para a posterior estratificación. Non obstante, a medida que aumenta o número de grupos, os investigadores teñen un problema diferente: a escaseza de datos. Se só hai un pequeno número de persoas en cada grupo, as estimacións serán máis incertas e, en caso extremo, cando hai un grupo que non ten entrevistados, a estratificación posterior rompe completamente.

Existen dúas formas de saír desta tensión inherente entre a verosimilitud da suposición homoxénea-resposta-propensión-dentro dos grupos ea demanda de tamaños de mostra razoables en cada grupo. En primeiro lugar, os investigadores poden recoller unha mostra máis grande e máis diversa, que axuda a garantir tamaños de mostra razoables en cada grupo. En segundo lugar, poden empregar un modelo estatístico máis sofisticado para facer estimacións dentro de grupos. E, de feito, ás veces os investigadores fan as dúas cousas, como fixeron Wang e os seus compañeiros co seu estudo sobre a elección empregando os enquisados ​​de Xbox.

Porque utilizaban un método de mostraxe non probábel con entrevistas administradas por computadora (falarei máis sobre entrevistas administradas por computadora na sección 3.5), Wang e os seus colegas tiveron unha recollida de datos moi económica, o que lles permitiu recompilar información de 345.858 participantes únicos , un gran número polos estándares de votación electoral. Este tamaño de mostra masivo permitiulles formar un gran número de grupos de postestratación. Mentres que a postratalización xeralmente implica cortar a poboación en centos de grupos, Wang e colegas dividiron á poboación en 176.256 grupos definidos por sexo (2 categorías), raza (4 categorías), idade (4 categorías), educación (4 categorías), estado (51 categorías), identificación do partido (3 categorías), ideoloxía (3 categorías) e votación do 2008 (3 categorías). Noutras palabras, o seu enorme tamaño de mostra, que foi habilitado pola recolleita de datos de baixo custo, permitiulles facer unha suposición máis plausible no seu proceso de estimación.

Incluso con 345.858 participantes únicos, con todo, aínda había moitos, moitos grupos para os que Wang e compañeiros tiñan case ningún entrevistado. Polo tanto, usaron unha técnica chamada regresión multinivel para estimar o apoio en cada grupo. Esencialmente, para estimar o apoio a Obama dentro dun grupo específico, a regresión multinivel agrupou a información de moitos grupos moi relacionados. Por exemplo, imaxine tentar estimar o apoio a Obama entre as mulleres hispanas entre os 18 e 29 anos de idade, que son titulados universitarios, que están rexistrados nos Demócratas, que se autoidentifican como moderados e que votaron a favor de Obama en 2008. Isto é un , grupo moi específico, e é posible que ninguén na mostra con estas características. Polo tanto, para facer estimacións sobre este grupo, a regresión multinivel usa un modelo estatístico para agrupar estimacións de persoas de grupos moi similares.

Deste xeito, Wang e os seus colegas utilizaron un enfoque que combinaba a regresión e postestratación multinivel, polo que chamaron a súa estratexia de regresión multinivel con postratación ou, máis cariñosamente, "Mr. P. "Cando Wang e os seus colegas usaron o Sr P. para facer estimacións da mostra non probábel XBox, eles produciron estimacións moi próximas ao apoio xeral que recibiu Obama nas eleccións de 2012 (figura 3.8). De feito as súas estimacións eran máis precisas que un conxunto de enquisas de opinión pública tradicional. Así, neste caso, os axustes estatísticos -especialmente o Sr P.- parecen facer un bo traballo corrixindo os prexuízos en datos non probables; prexuízos que foron claramente visibles cando mire as estimacións dos datos de Xbox non adaptados.

Figura 3.8: Estimacións de W. Wang et al. (2015). A mostra XBox non adaptada produciu estimacións inexactas. Pero a mostra ponderada de XBox produciu estimacións que eran máis precisas que unha media de enquisas telefónicas baseadas en probabilidades. Adaptado de W. Wang et al. (2015), números 2 e 3.

Figura 3.8: Estimacións de W. Wang et al. (2015) . A mostra XBox non adaptada produciu estimacións inexactas. Pero a mostra ponderada de XBox produciu estimacións que eran máis precisas que unha media de enquisas telefónicas baseadas en probabilidades. Adaptado de W. Wang et al. (2015) , números 2 e 3.

Hai dúas leccións principais do estudo de Wang e colegas. En primeiro lugar, as mostras non probables non adaptadas poden levar a estimacións malas; Esta é unha lección que moitos investigadores xa escoitaron. A segunda lección, con todo, é que as mostras non probables, cando se analizan correctamente, realmente poden producir boas estimacións; As mostras non probables non necesitan levar automaticamente a algo así como o fiasco Literary Digest .

Avanzando, se está a tentar decidir entre utilizar un enfoque de mostraxe de probabilidade e un enfoque de mostraxe non probábel, enfróntase a unha elección difícil. Ás veces os investigadores queren unha regra rápida e ríxida (por exemplo, sempre usan métodos de mostraxe de probabilidade), pero cada vez é máis difícil ofrecer tal regra. Os investigadores enfróntanse a unha difícil elección entre os métodos de mostraxe de probabilidade na práctica -que son cada vez máis caros e lonxe dos resultados teóricos que xustifican o seu uso- e os métodos de mostraxe sen probabilidade -que son máis baratos e máis rápidos, pero menos familiares e máis variados. Unha cousa que está claro, con todo, é que se está obrigado a traballar con mostras non probables ou fontes de datos grandes non representativas (pensa de novo no capítulo 2), entón hai unha razón forte para crer que as estimacións realizadas mediante a postratación e As técnicas relacionadas serán mellores que as estimacións brutas non adaptadas.