3.4.3 échantillons non probabilistes: échantillon correspondant

Cette traduction a été créé par un ordinateur. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.3 échantillons non probabilistes: échantillon correspondant

Tous les échantillons non probabilistes ne sont pas les mêmes. Nous pouvons ajouter plus de contrôle sur l'extrémité avant.

L'approche Wang et ses collègues utilisées pour estimer les résultats de l'élection présidentielle américaine 2012 dépendait entièrement sur l'amélioration de l'analyse des données. C'est, ils ont recueilli autant de réponses qu'ils pouvaient et ont ensuite tenté de re-poids eux. Une stratégie complémentaire pour travailler avec l'échantillonnage non probabiliste est d'avoir plus de contrôle sur le processus de collecte de données.

L'exemple le plus simple d'un processus d'échantillonnage non probabiliste partiellement contrôlée est la méthode des quotas, une technique qui remonte aux premiers jours de la recherche par sondage. Dans la méthode des quotas, les chercheurs divisent la population en différents groupes (par exemple, les jeunes hommes, jeunes femmes, etc.) et des quotas alors fixés pour le nombre de personnes à sélectionner dans chaque groupe. Les répondants sont choisis de manière aléatoire jusqu'à ce que le chercheur a rencontré leur quota dans chaque groupe. En raison des quotas, l'échantillon résultant ressemble plus à la population cible que ce serait le cas contraire, mais parce que les probabilités d'inclusion sont inconnus de nombreux chercheurs sont sceptiques quant à la méthode des quotas. En fait, l'échantillonnage par quotas a été une cause de la "Dewey Défaites Truman" erreur dans les sondages de 1948 US présidentielle. Parce qu'il offre un certain contrôle sur le processus d'échantillonnage, cependant, on peut voir comment la méthode des quotas pourrait avoir quelques avantages sur une collecte de données totalement incontrôlée.

Au-delà de la méthode des quotas, des approches plus modernes pour contrôler le processus d'échantillonnage non probabiliste sont maintenant possibles. Une telle approche est appelée échantillon correspondant, et il est utilisé par certains fournisseurs de panneaux commerciaux en ligne. Dans sa forme la plus simple, l'échantillon correspondant nécessite deux sources de données: 1) un registre complet de la population et 2) un grand panel de volontaires. Il est important que les volontaires ne doivent pas nécessairement être un échantillon aléatoire à partir d'une population; de souligner qu'il n'y a pas d' exigences pour la sélection dans le panneau, je vais l' appeler un panneau sale. En outre, à la fois le registre de la population et le panneau sale doivent inclure des informations auxiliaires sur chaque personne, dans cet exemple, je vais considérer l'âge et le sexe, mais dans des situations réalistes cette information auxiliaire pourrait être beaucoup plus détaillée. L'astuce de l' échantillon correspondant est de sélectionner des échantillons à partir d' un panneau sale d'une manière qui produit des échantillons qui ressemblent à des échantillons de probabilité.

appariement de l'échantillon commence quand un échantillon probabiliste simulé est tiré du registre de la population; cet échantillon est un échantillon simulé cible. Puis, sur la base des informations auxiliaires, des cas de l'échantillon cible sont adaptés aux personnes dans le panneau sale pour former un échantillon apparié. Par exemple, s'il y a une femme âgée de 25 ans dans l'échantillon cible, puis le chercheur trouve une femme de 25 ans à partir du panneau sale pour être dans l'échantillon apparié. Enfin, les membres de l'échantillon apparié sont interviewés pour produire l'ensemble final des répondants.

Même si l'échantillon apparié ressemble à l'échantillon cible, il est important de se rappeler que l'échantillon apparié est pas un échantillon probabiliste. échantillons appariés ne peuvent correspondre à l'échantillon cible sur l'information auxiliaire connue (par exemple, l'âge et le sexe), mais pas sur des caractéristiques non mesurées. Par exemple, si les gens sur le panneau sale ont tendance à être plus pauvres, après tout, l'une des raisons d'adhérer à un groupe d'enquête est de gagner de l'argent alors même si l'échantillon apparié ressemble à l'échantillon cible en termes d'âge et le sexe, il aura encore un biais en faveur des pauvres. La magie de la véritable échantillonnage probabiliste est d'exclure des problèmes sur les deux caractéristiques mesurées et non mesurées (un point qui est conforme à notre discussion d'appariement pour l'inférence causale à partir des études d'observation dans le chapitre 2).

Dans la pratique, l'échantillon correspondant dépend de la présence d'un grand et diversifié panel désireux de compléter les enquêtes, et donc il est principalement fait par des entreprises qui peuvent se permettre de développer et de maintenir un tel panneau. En outre, dans la pratique, il peut y avoir des problèmes avec l'appariement (parfois un bon match pour quelqu'un dans l'échantillon cible n'existe pas sur le panneau) et la non-réponse (parfois, les gens dans l'échantillon apparié refusent de participer à l'enquête). Par conséquent, dans la pratique, les chercheurs font l'échantillon correspondant effectuent également une sorte d'ajustement post-stratification pour faire des estimations.

Il est difficile de fournir des garanties théoriques utiles sur l'échantillon correspondant, mais dans la pratique, il peut bien performer. Par exemple, Stephen Ansolabehere et Brian Schaffner (2014) ont comparé trois enquêtes parallèles d'environ 1.000 personnes menées en 2010 en utilisant trois différents échantillonnage et les méthodes d' interview: courrier, téléphone, et un panneau d'Internet en utilisant l' échantillon correspondant et l' ajustement post-stratification. Les estimations des trois approches étaient assez semblables à des estimations de repères de haute qualité tels que la Current Population Survey (CPS) et l'Enquête sur la National Health Interview (NHIS). Plus précisément, les deux enquêtes sur Internet et de courrier étaient éteintes par une moyenne de 3 points de pourcentage et l'enquête téléphonique était hors de 4 points de pourcentage. Erreurs ce gros sont à peu près ce que l'on pourrait attendre d'échantillons d'environ 1.000 personnes. Bien que, aucun de ces modes produits sensiblement meilleures données, à la fois l'enquête Internet et téléphone (qui a pris plusieurs jours ou semaines) ont été sensiblement plus rapide au champ de l'enquête postale (qui a duré huit mois), et l'enquête sur Internet, qui a utilisé l'échantillon correspondant, était moins cher que les deux autres modes.

En conclusion, les scientifiques sociaux et les statisticiens sont incroyablement sceptiques inférences à partir de ces échantillons non probabilistes, en partie parce qu'ils sont associés à certains échecs embarrassants de la recherche par sondage , tels que le sondage Literary Digest. En partie, je suis d'accord avec ce scepticisme: échantillons non probabilistes non ajustés sont susceptibles de produire de mauvaises estimations. Toutefois, si les chercheurs peuvent ajuster les biais dans le processus d'échantillonnage (par exemple, la post-stratification) ou contrôler quelque peu le processus d'échantillonnage (par exemple, l'échantillon correspondant), ils peuvent produire de meilleures estimations, et même des estimations de qualité suffisante pour la plupart des buts. Bien sûr, il serait préférable de faire l'échantillonnage de probabilité parfaitement exécuté, mais qui ne semble plus être une option réaliste.

Les deux échantillons non probabilistes et des échantillons de probabilité varient dans leur qualité, et actuellement il est probablement le cas que la plupart des estimations à partir d'échantillons de probabilité sont plus fiables que les estimations à partir d'échantillons non probabilistes. Mais, même maintenant, les estimations à partir d'échantillons non probabilistes bien menées sont probablement mieux que les estimations à partir d'échantillons de probabilité mal menées. En outre, des échantillons non probabilistes sont sensiblement moins cher. Ainsi, il apparaît que la probabilité vs échantillonnage non probabiliste offre un rapport coût-qualité trade-off (Figure 3.6). À l'avenir, je pense que les estimations à partir d'échantillons non probabilistes bien fait va devenir moins cher et mieux. En outre, en raison de la répartition dans les enquêtes de téléphonie fixe et l'augmentation des taux de non-réponse, je pense que les échantillons de probabilité deviendront plus chers et de qualité inférieure. En raison de ces tendances à long terme, je pense que l'échantillonnage non probabiliste deviendra de plus en plus important dans la troisième ère de la recherche par sondage.

Figure 3.6: L'échantillonnage probabiliste dans la pratique et l'échantillonnage non probabiliste sont les deux grandes catégories hétérogènes. En général, il y a un coût d'erreur compromis avec l'échantillonnage non probabiliste étant moindre coût, mais une erreur plus élevée. Cependant, bien fait l'échantillonnage non probabiliste peut produire de meilleures estimations que l'échantillonnage probabiliste mal fait. Dans l'avenir, je pense que l'échantillonnage non probabiliste ira mieux et moins cher alors que l'échantillonnage probabiliste va empirer et plus cher.