3.4 Qui demander

L'ère numérique rend l'échantillonnage probabiliste plus difficile et crée de nouvelles possibilités d'échantillonnage non probabiliste.

Dans l'histoire de l'échantillonnage, il y a eu deux approches concurrentes: les méthodes d'échantillonnage probabiliste et les méthodes d'échantillonnage non probabiliste. Bien que les deux approches aient été utilisées dans les premiers jours de l'échantillonnage, l'échantillonnage probabiliste a fini par dominer, et de nombreux chercheurs en sciences sociales apprennent à considérer l'échantillonnage non probabiliste avec beaucoup de scepticisme. Cependant, comme je le décrirai plus loin, les changements créés par l'ère numérique signifient qu'il est temps pour les chercheurs de reconsidérer l'échantillonnage non probabiliste. En particulier, l'échantillonnage probabiliste devient difficile à faire dans la pratique, et l'échantillonnage non probabiliste est de plus en plus rapide, meilleur marché et meilleur. Des enquêtes plus rapides et moins coûteuses ne sont pas seulement des fins en elles-mêmes: elles permettent de nouvelles opportunités telles que des enquêtes plus fréquentes et des échantillons de plus grande taille. Par exemple, en utilisant des méthodes non probabilistes, la Cooperative Congressional Election Study (CCES) est capable d'avoir environ 10 fois plus de participants que les études antérieures utilisant l'échantillonnage probabiliste. Cet échantillon beaucoup plus large permet aux chercheurs politiques d'étudier la variation des attitudes et des comportements à travers les sous-groupes et les contextes sociaux. De plus, toute cette échelle ajoutée est venue sans diminution de la qualité des estimations (Ansolabehere and Rivers 2013) .

Actuellement, l'approche dominante de l'échantillonnage pour la recherche sociale est l' échantillonnage probabiliste . Dans l'échantillonnage probabiliste, tous les membres de la population cible ont une probabilité connue et non nulle d'être échantillonnés, et toutes les personnes échantillonnées répondent à l'enquête. Lorsque ces conditions sont remplies, des résultats mathématiques élégants offrent des garanties prouvables quant à la capacité d'un chercheur à utiliser l'échantillon pour faire des inférences sur la population cible.

Dans le monde réel, cependant, les conditions sous-jacentes à ces résultats mathématiques sont rarement réunies. Par exemple, il y a souvent des erreurs de couverture et de non-réponse. En raison de ces problèmes, les chercheurs doivent souvent utiliser une variété d'ajustements statistiques afin de faire des inférences à partir de leur échantillon à leur population cible. Ainsi, il est important de distinguer entre l' échantillonnage probabiliste en théorie , qui a de fortes garanties théoriques, et l' échantillonnage probabiliste dans la pratique , qui n'offre pas de telles garanties et dépend d'une variété d'ajustements statistiques.

Au fil du temps, les différences entre l'échantillonnage probabiliste en théorie et l'échantillonnage probabiliste dans la pratique ont augmenté. Par exemple, les taux de non-réponse ont augmenté régulièrement, même dans le cas d'enquêtes coûteuses de grande qualité (figure 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Les taux de non-réponse sont beaucoup plus élevés dans les enquêtes téléphoniques commerciales - parfois même jusqu'à 90% (Kohut et al. 2012) . Ces augmentations de la non-réponse menacent la qualité des estimations parce que les estimations dépendent de plus en plus des modèles statistiques que les chercheurs utilisent pour corriger la non-réponse. De plus, ces baisses de qualité sont survenues malgré les efforts de plus en plus coûteux des chercheurs de l'enquête pour maintenir des taux de réponse élevés. Certaines personnes craignent que ces deux tendances de baisse de la qualité et d'augmentation des coûts menacent le fondement de la recherche par sondage (National Research Council 2013) .

Figure 3.5: La non-réponse a été de plus en plus constante, même dans des enquêtes coûteuses de grande qualité (Conseil national de recherches 2013, B.D. Meyer, Mok et Sullivan 2015). Les taux de non-réponse sont beaucoup plus élevés dans les enquêtes sur les téléphones commerciaux, atteignant même parfois 90% (Kohut et al., 2012). Ces tendances à long terme de la non-réponse signifient que la collecte de données est plus coûteuse et que les estimations sont moins fiables. Adapté de B.D. Meyer, Mok et Sullivan (2015), figure 1.

Figure 3.5: La non-réponse a été de plus en plus constante, même dans des enquêtes coûteuses de grande qualité (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Les taux de non-réponse sont beaucoup plus élevés dans les enquêtes sur les téléphones commerciaux, atteignant même parfois 90% (Kohut et al. 2012) . Ces tendances à long terme de la non-réponse signifient que la collecte de données est plus coûteuse et que les estimations sont moins fiables. Adapté de BD Meyer, Mok, and Sullivan (2015) , figure 1.

En même temps qu'il y a eu des difficultés croissantes pour les méthodes d'échantillonnage probabiliste, il y a eu aussi des développements intéressants dans les méthodes d'échantillonnage non probabiliste . Il existe différents types de méthodes d'échantillonnage non probabiliste, mais la seule chose qu'elles ont en commun est qu'elles ne peuvent pas facilement s'insérer dans le cadre mathématique de l'échantillonnage probabiliste (Baker et al. 2013) . En d'autres termes, dans les méthodes d'échantillonnage non probabilistes, tout le monde n'a pas une probabilité d'inclusion connue et non nulle. Les méthodes d'échantillonnage non probabilistes ont une mauvaise réputation auprès des chercheurs en sciences sociales et sont associées à certains des échecs les plus dramatiques des chercheurs, tels que le fiasco Literary Digest (discuté plus haut) et Dewey Defeats Truman. élections présidentielles de 1948 (figure 3.6).

Figure 3.6: Le président Harry Truman brandissant le titre d'un journal qui avait incorrectement annoncé sa défaite. Ce titre était basé en partie sur des estimations provenant d'échantillons non probabilistes (Mosteller 1949, Bean 1950, Freedman, Pisani et Purves 2007). Bien que Dewey Defeats Truman ait eu lieu en 1948, c'est toujours la raison pour laquelle certains chercheurs sont sceptiques quant aux estimations provenant d'échantillons non probabilistes. Source: Bibliothèque et musée Harry S. Truman.

Figure 3.6: Le président Harry Truman brandissant le titre d'un journal qui avait incorrectement annoncé sa défaite. Ce titre était basé en partie sur des estimations provenant d'échantillons non probabilistes (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) . Bien que "Dewey Defeats Truman" ait eu lieu en 1948, il est encore parmi les raisons pour lesquelles certains chercheurs sont sceptiques quant aux estimations d'échantillons non probabilistes. Source: Bibliothèque et musée Harry S. Truman .

Une forme d'échantillonnage non probabiliste particulièrement adaptée à l'ère numérique est l'utilisation de panels en ligne . Les chercheurs utilisant des panels en ligne dépendent d'un fournisseur de panel - généralement une entreprise, un gouvernement ou une université - pour constituer un groupe important et diversifié de personnes acceptant de servir de répondants pour les enquêtes. Ces participants sont souvent recrutés en utilisant une variété de méthodes ad hoc telles que les bannières en ligne. Ensuite, un chercheur peut payer le fournisseur du panel pour avoir accès à un échantillon de répondants ayant les caractéristiques souhaitées (p. Ex., Représentant national des adultes). Ces panneaux en ligne sont des méthodes non probabilistes car tout le monde n'a pas une probabilité d'inclusion connue et non nulle. Bien que les chercheurs en sciences sociales utilisent déjà des panels en ligne non probabilistes (p. Ex. Le CCES), la qualité des estimations qui en découlent (Callegaro et al. 2014) encore un débat (Callegaro et al. 2014) .

Malgré ces débats, je pense qu'il y a deux raisons pour lesquelles le moment est venu pour les chercheurs en sciences sociales de reconsidérer l'échantillonnage non probabiliste. Premièrement, à l'ère numérique, de nombreux progrès ont été réalisés dans la collecte et l'analyse d'échantillons non probabilistes. Ces nouvelles méthodes sont assez différentes des méthodes qui ont causé des problèmes dans le passé et je pense qu'il est logique de les considérer comme un «échantillonnage non probabiliste 2.0». La deuxième raison pour laquelle les chercheurs devraient reconsidérer l'échantillonnage non probabiliste la pratique est devenue de plus en plus difficile. Lorsque les taux de non-réponse sont élevés - comme c'est le cas dans les sondages réels - les probabilités réelles d'inclusion des répondants ne sont pas connues. Ainsi, les échantillons probabilistes et les échantillons non probabilistes ne sont pas aussi différents que de nombreux chercheurs.

Comme je l'ai dit plus tôt, de nombreux chercheurs en sciences sociales considèrent avec beaucoup de scepticisme les échantillons non probabilistes, en partie à cause de leur rôle dans certains des échecs les plus embarrassants au début de la recherche par sondage. La recherche de Wei Wang, David Rothschild, Sharad Goel et Andrew Gelman (2015) qui a correctement récupéré le résultat des élections américaines de 2012 en utilisant un échantillon non probabiliste de Les utilisateurs Xbox américains - un échantillon résolument non aléatoire des Américains. Les chercheurs ont recruté des répondants du système de jeu XBox, et comme on peut s'y attendre, l'échantillon Xbox a biaisé les jeunes hommes et les jeunes biaisés: les 18- 29 ans représentent 19% de l'électorat mais 65% de l'échantillon Xbox, et les hommes représentent 47% de l'électorat mais 93% de l'échantillon Xbox (figure 3.7). En raison de ces biais démographiques forts, les données brutes de la Xbox étaient un mauvais indicateur des rendements électoraux. Il a prédit une forte victoire pour Mitt Romney sur Barack Obama. Encore une fois, ceci est un autre exemple des dangers des échantillons non probabilistes bruts non ajustés et rappelle le fiasco du Literary Digest .

Figure 3.7: Démographie des répondants dans W. Wang et al. (2015). Parce que les répondants ont été recrutés à partir de XBox, ils étaient plus susceptibles d'être jeunes et plus susceptibles d'être des hommes, par rapport aux électeurs lors des élections de 2012. Adapté de W. Wang et al. (2015), figure 1.

Figure 3.7: Démographie des répondants dans W. Wang et al. (2015) . Parce que les répondants ont été recrutés à partir de XBox, ils étaient plus susceptibles d'être jeunes et plus susceptibles d'être des hommes, par rapport aux électeurs lors des élections de 2012. Adapté de W. Wang et al. (2015) , figure 1.

Toutefois, Wang et ses collègues étaient conscients de ces problèmes et ont tenté de s'adapter à leur processus d'échantillonnage non aléatoire lorsqu'ils ont fait des estimations. En particulier, ils ont utilisé la post-stratification , une technique qui est aussi largement utilisée pour ajuster les échantillons probabilistes qui ont des erreurs de couverture et la non-réponse.

L'idée principale de la post-stratification est d'utiliser des informations auxiliaires sur la population cible pour aider à améliorer l'estimation provenant d'un échantillon. En utilisant la post-stratification pour faire des estimations à partir de leur échantillon non probabiliste, Wang et son collègue ont divisé la population en différents groupes, estimé le soutien d'Obama dans chaque groupe, puis pris une moyenne pondérée des estimations du groupe pour produire une estimation globale. Par exemple, ils auraient pu diviser la population en deux groupes (hommes et femmes), estimer le soutien d'Obama parmi les hommes et les femmes, puis estimer le soutien global d'Obama en prenant une moyenne pondérée afin de rendre compte du fait que les femmes font 53% de l'électorat et 47% des hommes. En gros, la post-stratification aide à corriger un échantillon déséquilibré en apportant des informations auxiliaires sur la taille des groupes.

La clé de la post-stratification est de former les bons groupes. Si vous pouvez découper la population en groupes homogènes de sorte que les propensions à répondre soient les mêmes pour tous les membres de chaque groupe, la post-stratification produira des estimations non biaisées. En d'autres termes, la post-stratification par sexe produira des estimations non biaisées si tous les hommes ont la propension à répondre et si toutes les femmes ont la même propension à répondre. Cette hypothèse est appelée l'hypothèse homogène-réponse-propensions-à- l'intérieur des groupes , et je la décris un peu plus dans les notes mathématiques à la fin de ce chapitre.

Bien sûr, il semble peu probable que les propensions à répondre soient les mêmes pour tous les hommes et toutes les femmes. Cependant, l'hypothèse homogène-réponse-propension à l'intérieur des groupes devient plus plausible à mesure que le nombre de groupes augmente. En gros, il devient plus facile de couper la population en groupes homogènes si vous créez plus de groupes. Par exemple, il peut sembler invraisemblable que toutes les femmes aient la même propension à répondre, mais il pourrait sembler plus plausible que la propension à répondre soit la même pour toutes les femmes âgées de 18 à 29 ans, diplômées du collège et vivant en Californie . Ainsi, à mesure que le nombre de groupes utilisés dans la post-stratification augmente, les hypothèses nécessaires pour soutenir la méthode deviennent plus raisonnables. Compte tenu de ce fait, les chercheurs veulent souvent créer un grand nombre de groupes pour la post-stratification. Cependant, à mesure que le nombre de groupes augmente, les chercheurs se heurtent à un problème différent: la rareté des données. S'il n'y a qu'un petit nombre de personnes dans chaque groupe, alors les estimations seront plus incertaines, et dans le cas extrême où il y a un groupe qui n'a pas de répondants, alors la stratification a posteriori s'effondrera complètement.

Il y a deux façons de sortir de cette tension inhérente entre la plausibilité de l'hypothèse de la réponse homogène-propension-à-l'intérieur des groupes et la demande de tailles d'échantillon raisonnables dans chaque groupe. Premièrement, les chercheurs peuvent recueillir un échantillon plus vaste et plus diversifié, ce qui contribue à assurer une taille d'échantillon raisonnable dans chaque groupe. Deuxièmement, ils peuvent utiliser un modèle statistique plus sophistiqué pour faire des estimations au sein des groupes. Et, en fait, parfois, les chercheurs font les deux, comme Wang et ses collègues l'ont fait avec leur étude de l'élection en utilisant des répondants de la Xbox.

Parce qu'ils utilisaient une méthode d'échantillonnage non probabiliste avec des interviews administrées par ordinateur (je parlerai davantage des interviews administrées par ordinateur à la section 3.5), Wang et ses collègues ont collecté très peu de données, ce qui leur a permis de recueillir 345 858 participants uniques. , un nombre énorme par les normes du vote des élections. Cette taille d'échantillon massive leur a permis de former un grand nombre de groupes post-stratification. Alors que la post-stratification implique généralement de découper la population en centaines de groupes, Wang et ses collègues ont divisé la population en 176 256 groupes définis par genre (2 catégories), race (4 catégories), âge (4 catégories), éducation (4 catégories), état (51 catégories), identification de partie (3 catégories), idéologie (3 catégories) et vote de 2008 (3 catégories). En d'autres termes, leur énorme taille d'échantillon, qui a été permise par la collecte de données à faible coût, leur a permis de faire une hypothèse plus plausible dans leur processus d'estimation.

Même avec 345 858 participants uniques, cependant, il y avait encore beaucoup, beaucoup de groupes pour lesquels Wang et ses collègues n'avaient presque aucun répondant. Par conséquent, ils ont utilisé une technique appelée régression multiniveau pour estimer le soutien dans chaque groupe. Essentiellement, pour estimer le soutien d'Obama au sein d'un groupe spécifique, la régression multiniveaux a regroupé des informations provenant de nombreux groupes étroitement apparentés. Par exemple, imaginez essayer d'estimer le soutien d'Obama parmi les femmes hispaniques entre 18 et 29 ans, qui sont des diplômés universitaires, qui sont des démocrates inscrits, qui s'identifient comme modérés, et qui ont voté pour Obama en 2008. C'est un très , groupe très spécifique, et il est possible qu'il n'y ait personne dans l'échantillon avec ces caractéristiques. Par conséquent, pour faire des estimations à propos de ce groupe, la régression à plusieurs niveaux utilise un modèle statistique pour regrouper les estimations des personnes appartenant à des groupes très similaires.

Ainsi, Wang et ses collègues ont utilisé une approche combinant la régression multiniveau et la post-stratification, de sorte qu'ils ont appelé leur stratégie de régression multiniveau avec post-stratification ou, plus affectueusement, "M. P. «Quand Wang et ses collègues ont utilisé MP pour faire des estimations à partir de l'échantillon XBox non probabiliste, ils ont produit des estimations très proches du soutien global qu'Obama a reçu lors des élections de 2012 (figure 3.8). En fait, leurs estimations étaient plus précises que l'ensemble des sondages d'opinion publique traditionnels. Ainsi, dans ce cas, les ajustements statistiques - en particulier MP - semblent faire un bon travail en corrigeant les biais dans les données non probabilistes; biais qui étaient clairement visibles lorsque vous regardez les estimations à partir des données Xbox non ajustés.

Figure 3.8: Estimations de W. Wang et al. (2015). L'échantillon XBox non ajusté a produit des estimations inexactes. Cependant, l'échantillon XBox pondéré a produit des estimations plus précises que la moyenne des enquêtes téléphoniques probabilistes. Adapté de W. Wang et al. (2015), figures 2 et 3.

Figure 3.8: Estimations de W. Wang et al. (2015) . L'échantillon XBox non ajusté a produit des estimations inexactes. Cependant, l'échantillon XBox pondéré a produit des estimations plus précises que la moyenne des enquêtes téléphoniques probabilistes. Adapté de W. Wang et al. (2015) , figures 2 et 3.

Il y a deux leçons principales de l'étude de Wang et de ses collègues. Premièrement, les échantillons non probabilistes non ajustés peuvent conduire à de mauvaises estimations; C'est une leçon que de nombreux chercheurs ont déjà entendue. La deuxième leçon, cependant, est que les échantillons non probabilistes, lorsqu'ils sont analysés correctement, peuvent effectivement produire de bonnes estimations; les échantillons non probabilistes ne doivent pas automatiquement conduire à quelque chose comme le fiasco Literary Digest .

À l'avenir, si vous essayez de choisir entre une approche d'échantillonnage probabiliste et une approche d'échantillonnage non probabiliste, vous êtes confronté à un choix difficile. Parfois, les chercheurs veulent une règle rapide et rigide (par exemple, toujours utiliser des méthodes d'échantillonnage probabiliste), mais il est de plus en plus difficile d'offrir une telle règle. Les chercheurs sont confrontés à un choix difficile entre les méthodes d'échantillonnage probabiliste en pratique - de plus en plus coûteuses et loin des résultats théoriques justifiant leur utilisation - et les méthodes d'échantillonnage non probabilistes - moins chères et plus rapides mais moins familières et plus variées. Une chose est claire, cependant, si vous êtes obligé de travailler avec des échantillons non probabilistes ou des sources de données volumineuses non représentatives (pensez au chapitre 2), il y a de bonnes raisons de croire que les estimations faites à l'aide de stratification les techniques connexes seront meilleures que les estimations brutes non ajustées.