Notes mathématiques

Dans cette annexe, je vais décrire certaines des idées du chapitre sous une forme légèrement plus mathématique. Le but ici est de vous aider à vous familiariser avec la notation et le cadre mathématique utilisés par les chercheurs de l'enquête afin que vous puissiez passer à un peu plus de matériel technique écrit sur ces sujets. Je commencerai par introduire l'échantillonnage probabiliste, puis passerons à l'échantillonnage probabiliste avec non-réponse et, enfin, à l'échantillonnage non probabiliste.

Échantillonnage probabiliste

En guise d'exemple, considérons l'objectif de l'estimation du taux de chômage aux États-Unis. Soit \(U = \{1, \ldots, k, \ldots, N\}\) la population cible et laisse \(y_k\) par la valeur de la variable de résultat pour la personne \(k\) . Dans cet exemple, \(y_k\) si la personne \(k\) est au chômage. Enfin, supposons que \(F = \{1, \ldots, k, \ldots, N\}\) soit la population de trames qui, pour des raisons de simplicité, est supposée être la même que la population cible.

Un plan d'échantillonnage de base est un échantillonnage aléatoire simple sans remplacement. Dans ce cas, chaque personne est également susceptible d'être incluse dans l'échantillon \(s = \{1, \ldots, i, \ldots, n\}\) . Lorsque les données sont recueillies avec ce plan d'échantillonnage, les chercheurs peuvent estimer le taux de chômage de la population avec l'échantillon moyen:

\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]

\(\bar{y}\) est le taux de chômage dans la population et \(\hat{\bar{y}}\) est l'estimation du taux de chômage (le \(\hat{ }\) est généralement utilisé pour indiquer un estimateur).

En réalité, les chercheurs utilisent rarement un échantillonnage aléatoire simple sans remplacement. Pour diverses raisons (que je décrirai dans un instant), les chercheurs créent souvent des échantillons avec des probabilités d'inclusion inégales. Par exemple, les chercheurs pourraient sélectionner des personnes en Floride avec une probabilité d'inclusion plus élevée que les personnes en Californie. Dans ce cas, la moyenne de l'échantillon (équation 3.1) pourrait ne pas être un bon estimateur. Au lieu de cela, quand il y a des probabilités inégales d'inclusion, les chercheurs utilisent

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]

\(\hat{\bar{y}}\) est l'estimation du taux de chômage et \(\pi_i\) est la probabilité d'inclusion de la personne \(i\) . Suivant la pratique standard, j'appellerai l'estimateur en eq. 3.2 l'estimateur de Horvitz-Thompson. L'estimateur de Horvitz-Thompson est extrêmement utile car il conduit à des estimations non biaisées pour tout plan d'échantillonnage probabiliste (Horvitz and Thompson 1952) . Parce que l'estimateur de Horvitz-Thompson revient si souvent, il est utile de remarquer qu'il peut être réécrit comme

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]

\(w_i = 1 / \pi_i\) . Comme éq. 3.3 révèle que l'estimateur de Horvitz-Thompson est une moyenne d'échantillon pondérée où les poids sont inversement proportionnels à la probabilité de sélection. En d'autres termes, moins une personne est susceptible d'être incluse dans l'échantillon, plus elle devrait avoir de poids dans l'estimation.

Comme décrit précédemment, les chercheurs échantillonnent souvent des personnes présentant des probabilités inégales d'inclusion. Un exemple de conception pouvant conduire à des probabilités inégales d'inclusion est l' échantillonnage stratifié , qu'il est important de comprendre car il est étroitement lié à la procédure d'estimation appelée post-stratification . Dans un échantillonnage stratifié, un chercheur divise la population cible en groupes \(H\) mutuellement exclusifs et exhaustifs. Ces groupes sont appelés strates et sont indiqués par \(U_1, \ldots, U_h, \ldots, U_H\) . Dans cet exemple, les strates sont des états. Les tailles des groupes sont indiquées par \(N_1, \ldots, N_h, \ldots, N_H\) . Une chercheuse pourrait vouloir utiliser l'échantillonnage stratifié afin de s'assurer qu'elle a suffisamment de personnes dans chaque état pour faire des estimations du chômage au niveau de l'État.

Une fois que la population a été divisée en strates , supposons que le chercheur sélectionne un échantillon aléatoire simple sans remplacer la taille \(n_h\) , indépendamment de chaque strate. En outre, supposons que toutes les personnes sélectionnées dans l'échantillon deviennent des répondants (je traiterai de la non-réponse dans la section suivante). Dans ce cas, la probabilité d'inclusion est

\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]

Étant donné que ces probabilités peuvent varier d'une personne à l'autre, les chercheurs doivent pondérer chaque répondant par l'inverse de leur probabilité d'inclusion en utilisant l'estimateur de Horvitz-Thompson (équation 3.2).

Même si l'estimateur de Horvitz-Thompson est non biaisé, les chercheurs peuvent produire des estimations plus précises (c.-à-d. Plus faibles) en combinant l'échantillon avec l'information auxiliaire . Certaines personnes trouvent surprenant que cela soit vrai même lorsque l'échantillonnage probabiliste est parfaitement exécuté. Ces techniques utilisant des informations auxiliaires sont particulièrement importantes car, comme je le montrerai plus loin, les informations auxiliaires sont essentielles pour faire des estimations à partir d'échantillons probabilistes avec non-réponse et d'échantillons non-probabilistes.

Une technique courante d'utilisation de l'information auxiliaire est la poststratification . Imaginez, par exemple, qu'un chercheur connaisse le nombre d'hommes et de femmes dans chacun des 50 États; nous pouvons noter ces tailles de groupe comme \(N_1, N_2, \ldots, N_{100}\) . Pour combiner ces informations auxiliaires avec l'échantillon, le chercheur peut diviser l'échantillon en groupes \(H\) (dans ce cas 100), faire une estimation pour chaque groupe, puis créer une moyenne pondérée de ces groupes:

\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]

En gros, l'estimateur en éq. 3.5 est susceptible d'être plus précis car il utilise les informations de population connues - le \(N_h\) - pour corriger les estimations si un échantillon déséquilibré est sélectionné. Une façon d'y penser est que la post-stratification ressemble à une stratification approximative après que les données ont déjà été collectées.

En conclusion, cette section a décrit quelques plans d'échantillonnage: échantillonnage aléatoire simple sans remplacements, échantillonnage avec probabilité inégale et échantillonnage stratifié. Il a également décrit deux idées principales concernant l'estimation: l'estimateur de Horvitz-Thompson et la post-stratification. Pour une définition plus formelle des plans d'échantillonnage probabiliste, voir le chapitre 2 de Särndal, Swensson, and Wretman (2003) . Pour un traitement plus formel et complet de l'échantillonnage stratifié, voir la section 3.7 de Särndal, Swensson, and Wretman (2003) . Pour une description technique des propriétés de l'estimateur de Horvitz-Thompson, voir Horvitz and Thompson (1952) , Overton and Stehman (1995) ou la section 2.8 de @ sarndal_model_2003. Pour un traitement plus formel de la poststratification, voir Holt and Smith (1979) , Smith (1991) , Little (1993) ou la section 7.6 de Särndal, Swensson, and Wretman (2003) .

Échantillonnage probabiliste avec non-réponse

Presque toutes les enquêtes réelles ont une non-réponse; c'est-à-dire que tous les membres de l'échantillon ne répondent pas à toutes les questions. Il existe deux principaux types de non-réponse: la non - réponse partielle et la non - réponse totale . Dans la non-réponse partielle, certains répondants ne répondent pas à certains éléments (p. Ex., Parfois, les répondants ne veulent pas répondre aux questions qu'ils jugent sensibles). Dans la non-réponse totale, certaines personnes sélectionnées pour la population de l'échantillon ne répondent pas du tout à l'enquête. Les deux raisons les plus courantes de la non-réponse totale sont les suivantes: la personne échantillonnée ne peut pas être contactée et l'échantillon est contacté mais refuse de participer. Dans cette section, je vais me concentrer sur la non-réponse de l'unité; Les lecteurs intéressés par la non-réponse à un item devraient consulter Little et Rubin (2002) .

Les chercheurs pensent souvent que les enquêtes avec non-réponse des unités constituent un processus d'échantillonnage en deux étapes. Dans la première étape, le chercheur sélectionne un échantillon \(s\) tel que chaque personne a une probabilité d'inclusion \(\pi_i\) (où \(0 < \pi_i \leq 1\) ). Ensuite, dans la deuxième étape, les personnes sélectionnées dans l'échantillon répondent avec une probabilité \(\phi_i\) (où \(0 < \phi_i \leq 1\) ). Ce processus en deux étapes aboutit à l'ensemble final des répondants \(r\) . Une différence importante entre ces deux étapes est que les chercheurs contrôlent le processus de sélection de l'échantillon, mais ils ne contrôlent pas laquelle des personnes échantillonnées deviennent des répondants. En mettant ces deux processus ensemble, la probabilité que quelqu'un sera un répondant est

\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]

Par souci de simplicité, je considérerai le cas où le plan d'échantillonnage original est un échantillonnage aléatoire simple sans remplacement. Si un chercheur sélectionne un échantillon de taille \(n_s\) qui donne \(n_r\) répondants, et si le chercheur ignore la non-réponse et utilise la moyenne des répondants, alors le biais d'estimation sera:

\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]

\(cor(\phi, y)\) est la corrélation de population entre la propension à répondre et le résultat (par exemple, le statut de chômage), \(S(y)\) est l'écart-type de la population status), \(S(\phi)\) est l'écart type de population de la propension à répondre, et \(\bar{\phi}\) est la propension à répondre moyenne de la population (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Eq. 3.7 montre que la non-réponse n'introduira pas de biais si l'une des conditions suivantes est remplie:

  • Il n'y a pas de variation du statut de chômage \((S(y) = 0)\) .
  • Il n'y a pas de variation dans les propensions à répondre \((S(\phi) = 0)\) .
  • Il n'y a pas de corrélation entre la propension à répondre et le statut de chômage \((cor(\phi, y) = 0)\) .

Malheureusement, aucune de ces conditions ne semble probable. Il semble invraisemblable qu'il n'y aura pas de variation dans la situation d'emploi ou qu'il n'y aura pas de variation dans les propensions à répondre. Ainsi, le terme clé en eq. 3.7 est la corrélation: \(cor(\phi, y)\) . Par exemple, si les chômeurs sont plus susceptibles de répondre, le taux d'emploi estimé sera biaisé à la hausse.

L'astuce pour faire des estimations en cas de non-réponse est d'utiliser des informations auxiliaires. Par exemple, une façon d'utiliser des informations auxiliaires est la post-stratification (rappelez l'équation 3.5 ci-dessus). Il s'avère que le biais de l'estimateur post-stratification est:

\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]

\(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , et \(\bar{\phi}^{(h)}\) sont définis comme ci-dessus mais limités aux personnes du groupe \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Ainsi, le biais global sera faible si le biais dans chaque groupe post-stratification est faible. Il y a deux façons que j'aime penser à faire en sorte que le biais soit petit dans chaque groupe après la stratification. D'abord, vous voulez essayer de former des groupes homogènes où il y a peu de variation dans la propension à répondre ( \(S(\phi)^{(h)} \approx 0\) ) et le résultat ( \(S(y)^{(h)} \approx 0\) ). Deuxièmement, vous voulez former des groupes où les gens que vous voyez sont comme ceux que vous ne voyez pas ( \(cor(\phi, y)^{(h)} \approx 0\) ). En comparant l'éq. 3,7 et eq. 3.8 permet de clarifier quand la post-stratification peut réduire le biais causé par la non-réponse.

En conclusion, cette section a fourni un modèle pour l'échantillonnage probabiliste avec non-réponse et montré le biais que la non-réponse peut introduire à la fois sans et avec les ajustements post-stratification. Bethlehem (1988) propose une dérivation du biais causé par la non-réponse pour des plans d'échantillonnage plus généraux. Pour en savoir plus sur l'utilisation de la post-stratification pour corriger la non-réponse, voir Smith (1991) et Gelman and Carlin (2002) . La post-stratification fait partie d'une famille plus générale de techniques appelées estimateurs d'étalonnage, voir Zhang (2000) pour un traitement de longueur d'article et Särndal and Lundström (2005) pour un traitement de longueur de livre. Pour en savoir plus sur d'autres méthodes de pondération pour tenir compte de la non-réponse, voir Kalton and Flores-Cervantes (2003) , Brick (2013) et Särndal and Lundström (2005) .

Échantillonnage non probabiliste

L'échantillonnage non probabiliste comprend une grande variété de modèles (Baker et al. 2013) . En se concentrant spécifiquement sur l'échantillon d'utilisateurs de Xbox par Wang et ses collègues (W. Wang et al. 2015) , vous pouvez considérer ce type d'échantillon comme un élément où la partie clé du plan d'échantillonnage n'est pas le \(\pi_i\) ( la probabilité d'inclusion impulsée par le chercheur) mais le \(\phi_i\) (les propensions à la réponse impulsées par le répondant). Naturellement, ce n'est pas idéal car les \(\phi_i\) sont inconnus. Mais, comme Wang et ses collègues l'ont montré, ce type d'échantillon opt-in - même à partir d'une base de sondage avec une énorme erreur de couverture - n'a pas besoin d'être catastrophique si le chercheur dispose de bonnes informations auxiliaires et d'un bon modèle statistique.

Bethlehem (2010) étend bon nombre des dérivations ci-dessus sur la post-stratification pour inclure à la fois les erreurs de non-réponse et de couverture. En plus de la stratification a posteriori, d'autres techniques pour travailler avec des échantillons non probabilistes et des échantillons probabilistes avec erreurs de couverture et non-réponse incluent l'appariement des échantillons (Ansolabehere and Rivers 2013; ??? ) , la pondération des scores de propension (Lee 2006; Schonlau et al. 2009) et l'étalonnage (Lee and Valliant 2009) . Un thème commun parmi ces techniques est l'utilisation de l'information auxiliaire.