Notes matemàtiques

En aquest apèndix, vaig a descriure algunes de les idees del capítol d'una forma una mica més matemàtica. L'objectiu aquí és ajudar-vos a sentir-vos còmode amb la notació i el marc matemàtic que utilitzen els investigadors de l'enquesta per tal que pugui passar a un material més tècnic escrit sobre aquests temes. Començaré introduint el mostreig de probabilitat, després passaré al mostreig de probabilitat amb no resposta i, finalment, al mostreig no probabilístic.

Mostreig de probabilitat

Com a exemple d'execució, considerem l'objectiu d'estimar la taxa d'atur als Estats Units. Sigui \(U = \{1, \ldots, k, \ldots, N\}\) ser la població objectiu i deixar \(y_k\) pel valor de la variable de resultat per a la persona \(k\) . En aquest exemple \(y_k\) és si la persona \(k\) està desocupada. Finalment, deixeu que \(F = \{1, \ldots, k, \ldots, N\}\) siguin la població de marcs, que per simplicitat se suposa que és la mateixa que la població objectiu.

Un disseny de mostreig bàsic és el mostreig aleatori simple sense reemplaçament. En aquest cas, cada persona és igual de probable que s'inclogui a la mostra \(s = \{1, \ldots, i, \ldots, n\}\) . Quan es recullen les dades amb aquest disseny de mostreig, els investigadors poden estimar la taxa d'atur de la població amb la mitjana de la mostra:

\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]

on \(\bar{y}\) és la taxa d'atur a la població i \(\hat{\bar{y}}\) és l'estimació de la taxa d'atur (el \(\hat{ }\) és comunament S'utilitza per indicar un estimador).

En realitat, els investigadors poques vegades utilitzen el mostreig aleatori simple sense reemplaçar. Per diversos motius (un dels quals vaig a descriure en un moment), els investigadors solen crear mostres amb probabilitats desiguals d'inclusió. Per exemple, els investigadors podrien seleccionar persones a Florida amb una major probabilitat d'inclusió que les persones a Califòrnia. En aquest cas, la mitjana de la mostra (equació 3.1) podria no ser un bon estimador. Al contrari, quan hi ha probabilitats desiguals d'inclusió, els investigadors utilitzen

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]

on \(\hat{\bar{y}}\) és l'estimació de la taxa d'atur i \(\pi_i\) és la probabilitat d'inclusió de la persona \(i\) . Seguint la pràctica estàndard, anomenaré l'estimador en eq. 3.2 l'estimador Horvitz-Thompson. L'estimador Horvitz-Thompson és summament útil perquè condueix a estimacions imparcials per a qualsevol disseny de mostreig de probabilitat (Horvitz and Thompson 1952) . Com que l'estimador Horvitz-Thompson apareix amb tanta freqüència, és útil notar que es pot tornar a escriure

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]

on \(w_i = 1 / \pi_i\) . Com a eq. 3.3, l'estimador Horvitz-Thompson és una mitjana de mostra ponderada on els pesos estan inversament relacionats amb la probabilitat de selecció. En altres paraules, menys possibilitat que una persona s'inclogui a la mostra, més pes ha de tenir aquesta persona en l'estimació.

Com es va descriure abans, els investigadors sovint mostren persones amb probabilitats desiguals d'inclusió. Un exemple d'un disseny que pot conduir a probabilitats desiguals d'inclusió és el mostreig estratificat , que és important per entendre perquè està estretament relacionat amb el procediment d'estimació anomenat postestratificació . En el mostreig estratificat, un investigador divideix la població objectiu en \(H\) grups mútuament excloents i exhaustius. Aquests grups es diuen estratos i s'indiquen com \(U_1, \ldots, U_h, \ldots, U_H\) . En aquest exemple, els estrats són estats. Les mides dels grups s'indiquen com \(N_1, \ldots, N_h, \ldots, N_H\) . Un investigador potser vulgui utilitzar mostres estratificades per tal d'assegurar-se que té prou persones en cada estat per fer estimacions estatals d'atur.

Una vegada que la població s'ha dividit en estrats , suposem que l'investigador selecciona una mostra aleatòria simple sense substituir la mida \(n_h\) , independentment de cada estrat. A més, assumeix que tots els seleccionats a la mostra es converteixen en un enquestat (faré maneig de no resposta a la següent secció). En aquest cas, la probabilitat d'inclusió és

\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]

Atès que aquestes probabilitats poden variar de persona a persona, quan es fa un pressupost d'aquest disseny de mostreig, els investigadors necessiten ponderar cada un dels enquestats en funció de la seva probabilitat d'inclusió utilitzant l'estimador Horvitz-Thompson (equació 3.2).

Tot i que l'estimador de Horvitz-Thompson no té caràcter imparcial, els investigadors poden produir estimacions més precises (és a dir, menors variacions) combinant la mostra amb informació auxiliar . Alguns consideren sorprenent que això és cert encara que hi hagi un mostreig de probabilitat perfectament executat. Aquestes tècniques que utilitzen informació auxiliar són especialment importants perquè, com veuré més endavant, la informació auxiliar és fonamental per fer estimacions de mostres de probabilitat amb resposta no presencial i de mostres no probables.

Una tècnica comuna per a la utilització d'informació auxiliar és la postestratificació . Imagineu, per exemple, que un investigador coneix el nombre d'homes i dones en cadascun dels 50 estats; podem denotar aquestes mides de grup com \(N_1, N_2, \ldots, N_{100}\) . Per combinar aquesta informació auxiliar amb la mostra, l'investigador pot dividir la mostra en grups \(H\) (en aquest cas 100), fer una estimació per a cada grup i, a continuació, crear una mitjana ponderada d'aquest grup significa:

\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]

Aproximadament, l'estimador en eq. 3.5 és probable que sigui més precís perquè utilitza la informació de la població coneguda: la \(N_h\) a les estimacions correctes si es passa a seleccionar una mostra no desequilibrada. Una manera de pensar-hi és que la postestratificació és una aproximació de l'estratificació després de recollir les dades.

En conclusió, aquesta secció ha descrit alguns dissenys de mostreig: mostreig aleatori simple sense reemplaçament, mostreig amb probabilitat desigual i mostreig estratificat. També ha descrit dues idees principals sobre l'estimació: l'estimador Horvitz-Thompson i la postestratificació. Per obtenir una definició més formal dels dissenys de mostreig de probabilitat, vegeu el capítol 2 de Särndal, Swensson, and Wretman (2003) . Per obtenir un tractament més formal i complet del mostreig estratificat, vegeu la secció 3.7 de Särndal, Swensson, and Wretman (2003) . Per obtenir una descripció tècnica de les propietats de l'estimador Horvitz-Thompson, vegeu Horvitz and Thompson (1952) , Overton and Stehman (1995) , o la secció 2.8 de @sarndal_model_2003. Per a un tractament més formal de la postestratificació, vegeu Holt and Smith (1979) , Smith (1991) , Little (1993) , o la secció 7.6 de Särndal, Swensson, and Wretman (2003) .

Mostreig de probabilitat amb no resposta

Gairebé totes les enquestes reals no tenen resposta; és a dir, no tothom en la població de la mostra respon a totes les preguntes. Hi ha dos tipus principals de no resposta: l' element no respon i la unitat no respon . En el cas de no resposta, alguns dels enquestats no responen a alguns articles (per exemple, de vegades els enquestats no volen respondre preguntes que consideren sensibles). En resposta a la unitat, algunes de les persones seleccionades per a la població de mostres no responen a l'enquesta. Les dues raons més comunes per a la falta de resposta de la unitat són que no es pot contactar amb la persona que fa la mostra i es posa en contacte amb la persona de la mostra, però es nega a participar. En aquesta secció, em centraré en la no resposta de la unitat; els lectors interessats en l'article sense resposta haurien de veure Little and Rubin (2002) .

Els investigadors sovint pensen en les enquestes amb la no resposta de la unitat com un procés de mostreig en dues etapes. En la primera etapa, l'investigador selecciona una mostra \(s\) tal que cada persona té una probabilitat d'inclusió \(\pi_i\) (on \(0 < \pi_i \leq 1\) ). A continuació, a la segona etapa, les persones seleccionades a la mostra responen amb probabilitat \(\phi_i\) (on \(0 < \phi_i \leq 1\) ). Aquest procés de dues etapes dóna lloc al conjunt final dels enquestats \(r\) . Una diferència important entre aquestes dues etapes és que els investigadors controlen el procés de selecció de la mostra, però no controlen quina d'aquestes persones enquestes es converteixen en enquestats. Posant aquests dos processos junts, la probabilitat que algú sigui un enquestat és

\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]

En nom de la simplicitat, vaig a considerar el cas en què el disseny de la mostra original és un simple mostreig aleatori sense reemplaçament. Si un investigador selecciona una mostra de mida \(n_s\) que produeix \(n_r\) enquestats, i si l'investigador ignora la no resposta i utilitza la mitjana dels enquestats, llavors el biaix de l'estimació serà:

\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]

on \(cor(\phi, y)\) és la correlació de la població entre la propensió de resposta i el resultat (per exemple, l'estat d'atur), \(S(y)\) és la desviació estàndard de la població del resultat (per exemple, l'atur estat), \(S(\phi)\) és la desviació estàndard de la població de la propensió de resposta, i \(\bar{\phi}\) és la propensió de resposta mitjana de la població (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Eq. 3.7 mostra que la no resposta no introduirà el biaix si es compleix alguna de les següents condicions:

  • No hi ha variació en l'estat d'atur \((S(y) = 0)\) .
  • No hi ha variació en la propensió de resposta \((S(\phi) = 0)\) .
  • No hi ha correlació entre la propensió de resposta i l'estat d'atur [ \((cor(\phi, y) = 0)\) .

Malauradament, cap d'aquestes condicions sembla probable. Sembla inverosíble que no hi haurà variació en l'estat de feina o que no hi haurà variació en les propensions de resposta. Per tant, el terme clau en eq. 3.7 és la correlació: \(cor(\phi, y)\) . Per exemple, si les persones són les que tenen més possibilitats de respondre, la taxa estimada d'ocupació estarà tendida a l'alça.

El truc per fer estimacions quan hi ha resposta no és utilitzar informació auxiliar. Per exemple, una forma en què es pot utilitzar informació auxiliar és postestratificació (recordeu l'equació 3.5 de dalt). Resulta que el biaix de l'estimador postestratificació és:

\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]

on \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , i \(\bar{\phi}^{(h)}\) es defineixen com a anteriors, però restringides a persones del grup \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . D'aquesta manera, el biaix general serà petit si el biaix de cada grup postestratificació és petit. Hi ha dues maneres que m'agraden pensar en fer que el biaix sigui petit en cada grup de postestratificació. Primer, vol tractar de formar grups homogenis on hi ha poca variació en la propensió de resposta ( \(S(\phi)^{(h)} \approx 0\) ) i el resultat ( \(S(y)^{(h)} \approx 0\) ). En segon lloc, voleu formar grups on la gent que veu és com la gent que no veu ( \(cor(\phi, y)^{(h)} \approx 0\) ). Comparant eq. 3.7 i eq. 3.8 ajuda a aclarir quan la postestratificació pot reduir el sesgut causat per la no resposta.

En conclusió, aquesta secció ha proporcionat un model de mostreig de probabilitat sense resposta i mostra el biaix que la no resposta pot introduir tant sense com amb ajustaments postestratificació. Bethlehem (1988) ofereix una derivació del biaix causada per la no resposta a dissenys de mostreig més generals. Per obtenir més informació sobre com utilitzar la postestratificació per ajustar-se a la no resposta, vegeu Smith (1991) i Gelman and Carlin (2002) . La postestratificació forma part d'una família més general de tècniques anomenades estimadors de calibratge, vegeu Zhang (2000) per un tractament de longitud d'articles i Särndal and Lundström (2005) per un tractament de longitud de llibre. Per obtenir més informació sobre altres mètodes de ponderació d'ajust per a no respondre, vegeu Kalton and Flores-Cervantes (2003) , Brick (2013) i Särndal and Lundström (2005) .

Mostreig no probabilístic

El mostreig no probabilístic inclou una gran varietat de dissenys (Baker et al. 2013) . Centrant-se específicament en la mostra d'usuaris de Xbox per part de Wang i col·legues (W. Wang et al. 2015) , podeu pensar en aquest tipus de mostra com aquell on la part clau del disseny de mostreig no és \(\pi_i\) ( la probabilitat d'inclusió impulsada per l'investigador), però la \(\phi_i\) (la propensió de resposta impulsada per l' \(\phi_i\) ). Naturalment, això no és ideal perquè els \(\phi_i\) són desconeguts. Però, com van demostrar Wang i els seus col·legues, aquest tipus de mostra d'optar, fins i tot d'un marc de mostreig amb un enorme error de cobertura, no ha de ser catastròfic si l'investigador té una bona informació auxiliar i un bon model estadístic per explicar aquests problemes.

Bethlehem (2010) amplia moltes de les derivacions anteriors sobre postestratificació per incloure errors de resposta i no resposta. A més de la postestratificació, altres tècniques per treballar amb mostres no probables -i mostres de probabilitat amb errors de cobertura i no resposta- inclouen coincidència de mostres (Ansolabehere and Rivers 2013; ??? ) , ponderació de la puntuació de propensió (Lee 2006; Schonlau et al. 2009) , i calibratge (Lee and Valliant 2009) . Un tema comú entre aquestes tècniques és l'ús de la informació auxiliar.