Notele matematice

În această anexă, voi descrie câteva dintre ideile din capitol într-o formă puțin mai matematică. Scopul aici este de a vă ajuta să vă familiarizați cu notația și cadrul matematic folosit de cercetătorii de sondaj, astfel încât să puteți trece la unele dintre materialele tehnice mai mult scrise pe aceste subiecte. Voi începe prin introducerea eșantionării de probabilitate, apoi treceți la eșantionarea probabilității cu nonresponse și, în cele din urmă, prelevarea probelor non-probabilitate.

Probele de eșantionare

Ca exemplu, să luăm în considerare obiectivul de estimare a ratei șomajului în Statele Unite. Fie \(U = \{1, \ldots, k, \ldots, N\}\) populația țintă și lăsați \(y_k\) valoarea variabilei rezultată pentru persoana \(k\) . În acest exemplu, \(y_k\) este dacă persoana \(k\) este șomeră. În final, să \(F = \{1, \ldots, k, \ldots, N\}\) să fie populația cadru, care de dragul simplității se presupune a fi la fel ca și populația țintă.

Un proiect de bază de eșantionare este o simplă eșantionare aleatorie fără înlocuire. În acest caz, fiecare persoană este la fel de probabil să fie inclusă în eșantionul \(s = \{1, \ldots, i, \ldots, n\}\) . Atunci când datele sunt colectate cu acest tip de eșantionare, cercetătorii pot estima rata șomajului populației cu media eșantionului:

\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]

unde \(\bar{y}\) este rata șomajului în populație și \(\hat{\bar{y}}\) este estimarea ratei șomajului ( \(\hat{ }\) folosit pentru a indica un estimator).

În realitate, cercetătorii rareori utilizează eșantionare aleatorie simplă fără înlocuire. Din diverse motive (dintre care una voi descrie într-un moment), cercetătorii creează deseori mostre cu probabilități inegale de includere. De exemplu, cercetătorii ar putea selecta oameni din Florida cu probabilități mai mari de incluziune decât cei din California. În acest caz, media eșantionului (ecuația 3.1) ar putea să nu fie un estimator bun. În schimb, atunci când există probabilități inegale de includere, cercetătorii folosesc

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]

unde \(\hat{\bar{y}}\) este estimarea ratei șomajului și \(\pi_i\) este probabilitatea de includere a persoanei \(i\) . În urma practicii standard, voi apela estimatorul în eq. 3.2 estimatorul Horvitz-Thompson. Estimatorul Horvitz-Thompson este extrem de util deoarece conduce la estimări imparțiale pentru orice tip de probă (Horvitz and Thompson 1952) . Deoarece estimatorul Horvitz-Thompson apare atât de frecvent, este util să observăm că poate fi re-scris ca

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]

unde \(w_i = 1 / \pi_i\) . Ca eq. 3.3 arată că estimatorul Horvitz-Thompson este o probă ponderată ponderată unde greutățile sunt invers proporționale cu probabilitatea de selecție. Cu alte cuvinte, cu cât este mai puțin probabil ca o persoană să fie inclusă în eșantion, cu atât mai multă greutate pe care o persoană ar trebui să o primească în estimare.

După cum am descris mai devreme, cercetătorii deseori eșantionează persoane cu probabilități inegale de includere. Un exemplu de proiectare care poate duce la probabilități inegale de includere este eșantionarea stratificată , care este important de înțeles, deoarece este strâns legată de procedura de estimare numită post-stratificare . În eșantionarea stratificată, un cercetător împarte populația țintă în \(H\) grupuri exclusive și exhaustive. Aceste grupuri sunt numite straturi și sunt indicate ca \(U_1, \ldots, U_h, \ldots, U_H\) . În acest exemplu, straturile sunt stări. Dimensiunile grupurilor sunt indicate ca \(N_1, \ldots, N_h, \ldots, N_H\) . Un cercetător ar putea dori să folosească eșantioane stratificate pentru a se asigura că are suficiente persoane în fiecare stat pentru a face estimări la nivel de stat privind șomajul.

Odată ce populația a fost împărțită în straturi , presupuneți că cercetătorul selectează o probă aleatorie simplă fără a înlocui dimensiunea \(n_h\) , independent de fiecare strat. Mai mult, presupuneți că toți cei selectați în eșantion devin un respondent (eu voi rezolva non-răspuns în secțiunea următoare). În acest caz, probabilitatea de includere este

\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]

Deoarece aceste probabilități pot varia de la o persoană la alta, atunci când facem o estimare din acest tip de eșantionare, cercetătorii trebuie să cântărească fiecare respondent prin inversul probabilității de includere a acestora folosind estimatorul Horvitz-Thompson (eq. 3.2).

Chiar dacă estimatorul Horvitz-Thompson este imparțial, cercetătorii pot produce estimări mai precise (de exemplu, variații mai mici) prin combinarea eșantionului cu informațiile auxiliare . Unii oameni consideră că este surprinzător faptul că acest lucru este adevărat chiar și atunci când există o probă de probă perfect executată. Aceste tehnici care utilizează informații auxiliare sunt deosebit de importante deoarece, după cum vom arăta mai târziu, informațiile auxiliare sunt esențiale pentru realizarea estimărilor din probele de probabilitate cu nonrespons și din probele de non-probabilitate.

O tehnică comună pentru utilizarea informațiilor auxiliare este post-stratificarea . Imaginați-vă, de exemplu, că un cercetător cunoaște numărul bărbaților și femeilor din fiecare dintre cele 50 de state; putem defini aceste dimensiuni de grup ca \(N_1, N_2, \ldots, N_{100}\) . Pentru a combina această informație auxiliară cu eșantionul, cercetătorul poate împărți eșantionul în grupuri \(H\) (în acest caz 100), face o estimare pentru fiecare grup și apoi creează o medie ponderată a acestor grupuri:

\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]

Aproximativ, estimatorul în eq. 3.5 este probabil să fie mai precis deoarece folosește informația despre populație cunoscută - \(N_h\) - pentru a corecta estimările dacă se selectează un eșantion neechilibrat. O modalitate de a gândi este că post-stratificarea este ca aproximarea stratificării după ce datele au fost deja colectate.

În concluzie, această secțiune a descris câteva modele de eșantionare: eșantionare aleatorie simplă fără înlocuiri, eșantionare cu probabilitate inegală și eșantionare stratificată. De asemenea, a descris două idei principale despre estimare: estimatorul Horvitz-Thompson și post-stratificare. Pentru o definiție mai formală a modelelor de eșantionare a probabilităților, a se vedea capitolul 2 din Särndal, Swensson, and Wretman (2003) . Pentru un tratament mai formal și mai complet al eșantionării stratificate, a se vedea secțiunea 3.7 din Särndal, Swensson, and Wretman (2003) . Pentru o descriere tehnică a proprietăților estimatorului Horvitz-Thompson, vezi Horvitz and Thompson (1952) , Overton and Stehman (1995) sau secțiunea 2.8 din @ sarndal_model_2003. Pentru un tratament mai formal al post-stratificării, vezi Holt and Smith (1979) , Smith (1991) , Little (1993) sau secțiunea 7.6 din Särndal, Swensson, and Wretman (2003) .

Probele de prelevare cu nonrespons

Aproape toate anchetele reale nu au răspuns; adică nu toată lumea din populația eșantionului răspunde la fiecare întrebare. Există două tipuri principale de nonresponse: item nonresponse și unit nonresponse . În articolul nonresponse, unii respondenți nu răspund unor elemente (de exemplu, uneori respondenții nu doresc să răspundă la întrebări pe care le consideră sensibile). În unitatea nonresponse, unii oameni care sunt selectați pentru populația eșantionului nu răspund la anchetă deloc. Cele două motive cele mai frecvente pentru unitatea nonresponse sunt faptul că persoana eșantionată nu poate fi contactată și eșantionul este contactat, dar refuză să participe. În această secțiune, mă voi concentra asupra nonresponsei unității; cititorii interesați de articolul nonresponse ar trebui să vadă Little și Rubin (2002) .

Cercetătorii se gândesc adesea la sondajele cu unitatea non-răspuns ca un proces de eșantionare în două etape. În prima etapă, cercetătorul selectează un eșantion \(s\) astfel încât fiecare persoană are o probabilitate de includere \(\pi_i\) (unde \(0 < \pi_i \leq 1\) ). Apoi, în a doua etapă, persoanele selectate în eșantion răspund cu probabilitate \(\phi_i\) (unde \(0 < \phi_i \leq 1\) ). Acest proces în două etape are ca rezultat setul final de respondenți \(r\) . O diferență importantă între aceste două etape constă în faptul că cercetătorii controlează procesul de selectare a eșantionului, dar nu controlează care din cei care au fost incluși în eșantion devin respondenți. Punând cele două procese împreună, probabilitatea ca cineva să fie un respondent este

\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]

Din motive de simplitate, voi lua în considerare cazul în care proba inițială a proiectului este o simplă eșantionare aleatorie fără înlocuire. Dacă un cercetător selectează un eșantion de mărime \(n_s\) care produce respondenți \(n_r\) și dacă cercetătorul ignoră non-răspunsul și folosește media respondenților, atunci prejudecățile estimate vor fi:

\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]

unde \(cor(\phi, y)\) este corelația populației dintre propensitatea răspunsului și rezultatul (de exemplu, statutul de șomaj), \(S(y)\) este abaterea standard a populației rezultatului statutul), \(S(\phi)\) este abaterea standard a populației a tendinței de răspuns, iar \(\bar{\phi}\) este propensitatea medie a răspunsului populației (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Eq. 3.7 arată că lipsa de răspuns nu va introduce prejudecăți dacă este îndeplinită oricare dintre următoarele condiții:

  • Nu există variații în statutul de șomaj \((S(y) = 0)\) .
  • Nu există o variație a înclinațiilor de răspuns \((S(\phi) = 0)\) .
  • Nu există o corelație între tendința de răspuns și starea de șomaj \((cor(\phi, y) = 0)\) .

Din păcate, niciuna dintre aceste condiții nu pare probabilă. Se pare improbabil că nu va exista nici o variație a statutului de angajare sau că nu vor exista variații în ceea ce privește propunerile de răspuns. Astfel, termenul-cheie în eq. 3.7 este corelația: \(cor(\phi, y)\) . De exemplu, în cazul în care persoanele sunt șomeri cu mai mare probabilitate de a răspunde, atunci rata estimată a ocupării forței de muncă va fi părtinitoare în sus.

Trucul pentru a face estimări atunci când nu există răspuns este utilizarea informațiilor auxiliare. De exemplu, o modalitate prin care puteți utiliza informații auxiliare este post-stratificarea (rechemarea ecuației 3.5 de mai sus). Se pare că prejudecata estimatorului post-stratificare este:

\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]

unde \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , și \(\bar{\phi}^{(h)}\) sunt definite mai sus, dar se limitează la persoanele din grupul \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Astfel, tendința globală va fi mică dacă părtinirea în fiecare grup post-stratificare este mică. Există două moduri în care îmi place să mă gândesc la a face părtinirea mică în fiecare grup post-stratificare. În primul rând, doriți să încercați să formați grupuri omogene în care există o mică variație în propensitatea răspunsului ( \(S(\phi)^{(h)} \approx 0\) ) și rezultatul ( \(S(y)^{(h)} \approx 0\) ). În al doilea rând, doriți să formați grupuri în care oamenii pe care îi vedeți sunt ca oamenii pe care nu îi vedeți ( \(cor(\phi, y)^{(h)} \approx 0\) ). Comparând eq. 3,7 și echiv. 3.8 ajută la clarificarea situației în care post-stratificarea poate reduce părtinitorul cauzat de absența răspunsului.

În concluzie, această secțiune a furnizat un model pentru eșantionarea probabilității cu non-răspuns și a arătat părtinirea pe care neresponsabilitatea o poate introduce atât fără, cât și cu ajustări post-stratificare. Bethlehem (1988) oferă o derivare a prejudecății cauzate de nonresponse pentru modelele de eșantionare mai generale. Pentru mai multe informații despre utilizarea post-stratificării pentru a se ajusta pentru absența răspunsului, a se vedea Smith (1991) și Gelman and Carlin (2002) . Post-stratificarea face parte dintr-o familie mai generală de tehnici numită estimatori de calibrare, a se vedea Zhang (2000) pentru un tratament de lungime a articolului și Särndal and Lundström (2005) pentru un tratament de lungă durată. Pentru mai multe alte metode de ponderare pentru ajustarea pentru absența răspunsului, a se vedea Kalton and Flores-Cervantes (2003) , Brick (2013) și Särndal and Lundström (2005) .

Eșantionare fără probabilitate

Eșantionarea non-probabilitate include o mare varietate de modele (Baker et al. 2013) . Concentrându-se în mod specific pe eșantionul utilizatorilor Xbox de către Wang și colegii (W. Wang et al. 2015) , vă puteți gândi la acel tip de eșantion ca pe o parte unde partea esențială a eșantionării nu este \(\pi_i\) probabilitatea de includere a cercetătorilor), dar \(\phi_i\) (înclinațiile de răspuns ale respondenților). Firește, acest lucru nu este ideal deoarece \(\phi_i\) sunt necunoscute. Dar, așa cum au arătat Wang și colegii, acest tip de eșantion opt-in - chiar și dintr-un cadru de eșantionare cu o eroare de acoperire enormă - nu trebuie să fie catastrofic dacă cercetătorul are bune informații auxiliare și un bun model statistic pentru a răspunde acestor probleme.

Bethlehem (2010) extinde multe dintre derivările de mai sus despre post-stratificare pentru a include atât erorile nonresponse cât și erorile de acoperire. În plus față de post-stratificare, alte tehnici de lucru cu neprobabilistice eșantioane și probabilitate mostre cu erori de acoperire și nonresponse includ potrivirea eșantionului (Ansolabehere and Rivers 2013; ??? ) , înclinație scor de ponderare (Lee 2006; Schonlau et al. 2009) și calibrare (Lee and Valliant 2009) . O temă comună între aceste tehnici este folosirea informațiilor auxiliare.