Matematické poznámky

V tejto prílohe opíšem niektoré myšlienky z kapitoly v trochu viac matematickej forme. Cieľom je vám pomôcť získať spokojnosť s notáciou a matematickým rámcom, ktorý používajú prieskumníci, aby ste mohli prechádzať na niektoré ďalšie technické materiály napísané na tieto témy. Začnem tým, že predstavím pravdepodobnosť odberu vzoriek, presuniem sa na vzorkovanie pravdepodobnosti s odpoveďou a nakoniec na odber vzoriek bez pravdepodobnosti.

Pravdepodobnosť odberu vzoriek

Ako bežný príklad by sme mali zvážiť cieľ odhadnúť mieru nezamestnanosti v Spojených štátoch. Nech je cieľová populácia \(U = \{1, \ldots, k, \ldots, N\}\) a nechajte \(y_k\) hodnotu \(y_k\) premennej pre osobu \(k\) . V tomto príklade \(y_k\) je, či osoba \(k\) je nezamestnaná. Nakoniec, nech je súbor rámcov \(F = \{1, \ldots, k, \ldots, N\}\) , ktorý sa pre jednoduchosť predpokladá rovnaký ako cieľová populácia.

Základný návrh vzorkovania je jednoduchý náhodný výber vzorky bez náhrady. V tomto prípade je každá osoba rovnako pravdepodobne zahrnutá do vzorky \(s = \{1, \ldots, i, \ldots, n\}\) . Keď sa údaje zhromažďujú s týmto vzorkovaním, výskumníci môžu odhadnúť mieru nezamestnanosti obyvateľstva so strednou hodnotou vzorky:

\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]

kde \(\bar{y}\) je miera nezamestnanosti v populácii a \(\hat{\bar{y}}\) je odhadom miery nezamestnanosti ( \(\hat{ }\) použitý na označenie odhadu).

V skutočnosti výskumníci zriedkavo používajú jednoduchý náhodný výber bez náhrady. Z rôznych dôvodov (jeden z nich budem opísať v jednom okamihu) výskumníci často vytvárajú vzorky s nerovnakými pravdepodobnosťami začlenenia. Výskumníci môžu napríklad vyberať ľudí na Floride s vyššou pravdepodobnosťou začlenenia ako ľudia v Kalifornii. V tomto prípade nemusí byť priemer vzorky (ekvivalent 3.1) dobrý odhad. Namiesto toho, ak existujú nerovné pravdepodobnosti začlenenia, výskumníci používajú

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]

kde \(\hat{\bar{y}}\) je odhad miery nezamestnanosti a \(\pi_i\) je pravdepodobnosť zahrnutia osoby \(i\) . Podľa štandardnej praxe zavolám odhad v eq. 3.2 odhad Horvitz-Thompsona. Odhadník Horvitz-Thompsona je veľmi užitočný, pretože vedie k nestranným odhadom pre akýkoľvek návrh pravdepodobnosti odberu vzoriek (Horvitz and Thompson 1952) . Pretože odhad Horvitz-Thompsona príde tak často, je užitočné si všimnúť, že môže byť prepísaný ako

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]

kde \(w_i = 1 / \pi_i\) . Ako ekv. 3.3 odhaľuje, odhad Horvitz-Thompsona je vážený vzorkový priemer, kde váhy sú nepriamo spojené s pravdepodobnosťou výberu. Inými slovami, tým menej je pravdepodobné, že osoba bude zahrnutá do vzorky, tým väčšia váha by mala osoba dostať do odhadu.

Ako už bolo popísané vyššie, výskumníci často skúmajú ľudí s nerovnakými pravdepodobnosťami začlenenia. Jeden príklad návrhu, ktorý môže viesť k nerovnakým pravdepodobnostiam začlenenia, je stratifikovaný odber vzoriek , ktorý je dôležité pochopiť, pretože je úzko spätý s postupom odhadu, ktorý sa nazýva post-stratifikácia . Pri stratifikovanom výbere výskumník rozdelí cieľovú populáciu do \(H\) navzájom vylučujúcich a vyčerpávajúcich skupín. Tieto skupiny sa nazývajú vrstvy a sú označené ako \(U_1, \ldots, U_h, \ldots, U_H\) . V tomto príklade sú vrstvy stavy. Veľkosti skupín sú označené ako \(N_1, \ldots, N_h, \ldots, N_H\) . Výskumný pracovník by mohol chcieť použiť stratifikovaný výber vzoriek, aby sa ubezpečil, že má dostatok ľudí v každom štáte, aby urobil odhady nezamestnanosti na úrovni štátu.

Keď sa populácia rozdelí na vrstvy , predpokladajme, že výskumník vyberie jednoduchú náhodnú vzorku bez náhrady veľkosti \(n_h\) , nezávisle od každej vrstvy. Ďalej predpokladajme, že všetci vybraní vo vzorke sa stanú respondentom (zvládnem neodpovedanie v ďalšej časti). V tomto prípade je pravdepodobnosť zaradenia

\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]

Vzhľadom na to, že tieto pravdepodobnosti sa môžu líšiť od človeka k človeku, pri odhadovaní tohto vzorkovania musí výskumní pracovníci vážiť každého respondenta inverznou pravdepodobnosťou ich zaradenia pomocou odhadov Horvitz-Thompson (eq. 3.2).

Napriek tomu, že odhad Horvitz-Thompsona je nezaujatý, výskumníci môžu vytvoriť presnejšie odhady (tj menšie rozdiely) kombináciou vzorky s pomocnými informáciami . Niektorí ľudia považujú za prekvapujúce, že to platí aj vtedy, keď je dokonale vykonaný výber pravdepodobnosti. Tieto techniky využívajúce pomocné informácie sú obzvlášť dôležité, pretože, ako ukážem neskôr, pomocné informácie sú kritické pre vytváranie odhadov z pravdepodobnostných vzoriek bez odpovede a vzoriek s nepravdepodobnosťou.

Jednou bežnou technikou využívania pomocných informácií je post-stratifikácia . Predstavte si napríklad, že výskumník pozná počet mužov a žien v každom z 50 štátov; môžeme označiť tieto veľkosti skupiny ako \(N_1, N_2, \ldots, N_{100}\) . Ak chcete kombinovať tieto pomocné informácie so vzorkou, výskumník môže rozdeliť vzorku na skupiny \(H\) (v tomto prípade 100), urobiť odhad pre každú skupinu a potom vytvoriť vážený priemer týchto skupín znamená:

\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]

Priemerný odhad v ekv. 3.5 je pravdepodobne presnejšia, pretože používa známu informáciu o obyvateľstve - \(N_h\) - na opravu odhadov, ak sa má vybrať nevyvážená vzorka. Jedným zo spôsobov, ako zamyslieť sa nad tým, je, že post-stratifikácia je ako aproximácia stratifikácie po zhromaždení údajov.

Záverom je, že tento oddiel popisuje niekoľko návrhov vzorkovania: jednoduchý náhodný výber vzoriek bez náhrady, odber vzoriek s nerovnakou pravdepodobnosťou a stratifikovaný odber vzoriek. Opisuje aj dve hlavné myšlienky o odhade: odhad Horvitz-Thompson a post-stratifikácia. Pre formálnejšiu definíciu návrhov pravdepodobnosti výberu vzoriek pozri kapitolu 2 zo Särndal, Swensson, and Wretman (2003) . Na formálnejšie a úplnejšie spracovanie stratifikovaného odberu vzoriek pozri časť 3.7 Särndal, Swensson, and Wretman (2003) . Pre technický popis vlastností odhadov Horvitz-Thompsona pozri Horvitz and Thompson (1952) , Overton and Stehman (1995) alebo sekciu 2.8 z @ sarndal_model_2003. Na formálnejšie spracovanie post stratifikácie pozri Holt and Smith (1979) , Smith (1991) , Little (1993) alebo oddiel 7.6 Särndal, Swensson, and Wretman (2003) .

Pravdepodobnosť odberu vzoriek bez odozvy

Takmer všetky reálne prieskumy nereagujú; to znamená, že nie všetci vo vzorovej populácii odpovedajú na každú otázku. Existujú dva hlavné druhy nereagujúcich: položka nonresponse a unit nonresponse . V položke nonresponse niektorí respondenti neodpovedajú na niektoré položky (napr. Niekedy respondenti nechcú odpovedať na otázky, ktoré považujú za citlivé). V skupine nonresponse, niektorí ľudia, ktorí sú vybraní pre vzorovú populáciu, nereagujú na prieskum vôbec. Dva najčastejšie dôvody pre odozvu jednotky sú, že osoba, ktorá bola odobratá vzorka, nemôže byť kontaktovaná a kontaktovaná osoba je odobratá, ale odmieta sa zúčastniť. V tejto časti sa zameriam na odozvu jednotky; čitatelia, ktorí majú záujem o položku nonresponse, by mali vidieť Little a Rubin (2002) .

Výskumníci často premýšľajú o prieskumoch s jednotkovou neodpovedou ako o dvojstupňovom procese odberu vzoriek. V prvej fáze výskumník vyberie vzorku \(s\) tak, že každá osoba má pravdepodobnosť zaradenia \(\pi_i\) (kde \(0 < \pi_i \leq 1\) ). Potom v druhej fáze ľudia, ktorí sú vybraní do vzorky, odpovedajú pravdepodobnosťou \(\phi_i\) (kde \(0 < \phi_i \leq 1\) ). Výsledkom tohto dvojstupňového procesu je konečná sada respondentov \(r\) . Dôležitý rozdiel medzi týmito dvoma fázami spočíva v tom, že výskumníci kontrolujú proces výberu vzorky, ale nekontrolujú, ktoré zo vzoriek sa stali respondentmi. Keď spojíme tieto dva procesy, pravdepodobnosť, že niekto bude respondentom, je

\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]

Z dôvodu jednoduchosti budem brať do úvahy prípad, keď pôvodný vzorka je jednoduchý náhodný výber bez náhrady. Ak výskumník vyberie vzorku veľkosti \(n_s\) ktorá dáva respondentov \(n_r\) a ak výskumník ignoruje nereagovanie a použije priemer respondentov, potom bude predsudok odhadu:

\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]

kde \(cor(\phi, y)\) je populačná korelácia medzi sklonom reakcie a výsledkom (napr. stav nezamestnanosti), \(S(y)\) \(S(\phi)\) je obyvateľom štandardná odchýlka sklonu odozvy a \(\bar{\phi}\) je priemerná tendencia obyvateľstva (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Ekv. 3.7 ukazuje, že odpoveď nezavedie zaujatosť, ak je splnená ktorákoľvek z nasledujúcich podmienok:

  • Neexistuje žiadny rozdiel v stave nezamestnanosti \((S(y) = 0)\) .
  • Neexistuje žiadna odchýlka v sklone odozvy \((S(\phi) = 0)\) .
  • Neexistuje žiadna korelácia medzi sklonom reakcie a stavom nezamestnanosti \((cor(\phi, y) = 0)\) .

Bohužiaľ, žiadna z týchto podmienok sa nezdá pravdepodobná. Zdá sa byť nepravdepodobné, že v pracovnom postavení sa nezmení žiadna odchýlka alebo že v závislosti od reakcie sa nezmení. Kľúčový pojem v ekv. 3.7 je korelácia: \(cor(\phi, y)\) . Napríklad, ak sú ľudia, ktorí majú väčšiu šancu reagovať na nezamestnanosť, odhadovaná miera zamestnanosti bude smerom nahor.

Trik na vytvorenie odhadu, keď nie je odpoveď, je použitie pomocných informácií. Napríklad, jedným zo spôsobov, ako môžete použiť pomocné informácie, je post-stratifikácia (vyvolajte rovnicu 3.5 zhora). Ukazuje sa, že zaujatosť odhadovača po stratifikácii je:

\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]

kde \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , a \(\bar{\phi}^{(h)}\) sú definované vyššie, ale sú obmedzené na ľudí v skupine \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Celková tendencia bude teda malá, ak je predsudok v každej post-stratifikačnej skupine malý. Existujú dva spôsoby, ktoré by som rád premýšľal o tom, či je zaujatosť malá v každej stratifikačnej skupine. Najprv sa pokúšate vytvoriť homogénne skupiny, kde existuje malá odchýlka v sklone odozvy ( \(S(\phi)^{(h)} \approx 0\) ) a výsledok ( \(S(y)^{(h)} \approx 0\) ). Po druhé, chcete vytvoriť skupiny, v ktorých ľudia, ktorých vidíte, sú ako ľudia, ktorých nevidíte ( \(cor(\phi, y)^{(h)} \approx 0\) ). Porovnanie rovníc 3,7 a ekv. 3.8 pomáha objasniť, kedy post-stratifikácia môže znížiť zaujatosť spôsobenú neodpovedaním.

Záverom je, že táto časť poskytuje model pre vzorkovanie pravdepodobnosti s nereagujúcou odpoveďou a ukázala predpojatosť, ktorú môže nezáväzná odpoveď zavádzať bez a bez post-stratifikačných úprav. Bethlehem (1988) ponúka odvodenie zaujatosti spôsobenej nereagovaním pre všeobecnejšie vzorové vzory. Viac informácií o použití stratifikácie na úpravu pre odpoveď nereagujte, pozri Smith (1991) a Gelman and Carlin (2002) . Post-stratifikácia je súčasťou všeobecnejšej skupiny techník nazývaných kalibračné odhady, pozri Zhang (2000) pre liečbu dĺžky článku a Särndal and Lundström (2005) pre liečbu v Särndal and Lundström (2005) . Viac informácií o iných váhových metódach na úpravu pre Kalton and Flores-Cervantes (2003) pozri Kalton and Flores-Cervantes (2003) , Brick (2013) a Särndal and Lundström (2005) .

Odber vzoriek bez pravdepodobnosti

Nepravdepodobné odbery vzoriek zahŕňajú obrovskú škálu vzorov (Baker et al. 2013) . Zameriavajúc sa konkrétne na vzorku používateľov konzoly Xbox od Wanga a kolegov (W. Wang et al. 2015) , môžete uvažovať o takejto vzorke ako o tej, kde kľúčovou časťou vzorkovania nie je \(\pi_i\) ( pravdepodobnosť začlenenia výskumných pracovníkov), ale \(\phi_i\) ( \(\phi_i\) respondentov v závislosti od reakcie). Prirodzene, toto nie je ideálne, pretože \(\phi_i\) sú neznáme. Ale ako ukázali Wang a kolegovia, takýto druh opt-in vzorky - dokonca aj zo vzorkovacieho rámca s obrovskou chybou krytia - nemusí byť katastrofický, ak má výskumník dobré pomocné informácie a dobrý štatistický model na riešenie týchto problémov.

Bethlehem (2010) rozširuje mnohé z vyššie uvedených odvodení o post-stratifikácia tak, aby zahŕňala chyby bez odpovede a pokrytia. Okrem po-vrstvenie, iné techniky pre prácu s ne-pravdepodobnostných vzoriek-a pravdepodobnostných vzoriek s chybami pokrytia a neodpovede-obsahovať párovanie vzorky (Ansolabehere and Rivers 2013; ??? ) , sklon skóre váhových (Lee 2006; Schonlau et al. 2009) a kalibrácia (Lee and Valliant 2009) . Jednou spoločnou témou týchto techník je použitie pomocných informácií.