Matematiniai užrašai

Tai vertimo buvo sukurtas kompiuterio. ×

Matematiniai užrašai

Šiame priede apžvelgsiu kelias šio skyriaus idėjas šiek tiek daugiau matematinės formos. Čia tikslas yra padėti jums susipažinti su apibūdinimo ir matematinės sistemos, kurią naudoja apklausos tyrėjai, kad galėtumėte pereiti prie šiek tiek daugiau techninės medžiagos, parašytos šiais klausimais. Pradėsiu įvedant tikimybinę atranką, tada pereik prie tikimybinės atrankos su neatsakymais ir, galiausiai, netikrumo mėginių ėmimu.

Tikimybių atranka

Kaip veikiantis pavyzdys, pažvelkime į tikslą įvertinti nedarbo lygį Jungtinėse Amerikos Valstijose. Leiskite $U = \{1, \ldots, k, \ldots, N\}$ būti tiksline populiacija ir leiskime $y_k$ pagal rezultato kintamojo reikšmę asmeniui $k$ . Šiame pavyzdyje $y_k$ yra tas, ar asmuo $k$ yra bedarbis. Galiausiai leiskime $F = \{1, \ldots, k, \ldots, N\}$ būti rėmo populiacija, kuri, siekiant supaprastinimo, laikoma tokia pati kaip tikslinė populiacija.

Pagrindinis atrankos planas yra paprastas atsitiktinis mėginių ėmimas be pakeitimo. Tokiu atveju kiekvienas žmogus lygiai taip pat gali būti įtrauktas į pavyzdį $s = \{1, \ldots, i, \ldots, n\}$ . Kai duomenys renkami taikant šį atrankos planą, tyrėjai gali apskaičiuoti gyventojų nedarbo lygį pagal atrankos metodą:

$\hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)$

kur $\bar{y}$ yra nedarbo lygis gyventojų ir $\hat{\bar{y}}$ yra nedarbo lygio apskaičiavimas ( $\hat{ }$ paprastai yra naudojamas parodymui įvertinti).

Iš tiesų mokslininkai retai naudoja paprastą atsitiktinę atranką be pakeitimo. Dėl įvairių priežasčių (iš kurių vieną apibūdinsiu vieną momentą), mokslininkai dažnai kuria pavyzdžius su nelygia integracijos tikimybe. Pvz., Mokslininkai gali pasirinkti žmones Floridoje, kurių įtraukimo tikimybė yra didesnė nei Kalifornijos gyventojai. Šiuo atveju mėginio vidurkis (3.1 ekvivalentas) gali būti ne geras įvertiniklis. Vietoj to, kai egzistuoja nevienodos įtraukties tikimybės, mokslininkai naudoja

$\hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)$

kur $\hat{\bar{y}}$ yra nedarbo lygio įvertinimas ir $\pi_i$ yra asmens $i$ tikimybė įtraukti. Vadovaudamasi įprasta praktika, paskaičiuosiu įvertinimą ekvivalentu. 3.2 Horvitz-Thompsono įvertinimo priemonė. Horvitz-Thompsono įvertiniklis yra labai naudingas, nes jis lemia objektyvius bet kokios tikimybinės atrankos plano įvertinimus (Horvitz and Thompson 1952) . Kadangi Horvitz-Thompsono įvertiniklis pasirodo taip dažnai, patariama pastebėti, kad jį galima perrašyti kaip

$\hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)$

kur $w_i = 1 / \pi_i$ . Kaip ekv. 3.3 rodo, kad Horvitz-Thompsono įvertiniklis yra svertinis imties metodas, kai svarsčiai yra atvirkščiai susiję su atrankos tikimybe. Kitaip tariant, kuo mažiau tikėtina, kad asmuo bus įtrauktas į atranką, tuo didesnis svoris, kurį tas žmogus turėtų įnešti į sąmatą.

Kaip aprašyta anksčiau, mokslininkai dažnai ima žmones, kurių nelygybė yra įtraukties tikimybė. Vienas dizaino pavyzdys, dėl kurio gali atsirasti nelygios įtraukties tikimybės, yra stratifikuotas mėginių ėmimas , kuris yra svarbu suprasti, nes jis glaudžiai susijęs su įvertinimo procedūra, pavadinta po stratifikacijos . Atliekant stratifikuotą atranką, tyrinėtojas skirsto tikslinę populiaciją į $H$ tarpusavyje išskiriančias ir išsamias grupes. Šios grupės vadinamos sluoksniais ir nurodomos kaip $U_1, \ldots, U_h, \ldots, U_H$ . Šiame pavyzdyje sluoksniai yra valstybės. Grupių dydžiai pažymėti kaip $N_1, \ldots, N_h, \ldots, N_H$ . Tyrėjas gali norėti naudoti stratifikuotą atranką, kad įsitikintų, jog kiekvienoje valstybėje yra pakankamai žmonių, kad galėtų parengti valstybės lygio bedarbystės įverčius.

Kai gyventojai suskaidomi į sluoksnius , daroma prielaida, kad tyrėjas pasirenka paprastą atsitiktinį atranką be dydžio $n_h$ , nepriklausomai nuo kiekvieno sluoksnio. Be to, daroma prielaida, kad kiekvienas atrinktas mėginys tampa respondentu (kitame skyriuje aptarsiu atsakymo nereikalingumą). Šiuo atveju įtraukimo tikimybė yra

$\pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)$

Kadangi šios tikimybės gali skirtis priklausomai nuo asmens, apskaičiuojant šį atrankos planą, mokslininkams reikia vertinti kiekvieną respondentą pagal jų įtraukimo tikimybę naudojant Horvitz-Thompsono vertinimo metodiką (3.2 ekvivalentas).

Nors Horvitz-Thompsono įvertinimo priemonė yra nešališka, tyrėjai gali pateikti tikslesnius (ty mažesnius skirtumų) įvertinimus, derindami mėginį su papildoma informacija . Kai kurie žmonės stebisi tai, kad tai yra tiesa net tada, kai yra visiškai įvykdyta tikimybinė atranka. Šie metodai, naudojantys pagalbinę informaciją, yra ypač svarbūs, nes, kaip vėliau parodysiu, papildoma informacija yra labai svarbi vertinant tikimybinius pavyzdžius su neatsakymo ir netikrumo pavyzdžiais.

Vienas iš paprastų pagalbinės informacijos panaudojimo būdų yra po stratifikacijos . Pvz., Įsivaizduokite, kad mokslininkas žino vyrų ir moterų skaičių kiekvienoje iš 50 valstybių; mes galime nurodyti šiuos grupės dydžius kaip $N_1, N_2, \ldots, N_{100}$ . Norėdami sujungti šią pagalbinę informaciją su atranka, tyrėjas gali padalinti bandinį į $H$ grupes (šiuo atveju 100), apskaičiuoti kiekvienos grupės skaičių ir tada sukurti šių grupių svertinį vidurkį:

$\hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)$

Apytiksliai, vertinimas ekv. 3.5, greičiausiai bus tikslesnis, nes jis naudoja žinomą gyventojų informaciją - $N_h$ - teisingus įverčius, jei pasirenkamas nesubalansuotas mėginys. Vienas iš būdų pagalvoti apie tai, kad po stratifikacijos yra panašus į stratifikaciją, kai duomenys jau yra surinkti.

Apibendrinant, šiame skyriuje aprašyta keletas atrankos modelių: paprasta atsitiktinė atranka be pakaitų, atranka su nelygia tikimybe ir stratifikuota atranka. Jis taip pat apibūdino dvi pagrindines vertinimo idėjas: Horvitz-Thompsono įvertinimo ir po stratifikacijos. Särndal, Swensson, and Wretman (2003) tikimybinių atrankos modelių apibrėžimą galima rasti Särndal, Swensson, and Wretman (2003) 2 skyriuje. Formaliau ir išsamiau apdorojus stratifikuotą mėginių ėmimo Särndal, Swensson, and Wretman (2003) žr. Särndal, Swensson, and Wretman (2003) 3.7 skyrių Särndal, Swensson, and Wretman (2003) . Techninių charakteristikų charakteristikų Horvitz-Thompsono įvertinimo aprašymas pateikiamas Horvitz and Thompson (1952) , Overton and Stehman (1995) arba @ sarndal_model_2003 skirsnio 2.8. Formaliau po stratifikacijos gydymo žr. Holt and Smith (1979) , Smith (1991) , Little (1993) arba Särndal, Swensson, and Wretman (2003) 7,6 skyrius.

Tikimybių atranka be atsakymo

Beveik visi realūs tyrimai neturi atsakymo; tai yra ne kiekvienas imties gyventojas atsako į kiekvieną klausimą. Yra du pagrindiniai neatsakymo tipai: neatsakyta į elementą ir neatsakyta į vienetą . Atsakant į klausimus, kai kurie respondentai neatsako į kai kuriuos dalykus (pvz., Kartais respondentai nenori atsakyti į klausimus, kuriuos jie laiko jautriais). Neatsakytų vienetų atveju kai kurie žmonės, atrinkti mėginių populiacijai, apskritai neatsako į apklausą. Dvi dažniausiai pasitaikančios vieneto neatsakymo priežastys yra tai, kad negalima susisiekti su atrinktu asmeniu, o su imtuve susisiekti, bet atsisako dalyvauti. Šiame skyriuje aš sutelksiu dėmesį į vieneto neatsakymą; skaitytojai, suinteresuoti elemento neatsakymu turėtų pamatyti Little ir Rubin (2002) .

Tyrėjai dažnai galvojo apie tyrimus, kuriuose vienetas nebuvo atsakas, kaip dviejų etapų atrankos procesą. Pirmame etape tyrėjas atrenka pavyzdį $s$ tokiu būdu, kad kiekvienas asmuo turi tikimybę įtraukti $\pi_i$ (kur $0 < \pi_i \leq 1$ ). Tada antroje pakopoje atrinkti žmonės atsako tikimybe $\phi_i$ (kur $0 < \phi_i \leq 1$ ). Šis dviejų etapų procesas lemia galutinį respondentų rinkinį $r$ . Svarbus skirtumas tarp šių dviejų etapų yra tai, kad mokslininkai kontroliuoja imties atrankos procesą, tačiau jie nekontroliuoja, kuris iš tų atrinktų žmonių tampa respondentais. Sujungdami šiuos du procesus, yra tikimybė, kad kažkas bus atsakovas

$pr(i \in r) = \pi_i \phi_i \qquad(3.6)$

Paprastumo dėlei apsvarstysiu atvejį, kai pirminio pavyzdžio dizainas yra paprastas atsitiktinis mėginių ėmimas be pakeitimo. Jei mokslininkas pasirenka dydžio $n_s$ pavyzdį, kuris duoda $n_r$ respondentų, o jei tyrėjas ignoruoja atsakymą neatsakius ir naudoja respondentų vidurkį, apskaičiavimo šališkumas bus:

$\mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)$

kur $cor(\phi, y)$ yra gyventojų koreliacija tarp atsako polinkio ir rezultato (pvz., nedarbo statusas), $S(y)$ yra gyventojų standartinis nukrypimas nuo rezultato (pvz., nedarbas statusas), $S(\phi)$ yra populiacijos standartinis nuokrypis nuo reakcijos polinkio, ir $\bar{\phi}$ yra vidutinė populiacijos atsako polinkis (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Eq. 3.7 parodyta, kad atsakymas neatspindi įtakos, jei tenkinama kuri nors iš šių sąlygų:

Nedarbo statuso skirtumai nėra $(S(y) = 0)$ .
Atsakymo polinkiuose $(S(\phi) = 0)$ nėra skirtumų.
Nėra tarp koreliacijos tarp atsako polinkio ir nedarbo statuso $(cor(\phi, y) = 0)$ .

Deja, nė viena iš šių sąlygų nėra tikėtina. Atrodytų neįtikėtina, kad nebus nevienodo užimtumo statuso ar nebus skirtumų tarpusavyje. Taigi, pagrindinis terminas eq. 3.7 yra koreliacija: $cor(\phi, y)$ . Pavyzdžiui, jei žmonės yra tokie, kuriems bedarbiams yra didesnė tikimybė reaguoti, numatomas užimtumo lygis bus nukreiptas į viršų.

Apgaulė, kai atliekami įvertinimai, kai nėra atsakymo, yra naudoti pagalbinę informaciją. Pavyzdžiui, vienas iš būdų, kuriuo galite naudoti pagalbinę informaciją, yra po stratifikacijos (atšaukti lygtį 3.5 aukščiau). Pasirodo, kad po stratifikacijos įvertinimo šališkumas yra toks:

$bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)$

kur $cor(\phi, y)^{(h)}$ , $S(y)^{(h)}$ , $S(\phi)^{(h)}$ , ir $\bar{\phi}^{(h)}$ yra apibrėžti kaip nurodyta aukščiau, bet tik žmonėms grupėje $h$ (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Taigi, bendras poslinkis bus mažas, jei kiekvienoje po stratifikacijos grupėje esantis šališkumas yra nedidelis. Yra du būdai, kuriais man patinka galvoti apie tai, kad kiekvienoje po stratifikacijos grupėje mažas šališkas. Pirmiausia norėtumėte pabandyti formuoti vienalytis grupes, kuriose yra mažai skirtumų atsako polinkyje ( $S(\phi)^{(h)} \approx 0$ ) ir rezultatas ( $S(y)^{(h)} \approx 0$ ). Antra, norite kurti grupes, kuriose žmonės, kuriuos matote, yra tarsi žmonės, kurių nematote ( $cor(\phi, y)^{(h)} \approx 0$ ). Lyginant ekv. 3.7 ir eq. 3.8 padeda išsiaiškinti, kada po stratifikacijos gali sumažėti neigiamas poveikis dėl neatsakymo.

Apibendrinant, šiame skyriuje pateikiamas tikimybinių ėminių ėmimo modelis su neatsakymu ir rodomas šališkas, kad neatsakymas gali būti pateiktas tiek be ir po stratifikacijos koregavimų. Bethlehem (1988) siūlo šališkumo, atsirandančio dėl neatsakymo, išvedimą, siekiant gauti daugiau bendrų atrankos schemų. Daugiau apie tai, kaip pritaikyti po stratifikacijos, norint prisitaikyti prie nereagavimo, žr. Smith (1991) ir Gelman and Carlin (2002) . Post-stratifikacija yra platesnio pobūdžio metodų, vadinamų kalibravimo įvertinimų, dalis, žr. Zhang (2000) skirtą apdoroti ilgį ir Särndal and Lundström (2005) . Daugiau informacijos apie kitus svorio metodus koregavimui dėl neatsakymo žr. Kalton and Flores-Cervantes (2003) , Brick (2013) ir Särndal and Lundström (2005) .

Neitikintis atranka

Netikrobiškumo atranka apima didelę dizaino įvairovę (Baker et al. 2013) . Ypač sutelkdami dėmesį į "Xbox" naudotojų pavyzdžius, kuriuos paragino Wang ir jo kolegos (W. Wang et al. 2015) , $\pi_i$ pavyzdį galėtumėte pamanyti kaip vieną iš pagrindinių pavyzdžių atrankos modelio, kuris nėra $\pi_i$ ( į tyrimą orientuota įtraukimo tikimybė), bet $\phi_i$ (respondentų orientuotas atsako polinkis). Žinoma, tai nėra idealu, nes $\phi_i$ yra nežinoma. Tačiau, kaip parodė Wang ir jo kolegos, tokio tipo pasirenkamojo imties netgi iš imties rėmo su didžiuliu aprėpties klaida neturėtų būti katastrofiški, jei mokslininkas turi gerą pagalbinę informaciją ir gerą statistinį modelį, kuris padėtų išspręsti šias problemas.

Bethlehem (2010) Išplečia daugelį išvardytų išvestinių šaltinių apie po stratifikacijos įtraukiant neatsakymo ir aprėpties klaidas. Be to, po stratifikacijos, kiti metodai, skirti dirbti su ne tikimybinės imtys-ir tikimybių mėginių su aprėpties klaidas ir Neatsakymai-apimti mėginių atitikimas (Ansolabehere and Rivers 2013; ??? ) , polinkis rezultatas svorio (Lee 2006; Schonlau et al. 2009) ir kalibravimas (Lee and Valliant 2009) . Viena iš šių metodų yra tai, kad naudojama papildoma informacija.