матэматычныя нататкі

Гэты пераклад быў створаны з дапамогай кампутара. ×

матэматычныя нататкі

Гэты дадатак я апішу некаторыя ідэі з кіраўніка ў крыху больш матэматычнай форме. Мэта тут, каб дапамагчы вам асвоіцца з пазначэннямі і матэматычнай структурай, якая выкарыстоўваецца даследчыкамі абследавання, так што вы можаце перайсці да некаторых з больш тэхнічнага матэрыялу, напісанага па гэтых тэмах. Пачну шляхам увядзення імавернаснай выбаркі, а затым перайсці да імавернаснай выбарцы з неатрыманне, і, нарэшце, адбор проб без верагоднасці.

імавернасны выбарка

У бягучым прыкладзе, давайце разгледзім задачу ацэнкі ўзроўню беспрацоўя ў Злучаных Штатах. Хай \(U = \{1, \ldots, k, \ldots, N\}\) быць мэтавай група насельніцтва і хай \(y_k\) значэннем пераменнага зыходу для чалавека \(k\) . У гэтым прыкладзе \(y_k\) ці з'яўляецца чалавек \(k\) з'яўляецца беспрацоўным. Хай , нарэшце, \(F = \{1, \ldots, k, \ldots, N\}\) будзе насельніцтва кадра, які для прастаты мяркуецца, што такі ж , як мэтавай групы насельніцтва.

Базавая канструкцыя выбаркі простая выпадковая выбарка без замены. У гэтым выпадку, кожны чалавек у роўнай ступені верагодна, будуць уключаны ва ўзоры \(s = \{1, \ldots, i, \ldots, n\}\) . Калі дадзеныя сабраны з гэтай схемай выбаркі, а даследчыкі могуць ацаніць узровень беспрацоўя насельніцтва з выбарачным сярэднім:

\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]

дзе \(\bar{y}\) з'яўляецца ўзровень беспрацоўя сярод насельніцтва і \(\hat{\bar{y}}\) з'яўляецца ацэнка ўзроўню беспрацоўя ( \(\hat{ }\) звычайна выкарыстоўваецца для ўказанні ацэншчыка).

На самай справе, даследчыкі рэдка выкарыстоўваюць простую выпадковую выбарку без замены. Па розных прычынах (адзін з якіх я апішу у хвіліну), даследчыкі часта ствараюць ўзоры з няроўнай верагоднасцю ўключэння. Напрыклад, даследчыкі маглі б выбраць чалавек у Фларыдзе з больш высокай верагоднасцю ўключэння, чым людзі ў Каліфорніі. У гэтым выпадку выбарачнае сярэдняе (экв. 3,1) не можа быць добрай ацэнкай. Замест гэтага, калі існуюць няроўныя верагоднасці ўключэння, даследчыкі выкарыстоўваюць

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]

дзе \(\hat{\bar{y}}\) з'яўляецца ацэнка ўзроўню беспрацоўя і \(\pi_i\) з'яўляецца чалавек \(i\) «s верагоднасць ўключэння. Вынікаючы стандартнай практыцы, я пазваню ацэншчык ў ек. 3,2 ацэншчык Хорвица-Томпсан. Ацэнкі Хорвиц-Томпсан з'яўляецца надзвычай карыснай , паколькі яно прыводзіць да несмещенным ацэнак для любога дызайну выбаркі верагоднасці (Horvitz and Thompson 1952) , (Horvitz and Thompson 1952) . Паколькі адзнака Хорвица-Томпсан прыходзіць так часта, карысна заўважыць, што яна можа быць перапісана ў выглядзе

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]

дзе \(w_i = 1 / \pi_i\) . У э. 3.3 паказвае, блок ацэнкі Хорвиц-Томпсана ўяўляе сабой узважанае выбарачнае сярэдняе дзе вагі назад прапарцыйныя верагоднасці выбару. Іншымі словамі, менш верагодна, чалавек павінен быць уключаны ў выбарку, тым больш вагі, што чалавек павінен атрымаць у ацэнцы.

Як было апісана раней, даследчыкі часта выбаркі людзей з няроўнай верагоднасцю ўключэння. Адным з прыкладаў канструкцыі , якія могуць прывесці да няроўных верагоднасцю ўключэння распластоўваецца выбаркі, што важна зразумець , таму што яна цесна звязана з працэдурай ацэнкі званай постстратификацией. У стратыфікаваная выбарцы, даследчык дзеліць мэтавую групу насельніцтва ў \(H\) ўзаемавыключальныя і вычарпальныя групы. Гэтыя групы называюцца пласты і пазначаныя як \(U_1, \ldots, U_h, \ldots, U_H\) . У гэтым прыкладзе, страты стан. Памеры груп пазначаныя як \(N_1, \ldots, N_h, \ldots, N_H\) . Даследчык можа хацець выкарыстоўваць стратыфікаваць выбарку для таго, каб пераканацца, што ў яе ёсць дастатковую колькасць людзей у кожным штаце, каб зрабіць ацэнкі стану ўзроўню беспрацоўя.

Пасля таго , як насельніцтва было падзяліць на пласты, прадставіць , што даследчык выбірае простую выпадковую выбарку без замены памеру \(n_h\) , незалежна адзін ад аднаго слаёў. Далей, выкажам здагадку, што кожны ў выбарку становіцца адказчыкам (я разбяруся неатрымання адказу ў наступнай частцы). У гэтым выпадку верагоднасць ўключэння з'яўляецца

\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]

Паколькі гэтыя верагоднасці могуць вар'іравацца ў залежнасці ад чалавека да чалавека, пры выкананні ацэнкі ад гэтай схемы выбаркі, даследчыкі павінны вагой кожнага рэспандэнта інверсіі іх верагоднасці ўключэння, выкарыстоўваючы ацэначныя Хорвицы-Томпсан (э. 3,2).

Нават нягледзячы на тое адзнака Хорвиц-Томпсан з'яўляецца несмещенной, даследчыкі могуць вырабляць больш дакладныя (г.зн. ніжэй дысперсію) ацэнкі шляхам камбінавання ўзору з дапаможнай інфармацыяй. Некаторыя людзі лічаць, што дзіўна, што гэта праўда, нават калі ёсць цалкам выконваецца імавернасны выбарка. Гэтыя метады з выкарыстаннем дапаможнай інфармацыі, асабліва важныя, таму што, як будзе паказана пазней, дапаможная інфармацыя мае вырашальнае значэнне для атрымання адзнак з узораў імавернасных з неатрымання і ад узораў, ня верагоднасці.

Адзін агульны метад для выкарыстання дапаможнай інфармацыі з'яўляецца пост-стратыфікацыі. Уявіце, напрыклад, што даследчык ведае колькасць мужчын і жанчын у кожным з 50 штатаў; мы можам пазначыць гэтыя памеры групы як \(N_1, N_2, \ldots, N_{100}\) . Для таго, каб аб'яднаць гэтую дапаможную інфармацыю з узорам, даследчык можа падзяліць ўзор у \(H\) групы (у дадзеным выпадку 100), зрабіць ацэнку для кожнай групы, а затым стварыць узважанае сярэдняе з іх азначае група:

\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]

Груба кажучы, адзнака ў раўнанні. 3,5, верагодна, будзе больш дакладным , паколькі ён выкарыстоўвае вядомае насельніцтва інфармацыі аб \(N_h\) -у правільных ацэнак , калі незбалансаванай ўзор здараецца быць абраны. Адзін са спосабаў думаць пра гэта з'яўляецца тое, што пасля стратыфікацыі, як апраксімуецца стратыфікацыю пасля таго, як дадзеныя ўжо былі сабраныя.

У заключэнне, у дадзеным раздзеле апісаў некалькі канструкцый выбаркі: простая выпадковая выбарка без замен, выбаркі з няроўнай верагоднасцю, і стратыфікаваная выбаркі. Ён таксама апісаў дзве асноўныя ідэі аб ацэнкі: ацэнкі Хорвица-Томпсана і наступнай стратыфікацыі. Для больш фармальнага вызначэння імавернасных мадэляў выбаркі, глядзіце раздзел 2 Särndal, Swensson, and Wretman (2003) . Для больш фармальнай і поўнага лячэння стратыфікаваная выбаркі, глядзіце раздзел 3.7 Särndal, Swensson, and Wretman (2003) . Для тэхнічнага апісання уласцівасцяў ацэнкі Хорвиц-Томпсан, см Horvitz and Thompson (1952) , Overton and Stehman (1995) , ці падзел 2.8 @ sarndal_model_2003. Для больш фармальнага лячэння пасля стратыфікацыі, см Holt and Smith (1979) , Smith (1991) , Little (1993) , ці падзел 7.6 Särndal, Swensson, and Wretman (2003) .

Верагоднасць выбарка з неатрымання

Амаль усе рэальныя абследавання маюць неатрыманне; гэта значыць, не ўсё ў выбарачнай сукупнасці адказвае на кожнае пытанне. Ёсць два асноўных выгляду: неатрыманне пункт неатрыманне і блок неатрыманне. У пункце неатрыманні, некаторыя рэспандэнты не адказваць на некаторыя элементы (напрыклад, часам рэспандэнты не хочуць адказваць на пытанні, якія яны лічаць адчувальныя). У адзінкавым неатрыманні, некаторыя людзі, якія абраныя для выбаркі насельніцтва не рэагуюць на апытанне на ўсіх. Два найбольш распаўсюджаных прычын для блока неатрыманне з'яўляецца тое, што выбарачны чалавек не можа звязацца і ўзор чалавек кантактуе, але адмаўляецца ад удзелу. У гэтай частцы я спынюся на адзінку неатрыманне; Чытачы , зацікаўленыя ў пункце неатрыманне павінны ўбачыць Літл і Рубін (2002) .

Даследчыкі часта думаюць пра абследаваннях з адзінкавым неответом як працэс адбору пробаў дзве стадыі. На першым этапе, даследчык выбірае ўзор \(s\) такім чынам, што кожны чалавек мае верагоднасць ўключэння \(\pi_i\) (дзе \(0 < \pi_i \leq 1\) ). Затым, на другім этапе, людзі , якія абраныя ва ўзоры рэагуюць з верагоднасцю \(\phi_i\) (дзе \(0 < \phi_i \leq 1\) ). Гэты двухстадийный працэс прыводзіць да канчатковага набору рэспандэнтаў \(r\) . Важнае адрозненне паміж гэтымі двума этапамі з'яўляецца тое, што даследчыкі кантраляваць працэс адбору ўзору, але яны не кантралююць, якія з гэтых адабраных людзей становяцца рэспандэнтамі. Злучаючы гэтыя два працэсы разам, то верагоднасць таго, што хто-то будзе рэспандэнт

\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]

Дзеля прастаты я буду разглядаць выпадак, калі арыгінальны дызайн ўзор просты выпадковай выбаркі без замены. Калі даследчык выбірае ўзор памеру \(n_s\) , які дае \(n_r\) рэспандэнтам, а калі даследчык ігнаруе адсутнасць адказу і выкарыстоўвае сярэднія рэспандэнт, то зрушэнне ацэнкі будзе:

\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]

дзе \(cor(\phi, y)\) з'яўляецца суадносіны насельніцтва паміж схільнасцю рэакцыі і зыходам (напрыклад, станам беспрацоўя), \(S(y)\) з'яўляецца насельніцтва стандартнага адхіленні выніку (напрыклад, беспрацоўе статус), \(S(\phi)\) з'яўляецца насельніцтва стандартнага адхіленні схільнасці водгуку, і \(\bar{\phi}\) з'яўляецца матэматычным чаканне адказу схільнасць (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Eq. 3.7 паказвае, што неатрыманне не будзе ўводзіць зрушэння, калі любы з наступных умоў:

Там няма зменаў у стане беспрацоўя \((S(y) = 0)\) .
Там няма розьніцы ў схільнасцях адказу \((S(\phi) = 0)\) .
Там няма ніякай карэляцыі паміж схільнасцю рэакцыі і станы беспрацоўя \((cor(\phi, y) = 0)\) .

На жаль, ні адна з гэтых умоў не ўяўляецца верагодным. Здаецца неверагодным, што не будзе якіх-небудзь змяненняў у статусе занятасці або што не будзе якіх-небудзь змяненняў у схільнасцяў адказу. Такім чынам, ключавы член ў раўнанні. 3.7 з'яўляецца суадносіны: \(cor(\phi, y)\) . Напрыклад, калі людзі, якія беспрацоўныя больш схільна рэагаваць, то паводле ацэнак, узровень занятасці будзе зрушаны ўверх.

Хітрасць, каб зрабіць ацэнкі, калі ёсць неатрыманне з'яўляецца выкарыстанне дапаможнай інфармацыі. Напрыклад, адзін са спосабаў, у якіх можна выкарыстоўваць дапаможную інфармацыю пост-стратыфікацыі (нагадаем экв. 3,5 зверху). Аказваецца, што ўхіл ацэнкі пасля стратыфікацыі з'яўляецца:

\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]

дзе \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , і \(\bar{\phi}^{(h)}\) вызначаны , як паказана вышэй , але абмяжоўваецца людзьмі ў групе \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Такім чынам, агульнае зрушэнне будзе невялікім, калі зрушэнне ў кожнай пасце-стратыфікацыю групы мала. Ёсць два спосабу, якія я люблю думаць пра тое, што робіць зрушэнне мала ў кожнай постстратификацию групы. Ва- першых, вы хочаце , каб паспрабаваць сфармаваць аднастайныя групы , дзе ёсць невялікае змяненне ў схільнасці рэакцыі ( \(S(\phi)^{(h)} \approx 0\) ) і вынік ( \(S(y)^{(h)} \approx 0\) ). Ва- другое, вы хочаце , каб сфармаваць групы , дзе людзі , якія вы бачыце, як людзі , якія вы не бачыце ( \(cor(\phi, y)^{(h)} \approx 0\) ). Параўноўваючы ек. 3.7 і экв. 3,8 дапамагае высветліць, калі постстратификация можа паменшыць Зрушэнне выкліканае неатрымання.

У зняволенні гэтага падзелу прадаставіла мадэль імавернаснай выбаркі з неатрымання і паказала, што зрушэнне неатрымання можна ўвесці і без і з карэкціроўкай пасля стратыфікацыі. Bethlehem (1988) прапануе выснову зрушэння , выкліканага неатрыманне для больш агульных мадэляў выбаркі. Для дадатковай інфармацыі аб выкарыстанні постстратификации для карэкціроўкі неатрыманне см Smith (1991) і Gelman and Carlin (2002) . Пост-стратыфікацыя з'яўляецца часткай больш агульнага сямейства метадаў , званых калібровачнае ацэншчыкамі см Zhang (2000) для апрацоўкі артыкула даўжыні і Särndal and Lundström (2005) для лячэння кнігі даўжынёй. Больш падрабязную інфармацыю пра іншыя іншых метадаў ўзважвання для карэкціроўкі на неатрыманне см Kalton and Flores-Cervantes (2003) , Brick (2013) , і Särndal and Lundström (2005) .

выбаркі неверагоднасці

Выбаркі неверагоднасці ўключае ў сябе вялікая разнастайнасць канструкцый (Baker et al. 2013) і (Baker et al. 2013) . Арыентуючыся менавіта на выбарцы карыстальнікаў Xbox Ван і яго калегамі (W. Wang et al. 2015) і \(\pi_i\) (W. Wang et al. 2015) , вы можаце думаць аб такім родзе ўзор , як адзін , дзе ключавы элемент дызайну выбаркі не \(\pi_i\) ( даследчык кіраванай верагоднасць ўключэння) , але \(\phi_i\) (рэспандэнт ініцыятыве схільнасці адказу). Натуральна, гэта не з'яўляецца ідэальным , так як \(\phi_i\) невядомыя. Але, як Ван і яго калегі паказалі, гэты від неаўтаматычныя выбаркі нават з выбаркі з велізарна пакрыццём памылак неабходнасці не быць катастрафічным, калі даследчык мае добрую дапаможную інфармацыю і добрую статыстычную мадэль для тлумачэння гэтых праблем.

Bethlehem (2010) пашырае многія з вышэйзгаданых высноў аб наступнай стратыфікацыі ўключае як неатрыманне і памылкі пакрыцця. У дадатак да пост-стратыфікацыі, іншыя метады для працы з не-імавернасных узораў-і імавернасных выбарак з памылкамі ахопу і неатрыманне-ўключаюць у сябе ўзгадненне ўзору (Ansolabehere and Rivers 2013; ??? ) , схільнасць адзнака вагавых каэфіцыентаў (Lee 2006; Schonlau et al. 2009) , і каліброўкі (Lee and Valliant 2009) . Адна агульная тэма сярод гэтых метадаў з'яўляецца выкарыстанне дапаможнай інфармацыі.