Maelezo ya hisabati

Katika kifungu hiki, nitaelezea baadhi ya mawazo kutoka kwa sura katika fomu kidogo ya hisabati. Lengo hapa ni kukusaidia kupata starehe na uhalali na mfumo wa hisabati uliotumiwa na watafiti wa uchunguzi ili uweze kubadilisha mpito kwenye vifaa vingine vya kiufundi vilivyoandikwa kwenye mada hii. Nitaanza kwa kuanzisha sampuli uwezekano, kisha uende kwa sampuli ya uwezekano na bila kujitoa, na hatimaye, sampuli isiyo uwezekano.

Sampuli ya uwezekano

Kama mfano mzuri, hebu fikiria lengo la kukadiria kiwango cha ukosefu wa ajira nchini Marekani. Hebu \(U = \{1, \ldots, k, \ldots, N\}\) kuwa idadi ya wakazi na basi \(y_k\) kwa thamani ya kutofautiana matokeo kwa mtu \(k\) . Katika mfano huu \(y_k\) ni kama mtu \(k\) hana kazi. Hatimaye, waache \(F = \{1, \ldots, k, \ldots, N\}\) kuwa sura ya wakazi, ambayo kwa ajili ya unyenyekevu inadhaniwa kuwa sawa na idadi ya wakazi.

Sampuli ya msingi ya sampuli ni rahisi sampuli ya random bila uingizwaji. Katika kesi hii, kila mtu anaweza kuingizwa katika sampuli \(s = \{1, \ldots, i, \ldots, n\}\) . Wakati data inakusanywa na kubuni hii ya sampuli, watafiti wanaweza kukadiria kiwango cha ukosefu wa ajira wa idadi ya watu na sampuli ina maana:

\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]

ambapo \(\bar{y}\) ni kiwango cha ukosefu wa ajira kwa idadi ya watu na \(\hat{\bar{y}}\) ni makadirio ya kiwango cha ukosefu wa ajira ( \(\hat{ }\) ni kawaida kutumika ili kuonyesha makadirio).

Kwa kweli, watafiti hawatumii sampuli ya random rahisi bila uingizwaji. Kwa sababu mbalimbali (moja ambayo nitasema kwa muda mfupi), watafiti mara nyingi huunda sampuli kwa uwezekano usio sawa wa kuingizwa. Kwa mfano, watafiti wanaweza kuchagua watu huko Florida na uwezekano mkubwa wa kuingizwa kuliko watu wa California. Katika kesi hiyo, sampuli inamaanisha (q. 3.1) inaweza kuwa si makadirio mema. Badala yake, wakati kuna uwezekano usio sawa wa kuingizwa, watafiti hutumia

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]

ambapo \(\hat{\bar{y}}\) ni makadirio ya kiwango cha ukosefu wa ajira na \(\pi_i\) ni uwezekano wa mtu \(i\) wa kuingizwa. Kufuatilia mazoezi ya kawaida, nitamwita mchezaji wa makadirio katika eq. 3.2 makadirio ya Horvitz-Thompson. Makadirio ya Horvitz-Thompson ni muhimu sana kwa sababu inaongoza kwa makadirio yasiyopendekezwa ya kubuni yoyote uwezekano wa sampuli (Horvitz and Thompson 1952) . Kwa sababu makadirio ya Horvitz-Thompson huja mara kwa mara, ni muhimu kutambua kwamba inaweza kuandikwa tena kama

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]

ambapo \(w_i = 1 / \pi_i\) . Kama eq. 3.3 inaonyesha, makadirio ya Horvitz-Thompson ni sampuli ya uzito ina maana ambapo uzito ni kinyume na uwezekano wa uteuzi. Kwa maneno mengine, mtu mdogo anaweza kuingizwa katika sampuli, uzito zaidi kwamba mtu anapaswa kupata katika makadirio.

Kama ilivyoelezwa mapema, watafiti mara nyingi hupima watu wenye uwezekano usio sawa wa kuingizwa. Mfano mmoja wa kubuni ambayo inaweza kusababisha uwezekano wa kutofautiana wa kuingizwa ni sampuli iliyo stratified , ambayo ni muhimu kuelewa kwa sababu ni karibu kuhusiana na utaratibu wa hesabu inayoitwa post-stratification . Katika sampuli iliyo stratified, mtafiti hufawanya idadi ya watu katika \(H\) makundi ya kipekee na yenye ukamilifu. Makundi haya huitwa strata na yanaonyeshwa kama \(U_1, \ldots, U_h, \ldots, U_H\) . Katika mfano huu, strata ni nchi. Ukubwa wa vikundi huonyeshwa kama \(N_1, \ldots, N_h, \ldots, N_H\) . Mtafiti anaweza kutaka kutumia sampuli stratified ili kuhakikisha kuwa ana watu wa kutosha katika kila hali kufanya makadirio ngazi ya hali ya ukosefu wa ajira.

Mara baada ya idadi ya watu imekuwa waligawanyika katika tabaka, kudhani kwamba mtafiti huchagua random sampuli rahisi bila kubadilishwa kwa ukubwa \(n_h\) , kujitegemea kutoka kwa kila tabaka. Zaidi ya hayo, dhani kwamba kila mtu aliyechaguliwa katika sampuli atakuwa mhojiwa (Nitaweza kushughulikia yasiyo ya majibu katika sehemu inayofuata). Katika kesi hii, uwezekano wa kuingizwa ni

\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]

Kwa sababu uwezekano huu unaweza kutofautiana kutoka kwa mtu hadi kwa mtu, wakati wa kufanya makadirio kutoka kwa kubuni hii ya sampuli, watafiti wanahitaji kupima kila mhojiwa na inverse ya uwezekano wao wa kuingizwa kwa kutumia makadirio ya Horvitz-Thompson (aya 3.2).

Hata kama makadirio ya Horvitz-Thompson hayakubali, watafiti wanaweza kutoa sahihi zaidi (yaani, tofauti ya chini) kwa kuchanganya sampuli na maelezo ya wasaidizi . Watu wengine hupata kushangaza kwamba hii ni kweli hata wakati kuna sampuli ya uwezekano wa kutekelezwa. Mbinu hizi kwa kutumia habari za wasaidizi ni muhimu sana kwa sababu, kama nitakavyoonyesha baadae, taarifa ya wasaidizi ni muhimu kwa kufanya makadirio kutoka kwa sampuli uwezekano na bila kupinga na kutoka kwa sampuli zisizowezekana.

Njia moja ya kawaida ya kutumia habari za wasaidizi ni ufuatiliaji wa baada . Fikiria, kwa mfano, kwamba mtafiti anajua idadi ya wanaume na wanawake katika kila moja ya majimbo 50; tunaweza kuonyesha ukubwa wa kikundi hiki kama \(N_1, N_2, \ldots, N_{100}\) . Ili kuchanganya habari hii ya usaidizi na sampuli, mtafiti anaweza kupasua sampuli katika vikundi vya \(H\) (katika kesi hii 100), fanya makadirio kwa kila kikundi, halafu uunda wastani wa wastani wa kundi hili inamaanisha:

\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]

Kwa kiasi kikubwa, mchezajiji katika eq. 3.5 ni uwezekano wa kuwa sahihi zaidi kwa sababu hutumia taarifa inayojulikana ya idadi ya watu-ya \(N_h\) - kwa makadirio sahihi ikiwa sampuli isiyo na usawa hutokea kuchaguliwa. Njia moja ya kufikiri juu yake ni kwamba kuchapishwa baada ya mstari ni sawa na kukata tamaa baada ya takwimu zilizokusanywa.

Kwa kumalizia, sehemu hii imeelezea miundo michache ya sampuli: sampuli rahisi ya random bila nafasi, sampuli na uwezekano usio sawa, na sampuli iliyo stratified. Pia imeelezea mawazo mawili makuu kuhusu makadirio: makadirio ya Horvitz-Thompson na baada ya kukataza. Kwa ufafanuzi rasmi zaidi wa miundo ya sampuli ya uwezekano, angalia sura ya 2 ya Särndal, Swensson, and Wretman (2003) . Kwa matibabu zaidi rasmi na kamilifu ya sampuli iliyopangwa, angalia kifungu cha 3.7 cha Särndal, Swensson, and Wretman (2003) . Kwa ufafanuzi wa kiufundi wa mali ya makadirio ya Horvitz-Thompson, ona Horvitz and Thompson (1952) , Overton and Stehman (1995) , au sehemu 2.8 ya @ sarndal_model_2003. Kwa ajili ya matibabu ya kawaida zaidi ya baada ya kukamatwa, angalia Holt and Smith (1979) , Smith (1991) , Little (1993) , au sehemu ya 7.6 ya Särndal, Swensson, and Wretman (2003) .

Sampuli ya uwezekano na bila kujali

Karibu tafiti zote za kweli hazina maana; yaani, si kila mtu katika sampuli ya idadi ya watu anajibu kila swali. Kuna aina mbili kuu za nonresponse: kipengee cha kutosha na kitengo cha kutosha . Katika kipengee cha kutosha, washiriki wengine hawajibu vitu vingine (kwa mfano, mara nyingine washiriki hawataki kujibu maswali wanayofikiria kuwa nyeti). Kwa kitengo cha kutosha, watu wengine waliochaguliwa kwa idadi ya sampuli hawana jibu kwa utafiti. Sababu mbili za kawaida za kitengo cha kutosha ni kwamba mtu mchangamfu hawezi kuwasiliana na mtu sampuli anawasiliana lakini anakataa kushiriki. Katika sehemu hii, nitazingatia kitengo cha kutosha; wasomaji wanaopendezwa na bidhaa zisizofaa wanapaswa kuona Little na Rubin (2002) .

Watafiti mara nyingi wanafikiria juu ya tafiti na kitengo ambacho si majibu kama mchakato wa sampuli mbili. Katika hatua ya kwanza, mtafiti huchagua sampuli \(s\) kama vile kila mtu ana uwezekano wa kuingizwa \(\pi_i\) (ambapo \(0 < \pi_i \leq 1\) ). Kisha, katika hatua ya pili, watu waliochaguliwa katika sampuli hujibu kwa uwezekano \(\phi_i\) (ambapo \(0 < \phi_i \leq 1\) ). Mchakato huu wa hatua mbili una matokeo katika seti ya mwisho ya washiriki \(r\) . Tofauti muhimu kati ya hatua hizi mbili ni kwamba watafiti hudhibiti mchakato wa kuchagua sampuli, lakini hawana udhibiti wa nani wa watu wale walio sampuli kuwa washiriki. Kuweka taratibu hizi mbili pamoja, uwezekano kwamba mtu atakuwa mhojiwa ni

\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]

Kwa sababu ya unyenyekevu, nitazingatia kesi ambapo sampuli ya awali ya kubuni ni rahisi sampuli random bila uingizwaji. Ikiwa mtafiti anachagua sampuli ya ukubwa \(n_s\) ambayo hutoa \(n_r\) waliohojiwa, na ikiwa mtafiti anakataa yasiyo ya majibu na anatumia maana ya washiriki, basi uhaba wa makadirio itakuwa:

\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]

ambapo \(cor(\phi, y)\) ni uwiano wa idadi ya watu kati ya kiwango cha majibu na matokeo (kwa mfano, hali ya ukosefu wa ajira), \(S(y)\) ni kupotoka kwa kiwango cha idadi ya watu (kwa mfano, ukosefu wa ajira hali \(S(\phi)\) ni kiwango cha kupotoka kwa idadi ya watu ya kiwango cha majibu, na \(\bar{\phi}\) ni kiwango cha majibu ya majibu ya idadi ya watu (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Eq. 3.7 inaonyesha kuwa bila kujali hakutasema ulaani kama hali yoyote yafuatayo inafanyika:

  • Hakuna tofauti katika hali ya ukosefu wa ajira \((S(y) = 0)\) .
  • Hakuna tofauti katika majibu ya majibu \((S(\phi) = 0)\) .
  • Hakuna uwiano kati ya kiwango cha majibu na hali ya ukosefu wa ajira \((cor(\phi, y) = 0)\) .

Kwa bahati mbaya, hakuna hali hii inaonekana iwezekanavyo. Inaonekana implausible kwamba hakutakuwa na tofauti katika hali ya ajira au kwamba hakutakuwa na tofauti katika upepo wa majibu. Hivyo, neno muhimu katika eq. 3.7 ni uwiano: \(cor(\phi, y)\) . Kwa mfano, kama watu ambao hawana ajira huwa na uwezo zaidi wa kujibu, basi kiwango cha ajira kinakadiriwa kitakuwa chafu zaidi.

Hila ya kufanya makadirio wakati kuna nonresponse ni kutumia maelezo ya wasaidizi. Kwa mfano, njia moja ambayo unaweza kutumia maelezo ya usaidizi ni kupakia baada ya kukumbuka (kumbuka alama 3.5 kutoka hapo juu). Inabadilika kuwa upendeleo wa makadirio ya baada ya stratification ni:

\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]

\(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) na \(\bar{\phi}^{(h)}\) hufafanuliwa kama hapo juu lakini imezuia watu katika kikundi \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Kwa hiyo, upendeleo wa jumla utakuwa mdogo kama upendeleo katika kila kundi la baada ya stratification ni ndogo. Kuna njia mbili ambazo ninapenda kufikiri juu ya kufanya upendeleo mdogo katika kila kikundi baada ya stratification. Kwanza, unataka kujaribu kuunda vikundi vinavyolingana ambapo kuna tofauti ndogo katika hali ya kujibu ( \(S(\phi)^{(h)} \approx 0\) ) na matokeo ( \(S(y)^{(h)} \approx 0\) ). Pili, unataka kuunda vikundi ambapo watu unaowaona ni kama watu ambao huoni ( \(cor(\phi, y)^{(h)} \approx 0\) ). Kulinganisha eq. 3.7 na eq. 3.8 husaidia kufafanua wakati utaratibu wa kupangilia unaweza kupunguza ubaguzi unaosababishwa na kukosekana.

Kwa kumalizia, sehemu hii imetoa mfano wa sampuli uwezekano na yasiyo ya majibu na umeonyeshwa upendeleo kwamba bila kujali inaweza kuanzisha wote bila na kwa marekebisho ya baada ya stratification. Bethlehem (1988) hutolewa kutokana na upendeleo unaosababishwa na bila kujali mipangilio ya jumla ya sampuli. Kwa habari zaidi kuhusu kutumia stratification ya kurekebisha kwa wasiwasi, ona Smith (1991) na Gelman and Carlin (2002) . Särndal and Lundström (2005) ni sehemu ya mbinu ya jumla ya familia inayoitwa makadirio ya calibration, angalia Zhang (2000) kwa matibabu ya urefu wa makala na Särndal and Lundström (2005) kwa matibabu ya urefu wa kitabu. Kwa zaidi juu ya njia zingine zenye uzito za kurekebisha kwa sababu ya kutojali, ona Kalton and Flores-Cervantes (2003) , Brick (2013) , na Särndal and Lundström (2005) .

Sampuli isiyowezekana

Sampuli isiyowezekana inajumuisha aina nyingi za miundo (Baker et al. 2013) . Kuzingatia hasa sampuli ya watumiaji wa Xbox na Wang na wenzake (W. Wang et al. 2015) , unaweza kufikiria aina hiyo ya sampuli kama moja ambapo sehemu muhimu ya kubuni sampuli si \(\pi_i\) ( uwezekano wa kutekelezwa na mtafiti wa kuingizwa) lakini \(\phi_i\) (majibu ya majibu ya majibu). Kwa kawaida, hii sio bora kwa sababu \(\phi_i\) haijulikani. Lakini, kama Wang na wenzake walivyoonyesha, aina hii ya sampuli ya kuingia-hata kutoka kwenye sura ya sampuli yenye hitilafu kubwa ya chanjo-haipaswi kuwa janga kama mtafiti ana habari nzuri ya wasaidizi na mfano mzuri wa takwimu ili kuzingatia matatizo haya.

Bethlehem (2010) huongeza nyingi za juu zilizochapishwa hapo juu kuhusu utambulisho wa baada ya kujumuisha makosa yote yasiyo ya kuzingatia na utoaji wa chanjo. Mbali na ufuatiliaji wa baada ya, mbinu nyingine za kufanya kazi na sampuli zisizowezekana-na sampuli za uwezekano na makosa ya chanjo na bila kujumuisha-ni pamoja na sampuli vinavyolingana (Ansolabehere and Rivers 2013; ??? ) , propensity score uzito (Lee 2006; Schonlau et al. 2009) , na calibration (Lee and Valliant 2009) . Jambo moja la kawaida kati ya mbinu hizi ni matumizi ya habari ya wasaidizi.