3.4.1 Uwezekano sampuli: ukusanyaji wa takwimu na uchambuzi wa data

Uzito anaweza kuondoa kupotosha kwa makusudi unasababishwa na mchakato sampuli.

Uwezekano sampuli ni wale ambapo watu wote wana kujulikana, mashirika yasiyo ya sifuri uwezekano wa kuingizwa, na rahisi uwezekano sampuli kubuni ni rahisi random sampuli ambapo kila mtu ana sawa uwezekano wa ushirikishwaji. Wakati waliohojiwa wanachaguliwa kupitia rahisi random sampuli na utekelezaji kamili (kwa mfano, hakuna kosa chanjo na hakuna majibu yasiyo), ndipo hesabu ni moja kwa moja kwa sababu sampuli-kwa wastani-kuwa miniature toleo la idadi ya watu.

Rahisi random sampuli ni mara chache kutumika katika mazoezi, hata hivyo. Badala yake, watafiti kwa makusudi kuchagua watu kwa probabilities usawa wa ushirikishwaji ili kupunguza gharama na kuongeza usahihi. Wakati watafiti kwa makusudi kuchagua watu kwa probabilities mbalimbali za ushirikishwaji, basi marekebisho zinahitajika kuondoa uharibifu unaosababishwa na mchakato sampuli. Kwa maneno mengine, jinsi sisi kujumlisha kutoka sampuli inategemea jinsi sampuli alichaguliwa.

Kwa mfano, Idadi Sasa Survey (CPS) hutumiwa na serikali ya Marekani kukadiria kiwango cha ukosefu wa ajira. Kila mwezi watu 100,000 ni waliohojiwa, ama uso kwa uso au juu ya simu, na matokeo ni kutumika kuzalisha makadirio ya kiwango cha ukosefu wa ajira. Kwa sababu serikali inapenda makisio cha ukosefu wa ajira katika kila hali, haiwezi kufanya rahisi random sampuli ya watu wazima kwa sababu hiyo ingekuwa mavuno waliohojiwa wachache mno katika majimbo na wakazi ndogo (kwa mfano, Rhode Island) na wengi mno kutoka nchi na idadi kubwa (kwa mfano , California). Badala yake, CPS sampuli watu katika mataifa tofauti katika viwango tofauti, mchakato kuitwa stratified sampuli na usawa uwezekano wa uteuzi. Kwa mfano, kama CPS alitaka 2,000 waliohojiwa kwa serikali, basi watu wazima katika Rhode Island ingekuwa kuhusu mara 30 juu ya uwezekano wa kuingizwa kuliko watu wazima katika California (Rhode Island: 2,000 waliohojiwa kwa watu wazima 800,000 vs California: 2,000 waliohojiwa kwa watu wazima 30,000,000). Kama tutakavyoona baadaye, aina hii ya sampuli na uwezekano usawa hutokea na vyanzo online ya data pia, lakini tofauti na CPS, utaratibu sampuli ni kawaida haijulikani au kudhibitiwa na mtafiti.

Kutokana na sampuli zake kubuni, CPS si moja kwa moja mwakilishi wa Marekani; ni pamoja na watu wengi mno kutoka Rhode Island na wachache mno kutoka California. Kwa hiyo, ni jambo la hekima kukadiria kiwango cha ukosefu wa ajira nchini kwa kiwango cha ukosefu wa ajira katika sampuli. Badala ya maana sampuli, ni bora kuchukua maana mizigo, ambapo uzito akaunti kwa ajili ya ukweli kwamba watu kutoka Rhode Island walikuwa zaidi uwezekano wa kuwa ni pamoja na zaidi ya watu kutoka California. Kwa mfano, kila mtu kutoka California itakuwa upweighted- wangeweza kuhesabu zaidi katika makadirio-na kila mtu kutoka Rhode Island itakuwa downweighted-wangeweza kuhesabu chini katika makisio. Katika kiini, wewe ni kupewa sauti zaidi kwa watu kwamba wewe ni chini ya uwezekano wa kujifunza kuhusu.

Hii mfano toy unaeleza hatua muhimu lakini kwa kawaida kutoeleweka: sampuli haina haja ya kuwa toleo miniature ya wakazi ili kuzalisha makadirio nzuri. Kama kutosha kujulikana juu ya jinsi data zilikusanywa, basi habari ambayo yanaweza kutumika wakati wa kufanya makadirio kutoka sampuli. mbinu nimekuwa tu ilivyoelezwa-na kwamba mimi kuelezea kihisabati katika kiufundi appendix-falls squarely ndani ya classical uwezekano sampuli mfumo. Sasa, mimi itabidi kuonyesha jinsi kwamba wazo hiyo inaweza kutumika kwa sampuli zisizo uwezekano.