3.4.1 tikimybinių imčių atranka: duomenų rinkimas ir duomenų analizė

Svoriai gali atšaukti iškraipymus tyčia sukeltas ėmimo procesą.

Tikimybinės imtys yra tie, kur visi žmonės turi žinomą, ne nulis tikimybę įtraukimo, o paprasčiausias tikimybių atranka dizainas yra paprastas atsitiktinis ėminių, kur kiekvienas asmuo turi vienodą tikimybę įtraukimo. Kai respondentai atrenkami paprasta atsitiktine atranka su tobula vykdymo (pavyzdžiui, be padengimo klaidų ir be neatsakymo), tada vertinimas yra paprasta, nes mėginys bus ant vidutinio būti miniatiūrinė versija gyventojų.

Paprasta atsitiktinė atranka yra retai naudojamas praktikoje, tačiau. Atvirkščiai, tyrėjai sąmoningai pasirinkti žmones su nevienodomis tikimybių įtraukimo siekiant sumažinti išlaidas ir padidinti tikslumą. Kai mokslininkai tyčia pasirinkti žmones su skirtingais tikimybės įtraukti, tada koreguoti nereikia anuliuoti iškraipymams, atsirandantiems dėl mėginių ėmimo procesą. Kitaip tariant, kaip mes apibendrinti iš mėginio priklauso nuo to, kaip buvo pasirinktas mėginys.

Pavyzdžiui, dabartinis gyventojų apklausa (VAS) yra naudojamas JAV vyriausybė įvertinti nedarbo lygis. Kiekvieną mėnesį apie 100.000 žmonių interviu, arba akis į akį ar telefonu, o rezultatai yra naudojami gaminti apskaičiuotą nedarbo lygis. Kadangi vyriausybė nori įvertinti nedarbo lygis kiekvienoje valstybėje, jis negali daryti paprastąja atsitiktine imtimi suaugusiųjų, nes tai duotų per mažai respondentų narių, kurių mažos populiacijos (pvz, Rhode Island) ir per daug iš valstybių su daug gyventojų (pvz , California). Vietoj to, CPS pavyzdžiai žmonės skirtingose šalyse skirtingais tempais, procesas vadinamas sluoksniuojant atranką su nevienodo tikimybės atrankos. Pavyzdžiui, jei CPS norėjo 2000 respondentų už valstybės, tada suaugusieji Rhode Island būtų apie 30 kartų didesnė tikimybė įtraukimo nei suaugusiems Kalifornijoje (Rod Ailandas: 2.000 respondentai per 800.000 suaugusiems vs Kalifornijoje: 2.000 respondentai per 30.000.000 suaugusiems). Kaip matysime vėliau, šis mėginių su nevienodo tikimybe nutinka su interneto šaltinių duomenimis per daug, bet, skirtingai nei CPS, mėginių ėmimo mechanizmas paprastai nėra žinoma ar kontroliuoja tyrėjas.

Atsižvelgiant į mėginių ėmimo planą, CPS nėra tiesiogiai atstovas JAV; ji apima per daug žmonių iš Rhode Island ir per mažai iš Kalifornijos. Todėl būtų neprotinga įvertinti nedarbo lygis šalyje nedarbo lygis mėginyje. Vietoj imties vidurkis, tai geriau imtis svertinis vidurkis, kai svertiniu koeficientu atsiskaityti už tai, kad žmonės iš Rhode Island buvo labiau linkę būti įtrauktos nei žmonės iš Kalifornijos. Pavyzdžiui, kiekvienas žmogus iš Kalifornijos būtų upweighted- jie būtų tikėtis daugiau iš įvertis-ir kiekvienam asmeniui nuo Rhode Island būtų nuvertintas-jie skaičius mažesnis į sąmatą. Iš esmės, jums būtų suteikta daugiau balso žmonėms, kad jums yra mažiau tikėtina, kad sužinoti apie.

Šis žaislas pavyzdys iliustruoja svarbų, bet dažniausiai nesuprastas tašką: pavyzdys nebūtinai turi būti miniatiūriniai versija gyventojų siekiant gaminti geros prognozes. Jei pakankamai žinoma apie tai, kaip buvo renkami duomenys, tada, kad informacija gali būti naudojama darant apskaičiavimus iš mėginio. Požiūris Aš ką tik aprašyta, ir kad aš aprašyti matematiškai techniniame priede, patenka tiesiai per klasikinės tikimybės mėginių ėmimo sistemą. Dabar aš jums parodysiu, kaip ta pati idėja gali būti taikoma ne tikimybių pavyzdžius.