3.4.1 Líkur sýnatöku: gagnasöfnun og greiningu gagna

Lóð geta losa röskun viljandi völdum sýnatöku ferli.

Líkindaúrtökum eru þeir þar allir menn hafa þekkt, non-núll líkur á þátttöku, og einfaldasta Úrtakslíkur hönnun er einföld slembiúrtak þar sem hver einstaklingur hefur jafnan líkur á skráningu. Þegar svarendur eru valdir með einföldu handahófi sýnatöku með fullkomna framkvæmd (td engin umfjöllun villa og ekkert brottfalls), þá er mat einfalt vegna þess að sýni verði-að meðaltali-vera litlu útgáfa af íbúafjölda.

Einföld slembiúrtak er sjaldan notað í reynd, hins vegar. Frekar, vísindamenn velja viljandi fólk með ójöfn líkur á þátttöku í því skyni að draga úr kostnaði og auka nákvæmni. Þegar vísindamenn velja viljandi fólk með mismunandi líkur á skráningu, svo leiðréttingar er þörf til að losa röskun af völdum sýnatöku ferli. Með öðrum orðum, hvernig við alhæfa út frá úrtaki veltur á hvernig úrtakið var valið.

Til dæmis, núverandi íbúa Survey (CPS) er notað af ríkisstjórn Bandaríkjanna til að meta atvinnuleysi. Í hverjum mánuði um 100.000 manns eru viðtöl, ýmist augliti til auglitis eða í gegnum síma, og niðurstöðurnar eru notuð til að framleiða áætlaða atvinnuleysi. Vegna þess að ríkisstjórnin vill að áætla atvinnuleysi í hverju ríki, það er ekki hægt að gera einfalda tilviljanakennt fullorðnum vegna þess að það myndi skila of fáir svarendur í ríkjum með lítil íbúa (td Rhode Island) og of mörg frá ríkjum með stórum hópum (td , California). Þess í stað CPS sýni fólk í mismunandi ríkjum á mismunandi afslætti, ferli kallast lagskipt úrtak með ójöfn líkur á val. Til dæmis, ef CPS vildu 2.000 svarendur á ríki, þá fullorðnir í Rhode Island þyrfti um 30 sinnum hærri líkur á vistun en fullorðnir í Kaliforníu (Rhode Island: 2.000 svarenda á 800.000 fullorðna vs Kaliforníu: 2.000 svarendur á 30.000.000 fullorðnum). Eins og við munum sjá síðar, svona sýnatöku með ójafna líkum gerist með online heimildum gögnum líka, en ólíkt CPS, sýnatöku vélbúnaður er yfirleitt ekki vitað eða stjórnað af rannsakanda.

Í ljósi sýnatöku hönnun, CPS er ekki beint dæmigert Bandaríkjunum; það felur í sér allt of margir frá Rhode Island og of fáir frá Kaliforníu. Því væri óviturlegt að áætla atvinnuleysi í landinu með atvinnuleysi í sýninu. Í stað þess að úrtaksmeðaltal, það er betra að taka vegið meðaltal, þar sem lóð grein fyrir þeirri staðreynd að fólk frá Rhode Island voru líklegri til að vera með en fólk frá Kaliforníu. Til dæmis, hver maður frá Kaliforníu væri upweighted- þeir myndu telja meira í mat-og hvern einstakling frá Rhode Island yrði downweighted-þeir myndu telja minna í mat. Í raun, þú ert gefið meira rödd til fólks sem þú ert minna líklegur til að læra um.

Þetta leikfang dæmi sýnir mikilvægu en almennt misskilið benda: sýni þarf ekki að vera litlu útgáfa af íbúafjölda í því skyni að framleiða góða mat. Ef nóg er vitað um hvernig gögnum var safnað, þá að upplýsingar er hægt að nota þegar mat frá sýninu. Sú aðferð sem ég hef bara lýst, og að ég lýsa stærðfræðilega í tæknilega viðbætinum-fellur heiðarlega innan klassíska líkindaúrtaks ramma. Nú, ég sýna hvernig þessi sömu hugmynd er hægt að beita til að sýna ekki líkur.