3.4.1 Probabiliteti kampionimit: mbledhja e të dhënave dhe analiza e të dhënave

Peshat mund të prish deformime të shkaktuara qëllimisht nga procesi i marrjes së mostrave.

Mostrat probabiliteti janë ato ku të gjithë njerëzit kanë një të njohur, jo-zero mundësinë e përfshirjes, dhe më e thjeshtë projektimit probabiliteti mostrave është e thjeshtë mostrave të rastit, ku çdo person ka probabilitet të barabartë të përfshirjes. Kur të anketuarit janë zgjedhur përmes mostrimit të rastit të thjeshtë me ekzekutimin e përsosur (p.sh., nuk ka gabim mbulim dhe pa mospërgjigjes), vlerësimi është i drejtë, sepse mostra do-mesatarisht, të jetë një version miniaturë e popullsisë.

marrjen e mostrave e thjeshtë e rastit është përdorur shumë rrallë në praktikë, megjithatë. Përkundrazi, hulumtuesit qëllim të zgjedhur njerëzit me probabilities jo të barabarta të përfshirjes në mënyrë që të zvogëlojë koston dhe për të rritur saktësinë. Kur hulumtuesit qëllim të zgjedhur njerëzit me probabilitet të ndryshëm të përfshirë, atëherë rregullimet janë të nevojshme për të ndrequr shtrembërimet e shkaktuara nga procesi i marrjes së mostrave. Me fjalë të tjera, se si ne përgjithësojmë nga një mostër varet se si është përzgjedhur mostra.

Për shembull, Anketa popullsisë aktuale (CPS) është përdorur nga qeveria e SHBA për të vlerësuar shkallën e papunësisë. Çdo muaj rreth 100.000 njerëz janë intervistuar, ose ballë për ballë ose në telefon, dhe rezultatet janë përdorur për të prodhuar koeficientin e përafërt e papunësisë. Sepse qeveria dëshiron për të vlerësuar shkallën e papunësisë në çdo shtet, ajo nuk mund të bëjë një mostër të thjeshtë të rastit të rriturit, sepse kjo do të japin shumë pak të anketuarve në vendet me popullsi të vogël (p.sh., Rhode Island) dhe shumë e shumë nga shtetet me popullsi të mëdha (p.sh. , California). Në vend të kësaj, të mostrave CPS njerëzit në shtete të ndryshme në ritme të ndryshme, një proces i quajtur mostër shtresuar me probabilitet të pabarabartë të përzgjedhjes. Për shembull, në qoftë se CPS donin 2.000 të anketuarve në shtet, pastaj të rriturit në Rhode Island do të ketë rreth 30 herë më të madhe mundësinë e përfshirjes se sa të rriturit në Kaliforni (Rhode Island: 2,000 të anketuar për 800,000 rriturit vs Kaliforni: 2,000 të anketuar për 30.000.000 rriturit). Siç do të shohim më vonë, ky lloj i mostrave me probabilitet të pabarabartë ndodh me burime online të të dhënave gjithashtu, por ndryshe nga CPS, mekanizmi i marrjes së mostrave zakonisht nuk dihet ose kontrollohet nga studiues.

Duke pasur parasysh hartimin e saj marrjen e mostrave, CPS nuk është drejtpërdrejt përfaqësues i SHBA-ve; ajo përfshin shumë njerëz nga Rhode Island dhe shumë pak nga Kalifornia. Prandaj, do të ishte e mençur për të vlerësuar shkallën e papunësisë në vend me normën e papunësisë në mostër. Në vend të mesatares së mostrës, është më mirë për të marrë një mjet të ponderuar, ku pesha llogari për faktin se njerëzit nga Rhode Island kishin më shumë gjasa që të përfshihet sesa njerëz nga Kaliforni. Për shembull, çdo person nga Kalifornia do të ishte upweighted- ata do të llogarisin më në vlerësim-dhe çdo njeri nga Rhode Island do të downweighted, ata do të llogarisin më në vlerësim. Në thelb, ju janë dhënë më shumë zë për njerëzit që janë më pak gjasa për të mësuar në lidhje.

Ky shembull ilustron lodër një pikë të rëndësishme, por shpesh keqkuptuar: një mostër nuk ka nevojë të jetë një version miniaturë e popullsisë në mënyrë që të prodhojnë vlerësime të mira. Në qoftë se mjaft është i njohur për mënyrën se si janë mbledhur të dhënat, atëherë ky informacion mund të përdoret kur bën vlerësimet nga mostrës. Qasja e kam përshkruar, dhe vetëm se unë përshkruajnë matematikisht në teknik shtojcën-bie krejt në kuadrin klasike probabiliteti mostrave. Tani, unë do të tregoj se si kjo ide njëjta gjë mund të aplikohet për mostrat jo-probabilitetit.