3.4.1 Kâns sampling: gegevens samling en data analyze

Gewichten kinne jo it weromdraaie distortions opsetsin feroarsake troch de sampling proses.

Kâns gebrûk binne dy dêr't alle minsken hawwe in bekend, net-nul kâns fan yntegraasje, en it simpelste kâns sampling design is ienfâldige willekeurich sampling dêr't eltse persoan hat gelyk kâns fan yntegraasje. As respondinten binne selektearre fia ienfâldige willekeurige sampling mei folslein eksekúsje (bygelyks, gjin dekking flater en gjin net-antwurd), dan ynskatting is rjocht, omdat de stekproef sil-op gemiddeld-wêzen in miniatuur ferzje fan 'e befolking.

Simple willekeurige sampling wurdt komselden brûkt yn 'e praktyk, lykwols. Leaver, ûndersikers opsetsin selektearje minsken mei ûngelikense kānsen fan opnimmen yn om te ferminderjen kosten en tanimme krektens. Doe't ûndersikers opsetsin selektearje minsken mei ferskillende kānsen fan yntegraasje, dan oanpassings binne nedich om werom sette de distortions feroarsake troch de sampling proses. Yn oare wurden, hoe't wy generalisearje út in stekproef hinget ôf fan hoe't de stekproef waard selektearre.

Bygelyks, de Hjoeddeistige Befolking Survey (CPS) wurdt brûkt troch it Amerikaanske regear om skatte de wurkleazens. Elke moanne oer 100.000 minsken wurde ynterviewd, itsij face-to-face of oer de tillefoan, en de resultaten wurde brûkt om produsearje de rûsd wurkleazens. Om't de oerheid wol te skatten de wurkleazens yn elke steat, dat kin net dwaan in ienfâldige willekeurige stekproef fan folwoeksenen want dat soe opsmite te pear respondinten yn steaten mei lytse populaasjes (bygelyks, Rhode Island) en tefolle fan steaten mei grutte populaasjes (bgl , Kalifornje). Ynstee, de CPS gebrûk minsken yn ferskillende steaten op ferskillende prizen, in proses neamd stratified sampling mei ûngelikense kâns seleksje. Bygelyks, as de CPS woe 2.000 respondinten per steat, dan folwoeksenen yn Rhode Island soe hawwe sa'n 30 kear hegere kâns fan opnimmen as folwoeksenen yn Kalifornje (Rhode Island: 2.000 respondinten per 800.000 folwoeksenen vs California: 2.000 respondinten per 30.000.000 folwoeksenen). As wy sille sjen letter, dit soarte fan sampling mei ûngelikense kâns bart mei online boarnen fan gegevens ek, mar oars as it CPS, de sampling meganisme is meastentiids net bekend of regele troch de ûndersiker.

Mei it each op syn sampling ûntwerp, de CPS is net direkt fertsjintwurdiger fan de Amerikaanske; It omfiemet tefolle minsken út Rhode Island en te min fan Kalifornje. Dêrom, it soe wêze ûnferstannich te skatten de wurkleazens yn it lân mei de wurkleazens yn de stekproef. Yn stee fan it sample mean, is it better te nimmen in woegen midsmjittigens, dêr't de gewichten Registrearje foar it feit dat minsken út Rhode Island wienen mear kâns te wurde opnaam as minsken út California. Bygelyks, eltse persoan út California soe wêze upweighted- se soe telle mear yn de rûzing-en eltse persoan út Rhode Island soe wêze downweighted-se soene telle minder yn de rûzing. Yn wêzen, jo binne jûn mear stim oan minsken dy't jim binne minder kâns om te learen oer.

Dizze toy bygelyks yllustrearret in wichtich mar faak ferkeard begrepen wurden punt: in stekproef net nedich te wêzen in miniatuur ferzje fan de befolking om te produsearjen goed rûzings. As genôch is bekend oer hoe't de gegevens waard sammele, dan dat ynformaasje kin brûkt wurde as it meitsjen fan skattingen út de stekproef. De oanpak Ik haw krekt beskreaun-en dat ik beskriuwe wiskundich yn de technyske taheakke-falt squarely binnen de klassike kâns sampling ramt. No, ik sil sjen litte hoe't dat deselde gedachte kin tapast wurde nei net-kâns gebrûk.