3.4.1 analîzên berhevkirina daneyên û daneyên: Probability mînakan

Weights dikarin berovajî bi zanebûn ji aliyê pêvajoya mînakan ji ber betal bike.

Mînakên bi ihtîmaleke pir kesên ku hemû kesên xwedî zanîn, ne-sifir sîlahan ji qaîl in, û herî hêsan û design mînakan bi îhtimaleke hêsan e mînakan random ku her kesek bi îhtimaleke wekhev yên UNê. Dema ku beşdarên ku bi rêya mînakan random sade bi darvekirinê perfect (wek nimûne, tu error firehî û no non-bersiva) hilbijartin, paşê estimation nîn e, ji ber ku test dê-navînî-be a Versiyon ji bo xwebixwe ya gel.

Nimuneyên random hêsan e kêm caran di pratîkê de tê bikaranîn, lê belê. Lê belê, lêkolîner bi zanebûn mirov bi pêkanan newekhev yên UNê hilbijêre ji bo kêmkirina mesrefan û zêdekirina rastbûna. Dema ku lêkolîner bi zanebûn mirov bi pêkanan cuda yên UNê hilbijêre, paşê lihevanîna pêwîst in ji bo betal bike xirabbûna ji ber pêvajoya mînakan de. Bi gotineke din, çawa em ji test generalize girêdayî çawa ku test bête hilbijartin.

Ji bo nimûne, Survey niha nifûsa (ENA) ji aliyê hikûmeta amerîkî ji bo texmîn dikin ku rêjeya bêkariyê. Her meh li ser 100,000 kesan re hevdîtin bi, yan jî rû-bi-rû an li ser riya telefonê, û encam ji bo hilberîna rêjeya bêkariyê texmîn tê bikaranîn. Ji ber ku hikûmet dixwaze ku li gor dîtina rêjeya bêkariyê Di her dewletekê de jî, dikare mestereyeke hêsan ya mezinan ne ji ber ku ew jî çend beşdarên ku li dewletên ku nifûsa wan biçûk (wek nimûne, Rhode Island) û gelek ji dewletên ku nifûsa wan mezin nagre. (Wek mînak , California). Li şûna wê, testa şahîdîyê kes li dewletên cuda li rêjeyên cuda, pêvajoya bi navê mînakan biheketiye bi ihtîmaleke newekhev yên hilbijartinê. Ji bo nimûne, eger kesê xwest 2,000 pişikdaran per dewletê, paşê mezinan li Rhode Island, dê li ser 30 car mezintir sîlahan yên UNê ji mezinan li California hene (Rhode Island: 2,000 pişikdaran per 800,000 mezinan vs California: 2,000 pişikdaran per 30.000.000 mezinan). Wekî ku em piştre, wê bibînin, bi vî rengî ji mînakan bi ihtîmaleke ya newekhev ya diqewime bi jêderên online ên data jî, lê berevajiya şahîdîyê, mekanîzma mînakan de, pirê caran tê zanîn ne an, ji aliyê lêkolînera kontrolkirin.

Dayîn design mînakan xwe de, şahîdîyê e rasterast nûnerê yên Amerîkayê ne; jî tê de, gelek mirov jî ji Rhode Island û jî çend ji California. Ji ber vê yekê, ew dê wê qenaetê ku li gor dîtina rêjeya bêkariyê di welêt de bi rêjeya bêkariyê di mînaka. Li şûna ku maneya prov, çêtir e ku a ku maneya weighted, li cihê ku pîvan ji bo rastiyê hesabê kesên ku ji Rhode Island îhtîmaleke zêdetir ji kesan ji California ji di nav de bên bûn. Ji bo nimûne, her yekî ji California dê bibe upweighted- ew ê zêdetir li gor texmîna-û her yekî ji Rhode Island dê hesab downweighted-ku ew ê li gor texmîna kêmtir count. Di rastiyę de, te bi dengekî zêdetir ji bo kesên ku ji we kêmtir li ser hîn dayîn.

Ev nimûne toy h'ejmara xaleke girîng di heman demê de bi gelemperî, şaş fêm: test ne hewce be a Versiyon ji bo xwebixwe ya gel ji bo ku berhemên texmînên baş. Eger bes li ser çawa daneyên di hat naskirin, wê demê de ku agahî dikare were kirin dema çêkirina bi texmînî ji ku test tê bikaranîn. Nêzîkbûna ez dadmend-û kiriye, di çarçoveya mînakan bi îhtimaleke klasîk, ku ez ji matematîkê di teknîkî, hevpêçekî-dikeve pisîng. Niha, ez ê nîşan çawa ku fikra heman dikare were bi karanîn non-sîlahan sepandin.