3.4.1 теоријата на веројатност: собирање на податоци и анализа на податоци

Овој превод е создаден од страна на компјутер. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.1 теоријата на веројатност: собирање на податоци и анализа на податоци

Тежини може да го вратите нарушувања намерно предизвикана од процесот на земање примероци.

Веројатност примероци се оние каде што сите луѓе имаат познати, не-нулта веројатност за вклучување, и наједноставен дизајн на веројатност е едноставен случаен примерок каде што секој човек има еднакви веројатноста за вклучување. Кога испитаниците се избрани по пат на случаен избор за земање примероци со совршен извршување (на пример, нема грешка покриеност, а не не-одговор), а потоа проценка е јасна, бидејќи примерокот ќе, во просек, да биде некој вид на минијатурна верзија на населението.

Едноставен случаен избор ретко се користи во пракса, сепак. Наместо тоа, истражувачите намерно да изберете лица во нерамноправна веројатностите на исклучување, со цел да се намалат трошоците и да се зголеми точноста. Кога истражувачите намерно изберете луѓе со различни веројатности за вклучување, тогаш се потребни прилагодувања за да се вратите на нарушувања предизвикани од процесот на земање примероци. Со други зборови, како ние се генерализира од примерок зависи од тоа колку беше избран примерок.

На пример, истражувањето на сегашната популација (CPS) се користи од страна на американската влада за да се процени стапката на невработеност. Секој месец околу 100.000 луѓе се интервјуирани, или лице-в-лице или по телефон, а резултатите се користи за производство на проценетата стапка на невработеност. Поради тоа што владата сака да се процени стапката на невработеност во секоја држава, тоа не може да се направи едноставна случаен примерок од возрасните, бидејќи тоа ќе донесе многу малку испитаници во државите со мали популации (на пример, Род Ајленд) и многу од државите со големи популации (на пример, , Калифорнија). Наместо тоа, CPS примероци на луѓето во различни држави со различна брзина, процес наречен стратификуван земање примероци со нееднаков веројатност за селекција. На пример, ако на Стратегијата сакаше 2.000 испитаници на државата, тогаш возрасни лица во Род Ајленд ќе има околу 30 пати поголема веројатност за вклучување од возрасните во Калифорнија (Род Ајленд: 2.000 испитаници по 800.000 возрасни vs Калифорнија: 2.000 испитаници по 30.000.000 возрасни). Како што ќе видиме подоцна, овој вид на земање примероци со нееднаков веројатност случува со онлајн извори на податоци, исто така, но за разлика од Стратегијата, механизам за земање примероци обично не е познат или контролирани од страна на истражувачот.

Со оглед на неговиот дизајн за земање мостри, СПЗ не е директно претставник на САД; тоа вклучува многу луѓе од Род Ајленд и премалку од Калифорнија. Затоа, тоа ќе биде мудро да се процени стапката на невработеност во земјата, со стапка на невработеност во примерокот. Наместо на средна вредност, тоа е подобро да се земе пондерирана аритметичка средина, каде тежините сметка за фактот дека луѓето од Род Ајленд се со поголема веројатност да бидат вклучени од луѓе од Калифорнија. На пример, секој човек од Калифорнија ќе биде upweighted- тие ќе брои повеќе во проценката, и секој човек од Род Ајленд ќе биде downweighted, тие ќе брои помалку во проценката. Во суштина, ќе се даде повеќе глас на луѓето кои се со помала веројатност да се запознаат.

Оваа играчка пример ги илустрира важна но најчесто неразбран точка: мостра не треба да биде некој вид на минијатурна верзија на населението, со цел да се произведе добар проценки. Ако се знае доволно за тоа како се собрани податоците, тогаш таа информација може да се користи кога се вршат проценки од примерокот. Пристапот што го опишавме, и дека јас го опишам математички во техничките Додаток паѓа точно во рамките на класичната теоријата на веројатност. Сега, јас ќе се покаже како таа иста идеја може да се примени на не-веројатност примероци.