3.4.1 Вероятност за вземане на проби: събиране и данни анализ на данни

Тежести да отмените изкривявания умишлено причинени от процеса на вземане на проби.

Случайни извадки са тези, където всички хора имат известно, различна от нула вероятност за включване, и най-простият дизайн случайни извадки е проста случайна извадка, където всеки човек има еднаква вероятност на включване. Когато участниците са избрани чрез проста случайна извадка с перфектно изпълнение (например, няма грешка покритие и не на липсата на отговор), след това оценка е ясна, тъй като пробата ще-средно-да миниатюрна версия на населението.

Обикновено случайна извадка се използва рядко в практиката, обаче. По-скоро, изследователи умишлено избират хора с неравни вероятностите за включване, за да се намалят разходите и да увеличи точността. Когато изследователите умишлено избират хора с различни вероятности за включване, след това са необходими корекции, за да отмените изкривяванията, причинени от процеса на вземане на проби. С други думи, как ние обобщаваме от проба зависи от начина на избиране на пробата.

Например, обзор на сегашното население (CPS) се използва от правителството на САЩ, за да се оцени нивото на безработица. Всеки месец около 100 000 души са интервюирани, или лице в лице или по телефона, а резултатите се използват за производството на очаквания процент на безработица. Тъй като правителството желае да оцени нивото на безработица във всяка държава, тя не може да направи една проста случайна извадка от възрастни, защото това би допринесло твърде малко респонденти в държави с малки популации (например, Роуд Айлънд) и твърде много от държавите с големи популации (например , Калифорния). Вместо това, CPS проби хора в различни държави на различни цени, процес, наречен стратифицирана извадка с неравно вероятност за подбор. Например, ако на CPS искаха 2000 респонденти на държава, тогава възрастни в Роуд Айлънд ще имат около 30 пъти по-висока вероятност за включване от възрастните в Калифорния (Роуд Айлънд: 2000 респонденти на 800,000 възрастни срещу Калифорния: 2000 респонденти на 30,000,000 възрастни). Както ще видим по-късно, този вид на вземане на проби с неравно вероятност се случва с онлайн източници на данни също, но за разлика от CPS, механизма за вземане на проби, обикновено не е известно или се контролира от изследователя.

Като се има предвид неговия дизайн за вземане на проби, ЦПС не е пряко представител на САЩ; тя включва прекалено много хора от Роуд Айлънд и твърде малко от Калифорния. Ето защо, би било неразумно да се оцени нивото на безработицата в страната с равнището на безработица в пробата. Вместо да означава проба, по-добре е да се вземе претеглена средна, където теглата сметка за факта, че хората от Роуд Айлънд е по-вероятно да бъдат включени от хора от Калифорния. Например, всеки човек от Калифорния ще бъде upweighted- те ще разчитат повече в цената-и всеки човек от Rhode Island ще бъде downweighted-те ще разчита по-малко в прогнозата. По същество, ви се предоставя повече глас на хората, които ви са по-малко вероятно да се запознаят.

Тази играчка пример илюстрира важен, но често неразбрани точка: проба не трябва да бъде миниатюрен вариант на населението, за да се произведе добри оценки. Ако достатъчно се знае за това как са събрани данните, след това тази информация може да се използва при извършване на оценки от пробата. Подходът аз току-що е описано-и, които ще опиша математически в техническото приложение-попада категорично в рамките на класическата случайни извадки. Сега, аз ще покажа как същата тази идея може да се прилага за не-случайни извадки.