3.4.1 Аналіз збору і прадстаўлення дадзеных: Верагоднасць выбаркі

Масы могуць адмяніць скажэнні наўмысна выкліканыя працэсам ўзяцця пробаў.

Узоры верагоднасці з'яўляюцца тыя , дзе ўсе людзі маюць вядомую ненулявога верагоднасць ўключэння, і самы просты дызайн выбаркі верагоднасць просты выпадковай выбаркі , дзе кожны чалавек мае роўную верагоднасць ўключэння. Калі рэспандэнты выбіраюцца пры дапамозе простай выпадковай выбаркі з дасканалым выкананнем (напрыклад, без памылак і без пакрыцця неатрымання адказу), то ацэнка вельмі простая, паколькі выбарка будзе-у сярэднім-быць мініяцюрнай версіяй насельніцтва.

Простая выпадковая выбарка рэдка выкарыстоўваецца на практыцы, аднак. Хутчэй за ўсё, даследчыкі наўмысна выбраць людзей з няроўнай верагоднасцю ўключэння для таго, каб скараціць выдаткі і павысіць дакладнасць. Калі даследчыкі наўмысна выбраць людзей з рознымі верагоднасцямі ўключэння, то карэкціроўкі неабходныя, каб адмяніць скажэнні, выкліканыя працэсам ўзяцця пробаў. Іншымі словамі, як мы абагульняюць з ўзору залежыць ад таго, як быў абраны ўзор.

Напрыклад, Бягучы абследаванне насельніцтва (CPS) выкарыстоўваецца урадам ЗША для ацэнкі ўзроўню беспрацоўя. Кожны месяц каля 100 000 чалавек праходзяць сумоўе, альбо тварам да асобе ці па тэлефоне, а вынікі выкарыстоўваюцца для атрымання ацэненага ўзроўню беспрацоўя. Таму што ўрад хоча ацаніць узровень беспрацоўя ў кожнай дзяржаве, яно не можа зрабіць просты выпадковай выбаркі дарослых, таму што гэта дало б занадта мала рэспандэнтаў у краінах з невялікім насельніцтвам (напрыклад, Род-Айлэнд) і занадта шмат з краін з вялікай колькасцю насельніцтва (напрыклад, , Каліфорнія). Замест таго , КПС ўзоры людзей у розных штатах з рознай хуткасцю, гэты працэс называецца стратыфікаваная выбаркі з няроўнай верагоднасцю адбору. Напрыклад, калі КПС хацеў 2000 рэспандэнтаў у штаце, а затым дарослых у Род-Айлэнд будзе мець прыкладна ў 30 разоў вышэй верагоднасць ўключэння, чым дарослыя ў Каліфорніі (Род-Айлэнд: 2000 рэспандэнтаў на 800000 дарослых супраць Каліфорніі: 2000 рэспандэнтаў ва 30000000 дарослых). Як мы ўбачым пазней, гэты від выбаркі з няроўнай верагоднасцю адбываецца з інтэрнэт-крыніцамі дадзеных таксама, але ў адрозненне ад КПС, механізм адбору пробаў звычайна не вядомая або пад кантролем даследчыка.

Улічваючы дызайн выбаркі, Расспажыўнагляд не з'яўляецца непасрэдна прадстаўніком ЗША; яна ўключае ў сябе занадта шмат людзей з штата Род-Айлэнд і занадта мала з Каліфорніі. Такім чынам, было б неразумна, каб ацаніць узровень беспрацоўя ў краіне з узроўнем беспрацоўя ва ўзоры. Замест выбарачнага сярэдняга, то лепш узяць узважанае сярэдняе, дзе на долю вагі за тое, што людзі з Род-Айлэнд былі больш верагодна, будуць уключаны, чым людзі з Каліфорніі. Напрыклад, кожны чалавек з Каліфорніі будзе upweighted- яны будуць разлічваць больш у каштарысныя і кожнага чалавека з штата Род-Айлэнд будзе downweighted-то яны будуць залічвацца менш у ацэнцы. Па сутнасці, вы атрымліваеце больш пачуць галасы людзей, якія вы менш верагодна, каб даведацца пра.

Гэтая цацка прыклад ілюструе важны, але часта няправільна разумеецца: ўзор не павінен быць мініяцюрную версію насельніцтва з мэтай атрымання добрых ацэнак. Калі досыць вядома аб тым, як былі сабраныя дадзеныя, то гэтая інфармацыя можа быць выкарыстана пры правядзенні ацэнкі з ўзору. Падыход, які я толькі што апісаў, і што я матэматычна апісаць у тэхнічным дадатку, падае прама ў класічных рамках імавернаснай выбаркі. Цяпер я пакажу, як тая ж ідэя можа быць прыменена да ўзораў неверагоднасці.