3.4.1 Анализ сбора и представления данных: Вероятность выборки

Массы могут отменить искажения преднамеренно вызванные процессом взятия проб.

Образцы вероятности являются те , где все люди имеют известную ненулевая вероятность включения, и самый простой дизайн выборки вероятность простой случайной выборки , где каждый человек имеет равную вероятность включения. Когда респонденты выбираются при помощи простой случайной выборки с совершенным исполнением (например, без ошибок и без покрытия неполучения ответа), то оценка очень проста, поскольку выборка будет-в среднем-быть миниатюрной версией населения.

Простая случайная выборка редко используется на практике, однако. Скорее всего, исследователи намеренно выбрать людей с неравной вероятностью включения для того, чтобы сократить затраты и повысить точность. Когда исследователи намеренно выбрать людей с разными вероятностями включения, то корректировки необходимы, чтобы отменить искажения, вызванные процессом взятия проб. Другими словами, как мы обобщают из образца зависит от того, как был выбран образец.

Например, Текущее обследование населения (CPS) используется правительством США для оценки уровня безработицы. Каждый месяц около 100 000 человек проходят собеседование, либо лицом к лицу или по телефону, а результаты используются для получения оцененного уровня безработицы. Потому что правительство хочет оценить уровень безработицы в каждом государстве, оно не может сделать простой случайной выборки взрослых, потому что это дало бы слишком мало респондентов в странах с небольшим населением (например, Род-Айленд) и слишком много из стран с большой численностью населения (например, , Калифорния). Вместо того , КПС образцы людей в разных штатах с разной скоростью, этот процесс называется стратифицированной выборки с неравной вероятностью отбора. Например, если КПС хотел 2000 респондентов в штате, а затем взрослых в Род-Айленд будет иметь примерно в 30 раз выше вероятность включения, чем взрослые в Калифорнии (Род-Айленд: 2000 респондентов на 800000 взрослых против Калифорнии: 2000 респондентов в 30000000 взрослых). Как мы увидим позже, этот вид выборки с неравной вероятностью происходит с интернет-источниками данных тоже, но в отличие от КПС, механизм отбора проб обычно не известна или под контролем исследователя.

Учитывая дизайн выборки, Роспотребнадзор не является непосредственно представителем США; она включает в себя слишком много людей из штата Род-Айленд и слишком мало из Калифорнии. Таким образом, было бы неразумно, чтобы оценить уровень безработицы в стране с уровнем безработицы в образце. Вместо выборочного среднего, то лучше взять взвешенное среднее, где на долю веса за то, что люди из Род-Айленд были более вероятно, будут включены, чем люди из Калифорнии. Например, каждый человек из Калифорнии будет upweighted- они будут рассчитывать больше в сметные и каждого человека из штата Род-Айленд будет downweighted-то они будут засчитываться меньше в оценке. По сути, вы получаете больше услышать голоса людей, которые вы менее вероятно, чтобы узнать о.

Эта игрушка пример иллюстрирует важный, но часто неверно понимаемое: образец не должен быть миниатюрную версию населения с целью получения хороших оценок. Если достаточно известно о том, как были собраны данные, то эта информация может быть использована при проведении оценки из образца. Подход, который я только что описал, и что я математически описать в техническом приложении, падает прямо в классических рамках вероятностной выборки. Теперь я покажу, как та же идея может быть применена к образцам невероятности.