3.4.3 Образцы невероятности: соответствие образца

Этот перевод был создан с помощью компьютера. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.3 Образцы невероятности: соответствие образца

Не все образцы невероятности одинаковы. Мы можем добавить больше контроля на переднем конце.

Подход Ван и его коллеги использовали для оценки итогов 2012 года президентских выборов в США полностью зависит от улучшения анализа данных. То есть, они собрали столько ответов, как они могли, а затем попытались повторно вес их. Дополнительный стратегией работы с отбором проб невероятности, чтобы иметь больший контроль над процессом сбора данных.

Простейший пример процесса отбора проб частично контролируемой невероятности квота выборки, метод , который восходит к ранним дням исследования обследования. В квотной выборке, исследователи делят население на различные группы (например, молодых мужчин, молодых женщин и т.д.), а затем установить квоты на количество людей, которые будут отобраны в каждой группе. Респонденты выбираются случайным образом, пока исследователь не выполнит свою квоту в каждой группе. Из-за квот, полученный образец больше похож целевой группы населения, чем было бы верно, в противном случае, а потому, что вероятности включения неизвестны многие исследователи скептически относятся к квотной выборке. На самом деле, отбор проб квота была причиной "Дьюи Поражения Трумэна" ошибка в 1948 году выборах президента США. Потому что она обеспечивает некоторый контроль над процессом отбора проб, однако, можно увидеть, как отбор проб квоты может иметь некоторые преимущества по сравнению с полностью неконтролируемой сбора данных.

Переход от квотной выборке, более современные подходы к управлению процессом выборки невероятности теперь возможны. Одним из таких подходов называется сопоставлением образец, и он используется некоторыми коммерческими провайдерами интернет - панели. В своей простейшей форме, согласование образца требует два источника данных: 1) полный реестр населения и 2) большая панель добровольцев. Важно, что добровольцы не должны быть вероятностной выборки из любой группы населения; чтобы подчеркнуть , что не существует каких - либо требований для выбора в панель, я буду называть его грязной панели. Кроме того, как регистр населения и грязная панель должна включать некоторую вспомогательную информацию о каждом человеке, в этом примере, я буду учитывать возраст и пол, но в реальных ситуациях эта вспомогательная информация может быть гораздо более подробными. Трюк соответствия образца, чтобы отобрать образцы из грязной панели таким образом , что производит образцы , которые выглядят как образцы вероятности.

соответствия образца начинается, когда имитируется вероятностная выборка берется из регистра населения; этот моделируемой образец становится мишенью образца. Затем, на основании вспомогательной информации, случаи в целевом образце сопоставляются с людьми в грязной панели , чтобы сформировать парную выборку. Например, если есть 25-летняя женщина в целевом образце, то исследователь находит 25-летней женщины из грязной панели, чтобы быть в согласованной выборки. Наконец, члены согласованного образца опрашиваются для получения окончательного набора респондентов.

Даже несмотря на то, что сопоставленный образец выглядит как целевая выборка, важно помнить, что сопоставленный образец не является вероятностной выборки. Подобранные образцы могут соответствовать только целевой выборки на известной вспомогательной информации (например, возраст и пол), но не на неизмеримое характеристик. Например, если люди на грязной панели, как правило, беднее, в конце концов, одна из причин, чтобы присоединиться к обследования панель, чтобы заработать деньги, то даже если согласованный образец выглядит как целевой выборки по полу и возрасту он все равно будет иметь уклон в сторону бедных людей. Магия истинной вероятностной выборки является, чтобы исключить проблемы на обоих измеренных и неизмеримое характеристик (точка, которая согласуется с нашей дискуссии согласования для причинного вывода из наблюдательных исследований, в главе 2).

На практике согласования образца зависит от наличия большой и разнообразной панели жаждущего завершить опросы, и, таким образом, это в основном делается компаниями, которые могут позволить себе развивать и поддерживать такую панель. Кроме того, на практике могут возникнуть проблемы с соответствием (иногда хороший матч для кого-то в целевом образце не существует на панели) и неответов (иногда люди в сопоставляемый отказаться от участия в опросе). Поэтому на практике, исследователи делают соответствие образца также выполнять какие-то корректировки после стратификации, чтобы сделать оценки.

Трудно дать полезные теоретические гарантии относительно соответствия образца, но на практике он может выполнять хорошо. Например, Стивен Ansolabehere и Брайан Schaffner (2014) сравнили три параллельных обследования около 1000 человек , проведенных в 2010 году с использованием трех различных методов отбора проб и интервью методы: почта, телефон, а также панель Интернет с помощью сопоставления образцов и корректировки после стратификации. Оценки из трех подходов, были весьма схожи с оценками из высококачественных тестов, таких как Текущее обследование населения (CPS) и интервью National Health Survey (NHIS). Более конкретно, как Интернет и почтовые опросы были выключены в среднем на 3 процентных пункта, а опрос телефон был отключен на 4 процентных пункта. Ошибки это большие примерно то, что можно было бы ожидать от образцов около 1000 человек. Хотя ни один из этих режимов производства существенно более точных данных, как Интернет и телефонный опрос (который прошел несколько дней или недель) были значительно быстрее поле, чем почтовый опрос (который взял восемь месяцев), а также опрос Интернет, который используется сопоставление выборки, было дешевле, чем в двух других режимах.

В заключение, социологи и статисты невероятно скептически относятся к выводам из этих образцов невероятности, отчасти потому , что они связаны с некоторыми смущающие неудач исследований обследования , таких как опрос Literary Digest. В частности, я согласен с этим скепсисом: нескорректированные образцы невероятности, скорее всего, для получения плохих оценок. Тем не менее, если исследователи могут отрегулировать для отклонениям в процессе отбора проб (например, пост-стратификации) или контролировать процесс отбора проб несколько (например, соответствующий образец), они могут производить более точные оценки, и даже оценки качества, достаточного для большинства целей. Конечно, это не было бы лучше, чтобы сделать безупречно выполненный вероятностную выборку, но это уже не по-видимому, является реалистичным вариантом.

Оба образца без вероятности и образцы вероятности различаются по качеству, и в настоящее время, вероятно, так, что большинство оценок из образцов вероятности являются более надежными, чем оценки из образцов невероятности. Но даже сейчас, по оценкам от хорошо проведенных проб без вероятности, вероятно, лучше, чем оценки из плохо проведенных проб вероятности. Кроме того, образцы невероятности существенно дешевле. Таким образом, представляется, что вероятность против выборки невероятности предлагает экономически качественный компромисс (Рисунок 3.6). Глядя в будущее, я ожидаю, что оценки от хорошо сделанных образцах без вероятности станет дешевле и лучше. Кроме того, из-за сбоев в работе стационарных телефонных опросов и возрастающих темпов неответов, я ожидаю, что образцы вероятности станет более дорогим и более низкого качества. Из-за этих долгосрочных тенденций, я думаю, что отбор проб не вероятностью будет приобретать все большее значение в третьей эпохе обзорного исследования.

Рисунок 3.6: Вероятность выборки на практике и выборки невероятности являются как крупные, неоднородные категории. В общем, есть стоимость ошибок компромисс с отбором проб, не вероятность быть более низкой стоимости, но выше ошибка. Тем не менее, хорошо прожаренный выборки без вероятности может привести к более точные оценки, чем плохо сделанной вероятностной выборки. В будущем, я ожидаю, что отбор проб без вероятности будет становиться все лучше и дешевле, в то время как вероятностная выборка будет еще хуже и дороже.