3.4 Кто спросить

Цифровая эпоха усложняет выборку вероятностей и создает новые возможности для выборочного опроса без вероятности.

В истории выборки существовали два конкурирующих подхода: методы вероятностной выборки и методы выборочного опроса. Хотя оба подхода были использованы в первые дни отбора проб, выборка вероятности стала доминирующей, и многие социальные исследователи учатся рассматривать с большой вероятностью скептицизм. Однако, как я опишу ниже, изменения, создаваемые цифровой эпохой, означают, что настало время исследователям пересмотреть не вероятностную выборку. В частности, на практике практическая выборка вероятностей практически затруднилась, и выборка не-вероятности стала быстрее, дешевле и лучше. Более быстрые и более дешевые обследования - это не просто самоцель: они дают новые возможности, такие как более частые опросы и более крупные размеры выборки. Например, с помощью методов, не являющихся вероятными, совместное исследование по выборам в Конгрессе (CCES) может иметь примерно в 10 раз больше участников, чем в предыдущих исследованиях с использованием вероятностной выборки. Этот гораздо больший выбор позволяет политическим исследователям изучать различия в подходах и поведении в подгруппах и социальных контекстах. Кроме того, все эти добавленные масштабы пришли без снижения качества оценок (Ansolabehere and Rivers 2013) .

В настоящее время доминирующим подходом к выборке для социальных исследований является выборка вероятности . При выборке вероятности все члены целевой группы населения имеют известную, отличную от нуля вероятность отбора проб, и все опрошенные люди отвечают на опрос. Когда эти условия соблюдены, изящные математические результаты дают доказуемые гарантии относительно способности исследователя использовать образец для выводов о целевой популяции.

Однако в реальном мире условия, лежащие в основе этих математических результатов, редко встречаются. Например, часто возникают ошибки покрытия и неответ. Из-за этих проблем исследователям часто приходится применять различные статистические корректировки, чтобы сделать вывод из своей выборки целевой аудитории. Таким образом, важно различать вероятностную выборку в теории , которая имеет сильные теоретические гарантии и вероятностную выборку на практике , которая не предлагает таких гарантий и зависит от множества статистических корректировок.

Со временем различия между вероятностной выборкой в ​​теории и вероятностной выборкой на практике возрастают. Например, неудовлетворительные показатели неуклонно возрастают даже в высококачественных дорогостоящих обследованиях (рисунок 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Частота отсутствия ответов намного выше в коммерческих телефонных опросах - иногда даже до 90% (Kohut et al. 2012) . Эти увеличения неответности угрожают качеству оценок, поскольку оценки все в большей степени зависят от статистических моделей, которые исследователи используют для корректировки на отсутствие ответов. Кроме того, это снижение качества произошло, несмотря на все более дорогостоящие усилия исследователей-исследователей для поддержания высоких показателей ответов. Некоторые люди опасаются, что эти двойные тенденции снижения качества и увеличения стоимости угрожают основанию исследовательских исследований (National Research Council 2013) .

Рисунок 3.5: Неотвечаемость неуклонно возрастала даже в высококачественных дорогостоящих обследованиях (National Research Council 2013, B. D. Meyer, Mok, and Sullivan 2015). Частота отсутствия ответов намного выше при опросах коммерческих телефонов, иногда даже до 90% (Kohut et al., 2012). Эти долгосрочные тенденции в области отсутствия ответов означают, что сбор данных дороже, а оценки менее надежны. Адаптировано из B. D. Meyer, Mok и Sullivan (2015), рис. 1.

Рисунок 3.5: Неотвечаемость неуклонно возрастала даже в высококачественных дорогостоящих обследованиях (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Частота отсутствия ответов намного выше при опросах коммерческих телефонов, иногда даже до 90% (Kohut et al. 2012) . Эти долгосрочные тенденции в области отсутствия ответов означают, что сбор данных дороже, а оценки менее надежны. Адаптировано из BD Meyer, Mok, and Sullivan (2015) , рисунок 1.

В то же время , что растет трудность методов вероятностной выборки, существует также захватывающие изменения в методах выборки невероятности. Существует множество стилей методов опробования без вероятности, но единственное, что у них общего, это то, что они не могут легко вписаться в математическую структуру выборки вероятности (Baker et al. 2013) . Другими словами, при не вероятностных методах выборки не все имеют известную и отличную от нуля вероятность включения. Методы выборочного опроса, не являющиеся вероятными, имеют ужасную репутацию среди социальных исследователей, и они связаны с некоторыми из самых драматических неудач исследователей исследования, такими как фиаско Литературного Дайджеста (ранее обсуждалось) и «Дьюи Поражает Трумэна», неправильное предсказание о США президентских выборов 1948 года (рисунок 3.6).

Рисунок 3.6: Президент Гарри Трумэн поднял заголовок газеты, которая неправильно объявила о своем поражении. Этот заголовок был частично основан на оценках из образцов, не являющихся вероятными (Mosteller 1949; Bean 1950, Freedman, Pisani и Purves 2007). Хотя Дьюи Поражает Трумэна, произошедшего в 1948 году, по-прежнему среди причин, по которым некоторые исследователи скептически относятся к оценкам от образцов, не являющихся вероятными. Источник: Библиотека и музей Гарри С. Трумэна.

Рисунок 3.6: Президент Гарри Трумэн поднял заголовок газеты, которая неправильно объявила о своем поражении. Этот заголовок был частично основан на оценках из образцов, не (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) . Хотя «Дьюи Поражает Трумэна» произошло в 1948 году, по-прежнему среди причин, по которым некоторые исследователи скептически относятся к оценкам от образцов, не являющихся вероятностями. Источник: Библиотека и музей Гарри С. Трумэна .

Одной из форм выборки, которая не является вероятностью, которая особенно подходит для цифрового возраста, является использование онлайн-панелей . Исследователи, использующие онлайн-панели, зависят от поставщика какой-либо группы - обычно от компании, правительства или университета - для создания большой группы людей, которые согласны выступать в качестве респондентов для опросов. Эти участники панели часто набираются с использованием различных специальных методов, таких как онлайн-баннерная реклама. Затем исследователь может заплатить поставщику панели за доступ к выборке респондентов с желаемыми характеристиками (например, национальными представителями взрослых). Эти онлайн-панели являются не-вероятностными методами, потому что не у всех есть известная, отличная от нуля вероятность включения. Хотя не-вероятные онлайн-панели уже используются социальными исследователями (например, CCES), все же есть некоторые дебаты о качестве оценок, которые поступают от них (Callegaro et al. 2014) .

Несмотря на эти дебаты, я думаю, что есть две причины, по которым время для социальных исследователей подходит для пересмотра выборки, не связанной с вероятностью. Во-первых, в эпоху цифровых технологий было много событий в области сбора и анализа образцов, не являющихся вероятными. Эти новые методы отличаются от методов, которые в прошлом вызывали проблемы, и я думаю, что имеет смысл думать о них как о «невероятной выборке 2.0». Вторая причина, по которой исследователи должны пересмотреть выборку, отличную от вероятности, состоит в том, что вероятностная выборка в практика становится все труднее. Когда есть высокие темпы отсутствия ответа - как сейчас есть в реальных опросах, фактические вероятности включения для респондентов неизвестны, и, следовательно, образцы вероятности и образцы не-вероятности не так сильно отличаются от многих исследователей.

Как я уже говорил ранее, образцы не-вероятности с большим скептицизмом рассматриваются многими социальными исследователями, отчасти из-за их роли в некоторых из самых смущающих неудач в первые дни исследований исследования. Ярким примером того, насколько далеко мы пришли с примерами, отличными от вероятности, являются исследования Вэй Ванга, Дэвида Ротшильда, Шарада Гола и Эндрю Гельмана (2015) Andrew Gelman, (2015) которые правильно вернули результаты выборов в США в 2012 году с использованием невероятной выборки Американские пользователи Xbox - явно неслучайная выборка американцев. Исследователи вербовали респондентов из игровой системы XBox, и, как вы могли ожидать, образец Xbox исказил мужчин и перекосил молодых: от 18 до 29-летних составляют 19% от электората, но 65% от образца Xbox, а мужчины составляют 47% электората, но 93% выборки Xbox (рисунок 3.7). Из-за этих сильных демографических предубеждений необработанные данные Xbox были слабым индикатором результатов выборов. Он предсказал сильную победу Митта Ромни над Бараком Обамой. Опять же, это еще один пример опасностей необработанных, нескорректированных образцов без вероятности и напоминает фиаско « Литературный дайджест» .

Рисунок 3.7: Демография респондентов в W. Wang et al. (2015). Поскольку респонденты были набраны из XBox, они были более склонны быть молодыми и, скорее всего, мужчинами по сравнению с избирателями на выборах 2012 года. Адаптировано из W. Wang et al. (2015 г.), рис. 1.

Рисунок 3.7: Демография респондентов в W. Wang et al. (2015) . Поскольку респонденты были набраны из XBox, они были более склонны быть молодыми и, скорее всего, мужчинами по сравнению с избирателями на выборах 2012 года. Адаптировано из W. Wang et al. (2015) , рис. 1.

Тем не менее, Ван и его коллеги знали об этих проблемах и пытались приспособиться к их неслучайному процессу отбора проб при составлении оценок. В частности, они использовали постстратификацию , метод, который также широко используется для корректировки вероятностных выборок, которые имеют ошибки покрытия и отсутствие ответа.

Основная идея постстратификации - использовать вспомогательную информацию о целевой популяции, чтобы помочь улучшить оценку, полученную из выборки. При использовании пост-стратификации для оценки своих выборок, не связанных с вероятностью, Ван и его коллега нарезали население в разные группы, оценивали поддержку Обамы в каждой группе, а затем взвешивали среднюю оценку группы для получения общей оценки. Например, они могли бы разделить население на две группы (мужчины и женщины), оценили поддержку Обамы среди мужчин и женщин, а затем оценили общую поддержку Обамы, взяв средневзвешенный показатель, чтобы учесть тот факт, что женщины делают 53% избирателей и 47%. Грубо говоря, постстратификация помогает исправить несбалансированный образец, введя вспомогательную информацию о размерах групп.

Ключом к постстратификации является формирование правильных групп. Если вы можете нарезать популяцию в однородные группы, так что склонности к ответам одинаковы для всех в каждой группе, тогда пост-стратификация приведет к непредвзятым оценкам. Другими словами, пост-стратификация по полу приведет к непредвзятым оценкам, если у всех мужчин есть склонность к ответу, и у всех женщин такая же склонность к ответу. Это предположение называется предположением однородности-отклика-наклонности внутри группы , и я описываю его немного больше в математических заметках в конце этой главы.

Конечно, маловероятно, что склонность к ответам будет одинаковой для всех мужчин и всех женщин. Однако предположение о гомогенности-отклике-наклонностях внутри группы становится более правдоподобным по мере увеличения числа групп. Грубо говоря, становится легче обрезать популяцию в однородные группы, если вы создаете больше групп. Например, может показаться неправдоподобным, что все женщины имеют одинаковую склонность к ответам, но может показаться более правдоподобным, что существует та же самая склонность к ответам для всех женщин в возрасте 18-29 лет, окончивших колледж и живущих в Калифорнии , Таким образом, по мере увеличения числа групп, используемых в постстратификации, предположения, необходимые для поддержки метода, становятся более разумными. Учитывая этот факт, исследователи часто хотят создать огромное количество групп для пост-расслоения. Однако по мере увеличения количества групп исследователи сталкиваются с другой проблемой: редкостью данных. Если в каждой группе будет только небольшое число людей, то оценки будут более неопределенными, и в крайнем случае, когда есть группа, у которой нет респондентов, после этого стратификация полностью разрушается.

Существует два выхода из этой неотъемлемой напряженности между правдоподобием предположения о гомогенной реакции-склонности к внутригрупповой группе и потребностью в разумных размерах выборки в каждой группе. Во-первых, исследователи могут собирать более крупный, более разнообразный образец, который помогает обеспечить разумные размеры выборки в каждой группе. Во-вторых, они могут использовать более сложную статистическую модель для составления оценок внутри групп. И, по сути, иногда исследователи делают и то, и другое, как Ван и его коллеги, изучая выборы, используя респондентов из Xbox.

Поскольку они использовали метод опробования без вероятности с компьютерными интервью (я расскажу больше об интервью с компьютером в разделе 3.5), у Ванга и его коллег был очень недорогой сбор данных, что позволило им собирать информацию у 345 858 уникальных участников , огромное количество по стандартам избирательного опроса. Этот массивный размер выборки позволил им сформировать огромное количество групп после стратификации. В то время как постстратификация обычно включает избиение населения в сотни групп, Ван и его коллеги разделили население на 176 256 групп, определяемых по полу (2 категории), расы (4 категории), возраста (4 категории), образования (4 категории), штата (51 категория), идентификатор партии (3 категории), идеология (3 категории) и голосование в 2008 году (3 категории). Другими словами, их огромный размер выборки, который был включен благодаря недорогому сбору данных, позволил им сделать более правдоподобное предположение в процессе оценки.

Однако даже с 345 858 уникальными участниками было еще много, много групп, для которых Ван и его коллеги почти не имели респондентов. Поэтому они использовали метод, называемый многоуровневой регрессией, для оценки поддержки в каждой группе. По существу, чтобы оценить поддержку Обамы в рамках конкретной группы, многоуровневая регрессия объединяет информацию из многих тесно связанных групп. Например, представьте себе попытку оценить поддержку Обамы среди женщин-латиноамериканцев в возрасте от 18 до 29 лет, которые являются выпускниками колледжей, которые являются зарегистрированными демократами, которые сами идентифицируются как умеренные, и которые проголосовали за Обаму в 2008 году. Это очень , очень специфическая группа, и вполне возможно, что в выборке нет ни одного из этих признаков. Поэтому для оценки оценок этой группы многоуровневая регрессия использует статистическую модель для объединения оценок, полученных от людей в очень похожих группах.

Таким образом, Ван и его коллеги использовали подход, который сочетал многоуровневую регрессию и постстратификацию, поэтому они назвали свою стратегию многоуровневой регрессией с пост-расслоением или, более ласково, «г-н P. «Когда Ван и его коллеги использовали г-на П. для оценки оценок, полученных с помощью невероятной выборки XBox, они дали оценки, очень близкие к общей поддержке, которую Обама получил на выборах 2012 года (рисунок 3.8). Фактически их оценки были более точными, чем совокупность традиционных опросов общественного мнения. Таким образом, в этом случае статистические корректировки, в частности г-н П., как представляется, делают хорошую работу по исправлению смещений в данных, не связанных с вероятностью; которые были хорошо видны, когда вы смотрите на оценки из нескорректированных данных Xbox.

Рисунок 3.8: Оценки от W. Wang et al. (2015). Нерегулируемый образец XBox произвел неточные оценки. Но взвешенная модель XBox давала оценки, которые были более точными, чем среднее число телефонных опросов, основанных на вероятности. Адаптировано из W. Wang et al. (2015), рисунки 2 и 3.

Рисунок 3.8: Оценки от W. Wang et al. (2015) . Нерегулируемый образец XBox произвел неточные оценки. Но взвешенная модель XBox давала оценки, которые были более точными, чем среднее число телефонных опросов, основанных на вероятности. Адаптировано из W. Wang et al. (2015) , рисунки 2 и 3.

Есть два основных урока из исследования Ванга и его коллег. Во-первых, нескорректированные образцы без вероятности могут привести к плохим оценкам; это урок, который многие исследователи слышали раньше. Второй урок, однако, состоит в том, что образцы с не вероятностью при правильном анализе могут действительно давать хорошие оценки; не-вероятные образцы не должны автоматически приводить к чему-то вроде фиаско Литературного Дайджеста .

Если вы попытаетесь решить, используя подход с вероятностной выборкой и подход, основанный на небезопасности, вы сталкиваетесь с трудным выбором. Иногда исследователи нуждаются в быстром и жестком правиле (например, всегда используют методы вероятностной выборки), но все же сложнее предложить такое правило. Исследователи сталкиваются с трудным выбором между методами вероятностной выборки на практике, которые становятся все более дорогостоящими и далеки от теоретических результатов, которые оправдывают их методы использования и не вероятности, которые дешевле и быстрее, но менее знакомы и более разнообразны. Ясно одно, однако, что если вы вынуждены работать с примерами не-вероятности или нерепрезентативными большими источниками данных (вспомните главу 2), тогда есть веская причина полагать, что оценки, сделанные с использованием постстратификации и связанные с ними, будут лучше, чем нескорректированные, необработанные оценки.