3.4 Хто запитати

Цифрова епоха робить візуалізацію вибірки на практиці важче і створює нові можливості для вибіркової вибірки.

В історії відбору проб були два конкуруючі підходи: методика вибірки ймовірності та вибіркові методи невизначеності. Хоча обидва підходи були використані в перші дні відбору проб, вибірка з імовірністю стала домінуючою, і багато соціальних дослідників навчаються розглядати невибіркові зразки з великим скептицизмом. Проте, як я описати нижче, зміни, створені цифровою епохою, означають, що настав час для дослідників переосмислити вибіркові зразки, що не є вірогідними. Зокрема, вибірку з імовірністю практично ускладнюється, а невибіркові зразки стають все швидше, дешевше і краще. Швидше та дешевше опитування не просто закінчуються самі по собі: вони дають нові можливості, такі як частіші обстеження та більші вибірки. Наприклад, за допомогою невихідних методів кооперативний вибірковий конгрес (CCES) може мати приблизно в 10 разів більшу кількість учасників, ніж попередні дослідження з використанням вибірки ймовірності. Цей набагато більший зразок дозволяє політичним дослідникам вивчати різноманітні відносини та поведінку у підгрупах та соціальних контекстах. Крім того, вся ця додана шкала прийшла без зниження якості оцінок (Ansolabehere and Rivers 2013) .

В даний час домінуючим підходом до вибірки для соціальних досліджень є вибірка імовірності . При вірогідності вибірки всі члени цільового населення мають відомі, відмінну від нуля вірогідність вибірки, і всі люди, які відібрані у вибірці, відповідають на опитування. Коли ці умови задовольняються, елегантні математичні результати пропонують доказуючі гарантії про здатність дослідника використовувати зразок, щоб зробити висновки щодо цільової аудиторії.

У реальному світі, однак, умови, що лежать в основі цих математичних результатів рідко зустрічаються. Наприклад, часто поширюються помилки та невідповідність. Через ці проблеми дослідникам часто доводиться застосовувати різноманітні статистичні коригування, щоб зробити висновок з їх вибірки на цільову аудиторію. Таким чином, важливо відрізняти теорію вибірки ймовірності , яка має сильні теоретичні гарантії, і вірогідність вибірки на практиці , яка не дає таких гарантій і залежить від різних статистичних коригувань.

З часом різниця між вибіркою ймовірності в теорії та вибіркою з ймовірністю на практиці зростає. Наприклад, частота невідповідності постійно зростала навіть у високоякісних, дорогих опитуваннях (рис. 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Темпи невідповідності значно вищі у комерційних опитуваннях по телефону - іноді навіть до 90% (Kohut et al. 2012) . Таке збільшення безвідповідальності загрожує якості оцінок, оскільки оцінки все більше залежать від статистичних моделей, які дослідники коригують для невідповідності. Крім того, це зниження якості відбулося, незважаючи на все більш дорогі зусилля опитаних дослідників, щоб підтримувати високий рівень відповіді. Деякі люди побоюються, що ці подвійні тенденції зниження якості та зростання вартості загрожують основою дослідницьких досліджень (National Research Council 2013) .

Рисунок 3.5: Невідповідність стає дедалі стабільнішим навіть у високоякісних дорогих опитуваннях (National Research Council 2013, Б. Д. Мейер, Мок і Салліван, 2015). Темпи невідповідності набагато вищі для обстежень комерційних телефонів, іноді навіть до 90% (Kohut et al., 2012). Ці довгострокові тенденції в разі відсутності відповіді означають, що збирання даних є більш дорогим та оцінки є менш надійними. Адаптовано з Б. Д. Мейера, Мока та Саллівана (2015), рис. 1.

Малюнок 3.5: Невідповідність стає дедалі стабільнішим навіть у високоякісних дорогих опитуваннях (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Темпи невідповідності набагато вищі для обстежень комерційних телефонів, іноді навіть до 90% (Kohut et al. 2012) . Ці довгострокові тенденції в разі відсутності відповіді означають, що збирання даних є більш дорогим та оцінки є менш надійними. Адаптовано з BD Meyer, Mok, and Sullivan (2015) , малюнок 1.

Одночасно з тим, що існують зростаючі труднощі з методами вірогідності вибірки, також спостерігалися хвилюючі зміни у методах вибіркової вибірки . Існує безліч стилів нестандартних методів відбору зразків, але єдине, що вони мають спільне, полягає в тому, що вони не можуть легко вписатися в математичну структуру вірогідності вибірки (Baker et al. 2013) . Інакше кажучи, у методах вибіркової вибірки, що не є ймовірністю, не всі мають відомі та ненульові ймовірності включення. Методи вибіркової вибірки, що не є вірогідними, мають жахливу репутацію серед соціальних дослідників, і вони пов'язані з деякими найбільш драматичними невдачами дослідницьких опитувань, такими як фіаско Літературного Дайджесту (обговорювалося раніше) та "Дьюї Поразки Трумена", неправильне передбачення щодо США президентські вибори 1948 року (рис. 3.6).

Рисунок 3.6: Президент Гаррі Трумен тримав заголовок газети, яка невірно оголосила про своє поразку. Цей заголовок був частково заснований на оцінках з невірних зразків (Mosteller 1949, Bean 1950, Freedman, Pisani і Purves 2007). Хоча Дьюї поразки Трумена стався в 1948 році, він все ще є однією з причин того, що деякі дослідники скептично ставляться до оцінок з невибіркових зразків. Джерело: бібліотека та музей Гаррі С. Трумена.

Рисунок 3.6: Президент Гаррі Трумен тримав заголовок газети, яка невірно оголосила про своє поразку. Цей заголовок був частково заснований на оцінках з (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) зразків (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) . Хоча "Дьюї поразки Трумена" сталося в 1948 році, це все ще є однією з причин того, що деякі дослідники скептично ставляться до оцінок з вибіркових зразків. Джерело: бібліотека та музей Гаррі С. Трумена .

Однією з форм невизначеною вибірки, яка особливо підходить для цифрового віку, є використання онлайнових панелей . Дослідники, які використовують онлайнові панелі, залежать від деяких постачальників панелей, як правило, компанії, уряду або університету, для побудови великої, різноманітної групи людей, які погоджуються служити респондентами для опитувань. Ці учасники панелі часто набираються за допомогою різноманітних спеціальних методів, таких як онлайн банерні об'яви. Тоді дослідник може заплатити провайдеру панелі для доступу до вибірки респондентів з бажаними характеристиками (наприклад, на національному рівні представник дорослих). Ці онлайн-панелі - це неефективні методи, оскільки не всі мають відомі, ненульові ймовірності включення. Незважаючи на те, що соціальні дослідники (наприклад, КСЕС) вже використовують онлайн-панелі, що не використовують вірогідність, все ще дебати про якість оцінок, що надходять від них (Callegaro et al. 2014) .

Незважаючи на ці дебати, я думаю, що є дві причини, чому для дослідників соціальної сфери потрібне переосмислення невизначеності вибірки. По-перше, в цифрову епоху, було зроблено багато подій у зборі та аналізі зразків невизначеності. Ці нові методи досить відрізняються від методів, які викликали проблеми в минулому, які, на мою думку, має сенс думати про них як про "невибіркові вибірки 2.0". Друга причина, чому дослідники повинні переглянути невизначувану вибірку, полягає в тому, що вибірка ймовірності в практика стає дедалі складнішою. Коли існують високі показники невідповідності, оскільки існують реальні обстеження, реальні ймовірнісні фактори включення для респондентів невідомі, і, таким чином, зразки ймовірності та вибіркові зразки не такі ймовірні, як це вважають багато дослідників.

Як я вже казав раніше, небажані зразки розглядаються з великим скептицизмом багатьох соціальних дослідників, частково через їхню роль у деяких найбільш незручних невдачах в перші дні обстеження. Яскравим прикладом того, наскільки далеко ми прийшли з невизначеними зразками, є дослідження Вей Вана, Девіда Ротшильда, Шарада Гоеля та Ендрю Гельмана (2015) котрі правильно відновили результати виборів у США на 2012 рік з використанням невибіркової вибірки Американські користувачі Xbox - це винятково випадкова вибірка американців. Дослідники набрали респондентів з ігрової системи XBox, і, як ви могли б очікувати, зразок Xbox зчепився чоловіки та перекошені молоді: 18- 29-річні складають 19% виборців, але 65% зразка Xbox, а чоловіки складають 47% виборців, але 93% зразка Xbox (рис 3.7). Через цих сильних демографічних упереджень дані сирої Xbox були поганим показником повернення виборів. Він передбачив сильну перемогу Мітта Ромні над Бараком Обамою. Знову ж таки, це ще один приклад небезпеки сировини, незрегульованого зразків невизначеності і нагадує фіаско Літературного дайджесту .

Малюнок 3.7: Демографія респондентів W. Wang et al. (2015 р.). Оскільки респонденти були залучені з XBox, вони, швидше за все, були молодими та, швидше за все, були чоловіками, порівняно з виборцями на виборах 2012 року. Адаптований з W. Wang та співавт. (2015 р.), Рис. 1.

Малюнок 3.7: Демографія респондентів W. Wang et al. (2015) . W. Wang et al. (2015) . Оскільки респонденти були залучені з XBox, вони, швидше за все, були молодими та, швидше за все, були чоловіками, порівняно з виборцями на виборах 2012 року. Адаптований з W. Wang et al. (2015) , Рис. 1.

Проте Ванг та його колеги були обізнані про ці проблеми та намагалися пристосуватись до їх не випадкової вибіркової процедури при складанні оцінок. Зокрема, вони використовували пост-стратифікацію , техніку, яка також широко використовується для коригування зразків вірогідності, які мають покривні похибки та без відповіді.

Основна ідея пост-стратифікації полягає у використанні допоміжної інформації про цільову популяцію, яка допоможе покращити оцінку, яка походить від вибірки. Використовуючи пост-стратифікацію, щоб скласти оцінки з їх невизначеною вибірки, Ванг і його колега руйнули населення до різних груп, оцінювали підтримку Обами в кожній групі, а потім взяли середнє значення серед групових оцінок, щоб отримати загальну оцінку. Наприклад, вони могли б розділити населення на дві групи (чоловіки та жінки), оцінювали підтримку Обами серед чоловіків і жінок, а потім оцінив загальну підтримку Обамі, взявши середньозважене значення для того, щоб врахувати той факт, що жінки роблять до 53% електорату та чоловіків - 47%. Грубо кажучи, пост-стратифікація допомагає виправити незбалансований зразок шляхом введення допоміжної інформації про розміри груп.

Ключ до пост-стратифікації полягає у формуванні правильних груп. Якщо ви можете підрізати населення до однорідних груп так, щоб схильності відповідей були однаковими для кожного в кожній групі, то пост-стратифікація дасть об'єктивну оцінку. Іншими словами, пост-стратифікація за статтю дасть об'єктивні оцінки, якщо всі чоловіки мають схильність до відповідей, і всі жінки мають однакову схильність до відповідей. Це припущення називається однорідним відгуком-схильністю- припущеннями всередині групи , і я описую його трохи більше в математичних примітках в кінці цієї глави.

Звичайно, малоймовірно, що схильність до відповідей буде однаковою для всіх чоловіків і всіх жінок. Однак припущення про гомогенну реакцію-схильність-всередині групи стає більш правдоподібним, оскільки збільшується кількість груп. Навряд чи стане легше рубати населення в однорідні групи, якщо ви створите більше груп. Наприклад, може здатися неправдоподібним те, що всі жінки мають однакову схильність до відповідей, але може здатися більш правдоподібним, що існує однакова схильність до реакції для всіх жінок віком від 18 до 29 років, які закінчили коледж і які живуть у Каліфорнії . Таким чином, оскільки кількість груп, що використовуються в пост-стратифікації, збільшується, припущення, необхідні для підтримки методу, стають більш розумними. Враховуючи цей факт, дослідники часто хочуть створити величезну кількість груп для пост-стратифікації. Однак, оскільки кількість груп збільшується, дослідники стикаються з іншою проблемою: інформативність даних. Якщо у кожній групі є лише невелика кількість людей, то оцінки будуть більш невизначеними, а в крайньому випадку, коли є група, у якої немає респондентів, то після стратифікації повністю розбивається.

Існує два шляхи виходу з цього внутрішнього напруження між достовірністю припущення однорідної реакції-схильності-всередині групи та попитом на обгрунтовані вибірки в кожній групі. По-перше, дослідники можуть збирати більше, більш різноманітний зразок, який допомагає забезпечити розумні вибірки в кожній групі. По-друге, вони можуть використовувати більш складну статистичну модель для складання оцінок у групах. І, фактично, іноді дослідники проводять обидва, як зробили Ванг та його колеги з вивченням виборів, використовуючи респондентів з Xbox.

Оскільки вони використовували нестандартний метод відбору з інтерв'ю з комп'ютером (я більше розповім про інтерв'ю з комп'ютером у розділі 3.5), Ванг та його колеги мали дуже недорогий збір даних, що дозволило їм збирати інформацію з 345 858 унікальних учасників , величезна кількість за стандартами виборчих дільниць. Цей масивний обсяг вибірки дозволив їм сформувати величезну кількість пост-стратифікаційних груп. Якщо пост-стратифікація зазвичай включає руйнування населення до сотень груп, Ван та його колеги розподілили населення на 176 256 груп, визначених за статтю (2 категорії), раси (4 категорії), віку (4 категорії), освіти (4 категорії), штату (51 категорія), партійний ідентифікатор (3 категорії), ідеологія (3 категорії) та 2008 голос (3 категорії). Інакше кажучи, їх величезний обсяг вибірки, який був включений за рахунок недорогих даних, дозволив їм зробити більш правдоподібне припущення в процесі їх оцінки.

Навіть із 345 858 унікальними учасниками, проте, ще було багато, багато груп, для яких у Ван та його колег практично не було респондентів. Тому вони використовували методику, яка називається багаторівневою регресією для оцінки підтримки в кожній групі. По суті, для оцінки підтримки Обами в рамках певної групи, багаторівнева регресія об'єднала інформацію з багатьох тісно пов'язаних груп. Наприклад, уявіть собі спробу оцінити підтримку Обамі серед жінок-іспаноянов 18-29 років, які є випускниками коледжів, які є зареєстрованими демократами, які самовизначуються як помірковані, і які голосували за Обаму у 2008 році. Це дуже , дуже специфічна група, і цілком можливо, що у зразку немає таких характеристик. Тому, щоб скласти оцінки щодо цієї групи, багаторівнева регресія використовує статистичну модель для об'єднання оцінок з людей у ​​дуже подібних групах.

Таким чином, Ванг та його колеги використовували підхід, який об'єднав багаторівневу регресію та пост-стратифікацію, тому вони назвали стратегію багаторівневою регресією з пост-стратифікацією або, більш ласкаво, "пан П. "Коли Ванг та його колеги використовували р-н П. для підрахунків з вибіркової вибірки XBox, вони оцінювали дуже близько до загальної підтримки Обами на виборах 2012 року (рис 3.8). Насправді їх оцінки були більш точними, ніж сукупність традиційних опитувань громадської думки. Таким чином, у цьому випадку статистичні коригування, зокрема, пан П., здається, роблять хорошу роботу, корегувавши упередження в даних невизначеності; упередження, які були чітко видно, коли ви дивитеся на оцінки з незмінених даних Xbox.

Малюнок 3.8: Оцінки з W. Wang et al. (2015 р.). Неурегульована вибірка XBox склала неточні оцінки. Але зважена зразка XBox склала оцінки, які були більш точними, ніж середній показник телефонних опитувань на основі імовірності. Адаптований з W. Wang та співавт. (2015 р.), Цифри 2 та 3.

Малюнок 3.8: Оцінки з W. Wang et al. (2015) . W. Wang et al. (2015) . Неурегульована вибірка XBox склала неточні оцінки. Але зважена зразка XBox склала оцінки, які були більш точними, ніж середній показник телефонних опитувань на основі імовірності. Адаптований з W. Wang et al. (2015) , Цифри 2 та 3.

Є два основних уроку з вивчення Ван та його колег. По-перше, незбалансовані зразки невизначеності можуть призвести до поганих оцінок; це урок, про який раніше почули багато дослідників. Другий урок, однак, полягає в тому, що вибіркові зразки, що не вірогідні, при правильному аналізі, дійсно можуть давати хороші оцінки; зразки невизначеності не повинні автоматично приводити до щось на зразок фіаско « Літературний дайджест» .

Якщо йти далі, якщо ви намагаєтеся вирішити, скориставшись підходом вибірки ймовірності, а також підходом вибіркової вибірки, то ви зіштовхнетеся зі складним вибором. Іноді дослідники прагнуть до швидкого і жорсткого правила (наприклад, завжди використовуйте методи вибірки вірогідності), але це все важче запропонувати. Дослідники стикаються з важким вибором між методами вірогідності вибірки на практиці, які стають дедалі дорожчими та далекими від теоретичних результатів, які обґрунтовують їх використання та неможливі вибіркові методи, які дешевше та швидше, але менш знайомі та різноманітніші. Одначе зрозуміло, що якщо ви змушені працювати з невизначеними зразками або непредставленими великими джерелами даних (див. Розділ 2), то є вагомі підстави вважати, що оцінки, зроблені з використанням пост-стратифікації та пов'язані з ним методи будуть кращими, ніж незмінними, необоротними оцінками.