3.4 Хто запитати

Зразки ймовірності і зразки неймовірності не відрізняються на практиці; в обох випадках, це все про ваги.

Відбір проб має фундаментальне значення для обстеження досліджень. Дослідники майже ніколи не задавати питання всім в своїй цільової групи населення. У зв'язку з цим, дослідження не є чимось унікальним. Більшість досліджень, в тій чи іншій мірі, включає в себе відбір проб. Іноді це робиться вибірка явно дослідником; іноді це відбувається неявно. Наприклад, дослідник, який працює лабораторний експеримент на студентів в своєму університеті також брав зразок. Таким чином, вибірка є проблемою, яка приходить на протязі всієї книги. Насправді, одна з найбільш поширених проблем, які я чую про цифрових джерелах вікових даних "вони не є репрезентативними." Як ми побачимо в цьому розділі, ця проблема є і менш серйозними і більш тонкі, ніж багато скептиків розуміють. Насправді, я буду стверджувати, що вся концепція "репрезентативності" не корисно думати про ймовірність і не імовірнісних вибірок. Замість цього, ключ повинен думати про те, як були зібрані дані і як будь-які перекоси в цій колекції даних можуть бути скасовані при проведенні оцінок.

В даний час домінує теоретичний підхід до подання є імовірнісна вибірка. Коли дані збираються за допомогою методу імовірнісної вибірки, яка була прекрасно виконана, дослідники можуть зважувати свої дані на основі так, щоб вони були зібрані, щоб зробити незсунені оцінки про цільової популяції. Однак ідеальний імовірнісна вибірка в принципі ніколи не відбувається в реальному світі. Є , як правило , дві основні проблеми : 1) відмінності між цільової групи населення і населення кадрів і 2) неотримання відповідей (це саме ті проблеми , які руйнували опитування Literary Digest). Таким чином, замість того, щоб думати про ймовірнісної вибірки як реалістичної моделі того, що насправді відбувається в світі, то краще думати про ймовірнісної вибірки як корисний, абстрактної моделі, так само, як те, як фізики думають про нев'язкої кулі котяться нескінченно довго рампи.

Альтернативою ймовірнісної вибірки є вибірка без ймовірності. Основна відмінність між ймовірністю і вибірки неймовірності є те, що з імовірністю вибірки всіх в популяції має відому ймовірність включення. Є, насправді, багато різновидів вибірки неймовірності, і ці методи збору даних стають все більш поширеними в епоху цифрових технологій. Але, відбір проб без ймовірності має жахливу репутацію серед соціологів і статистиків. Насправді, відбір проб , не вірогідність , пов'язане з деякими з найбільш драматичних невдач дослідників обстежень, таких як фіаско Literary Digest (обговорювалося раніше) і неправильного передбачення про президентські вибори в США 1948 роки ( "Дьюї Поразки Трумена") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .

Проте, настав час переглянути вибірки без ймовірності з двох причин. По-перше, в якості зразків ймовірності стають все більш важко зробити на практиці, лінія між зразками ймовірності і зразків неймовірності розмивається. Коли є високі показники неотримання відповідей (як є в реальних обстежень в даний час), фактична ймовірність включень для респондентів не відомі, і, таким чином, зразки ймовірності і зразки неймовірності не настільки різні, як вважають багато дослідників. Насправді, як ми побачимо нижче, обидва підходи в основному покладаються на тому ж методі оцінки: після стратифікації. По-друге, було багато розробок в області збору та аналізу проб неймовірності. Ці методи досить відрізняються від методів, які викликали проблеми в минулому, що я думаю, що це має сенс думати про них як "неймовірності вибірки 2.0." Ми не повинні мати ірраціональне огиду до методів без ймовірності через помилки, які сталися давним-давно.

Далі, для того, щоб зробити цей аргумент більш конкретним, я розгляну стандартної ймовірності вибірки і ваг (розділ 3.4.1). Ключова ідея полягає в тому, що, як ви зібрали дані повинні впливати, як ви робите оцінки. Зокрема, якщо всі не мають однакову ймовірність включення, то все не повинні мати однакову вагу. Іншими словами, якщо ваша вибірка не є демократичним, то ваші оцінки не повинні бути демократичними. Після розгляду зважування, я опишу два підходи до відбору проб неймовірності: один, який фокусується на зважування, щоб мати справу з проблемою безсистемно зібраних даних (розділ 3.4.2), і той, який намагається встановити більш повний контроль над тим, як дані зібрані (розділ 3.4.3). Аргументи в основному тексті буде роз'яснено нижче зі словами та малюнками; Читачі, які хотіли б більше математичну обробку слід також в технічному додатку.