3.4.2 Зразки неймовірності: зважування

Цей переклад був створений за допомогою комп'ютера. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.2 Зразки неймовірності: зважування

З допомогою зразків неймовірності, ваги можуть скасувати спотворення , викликані передбачуваним процесом відбору проб.

Таким же чином, що дослідники вагою відповідей із зразків ймовірності, вони також можуть важити відповіді від зразків неймовірності. Наприклад, в якості альтернативи КПА, уявіть, що ви розмістили банери на тисячах веб-сайтів для набору учасників для обстеження з метою оцінки рівня безробіття. Природно, ви б скептично, що просте середнє вашої вибірки буде гарною оцінкою рівня безробіття. Ваш скептицизм, ймовірно, тому що ви думаєте, що деякі люди, більш імовірно, щоб завершити обстеження, ніж інші. Наприклад, люди, які не проводять багато часу в Інтернеті, менш імовірно, щоб завершити обстеження.

Як ми бачили в попередньому розділі, однак, якщо ми знаємо, як був обраний, як зразок ми робимо з ймовірністю зразків, то ми можемо скасувати спотворення, викликані процесом взяття проб. На жаль, при роботі зі зразками без ймовірності, ми не знаємо, як був обраний зразок. Але, ми можемо зробити припущення щодо процесу відбору проб, а потім застосувати зважування таким же чином. Якщо ці припущення вірні, то зважування скасує спотворення, викликані процесом взяття проб.

Наприклад, уявіть собі, що у відповідь на ваші рекламні банери, ви набрані 100000 респондентів. Тим не менш, ви не вірите, що ці 100000 респондентів проста випадкова вибірка дорослих американців. Насправді, якщо порівняти ваші респондентів населення США, ви виявите, що люди з деяких країн (наприклад, Нью-Йорк) надмірно представлені і що люди з деяких країн (наприклад, на Алясці) недостатньо представлені. Таким чином, рівень безробіття у вашій вибірці, ймовірно, буде поганою оцінкою рівня безробіття в цільовій групі населення.

Один із способів, щоб скасувати спотворення, що відбувалося в процесі відбору проб, щоб призначити ваги кожній людині; нижчі ваги для людей з країн, які надмірно представлені в зразку (наприклад, Нью-Йорк) і більш високі ваги для людей з країн, які недостатньо представлені в зразку (наприклад, на Алясці). Більш конкретно, вага для кожного респондента пов'язано з їх поширеності в вашому зразку в порівнянні з їх поширеності в популяції США. Ця процедура зважування називається постстратіфікація, і ідея зважування повинна нагадати вам , наприклад , в розділі 3.4.1 , де респонденти з Род - Айленд отримали меншу вагу , ніж респонденти з Каліфорнії. Постстратіфікація вимагає, щоб ви знаєте достатньо, щоб покласти респондентів на групи і знати частку цільової групи населення в кожній групі.

Незважаючи на те, зважування зразка ймовірності і вибірки неймовірності одні і ті ж математично (див технічне додаток), вони добре працюють в різних ситуаціях. Якщо дослідник має досконалу вірогідну вибірку (тобто без помилок покриття і не без відповіді), то зважування буде виробляти об'єктивну оцінку всіх ознак у всіх випадках. Ця сильна теоретична гарантія, чому захисники зразків ймовірності знайти їх такими привабливими. З іншого боку, зважування зразків без ймовірності буде виробляти тільки об'єктивні оцінки за всіма ознаками, якщо нахили відповіді є однаковими для всіх в кожній групі. Іншими словами, подумки повертаючись до нашого прикладу, використовуючи постстратіфікація буде виробляти об'єктивну оцінку, якщо все в Нью-Йорку, має ту ж імовірність участі і все на Алясці має ту ж імовірність участі і так далі. Це припущення називається гомогенні-реакція-нахили-внутрішньо-груп припущення, і воно відіграє ключову роль в пізнанні , якщо постстратіфікація буде добре працювати зі зразками без ймовірності.

На жаль, в нашому прикладі, гомогенний-реакція-нахили-в-груп припущення здається малоймовірним, щоб бути правдою. Тобто, це здається малоймовірним, що кожен на Алясці має ту ж ймовірність того, що в вашому опитуванні. Але, є три важливих моменти, які потрібно мати на увазі, про подальшу стратифікації, все з яких роблять це, здається більш перспективним.

По-перше, однорідне-реакція-нахили-в-груп припущення стає більш ймовірним, оскільки число груп збільшується. І, дослідники не обмежуються групами, грунтуючись лише на одному географічному вимірі. Наприклад, ми можемо створити групи на основі стану, віку, статі та рівня освіти. Звісно ж імовірним, що є однорідні нахили реакція в межах групи 18-29, випускників жіночої статі, коледжів, які проживають на Алясці, ніж в групі всіх людей, що живуть на Алясці. Таким чином, як число груп, які використовуються для постстратіфікація зростає, припущення, необхідні для його стати більш розумним. З огляду на цей факт, здається, що дослідники хотіли б створити величезну кількість груп для подальшої стратифікації. Але, як число груп збільшується, дослідники зіткнулися з іншою проблемою: розрідженості даних. Якщо є лише невелике число людей в кожній групі, то оцінки будуть більш невизначеними, а в крайньому випадку, коли є група, яка не має респондентів, то постстратіфікація повністю розпадається. Є два шляхи виходу з цього властивого напруженості між правдоподібності homogeneous- відгуку Схильність-в-груп припущення і попит на розумних розмірів вибірки в кожній групі. Один з підходів полягає в переході до більш складної статистичної моделі для розрахунку ваг, а інший, щоб зібрати більший, більш різноманітний зразок, який допомагає забезпечити розумні розміри вибірки в кожній групі. І, іноді дослідники роблять так, як я буду описувати більш докладно нижче.

Друге міркування при роботі з подальшою стратифікації із зразків, які не ймовірність, що припущення однорідного відгуку Схильність-в-груп вже часто робиться при аналізі зразків ймовірності. Причина, по якій це припущення необхідно для зразків ймовірності на практиці, що зразки мають ймовірність неотримання відповіді, і найбільш поширений метод для коригування при неотриманні відповіді є постстратіфікація, як описано вище. Звичайно, тільки тому, що багато дослідників роблять деяке припущення не означає, що ви повинні робити це занадто. Але, це не означає, що при порівнянні зразків неймовірності зразки ймовірності на практиці, ми повинні мати на увазі, що обидва залежать від припущень і допоміжної інформації для отримання оцінок. У самих реалістичних умовах, немає просто ніяких припущень вільної підхід до побудови статистичних висновків.

І, нарешті, якщо ви дбаєте про одну оцінці, зокрема, в нашому прикладі БЕЗРОБІТТЯ-то вам необхідна умова слабкіше, ніж гомогенні-реакція-схильність-внутрішньо-груп припущення. Зокрема, ви не повинні вважати, що кожна людина має таку ж схильність відповіді, вам потрібно тільки припустити, що немає ніякої кореляції між схильністю відповіді і рівнем безробіття в кожній групі. Звичайно, навіть це слабке умова не буде тримати в деяких ситуаціях. Наприклад, уявіть оцінки частки американців, які роблять роботу добровольців. Якщо люди , які роблять роботу добровольців, більш імовірно, погодяться бути в опитуванні, то дослідники будуть систематично переоцінювати кількість волонтерства, навіть якщо вони роблять коригування після стратифікації, результат , який був продемонстрований емпірично Abraham, Helms, and Presser (2009) .

Як я вже говорив раніше, зразки неймовірності розглядаються з великим скептицизмом суспільствознавців, почасти через їх ролі в деяких із найскрутніших невдач в перші дні досліджень обстеження. Яскравим прикладом того, як далеко ми просунулися із зразками неймовірності є дослідження Вей Ван, Девід Ротшильд, Шарада Goel і Ендрю Гельман, який належним чином одужав підсумками 2012 року виборах в США з використанням НЕ-імовірнісна вибірка користувачів Американський Xbox -a явно невипадкова вибірка американців (Wang et al. 2015) і (Wang et al. 2015) . Дослідники набрані респондентів з ігрової системи XBox, і, як можна було б очікувати, зразок Xbox перекіс самця і перекіс молодий: 18 - 29 років складають 19% електорату, але 65% вибірки Xbox і чоловіки становлять 47% виборців і 93% вибірки Xbox (рис 3.4). Через ці сильних демографічних зсувах, необроблені дані Xbox був поганим показником результатах виборів. Він передбачив сильну перемогу Мітта Ромні над Бараком Обамою. Знову ж , це ще один приклад небезпеки сировини, неврегульованих зразків неймовірності і нагадує фіаско Literary Digest.

Малюнок 3.4: Демографія респондентів в Wang і співавт. (2015). Оскільки респонденти були набрані з XBox, вони були більш схильні бути молодим і більш імовірно, буде чоловічої статі, по відношенню до виборців на виборах 2012 року.

Малюнок 3.4: Демографія респондентів в Wang et al. (2015) і Wang et al. (2015) . Оскільки респонденти були набрані з XBox, вони були більш схильні бути молодим і більш імовірно, буде чоловічої статі, по відношенню до виборців на виборах 2012 року.

Проте, Ван і його колеги були в курсі цих проблем і намагалися вага респондентів для коригування процесу відбору проб. Зокрема, вони використовували більш складну форму після стратифікації я розповів вам про. Це коштує навчання трохи більше про свій підхід, оскільки він будує інтуїцію про подальшу стратифікації і конкретної версії Ван і його колеги використовували один з найцікавіших підходів до ваговими зразків неймовірності.

У нашому простому прикладі про оцінку безробіття в розділі 3.4.1, ми розділили населення на групи в залежності від країни проживання. На противагу цьому, Ван і його колеги розділили населення на на 176,256 груп, визначених: статі (2 категорії), раси (4 категорії), вік (4 категорії), освіту (4 категорії), стан (51 категорій), партія ID (3 категорії), ідеологія (3 категорії) і 2008 голос (3 категорії). З великою кількістю груп, дослідники сподіваються, що він буде більш ймовірним, що в кожній групі, відповідь була Схильність корелюють з підтримкою Обами. Далі, замість побудови ваг індивідуального рівня, як ми робили це в нашому прикладі, Ван і його колеги використовували складну модель для оцінки частки населення в кожній групі, які будуть голосувати за Обаму. І, нарешті, вони об'єднали ці оцінки групи підтримки з відомим розміром кожної групи, щоб зробити оціночну загальний рівень підтримки. Іншими словами, вони рубають населення в різні групи, оцінили підтримку Обами в кожній групі, а потім прийняв зважене середнє оцінок групи для вироблення спільної оцінки.

Таким чином, велика проблема в підході полягає в оцінці підтримки Обами в кожній з цих груп 176,256. Хоча їх панель включені 345,858 унікальних учасників, величезна кількість за мірками виборчої опитування, було багато, багато груп, для яких Ван і його колеги майже не мали респондентів. Тому, щоб оцінити підтримку в кожній групі вони використовували метод, званий багаторівневий регресійний з подальшою стратифікації, яку дослідники ласкаво називають пан П. По суті, оцінити підтримку Обами в рамках певної групи, пан П. пули інформацію з багатьох тісно пов'язані між групами. Наприклад, розглянемо задачу оцінки підтримки Обами серед жінок, вихідців з Латинської Америки, між 18-29 років, які є випускниками коледжів, які зареєстровані демократи, які ідентифікують себе як помірних, і хто голосував за Обаму у 2008 році це дуже, дуже специфічну групу, і можливо, що немає нікого в зразку з цими характеристиками. Тому, щоб зробити оцінки щодо цієї групи, пан П. пули разом оцінками від людей в дуже схожих групах.

Використовуючи цю стратегію аналізу, Ван і його колеги змогли використовувати XBox без ймовірнісної вибірки дуже уважно оцінити загальну підтримку, яку Обама отримав на виборах 2012 року (Малюнок 3.5). Насправді їх оцінки були більш точними, ніж сукупність опитувань громадської думки. Таким чином, в даному випадку, зважування, зокрема, пан П., здається, робить хорошу роботу виправляючи перекоси в неймовірності даних; ухили, які видно при погляді на оцінках, від нерозв'язаних даних Xbox.

Малюнок 3.5: Оцінки від Wang і співавт. (2015). Нескоректована зразок XBox виробництва неточні оцінки. Але, зважений зразок XBox отримані оцінки, які були більш точними, ніж в середньому по ймовірності на основі телефонних опитувань.

Малюнок 3.5: Оцінки від Wang et al. (2015) і Wang et al. (2015) . Нескоректована зразок XBox виробництва неточні оцінки. Але, зважений зразок XBox отримані оцінки, які були більш точними, ніж в середньому по ймовірності на основі телефонних опитувань.

Є два основні уроки з вивчення Ван і його колеги. По-перше, нескоректована зразки без ймовірності може призвести до поганих оцінок; це урок, який багато дослідників чули раніше. Проте, другий урок полягає в тому, що зразки без ймовірності, при зважуванні належним чином, може насправді виробляють непогані оцінки. Насправді, їх оцінки були більш точними, ніж оцінки з pollster.com, агрегування більш традиційних виборчих опитувань.

Нарешті, існують серйозні обмеження на те, що ми можемо отримати з цього одного конкретного дослідження. Просто тому, що постстратіфікація працювала добре в даному конкретному випадку, немає ніякої гарантії, що вона буде добре працювати і в інших випадках. Насправді, вибори є, мабуть, одним з найпростіших налаштувань, так як соціологи вивчали вибори протягом майже 100 років, є регулярна зворотний зв'язок (ми можемо бачити, хто переможе на виборах), а партійна ідентифікація і демографічні характеристики щодо прогнозування голосування. На даний момент, у нас не вистачає твердої теорії і емпіричного досвіду, щоб знати, коли зважування коригування зразків без ймовірності буде виробляти досить точні оцінки. Єдине, що відомо, але, якщо ви змушені працювати зі зразками без імовірнісні, то є підстави вважати, що скориговані оцінки буде краще, ніж не скоригованих оцінок.