3.6.1 Насичений запит

У збагаченому питанні дані опитування створюють контекст навколо великого джерела даних, який містить деякі важливі вимірювання, але не має інших.

Один із способів поєднання даних опитування та великих джерел даних - це процес, який я називаю збагаченого запитанням . У збагаченому питанні велике джерело даних містить деякі важливі вимірювання, але не має інших вимірювань, тому дослідник збирає ці недостатні вимірювання в опитуванні, а потім об'єднує два джерела даних. Одним з прикладів збагачених запитань є дослідження Burke and Kraut (2014) про те, чи взаємодія на Facebook збільшує силу дружби, яку я описав у розділі 3.2). У цьому випадку, Берк і Краут поєднали дані опитування з журналом даних Facebook.

Проте, ситуація, в якій працювала Берк та Краут, означала, що їм не доводилося мати справу з двома великими проблемами, які дослідники, що займаються збагаченням, запитують, як правило, стикаються. По-перше, фактично об'єднуючи набори даних на рівні окремих рівнів, процес, який називається зв'язком запису , може бути складним, якщо в обох джерелах даних немає унікального ідентифікатора, який може бути використаний для того, щоб забезпечити відповідність правильної записи в одному наборі даних з правильною запис в іншому наборі даних. Друга основна проблема із збагаченням полягає в тому, що якість великого джерела даних буде часто важко оцінювати дослідникам, оскільки процес, за допомогою якого створюються дані, може бути власністю і може бути чутливим до багатьох проблем, описаних у главі 2. Інакше кажучи, збагачений запит часто включає в себе помилку, пов'язану з обстеженнями, до джерел даних чорного ящика невідомої якості. Проте, незважаючи на ці проблеми, збагачений запит може бути використаний для проведення важливих досліджень, як це показали Стівен Ансолабейре та Ейтан Херш (2012) у своїх дослідженнях щодо моделей голосування в Сполучених Штатах.

Явка виборців є предметом широких досліджень в галузі політології, і в минулому дослідники розуміли, хто голосів і чому, як правило, базується на аналізі даних опитування. Проте, голосування в Сполучених Штатах є надзвичайною поведінкою, оскільки уряд запише, чи проголосував кожен громадянин (звичайно, уряд не реєструє, за кого громадяни проголосують). Протягом багатьох років ці урядові записи про голосування були доступні на паперових формах, розкидані в різних органах місцевого самоврядування по всій країні. Це зробило дуже важким, але не неможливим, для того, щоб політологи мали повну картину електорату та порівняли те, що говорять у опитуваннях про голосування за їхньою фактичною поведінкою (Ansolabehere and Hersh 2012) .

Але ці репортажі про голосування вже оцифровані, а ряд приватних компаній систематично збирає та об'єднує їх для створення всеосяжних майстер-голосів, які містять поведінку голосування всіх американців. Ansolabehere та Hersh співпрацювали з однією з цих компаній - LCC-каталізіком, щоб використати свій головний файл голосування, щоб допомогти розробити кращу картину електорату. Крім того, тому що їхнє дослідження базувалося на цифрових записах, зібраних та кураторських компаній, які вклали значні кошти в збір та узгодження даних, він запропонував ряд переваг перед попередніми зусиллями, які були зроблені без допомоги компаній та за допомогою аналогових записів.

Як і багато інших великих джерел даних у розділі 2, головний файл каталогу не включав значну частину демографічної, позитивної та поведінкової інформації, яку потребує Ansolabehere та Hersh. Фактично, вони особливо зацікавились порівнянням повідомленої поведінки голосування в опитуваннях з перевіркою поведінки голосування (тобто інформацією в каталітичній базі даних). Тому Ansolabehere та Hersh зібрали дані, які вони хотіли, як велике соціальне опитування, CCES, згадане раніше в цьому розділі. Потім вони передавали свої дані Каталісту, і Каталіст повернув їм файл об'єднаних даних, який включав перевірену поведінку голосування (від Каталіста), саморегульовану поведінку голосування (від CCES) та демографічні показники та ставлення респондентів (від CCES) (цифра 3.13). Іншими словами, Ansolabehere та Hersh об'єднали дані записів про голосування з даними опитування, щоб зробити дослідження, яке не було можливим з будь-яким джерелом даних окремо.

Малюнок 3.13: Схематичне дослідження від Ansolabehere та Hersh (2012). Для створення основного файлу даних Каталіст поєднує і гармонізує інформацію з багатьох різних джерел. Цей процес злиття, незалежно від того, наскільки обережний, буде поширювати помилки в початкових джерелах даних і вносить нові помилки. Другим джерелом помилок є записування між даними обстеження та основними файлами даних. Якщо кожна людина мала стабільний, унікальний ідентифікатор в обох джерелах даних, то зв'язок була б тривіальною. Але Каталіст мав виконувати зв'язок, використовуючи недосконалі ідентифікатори, у цьому випадку ім'я, стать, рік народження та домашня адреса. На жаль, у багатьох випадках може бути неповна або неточна інформація; виборець Гомер Сімпсон може з'явитись як Гомер Джей Сімпсон, Хомей Сімпсон, або навіть Гомер Семпсін. Незважаючи на потенційну помилку в головному файлі даних каталогу та помилках у зв'язці запису, Ansolabehere та Hersh змогли підвищити довіру до своїх оцінок за допомогою декількох різних типів перевірок.

Малюнок 3.13: Схематичне дослідження від Ansolabehere and Hersh (2012) . Для створення основного файлу даних Каталіст поєднує і гармонізує інформацію з багатьох різних джерел. Цей процес злиття, незалежно від того, наскільки обережний, буде поширювати помилки в початкових джерелах даних і вносить нові помилки. Другим джерелом помилок є записування між даними обстеження та основними файлами даних. Якщо кожна людина мала стабільний, унікальний ідентифікатор в обох джерелах даних, то зв'язок була б тривіальною. Але Каталіст мав виконувати зв'язок, використовуючи недосконалі ідентифікатори, у цьому випадку ім'я, стать, рік народження та домашня адреса. На жаль, у багатьох випадках може бути неповна або неточна інформація; виборець Гомер Сімпсон може з'явитись як Гомер Джей Сімпсон, Хомей Сімпсон, або навіть Гомер Семпсін. Незважаючи на потенційну помилку в головному файлі даних каталогу та помилках у зв'язці запису, Ansolabehere та Hersh змогли підвищити довіру до своїх оцінок за допомогою декількох різних типів перевірок.

З їхнім об'єднаним файлом даних Ansolabehere та Hersh дійшли до трьох важливих висновків. По-перше, надмірна звітність про голосування є безмежною: майже половина тих, хто не голосував, повідомили про голосування, і якщо хтось повідомив про голосування, то існує лише 80% шансів, що вони фактично проголосували. По-друге, надмірне звітування не є випадковим: поширені звіти частіше трапляються серед високодохідних, добре освічених партизанів, які займаються державними справами. Іншими словами, люди, які, найімовірніше, будуть голосувати, також, швидше за все, брешуть про голосування. По-третє, і найбільш критично, оскільки систематичний характер надмірної звітності, фактичні відмінності між виборцями та неголосльовими особами менші, ніж вони випливають з опитувань. Наприклад, ті, хто має ступінь бакалавра, приблизно на 22 відсоткові пункти частіше повідомляють про голосування, але на 10 відсоткових пунктів вони більше шансів фактично голосувати. Виявляється, можливо, не дивно, що існуючі на основі ресурсів теорії голосування набагато краще прогнозувати, хто буде повідомляти про голосування (це дані, які дослідники використовували раніше), ніж вони прогнозують, хто фактично голосує. Таким чином, емпіричний висновок Ansolabehere and Hersh (2012) вимагають нових теорій для розуміння та прогнозування голосування.

Але скільки нам слід довіряти цим результатам? Пам'ятайте, що ці результати залежать від помилок, пов'язаних із даними чорної коробки з невідомими обсягами помилок. Більш конкретно, результати залежать від двох основних етапів: (1) здатність Каталіста поєднувати багато різних джерел даних для створення правильної основної файлів даних і (2) здатність Каталіста пов'язати дані опитування з основним файлом даних. Кожен з цих кроків є складним, і помилки в будь-якому з цих стадій можуть привести дослідників до неправильних висновків. Проте як обробка даних, так і зв'язування мають вирішальне значення для постійного існування компанії «Каталіст» як компанії, тому він може інвестувати ресурси у вирішення цих проблем, часто в масштабах, які жоден науковий співробітник не може збігатись. У своїй роботі Ansolabehere та Hersh проходять ряд кроків для перевірки результатів цих двох кроків, навіть якщо деякі з них є власними, і ці перевірки можуть бути корисними для інших дослідників, які хочуть пов'язати дані опитування з великими даними джерела

Які загальні уроки можуть витягти дослідники з цього дослідження? По-перше, є величезна цінність як за рахунок збагачення великих джерел даних з опитуванням даних, так і з збагачення даних опитування з великими джерелами даних (ви можете побачити це дослідження в будь-якому випадку). Поєднуючи ці два джерела даних, дослідники змогли зробити те, що було неможливим і індивідуально. Другий загальний урок полягає в тому, що хоча агреговані, комерційні джерела даних, такі як дані Каталіста, не повинні розглядатися як "істина на землю", в деяких випадках вони можуть бути корисними. Скептики іноді порівнюють ці агреговані, комерційні джерела даних з абсолютною правдою і вказують на те, що ці джерела даних недостатньо. Однак у цьому випадку скептики роблять неправильне порівняння: всі дані, які використовують дослідники, не відповідають абсолютній правді. Натомість краще порівняти агреговані, комерційні джерела даних з іншими доступними джерелами даних (наприклад, самостійно зареєстрованою поведінкою щодо голосування), які завжди мають помилки. Нарешті, третій загальний урок дослідження Ansolabehere та Hersh полягає в тому, що в деяких ситуаціях дослідники можуть скористатися величезними інвестиціями, які багато приватні компанії здійснюють у зборі та гармонізації складних наборів соціальних даних.