3.6.1 Обогащенный запрос

В расширенном запросе данные опроса создают контекст вокруг большого источника данных, который содержит некоторые важные измерения, но не имеет других.

Один из способов объединить данные опроса и большие источники данных - это процесс, который я буду называть обогащенным . В обогащенном запросе большой источник данных содержит некоторые важные измерения, но не имеет других измерений, поэтому исследователь собирает эти недостающие измерения в опросе, а затем связывает два источника данных. Одним из примеров обогащенного запроса является исследование Burke and Kraut (2014) о том, увеличивает ли взаимодействие на Facebook усилие дружбы, которое я описал в разделе 3.2). В этом случае Burke и Kraut комбинируют данные опроса с данными журнала Facebook.

Однако установка, в которой работали Берк и Краут, означала, что им не приходилось сталкиваться с двумя большими проблемами, с которыми обычно сталкиваются исследователи, делающие обогащенные вопросы. Во-первых, фактически связывание наборов данных на индивидуальном уровне, процесс, называемый привязкой записей , может быть затруднен, если в обоих источниках данных нет уникального идентификатора, который может быть использован для обеспечения соответствия правильной записи в одном наборе данных с правильной записью в другом наборе данных. Вторая основная проблема с обогащенным спросом заключается в том, что качество большого источника данных будет часто затруднительно для исследователей, поскольку процесс, посредством которого создаются данные, может быть проприетарным и может быть восприимчивым ко многим проблемам, описанным в главе 2. Другими словами, обогащенные просьбы часто включают связанную с ошибками связь опросов с источниками неизвестного качества с «черным ящиком». Тем не менее, несмотря на эти проблемы, обогащенные просьбы могут быть использованы для проведения важных исследований, как продемонстрировали Стивен Ансолабехер и Эйтан Херш (2012) в своих исследованиях, касающихся моделей голосования в Соединенных Штатах.

Явка избирателей была предметом обширных исследований в области политологии, и в прошлом исследователи понимали, кто голосует и почему, как правило, основывались на анализе данных опроса. Голосование в Соединенных Штатах, однако, является необычным поведением в том, что правительство регистрирует, проголосовал ли каждый гражданин (конечно, правительство не фиксирует, за кого голосует каждый гражданин). На протяжении многих лет эти правительственные бюллетени для голосования были доступны на бумажных формах, разбросанных в различных местных правительственных учреждениях по всей стране. Это сделало очень сложным, но не невозможным, чтобы политологи имели полную картину электората и сравнивали то, что люди говорят в опросах о голосовании с их фактическим голосованием (Ansolabehere and Hersh 2012) .

Но эти данные о голосовании теперь оцифрованы, и ряд частных компаний систематически собирают и объединяют их для создания всеобъемлющих файлов голосового голосования, которые содержат поведение голосования всех американцев. Ansolabehere и Hersh сотрудничали с одной из этих компаний - Catalyst LCC - для использования своего файла для голосования в главном, чтобы помочь улучшить картину электората. Кроме того, поскольку их исследование основывалось на цифровых записях, собранных и проведенных компанией, которая вложила значительные ресурсы в сбор и согласование данных, она предложила ряд преимуществ по сравнению с предыдущими усилиями, которые были сделаны без помощи компаний и с использованием аналоговых записей.

Как и многие из больших источников данных в главе 2, основной файл Catalyst не включал большую часть демографической, поведенческой и поведенческой информации, необходимой Ансолабере и Хершу. Фактически, они были особенно заинтересованы в сравнении зарегистрированного поведения голосования в опросах с подтвержденным голосованием (т. Е. Информацией в базе данных Catalyst). Поэтому Ansolabehere и Hersh собрали данные, которые они хотели, как крупное социальное исследование, CCES, упомянутое ранее в этой главе. Затем они передали свои данные Catalyst, и Catalyst предоставил им объединенный файл данных, который включал в себя проверенное поведение голосования (от Catalyst), самооценку поведения голосования (от CCES) и демографию и отношение респондентов (от CCES) (рисунок 3,13). Другими словами, Ansolabehere и Hersh объединили данные записей голосования с данными опроса, чтобы провести исследования, которые не были возможны ни с одним источником данных отдельно.

Рисунок 3.13: Схема исследования Ansolabehere и Hersh (2012). Для создания основного файла данных Catalyst объединяет и согласовывает информацию из разных источников. Этот процесс слияния, независимо от того, насколько осторожен, будет распространять ошибки в исходных источниках данных и вводит новые ошибки. Второй источник ошибок - это запись связи между данными опроса и основным файлом данных. Если у каждого человека был стабильный уникальный идентификатор в обоих источниках данных, то связь была бы тривиальной. Но каталисту пришлось сделать связь с использованием несовершенных идентификаторов, в этом случае имя, пол, год рождения и домашний адрес. К сожалению, во многих случаях может быть неполная или неточная информация; избиратель по имени Гомер Симпсон может появиться как Гомер Джей Симпсон, Хоми Джей Симпсон или даже Гомер Сампсин. Несмотря на потенциальные ошибки в файле данных Catalyst и ошибки в привязке к записи, Ansolabehere и Hersh смогли повысить уверенность в своих оценках с помощью нескольких различных типов проверок.

Рисунок 3.13: Схема исследования Ansolabehere and Hersh (2012) . Для создания основного файла данных Catalyst объединяет и согласовывает информацию из разных источников. Этот процесс слияния, независимо от того, насколько осторожен, будет распространять ошибки в исходных источниках данных и вводит новые ошибки. Второй источник ошибок - это запись связи между данными опроса и основным файлом данных. Если у каждого человека был стабильный уникальный идентификатор в обоих источниках данных, то связь была бы тривиальной. Но каталисту пришлось сделать связь с использованием несовершенных идентификаторов, в этом случае имя, пол, год рождения и домашний адрес. К сожалению, во многих случаях может быть неполная или неточная информация; избиратель по имени Гомер Симпсон может появиться как Гомер Джей Симпсон, Хоми Джей Симпсон или даже Гомер Сампсин. Несмотря на потенциальные ошибки в файле данных Catalyst и ошибки в привязке к записи, Ansolabehere и Hersh смогли повысить уверенность в своих оценках с помощью нескольких различных типов проверок.

С их объединенным файлом данных Ansolabehere и Hersh пришли к трем важным выводам. Во-первых, чрезмерная отчетность о голосовании широко распространена: почти половина нерезидентов сообщила о голосовании, и, если кто-то сообщил о голосовании, вероятность голосования на самом деле составляет 80%. Во-вторых, чрезмерная отчетность не является случайной: чрезмерная отчетность чаще встречается среди высокопоставленных, образованных, партизан, занимающихся общественными делами. Другими словами, люди, которые, скорее всего, будут голосовать, также скорее всего будут лгать о голосовании. В-третьих, и наиболее критически, из-за систематического характера чрезмерной отчетности фактические различия между избирателями и нерезидентами меньше, чем они появляются только из опросов. Например, те, у кого степень бакалавра, примерно на 22 процентных пункта больше склонны сообщать о голосовании, но на 10 процентов больше шансов на голосование. Оказывается, возможно, неудивительно, что существующие основанные на ресурсах теории голосования намного лучше прогнозируют, кто будет сообщать о голосовании (то есть данные, которые использовали исследователи в прошлом), чем они прогнозируют, кто на самом деле голосует. Таким образом, эмпирический вывод Ansolabehere and Hersh (2012) требует новых теорий для понимания и прогнозирования голосования.

Но насколько мы должны доверять этим результатам? Помните, что эти результаты зависят от привязки к ошибкам ссылок на данные черного ящика с неизвестными ошибками. Более конкретно, результаты зависят от двух ключевых этапов: (1) способность Catalyst объединить множество несопоставимых источников данных для получения точного основного файла данных и (2) способность Катализатора связать данные опроса с его основным файлом данных. Каждый из этих шагов затруднен, и ошибки на любом этапе могут привести исследователей к неправильным выводам. Тем не менее, как обработка данных, так и связывание имеют решающее значение для дальнейшего существования Catalyst как компании, поэтому он может инвестировать ресурсы в решение этих проблем, часто в таком масштабе, который не может сравниться ни один академический исследователь. В своей работе Ansolabehere и Hersh проводят ряд шагов, чтобы проверить результаты этих двух шагов - даже если некоторые из них являются собственностью - и эти проверки могут быть полезны другим исследователям, желающим связать данные опроса с большими данными черного ящика источники.

Каковы общие уроки, которые могут извлечь исследователи из этого исследования? Во-первых, существует огромная ценность как от обогащения больших источников данных с помощью данных опроса, так и от обогащения данных обследований большими источниками данных (вы можете увидеть это исследование в любом случае). Объединив эти два источника данных, исследователи смогли сделать то, что было невозможно в индивидуальном порядке. Второй общий урок состоит в том, что, хотя агрегированные, коммерческие источники данных, такие как данные Каталиста, не должны считаться «основополагающей истиной», в некоторых случаях они могут быть полезными. Скептики иногда сравнивают эти агрегированные, коммерческие источники данных с абсолютной истиной и указывают, что эти источники данных не оправдались. Однако в этом случае скептики делают неправильное сравнение: все данные, которые используют исследователи, не соответствуют абсолютной истине. Вместо этого лучше сравнивать агрегированные, коммерческие источники данных с другими доступными источниками данных (например, самоопределенное поведение голосования), которые также имеют ошибки. Наконец, третий общий урок исследования Ansolabehere и Hersh заключается в том, что в некоторых ситуациях исследователи могут извлечь выгоду из огромных инвестиций, которые многие частные компании делают для сбора и согласования сложных наборов социальных данных.