3.6.2 Обогащенный запрашиваемая

Этот перевод был создан с помощью компьютера. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.6.2 Обогащенный запрашиваемая

Хотя это может быть грязным, обогащенная запрашиваемая может быть мощным.

Другой подход к решению с неполнотой цифровых данных трассировки , чтобы обогатить его непосредственно с геодезическими данными, процесс , который я буду называть обогащенную спрашивать. Одним из примеров обогащенном запрашиваемая исследование Burke and Kraut (2014) , который я описал ранее в этой главе (раздел 3.2), о том , увеличивает силу дружбы , взаимодействующих на Facebook. В этом случае, Берк и Kraut объединили данные обследований с данными журнала на Facebook.

Установка, что Берк и Kraut работали в, однако, означает, что они не должны иметь дело с двумя большими проблемами, которые исследователи делают обогащенную просят лицо. Во- первых, на самом деле связывая воедино множества данных-а процесс называется запись связи, сращивание записи в одном наборе данных с соответствующей записью в другой набор данных, может быть трудным и подверженным ошибкам (мы увидим пример этой проблемы ниже ). Вторая основная проблема обогащенном запрашиваемая, что качество цифровых следов будет часто трудно для исследователей, чтобы оценить. Например, иногда процесс, посредством которого он собран, является собственностью и может быть восприимчивы ко многим из проблем, описанных в главе 2. Другими словами, обогащенная запрашиваемая будет часто включают ошибкам увязки обследований с источниками данных черного ящика неизвестного качественный. Несмотря на опасения , что эти две проблемы ввести, можно провести важные исследования с этой стратегией , как было показано , Стивен Ansolabehere и Eitan Херш (2012) в своих исследованиях о моделях голосования в США. Стоит перейти на исследования в некоторых деталях, потому что многие из стратегий, которые Ansolabehere и Херш развитых будет полезен в других приложениях, обогащенных спрашивать.

Явка избирателей была предметом обширных исследований в области политологии, и в прошлом, понимание исследователей о том, кто голосует и почему в целом основаны на анализе данных обследования. Голосование в США, однако, это необычное поведение в том, что правительство записи ли проголосовал каждый гражданин (конечно, правительство не регистрирует, кто каждый гражданин голосует за). В течение многих лет эти правительственные записи голоса были доступны на бумажных формах, разбросанных в различных органах местного самоуправления по всей стране. Это сделало его трудно, но не невозможно, политологи , чтобы иметь полную картину электората и сравнить то , что люди говорят в опросах о голосовании их фактического поведения голосования (Ansolabehere and Hersh 2012) .

Но теперь эти записи голосования были оцифрованы, а также ряд частных компаний систематически собирают и объединены эти записи голоса, чтобы произвести всеобъемлющие файлы мастер голосования, которые регистрируют поведение голосования всех американцев. Ansolabehere и Херш в партнерстве с одной из этих компаний-Catalist LCC-для того, чтобы использовать их мастер-файл для голосования, чтобы помочь развить более полную картину электората. Кроме того, поскольку она опиралась на цифровых записей, собранных и куратором компанией, он предложил целый ряд преимуществ по сравнению с предыдущими усилиями исследователей, что было сделано без помощи компаний и с использованием аналоговых записей.

Как и многие из цифровых источников трассировки в главе 2, мастер-файл Catalist не включают в себя большую часть демографического, отношенческой и поведенческой информации, Ansolabehere и Херш необходимо. В дополнение к этой информации, Ansolabehere и Херш были особенно заинтересованы в сравнении сообщили поведение для голосования одобренного поведения избирателей (то есть информации, содержащейся в базе данных Catalist). Таким образом, исследователи собрали данные, которые они хотели в рамках кооперативного конгресса избирательной изучения (КУИС), большой социальный опрос. Затем исследователи дали эти данные Catalist, и Catalist дал исследователи подпереть объединенный файл данных, который включал проверенную поведение голосования (от Catalist), самостоятельно сообщили поведение голосования (от КУИС) и демографические данные и отношение респондентов (от CCES ). Другими словами, Ansolabehere и Херш обогащается данные голосования с данными опроса, и результирующий слитый файл, позволяет им сделать что-то, что позволило по отдельности ни один файл.

Обогатив мастер-файл данных Catalist с данными обследования, Ansolabehere и Херш пришли к трем важным выводам. Во-первых, завышение голосования свирепствует: почти половина неголосующих сообщили голосования. Или, другой способ смотреть на него, если кто-то сообщил голосование, есть только 80% вероятность того, что они на самом деле голосовали. Во-вторых, чрезмерная отчетность не является случайным; завышая является более распространенным среди высоким уровнем дохода, хорошо образованные, партизаны, которые занимаются общественными делами. Другими словами, люди, которые, скорее всего, голосовать также, скорее всего, лгать о голосовании. В-третьих, и самое важное, из-за систематического характера чрезмерной отчетности, фактические различия между избирателями и неголосующих меньше, чем они появляются только из обследований. Например, те, с степень бакалавра около 22 процентных пунктов чаще сообщают о голосовании, но только на 10 процентных пунктов больше шансов фактического голосования. Кроме того, существующие в ресурсах на основе теории голосования гораздо лучше предсказать, кто будет сообщать о голосовании, чем кто на самом деле голосов, эмпирическим находкой, что требует новых теорий, чтобы понять и предсказать голосование.

Но, насколько мы должны доверять эти результаты? Помните, что эти результаты зависят от подверженных ошибкам связи с данными черного ящика с неизвестными количеством ошибок. Более конкретно, результаты зависят от двух основных этапов: 1) способность Catalist объединить множество разрозненных источников данных, чтобы произвести точную мастер-файл данных и 2) способность Catalist связать данные обследования для своего главного файла данных. Каждый из этих этапов является довольно сложным и ошибок на любом этапе может привести исследователей к неверным выводам. Тем не менее, как обработка данных и соответствия имеют решающее значение для дальнейшего существования Catalist как компании, так что он может инвестировать ресурсы в решении этих проблем, часто в масштабе, что ни один человек ученый-исследователь или группа исследователей не может сравниться. В дальнейшем чтении в конце главы, я описываю эти проблемы более подробно и как Ansolabehere и Херш построить уверенность в своих результатах. Хотя эти детали являются специфическими для данного исследования, вопросы, подобные этим будут возникать для других исследователей, желающих связать с черного ящика источников данных цифрового следа.

Каковы общие уроки исследователи могут извлечь из этого исследования? Во-первых, существует огромное значение от обогащения цифровых следов с данными обследования. Во-вторых, даже если они агрегируются, коммерческие источники данных не следует рассматривать как "земля истина", а в некоторых случаях они могут быть полезны. На самом деле, лучше всего сравнить эти источники данных не абсолютной Истины (от которого они всегда будут падать короткий). Скорее, это лучше сравнить их с другими имеющимися источниками данных, которые неизменно содержат ошибки, а также.