3.6.2

Усиленный запрос с использованием предсказательной модели для объединения данных опроса от нескольких людей с большим источником данных от многих людей.

Другой способ объединить обзор и большие источники данных - это процесс, который я буду называть усиленным запросом . В усиленном запросе исследователь использует предсказательную модель для объединения небольшого количества данных опроса с большим источником данных, чтобы производить оценки по шкале или гранулярности, которые не были бы возможны ни с одним источником данных отдельно. Важным примером усиленного запроса является работа Джошуа Блюменстока, которая хотела собрать данные, которые могли бы помочь в развитии развития в бедных странах. В прошлом исследователи, собирающие данные такого рода, обычно должны были взять один из двух подходов: выборочные обследования или переписи. Примеры опросов, в которых исследователи опросили небольшое число людей, могут быть гибкими, своевременными и относительно дешевыми. Однако эти опросы, поскольку они основаны на выборке, часто ограничены в их разрешении. При выборочном обследовании часто сложно оценивать конкретные географические регионы или конкретные демографические группы. С другой стороны, переписи дают возможность опросить всех, и поэтому их можно использовать для составления оценок для небольших географических регионов или демографических групп. Но переписи, как правило, дорогие, узкие в фокусе (они включают лишь небольшое количество вопросов) и не своевременны (они происходят по фиксированному графику, например, каждые 10 лет) (Kish 1979) . Вместо того, чтобы придерживаться выборочных обследований или переписей, представьте, могут ли исследователи объединить лучшие характеристики обоих. Представьте, могут ли исследователи каждый день задавать каждый вопрос каждому человеку. Очевидно, что этот вездесущий, постоянный опрос - это своего рода фантастика в области социальных наук. Но это действительно кажется , что мы можем начать , чтобы приблизить это путем объединения вопросов обследования из небольшого числа людей с цифровыми следами от многих людей.

Исследования Blumenstock начались, когда он сотрудничал с крупнейшим поставщиком мобильных телефонов в Руанде, и компания предоставила анонимные записи транзакций от примерно 1,5 миллионов клиентов в период с 2005 по 2009 год. Эти записи содержат информацию о каждом вызове и текстовом сообщении, например, время начала, продолжительность , и приблизительное географическое местоположение вызывающего и приемного устройств. Прежде чем говорить о статистических проблемах, стоит отметить, что этот первый шаг может быть одним из самых сложных для многих исследователей. Как я описал в главе 2, большинство крупных источников данных недоступны исследователям. Телефонные метаданные, в частности, особенно недоступны, поскольку в принципе невозможно анонимизировать, и это почти наверняка содержит информацию, которую участники считают чувствительной (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . В этом конкретном случае исследователи старались защитить данные, и их работа контролировалась третьей стороной (т. Е. Их IRB). Я вернусь к этим этическим вопросам более подробно в главе 6.

Блюменсток интересовался измерением богатства и благополучия. Но эти черты не находятся непосредственно в записях вызовов. Другими словами, эти записи вызовов являются неполными для этого исследования - общая особенность больших источников данных, которые подробно обсуждались в главе 2. Однако представляется вероятным, что записи звонков, вероятно, содержат некоторую информацию, которая могла бы косвенно предоставлять информацию о богатстве и благополучия. Учитывая эту возможность, Блюменшток спросил, можно ли подготовить модель машинного обучения, чтобы предсказать, как кто-то будет отвечать на опрос, основываясь на их записях. Если это было возможно, тогда Blumenstock мог бы использовать эту модель для прогнозирования ответов опроса всех 1,5 миллионов клиентов.

Чтобы построить и обучить такую ​​модель, Блюменшток и ассистенты научных исследований из Института науки и технологии Кигали назвали случайную выборку из примерно тысячи клиентов. Исследователи объяснили цели проекта участникам, попросили их дать согласие на связь ответов опроса с регистрационными записями, а затем задали им ряд вопросов для измерения их богатства и благополучия, таких как «У вас есть радио? »и« У вас есть велосипед? »(см. рисунок 3.14 для частичного списка). Все участники опроса получили финансовую компенсацию.

Далее, Blumenstock использовал двухэтапную процедуру, обычную для машинного обучения: разработку функций, сопровождаемую контролируемым обучением. Во-первых, на этапе разработки функций для всех, кто был опрошен, Блюменсток перевел записи вызовов в набор характеристик каждого человека; ученые-данные могут называть эти характеристики «чертами», а социологи называли бы их «переменными». Например, для каждого человека Блюменсток рассчитал общее количество дней с деятельностью, количество отдельных людей, с которыми человек связывался, количество денег, потраченное на эфирное время, и так далее. Критически, хорошая техническая характеристика требует знания об условиях исследования. Например, если важно различать внутренние и международные звонки (мы можем ожидать, что люди, которые на международном уровне называют более богатыми), то это должно быть сделано на этапе технической поддержки. Исследователь с небольшим пониманием Руанды, возможно, не включит эту функцию, и тогда пострадает предсказательная производительность модели.

Далее, на контролируемом этапе обучения , Blumenstock построил модель для прогнозирования ответа опроса для каждого человека на основе их характеристик. В этом случае Блюменшток использовал логистическую регрессию, но он мог бы использовать множество других методов статистического или машинного обучения.

Итак, насколько хорошо это сработало? Был ли Blumenstock в состоянии предсказать ответы на такие вопросы, как «У вас есть радио?» И «У вас есть велосипед?», Используя функции, полученные из записей звонков? Чтобы оценить эффективность своей предсказательной модели, Блюменшток использовал кросс-валидацию , технику, обычно используемую в науке о данных, но редко в социальной науке. Цель кросс-валидации заключается в том, чтобы обеспечить справедливую оценку прогнозируемой производительности модели путем ее обучения и тестирования на разных поднаборах данных. В частности, Блюменсток разделил свои данные на 10 кусков по 100 человек каждый. Затем он использовал девять кусков для обучения своей модели, и предсказательная работа обучаемой модели была оценена на оставшейся части. Он повторил эту процедуру 10 раз - каждый кусок данных, получавших один оборот в качестве данных валидации, и усреднил результаты.

Точность предсказаний была высокой для некоторых признаков (рисунок 3.14); например, Blumenstock может прогнозировать с точностью 97,6%, если у кого-то есть радио. Это может показаться впечатляющим, но всегда важно сравнить сложный метод прогнозирования с простой альтернативой. В этом случае простой альтернативой является предсказать, что каждый даст наиболее общий ответ. Например, 97,3% респондентов сообщили, что владеют радио, поэтому, если Блюменшток предсказал, что каждый будет сообщать о том, что владеет радио, у него была бы точность 97,3%, что на удивление похоже на выполнение его более сложной процедуры (точность 97,6%), , Другими словами, все фантастические данные и моделирование повысили точность прогноза с 97,3% до 97,6%. Однако по другим вопросам, таким как «У вас есть велосипед?», Прогнозы улучшились с 54,4% до 67,6%. В более общем плане, на рисунке 3.15 показано, что по некоторым признакам Blumenstock не улучшал значительно больше, чем просто простейшее базовое предсказание, но для других признаков было некоторое улучшение. Однако, глядя на эти результаты, вы, возможно, не думаете, что этот подход особенно перспективен.

Рисунок 3.14: Предиктивная точность для статистической модели, подготовленной с помощью записей вызовов. Адаптировано из Blumenstock (2014), таблица 2.

Рисунок 3.14: Предиктивная точность для статистической модели, подготовленной с помощью записей вызовов. Адаптировано из Blumenstock (2014) , таблица 2.

Рисунок 3.15: Сравнение точности прогноза для статистической модели, подготовленной с помощью записей вызовов, к простому прогнозу базовой линии. Очки слегка дрожат, чтобы избежать совпадений. Адаптировано из Blumenstock (2014), таблица 2.

Рисунок 3.15: Сравнение точности прогноза для статистической модели, подготовленной с помощью записей вызовов, к простому прогнозу базовой линии. Очки слегка дрожат, чтобы избежать совпадений. Адаптировано из Blumenstock (2014) , таблица 2.

Однако всего через год Блюменшок и два его коллега-Габриэль Кадамуро и Роберт опубликовали статью в науке с существенно лучшими результатами (Blumenstock, Cadamuro, and On 2015) . Для этого были две основные технические причины: (1) они использовали более сложные методы (т. Е. Новый подход к разработке объектов и более сложную модель для прогнозирования ответов от функций) и (2), а не пытались вывести ответы на отдельные (например, «У вас есть радио?»), они попытались сделать вывод о составном индексе богатства. Эти технические усовершенствования означали, что они могли бы сделать разумную работу по использованию записей звонков, чтобы предсказать богатство для людей в их выборке.

Однако предсказание богатства людей в выборке не было конечной целью исследования. Помните, что конечная цель состояла в том, чтобы объединить некоторые из лучших характеристик выборочных обследований и переписей для получения точных оценок высокого уровня бедности в развивающихся странах с высоким разрешением. Чтобы оценить их способность достичь этой цели, Блюменшок и его коллеги использовали свою модель и свои данные для прогнозирования богатства всех 1,5 миллиона человек в записях вызовов. И они использовали геопространственную информацию, встроенную в записи звонков (напомним, что данные включали местоположение ближайшей ячеистой ячейки для каждого вызова) для оценки приблизительного места жительства каждого человека (рисунок 3.17). Сочетая эти две оценки, Блюменшок и его коллеги дали оценку географического распределения богатства подписчиков при чрезвычайно тонкой пространственной детализации. Например, они могут оценить среднее благосостояние в каждой из 2148 единиц Руанды (наименьшая административная единица в стране).

Насколько хорошо эти оценки соответствуют фактическому уровню бедности в этих регионах? Прежде чем я отвечу на этот вопрос, я хочу подчеркнуть тот факт, что есть множество причин быть скептичными. Например, способность делать прогнозы на индивидуальном уровне была довольно шумной (рисунок 3.17). И, возможно, что более важно, люди с мобильными телефонами могут систематически отличаться от людей без мобильных телефонов. Таким образом, Blumenstock и его коллеги могут страдать от типов ошибок покрытия, которые предвзято оценивали опрос Литературного дайджеста 1936 года, который я описал ранее.

Чтобы получить представление о качестве своих оценок, Блюменстоку и его коллегам необходимо было сравнить их с чем-то другим. К счастью, примерно в то же время, что и их исследование, другая группа исследователей проводила более традиционный социальный опрос в Руанде. Этот другой опрос, который был частью широко распространенной программы демографического и медицинского обследования, имел большой бюджет и использовал высококачественные традиционные методы. Поэтому оценки из демографического и медицинского опроса можно разумно считать оценками по золоту. Когда сравнивались две оценки, они были весьма похожими (рисунок 3.17). Другими словами, объединив небольшое количество данных опроса с записями звонков, Блюменшок и его коллеги смогли составить оценки, сопоставимые с оценками по методу золотого стандарта.

Скептик может увидеть эти результаты как разочарование. В конце концов, один из способов их просмотра - сказать, что, используя большие данные и машинное обучение, Блюменшок и его коллеги смогли получить оценки, которые можно было бы сделать более надежно уже существующими методами. Но я не думаю, что это правильный способ подумать об этом исследовании по двум причинам. Во-первых, оценки от Blumenstock и его коллег были примерно в 10 раз быстрее и в 50 раз дешевле (когда стоимость измеряется с точки зрения переменных издержек). Как я уже говорил в этой главе, исследователи игнорируют затраты на свой риск. В этом случае, например, резкое снижение стоимости означает, что вместо того, чтобы запускаться каждые несколько лет - как это стандартно для демографических и медицинских обследований - такой опрос может проводиться каждый месяц, что обеспечит многочисленные преимущества для исследователей и политики производители. Вторая причина не в том, чтобы придерживаться взгляда скептиков в том, что это исследование представляет собой основной рецепт, который может быть адаптирован ко многим различным исследовательским ситуациям. Этот рецепт содержит только два ингредиента и два этапа. Ингредиенты: (1) большой источник данных, который является широким, но тонким (т. Е. У него много людей, но не информация, которая вам нужна о каждом человеке) и (2) исследование, которое является узким, но толстым (т.е. оно имеет только несколько человек, но у него есть информация, которая вам нужна об этих людях). Затем эти ингредиенты объединяют в два этапа. Во-первых, для людей в обоих источниках данных создайте модель машинного обучения, которая использует большой источник данных для прогнозирования ответов на опрос. Затем используйте эту модель для приведения в соответствие результатов опроса всех в большом источнике данных. Таким образом, если есть вопрос, который вы хотите задать многим людям, ищите большой источник данных от тех людей, которые могут быть использованы для прогнозирования их ответа, даже если вам не нужен большой источник данных . То есть, Блюменшок и его коллеги не заботились о записи звонков; они заботились только о записях звонков, потому что их можно было использовать для прогнозирования ответов об ответах, о которых они заботились. Этот характерно-косвенный интерес к большому источнику данных - усиливается, задавая разные запросы от встроенных запросов, которые я описал ранее.

Рисунок 3.16: Схема исследования Blumenstock, Cadamuro и On (2015). Записи вызовов от телефонной компании были преобразованы в матрицу с одной строкой для каждого человека и по одному столбцу для каждой функции (т. Е. Переменной). Затем исследователи построили контролируемую обучающую модель для прогнозирования ответов опроса от индивидуальной матрицы. Затем контролируемая модель обучения использовалась для приведения ответов на опрос среди всех 1,5 миллионов клиентов. Кроме того, исследователи оценили приблизительное место жительства для всех 1,5 миллиона клиентов на основе местоположения их звонков. Когда эти две оценки - предполагаемое богатство и предполагаемое место проживания - были объединены, результаты были схожи с оценками, полученными в Обзоре демографии и здоровья, традиционном обследовании золотого стандарта (рисунок 3.17).

Рисунок 3.16: Схема исследования Blumenstock, Cadamuro, and On (2015) . Записи звонков от телефонной компании были преобразованы в матрицу с одной строкой для каждого человека и по одному столбцу для каждой функции (т. Е. Переменной). Затем исследователи построили контролируемую обучающую модель для прогнозирования ответов опроса от индивидуальной матрицы. Затем контролируемая модель обучения использовалась для приведения ответов на опрос среди всех 1,5 миллионов клиентов. Кроме того, исследователи оценили приблизительное место жительства для всех 1,5 миллиона клиентов на основе местоположения их звонков. Когда эти две оценки - предполагаемое богатство и предполагаемое место проживания - были объединены, результаты были схожи с оценками из Обзора демографии и здоровья, традиционного обследования золотого стандарта (рисунок 3.17).

Рисунок 3.17: Результаты от Blumenstock, Cadamuro и On (2015). На индивидуальном уровне исследователи смогли сделать разумную работу по прогнозированию чьего-либо богатства в своих записях. Оценки богатства районного уровня для 30 районов Руанды, которые были основаны на оценках богатства и места проживания на индивидуальном уровне, были аналогичны результатам Обзора демографии и здоровья, традиционного обследования золотого стандарта. Адаптировано из Blumenstock, Cadamuro и On (2015), рисунки 1a и 3c.

Рисунок 3.17: Результаты от Blumenstock, Cadamuro, and On (2015) . На индивидуальном уровне исследователи смогли сделать разумную работу по прогнозированию чьего-либо богатства в своих записях. Оценки богатства районного уровня для 30 районов Руанды, которые были основаны на оценках богатства и места проживания на индивидуальном уровне, были аналогичны результатам Обзора демографии и здоровья, традиционного обследования золотого стандарта. Адаптировано из Blumenstock, Cadamuro, and On (2015) , рисунки 1a и 3c.

В заключение, усиленный запрос Блюменстока объединил данные обследований с большим источником данных для получения оценок, сопоставимых с результатами исследования золотого стандарта. В этом конкретном примере также разъясняются некоторые компромиссы между расширенными запросами и традиционными методами обследования. Усиленные запрашиваемые оценки были более своевременными, существенно более дешевыми и более гранулированными. Но, с другой стороны, пока еще нет сильной теоретической основы для такого расширенного вопроса. Этот единственный пример не показывает, когда этот подход будет работать, а когда этого не произойдет, и исследователи, использующие этот подход, должны быть особенно обеспокоены возможными предубеждениями, вызванными тем, кто включен - и кто не включен - в их большой источник данных. Кроме того, расширенный запросный подход еще не имеет хороших способов количественной оценки неопределенности вокруг его оценок. К счастью, усиленный запрос имеет глубокие связи с тремя большими областями в статистике - оценка малых площадей (Rao and Molina 2015) , условное исчисление (Rubin 2004) и модельная постстратификация (которая сама по себе тесно связана с г-ном П., метод, который я описал ранее в этой главе) (Little 1993) . Из-за этих глубоких связей я ожидаю, что многие из методологических основ усиленного запроса скоро будут улучшены.

Наконец, сравнение первых и вторых попыток Блюменстока также иллюстрирует важный урок о социальных исследованиях в цифровом возрасте: начало - это не конец. То есть, много раз, первый подход не будет лучшим, но если исследователи продолжат работать, все может стать лучше. В более общем плане, при оценке новых подходов к социальным исследованиям в эпоху цифровых технологий важно сделать две различные оценки: (1) Насколько хорошо это работает сейчас? и (2) Насколько хорошо это будет работать в будущем по мере изменения ландшафта данных и как исследователи уделяют больше внимания проблеме? Хотя исследователей обучают сделать первый вид оценки, второй часто более важен.