2.3.2 Всегда включен

Всегда-на больших данных позволяет изучать неожиданных событий и измерений в режиме реального времени.

Многие крупные информационные системы всегда-на; они постоянно собирает данные. Это всегда на характеристика обеспечивает исследователям продольных данных (т.е. данных с течением времени). Будучи всегда на два важных последствия для исследований.

Во-первых, постоянный сбор данных позволяет исследователям изучать неожиданные события способами, которые в противном случае были бы невозможны. Например, исследователи, заинтересованные в изучении протестов «Занимать Гези» в Турции летом 2013 года, обычно будут сосредоточены на поведении протестующих во время мероприятия. Ceren Budak и Duncan Watts (2015) смогли сделать больше, используя постоянную природу Twitter для изучения протестующих, которые использовали Twitter до, во время и после мероприятия. И они смогли создать группу сравнения не участвующих участников до, во время и после события (рисунок 2.2). В общей сложности, их бывшая почта включала твиты 30 000 человек в течение двух лет. Увеличивая часто используемые данные протестов с этой другой информацией, Будак и Ваттс смогли узнать гораздо больше: они смогли оценить, какие люди чаще участвуют в протестах Гези, и оценить изменения в подходах участников и нечастников, как в краткосрочной перспективе (сравнение до Gezi до во время Gezi), так и в долгосрочной перспективе (сравнение pre-Gezi с пост-Gezi).

Рисунок 2.2: Проект, используемый Будаком и Ваттом (2015) для изучения протестов «Занимайте Гези» в Турции летом 2013 года. Используя постоянную природу Twitter, исследователи создали так называемую панель ex-post, которая включала в себя 30 000 человек в течение двух лет. В отличие от типичного исследования, которое было сосредоточено на участниках во время протестов, панель ex-post добавляет 1) данные от участников до и после события и 2) данные от участников, до, во время и после события. Эта обогащенная структура данных позволила Будаку и Ватту оценить, какие люди были более склонны участвовать в протестах Гези, а также оценивать изменения в отношениях участников и не участников, как в краткосрочной перспективе (сравнивая пред-Gezi с во время Gezi ) и в долгосрочной перспективе (сравнение пред-Gezi с пост-Gezi).

Рисунок 2.2: Проект, используемый Budak and Watts (2015) для изучения протестов «Занимайте Гези» в Турции летом 2013 года. Используя постоянную природу Twitter, исследователи создали так называемую панель ex-post, которая включала в себя 30 000 человек в течение двух лет. В отличие от типичного исследования, которое было сосредоточено на участниках во время протестов, панель ex-post добавляет 1) данные от участников до и после события и 2) данные от участников, до, во время и после события. Эта обогащенная структура данных позволила Будаку и Ватту оценить, какие люди были более склонны участвовать в протестах Гези, а также оценивать изменения в отношениях участников и не участников, как в краткосрочной перспективе (сравнивая пред-Gezi с во время Gezi ) и в долгосрочной перспективе (сравнение пред-Gezi с пост-Gezi).

Скептик может указать, что некоторые из этих оценок могли быть сделаны без использования источников данных (например, долгосрочные оценки изменения отношения), и это правильно, хотя такой сбор данных для 30 000 человек был бы вполне дорогая. Однако даже при неограниченном бюджете я не могу придумать какой-либо другой метод, который по существу позволяет исследователям путешествовать во времени и напрямую наблюдать за поведением участников в прошлом. Ближайшей альтернативой будет сбор ретроспективных отчетов о поведении, но эти отчеты будут иметь ограниченную детализацию и сомнительную точность. в таблице 2.1 приведены другие примеры исследований, в которых используется постоянный источник данных для изучения неожиданного события.

Таблица 2.1. Изучение непредвиденных событий с использованием постоянно работающих источников данных.
Неожиданное событие Постоянный источник данных цитирование
Занимайте движение Gezi в Турции щебет Budak and Watts (2015)
Протесты зонтиков в Гонконге Weibo Zhang (2016)
Съемки полиции в Нью-Йорке Отчеты Stop-and-frisk Legewie (2016)
Лицо, присоединяющееся к ISIS щебет Magdy, Darwish, and Weber (2016)
Атака 11 сентября 2001 года livejournal.com Cohn, Mehl, and Pennebaker (2004)
Атака 11 сентября 2001 года сообщения пейджера Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

В дополнение к изучению непредвиденных событий, всегда в больших системах данных также позволяют исследователям производить оценки в реальном времени, что может иметь важное значение в условиях, когда разработчики политики - в правительстве или отрасли - хотят реагировать на основе ситуационной осведомленности. Например, данные социальных сетей могут использоваться для направления экстренного реагирования на стихийные бедствия (Castillo 2016) и можно использовать множество различных источников данных, которые производят оценки экономической активности в реальном времени (Choi and Varian 2012) .

В заключение, система данных с постоянным доступом позволяет исследователям изучать неожиданные события и предоставлять информацию в режиме реального времени политикам. Тем не менее, я не думаю, что всегда используемые системы данных хорошо подходят для отслеживания изменений в течение очень длительных периодов времени. Это происходит потому , что многие крупные информационные системы постоянно меняются-процесс , который я буду называть дрейфовать позже (раздел 2.3.7) главы.