2.3.2 Завжди на 2.3.2

Завжди-на великих даних дозволяє вивчати несподіваних подій і вимірювань в режимі реального часу.

Багато великих інформаційні системи завжди-на; вони постійно збирає дані. Це завжди на характеристика забезпечує дослідникам поздовжніх даних (тобто даних з плином часу). Будучи завжди на два важливих наслідки для досліджень.

По-перше, постійне збирання даних дозволяє дослідникам вивчати непередбачені події таким чином, що інакше було б неможливим. Наприклад, дослідники, зацікавлені у вивченні протестів окупації Гезі в Туреччині влітку 2013 року, як правило, зосереджуються на поведінці протестуючих під час події. Черін Будак та Дункан Уоттс (2015) змогли зробити більше, використовуючи завжди на природі Twitter для вивчення протестуючих, які використовували Twitter раніше, під час та після події. І вони змогли створити групу порівняння не учасників до, під час та після події (рис. 2.2). Усього їх екс-пост-панель включала в себе твітів понад 30000 чоловік протягом двох років. Підсилюючи загальноприйняті дані про протести з цією іншою інформацією, Будак та Уоттс змогли дізнатись набагато більше: вони змогли оцінити, які люди були більш схильні до участі в протестах Гезі та оцінити зміни у ставленні до учасників та не учасників, як в короткостроковій перспективі (порівнюючи попередньо Гейзі з Гезі) і в довгостроковій перспективі (порівнюючи попередньо Гейзі з пост-Гезі).

Рисунок 2.2: Дизайн, використовуваний Budak і Watts (2015), для вивчення протестів окупації Gezi в Туреччині влітку 2013 року. Використовуючи постійний характер Twitter, дослідники створили те, що вони називають екс-пост панелі, яка включала в себе 30 000 чоловік старше двох років. На відміну від типового дослідження, яке орієнтовано на учасників під час акцій протесту, екс-пост додає 1) дані учасників до та після події та 2) дані від учасників до, під час та після події. Ця збагачена структура даних дозволила Будаку та Ваттсу оцінити, які люди більше схильні брати участь у акціях Гезі, а також оцінити зміни у ставленні учасників та не учасників, як в короткостроковій перспективі (порівнюючи попередньо Гейзі з Гезі ) і в довгостроковій перспективі (порівнюючи попередньо Гезі з пост-Гезі).

Рисунок 2.2: Дизайн, використовуваний Budak and Watts (2015) для вивчення протестів окупації Gezi в Туреччині влітку 2013 року. Використовуючи постійний характер Twitter, дослідники створили те, що вони називають екс-пост панелі, яка включала в себе 30 000 чоловік старше двох років. На відміну від типового дослідження, яке орієнтовано на учасників під час акцій протесту, екс-пост додає 1) дані учасників до та після події та 2) дані від учасників до, під час та після події. Ця збагачена структура даних дозволила Будаку та Ваттсу оцінити, які люди більше схильні брати участь у акціях Гезі, а також оцінити зміни у ставленні учасників та не учасників, як в короткостроковій перспективі (порівнюючи попередньо Гейзі з Гезі ) і в довгостроковій перспективі (порівнюючи попередньо Гезі з пост-Гезі).

Скептик може нагадувати, що деякі з цих оцінок могли бути зроблені без завжди - на джерелах збору даних (наприклад, довгострокові оцінки зміни ставлення), і це правильно, хоча такий збір даних для 30 000 людей був би досить дорогий. Проте, навіть за умови необмеженого бюджету, я не можу придумати жодного іншого методу, який, по суті, дозволяє дослідникам повернутися вчасно та безпосередньо спостерігати за поведінкою учасників у минулому. Найближча альтернатива полягає в тому, щоб зібрати ретроспективні повідомлення про поведінку, але ці звіти мають обмежену деталізацію та сумнівну точність. Таблиця 2.1 наводить інші приклади досліджень, в яких використовується постійне джерело даних для вивчення непередбачених подій.

Таблиця 2.1: Дослідження непередбачених подій за допомогою завжди великих джерел даних.
Неочікувана подія Джерело даних завжди Цитування
Займай рух Гезі в Туреччині Twitter Budak and Watts (2015)
Акції протесту в Гонконзі Weibo Zhang (2016)
Зйомки поліції в Нью-Йорку Звіти про зупинки та фріску Legewie (2016)
Особа, що приєднується до ІМС Twitter Magdy, Darwish, and Weber (2016)
11 вересня 2001 року атака livejournal.com Cohn, Mehl, and Pennebaker (2004)
11 вересня 2001 року атака повідомлення пейджера Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Окрім вивчення непередбачених подій, завжди на великих системах даних також дають змогу дослідникам створювати оцінки в режимі реального часу, які можуть бути важливими в тих випадках, коли політики, урядовці чи промисловості, хочуть реагувати, виходячи з ситуативної обізнаності. Наприклад, дані про соціальні медіа можуть використовуватися для надання надзвичайної допомоги при стихійних лихах (Castillo 2016) а також можна використовувати різні великі джерела даних, що дають змогу оцінювати економічну активність у реальному часі (Choi and Varian 2012) .

На закінчення, системи завжди на основі даних дозволяють дослідникам вивчати непередбачені події та надавати інформацію в реальному часі політикам. Проте, я не думаю, що системи постійно працюючих даних добре підходять для відстеження змін протягом дуже довгих періодів часу. Це тому, що багато великих систем даних постійно змінюються - процес, який я називаю дрейф пізніше в розділі (розділ 2.3.7).