2.3.2 Винаги включен

Винаги-на големи данни позволява изучаването на неочаквани събития и измерване в реално време.

Много големи системи за данни са винаги-на; те постоянно събиране на данни. Това винаги-на характеристика осигурява изследователи с надлъжни данни (т.е. данни с течение на времето). Да бъдеш винаги-на има две важни последици за научни изследвания.

Първо, винаги събирането на данни позволява на изследователите да учат неочаквани събития по начини, които иначе не биха били възможни. Например, изследователи, които се интересуват от изучаването на протестите "Occupy Gezi" в Турция през лятото на 2013 г., обикновено ще се съсредоточат върху поведението на протестиращите по време на събитието. Серен Будак и Дънкан Уотс (2015) успяха да направят повече, като използваха винаги природата на Twitter, за да изучават протестиращите, които са използвали Twitter преди, по време и след събитието. И те са в състояние да създадат група за сравнение на участниците преди, по време и след събитието (фигура 2.2). Като цяло, техният последен панел включваше tweets от 30 000 души в продължение на две години. Като увеличиха често използваните данни от протестите с тази друга информация, Будак и Уотс успяха да научат много повече: те успяха да преценят какъв вид хора е по-вероятно да участват в протестите на Гези и да преценят промените в нагласите на участниците и участниците, както в краткосрочен план (сравнявайки пре-Gezi с Gezi), така и в дългосрочен план (сравнявайки pre-Gezi с post-Gezi).

Фигура 2.2: Дизайн, използван от Будак и Уотс (2015), за да изучи протестите на Occupy Gezi в Турция през лятото на 2013 година. Използвайки винаги природата на Twitter, изследователите създадоха това, което нарекоха последващ панел, 30 000 души в продължение на две години. За разлика от типично проучване, което се фокусира върху участниците по време на протестите, последният панел добавя 1) данни от участниците преди и след събитието и 2) данни от участници преди, по време и след събитието. Тази обогатена структура на данните дава възможност на Будак и Уотс да преценят кои хора са по-склонни да участват в протестите на Гези и да преценят промените в нагласите на участниците и не-участници, както в краткосрочен план (сравнявайки пре-Gezi с Gezi ) и в дългосрочен план (сравнявайки pre-Gezi с post-Gezi).

Фигура 2.2: Дизайн, използван от Budak and Watts (2015) да изучи протестите на Occupy Gezi в Турция през лятото на 2013 година. Използвайки винаги природата на Twitter, изследователите създадоха това, което нарекоха последващ панел , 30 000 души в продължение на две години. За разлика от типично проучване, което се фокусира върху участниците по време на протестите, последният панел добавя 1) данни от участниците преди и след събитието и 2) данни от участници преди, по време и след събитието. Тази обогатена структура на данните дава възможност на Будак и Уотс да преценят кои хора са по-склонни да участват в протестите на Гези и да преценят промените в нагласите на участниците и не-участници, както в краткосрочен план (сравнявайки пре-Gezi с Gezi ) и в дългосрочен план (сравнявайки pre-Gezi с post-Gezi).

Скептик може да посочи, че някои от тези оценки биха могли да бъдат направени без винаги източници за събиране на данни (напр. Дългосрочни оценки на промяната на нагласите) и това е правилно, въпреки че такова събиране на данни за 30 000 души би било доста скъпо. Дори и да имам неограничен бюджет, не мога да мисля за друг метод, който по същество позволява на изследователите да пътуват назад във времето и да наблюдават пряко поведението на участниците в миналото. Най-близката алтернатива би била да се съберат ретроспективни доклади за поведение, но тези доклади биха били с ограничена подробност и съмнителна точност. таблица 2.1 предоставя други примери за изследвания, които използват винаги източник на данни за изучаване на неочаквано събитие.

Таблица 2.1: Изследвания на неочаквани събития, използващи винаги големи източници на данни.
Неочаквано събитие Източник на данни винаги Цитат
Заедно с движението Gezi в Турция кикотене Budak and Watts (2015)
Чадър протести в Хонг Конг Weibo Zhang (2016)
Стрелките на полицията в Ню Йорк Справки за прекратяване на опитите Legewie (2016)
Лице, което се присъединява към ISIS кикотене Magdy, Darwish, and Weber (2016)
11 септември 2001 г. атака livejournal.com Cohn, Mehl, and Pennebaker (2004)
11 септември 2001 г. атака пейджър съобщения Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

В допълнение към изучаването на неочаквани събития системите за данни винаги позволяват на изследователите да изготвят прогнози в реално време, които могат да бъдат важни в средите, където политиците - в правителството или в отрасъла - искат да отговорят на базата на ситуационната осведоменост. Например данните от социалните медии могат да бъдат използвани за насочване на реакцията при бедствия към природни бедствия (Castillo 2016) и могат да се използват различни големи източници на данни, които дават възможност за изчисляване на икономическата активност в реално време (Choi and Varian 2012) .

В заключение, системите за обработка на данни винаги дават възможност на изследователите да изучават неочаквани събития и да предоставят информация в реално време на политиците. Не мисля обаче, че системите за данни винаги са подходящи за проследяване на промените за много дълги периоди от време. Това е така, защото много големи информационни системи непрекъснато се променят - процес, който по-късно ще наричам плаванията (глава 2.3.7).