2.3.2 Секогаш

Секогаш на големи податоци им овозможува на студија на неочекувани настани и мерење во реално време.

Многу големи системи на податоци се секогаш на; тие се постојано собирање на податоци. Ова секогаш-на карактеристика обезбедува истражувачи со надолжни податоци (на пример, податоци со текот на времето). Да се ​​биде секогаш на има две важни импликации за истражување.

Прво, секогаш на собирање на податоци им овозможува на истражувачите да ги проучат неочекуваните настани на начин што инаку не би бил возможен. На пример, истражувачите заинтересирани за проучување на протестите Окупи Gezi во Турција во летото 2013 обично ќе се фокусираат на однесувањето на демонстрантите за време на настанот. Черен Будак и Данкан Ватс (2015) успеаја да направат повеќе со користење на постојаната природа на Твитер за да ги проучуваат демонстрантите кои го користеле Твитер пред, за време и по настанот. И, тие успеаја да создадат споредбена група на непартиски лица пред, за време и по настанот (слика 2.2). Вкупно, нивниот пост-пост панел вклучуваше твитови од 30.000 луѓе во текот на две години. Со зголемување на најчесто користени податоци од протестите со оваа друга информација, Будак и Вотс успеаа да научат многу повеќе: тие беа во можност да проценат кои луѓе се со поголема веројатност да учествуваат во протестите на Гези и да ги проценат промените во ставовите на учесници и не-учесници, и на краток рок (споредувајќи ги пред-Гези за време на Гези) и на долг рок (споредувајќи ги пред-Гези со пост-Гези).

Слика 2.2: Дизајн што го користат Будак и Вотс (2015) за проучување на протестите Окупирачки Гези во Турција во летото 2013 година. Со користење на постојаната природа на Твитер, истражувачите го создадоа она што го нарекуваа екс-пост панел, кој вклучуваше 30.000 луѓе во текот на две години. За разлика од типична студија која се фокусираше на учесниците за време на протестите, ex-post панелот додава 1) податоци од учесниците пред и по настанот и 2) податоци од nonparticipants пред, за време и по настанот. Оваа збогатена структура на податоци им овозможила на Будак и Вотс да проценат каков вид на луѓе се со поголема веројатност да учествуваат во протестите на Гези и да ги проценат промените во ставовите на учесниците и не-учесниците, и на краток рок (споредувајќи ги претходно Gezi со време Gezi ) и на долг рок (споредувајќи ги пред-Гези со пост-Гези).

Слика 2.2: Дизајн што го користат Budak and Watts (2015) за проучување на протестите Окупирачки Гези во Турција во летото 2013 година. Со користење на постојаната природа на Твитер, истражувачите го создадоа она што го нарекуваа екс-пост панел, кој вклучуваше 30.000 луѓе во текот на две години. За разлика од типична студија која се фокусираше на учесниците за време на протестите, ex-post панелот додава 1) податоци од учесниците пред и по настанот и 2) податоци од nonparticipants пред, за време и по настанот. Оваа збогатена структура на податоци им овозможила на Будак и Вотс да проценат каков вид на луѓе се со поголема веројатност да учествуваат во протестите на Гези и да ги проценат промените во ставовите на учесниците и не-учесниците, и на краток рок (споредувајќи ги претходно Gezi со време Gezi ) и на долг рок (споредувајќи ги пред-Гези со пост-Гези).

Скептик може да истакне дека некои од овие проценки би можеле да се направат без извори за собирање на податоци (на пример, долгорочни проценки за промената на ставот), и тоа е точно, иако таквото собирање на податоци за 30.000 луѓе би било сосема скапо. Дури и со оглед на неограничен буџет, сепак, не можам да помислам на друг метод кој во суштина им овозможува на истражувачите да патуваат назад во времето и директно да го набљудуваат однесувањето на учесниците во минатото. Најблиската алтернатива би била да се соберат ретроспективни извештаи за однесување, но овие извештаи би биле со ограничена грануларност и сомнителна прецизност. Табела 2.1 дава други примери на студии кои користат извор на податоци за да проучат неочекуван настан.

Табела 2.1: Студии за неочекувани настани користејќи секогаш големи извори на податоци.
Неочекуван настан Извор на податоци секогаш Цитирање
Окупираат движењето Гези во Турција Твитер Budak and Watts (2015)
Чадор протести во Хонг Конг Weibo Zhang (2016)
Пукање во полиција во Њујорк Стоп-и-frisk извештаи Legewie (2016)
Лице што се приклучува кон ISIS Твитер Magdy, Darwish, and Weber (2016)
Напад 11 септември 2001 година livejournal.com Cohn, Mehl, and Pennebaker (2004)
Напад 11 септември 2001 година Пејџер пораки Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Покрај студирањето на неочекувани настани, секогаш на големите системи за податоци, исто така, им овозможуваат на истражувачите да произведуваат проценки во реално време, кои можат да бидат важни во поставките каде креаторите на политиката - во владата или индустријата - сакаат да одговорат врз основа на ситуациона свест. На пример, податоците за социјалните медиуми може да се користат за насочување на одговор на вонредни состојби на природни катастрофи (Castillo 2016) и може да се користат различни извори на големи извори на податоци кои произведуваат проценки за економската активност во реално време (Choi and Varian 2012) .

Како заклучок, системите за податоци секогаш им овозможуваат на истражувачите да ги проучуваат неочекуваните настани и да обезбедат информации во реално време за креаторите на политиката. Сепак, не мислам дека системите за податоци секогаш се прилагодени за следење на промените во многу долги временски периоди. Тоа е затоа што многу големи системи за податоци постојано се менуваат - процес што ќе го наречам лебдат подоцна во поглавјето (дел 2.3.7).