2.3.2 Întotdeauna pornit

Întotdeauna pe date mari , permite studiul unor evenimente neașteptate și măsurători în timp real.

Multe sisteme de date mari sunt întotdeauna pe; acestea sunt de colectare a datelor în mod constant. Această caracteristică întotdeauna pe oferă cercetătorilor cu date longitudinale (de exemplu, date în timp). Fiind mereu pe are două implicații importante pentru cercetare.

În primul rând, colectarea permanentă a datelor permite cercetătorilor să studieze evenimente neașteptate în moduri care altfel nu ar fi posibile. De exemplu, cercetătorii interesați să studieze protestele Occupy Gezi din Turcia în vara anului 2013 s-ar concentra, de regulă, pe comportamentul protestatarilor în timpul evenimentului. Ceren Budak și Duncan Watts (2015) au reușit să facă mai mult prin folosirea naturii întotdeauna a Twitter pentru a studia protestatarii care au folosit Twitter înainte, în timpul și după eveniment. Și au reușit să creeze un grup de comparație de participanți înainte, în timpul și după eveniment (figura 2.2). În total, grupul lor ex-post a inclus tweet-urile a 30.000 de persoane pe parcursul a doi ani. Prin sporirea datelor obișnuite din proteste cu alte informații, Budak și Watts au reușit să învețe mult mai mult: au fost capabili să estimeze ce tipuri de persoane aveau mai multe șanse să participe la protestele Gezi și să estimeze schimbările în atitudinile participanții și neparticipanții, atât pe termen scurt (comparând pre-Gezi cu Gezi) cât și pe termen lung (comparând pre-Gezi cu post-Gezi).

Figura 2.2: Proiectarea utilizată de Budak și Watts (2015) pentru a studia protestele Occupy Gezi din Turcia în vara anului 2013. Prin utilizarea întotdeauna a naturii Twitter, cercetătorii au creat ceea ce ei au numit un panou ex-post care include 30.000 de oameni peste doi ani. Spre deosebire de un studiu tipic care sa axat pe participanți în timpul protestelor, panoul ex-post adaugă 1) date de la participanți înainte și după eveniment și 2) date de la participanți înainte, în timpul și după eveniment. Această structură îmbogățită a datelor a permis lui Budak și Watts să estimeze ce tipuri de persoane ar fi mai probabil să participe la protestele Gezi și să estimeze schimbările în atitudinile participanților și ne-participanților, atât pe termen scurt (comparând pre-Gezi cu Gezi ) și pe termen lung (comparând pre-Gezi cu post-Gezi).

Figura 2.2: Proiectarea utilizată de Budak and Watts (2015) pentru a studia protestele Occupy Gezi din Turcia în vara anului 2013. Prin utilizarea întotdeauna a naturii Twitter, cercetătorii au creat ceea ce ei au numit un panou ex-post care include 30.000 de oameni peste doi ani. Spre deosebire de un studiu tipic care sa axat pe participanți în timpul protestelor, panoul ex-post adaugă 1) date de la participanți înainte și după eveniment și 2) date de la participanți înainte, în timpul și după eveniment. Această structură îmbogățită a datelor a permis lui Budak și Watts să estimeze ce tipuri de persoane ar fi mai probabil să participe la protestele Gezi și să estimeze schimbările în atitudinile participanților și ne-participanților, atât pe termen scurt (comparând pre-Gezi cu Gezi ) și pe termen lung (comparând pre-Gezi cu post-Gezi).

Un sceptic ar putea să sublinieze că unele dintre aceste estimări ar fi putut fi făcute fără surse întotdeauna de colectare a datelor (de exemplu, estimări pe termen lung ale schimbării de atitudine) și că este corect, deși o astfel de colectare a datelor pentru 30 000 de persoane ar fi fost destul de scump. Chiar și cu un buget nelimitat, însă, nu mă pot gândi la nici o altă metodă care să permită cercetătorilor să călătorească înapoi în timp și să observe în mod direct comportamentul participanților în trecut. Cea mai apropiată alternativă ar fi colectarea rapoartelor retrospective de comportament, dar aceste rapoarte ar avea o granularitate limitată și o precizie discutabilă. tabelul 2.1 oferă alte exemple de studii care utilizează o sursă de date întotdeauna pentru a studia un eveniment neașteptat.

Tabelul 2.1: Studii ale evenimentelor neașteptate folosind surse de date întotdeauna pe mari date.
Eveniment neașteptat Întotdeauna sursă de date Citare
Occupy Gezi în Turcia Stare de nervozitate Budak and Watts (2015)
Umbrelă protestează în Hong Kong Weibo Zhang (2016)
Trageri de poliție în New York City Rapoarte rapide Legewie (2016)
Persoana care se alătură ISIS Stare de nervozitate Magdy, Darwish, and Weber (2016)
11 septembrie 2001 atac livejournal.com Cohn, Mehl, and Pennebaker (2004)
11 septembrie 2001 atac mesaje pager Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Pe lângă studierea evenimentelor neașteptate, sistemele de date de mare amploare permit, de asemenea, cercetătorilor să producă estimări în timp real, care pot fi importante în situațiile în care factorii de decizie - în guvern sau industrie - doresc să răspundă pe baza conștientizării situației. De exemplu, datele sociale pot fi folosite pentru a ghida reacțiile de urgență la dezastre naturale (Castillo 2016) și pot fi folosite o varietate de surse mari de date pentru a produce estimări în timp real ale activității economice (Choi and Varian 2012) .

În concluzie, sistemele de date permanente permit cercetătorilor să studieze evenimente neașteptate și să furnizeze factorilor de decizie informații în timp real. Cu toate acestea, nu cred că sistemele de date mereu sunt potrivite pentru urmărirea schimbărilor pe perioade foarte lungi de timp. Acest lucru se datorează faptului că multe sisteme mari de date se schimbă în mod constant-un proces care să sun mai târziu , în derivă în capitolul (secțiunea 2.3.7).