2.3.2 Ĉiam-sur

Ĉiam-sur grandaj datumoj ebligas la studo de neatenditaj okazaĵoj kaj realtempan mezuradon.

Multaj grandaj datumoj sistemoj estas ĉiam-sur; ili konstante kolektanta datumon. Tiu ĉiam-sur karakteriza provizas esploristojn kun longitudaj datumoj (te, datumoj super tempo). Esti ĉiam-sur havas du gravajn implicojn por esplorado.

Unue, ĉiam-sur datuma kolekto ebligas esploristojn studi neatenditajn eventojn en manieroj, kiuj ne eblus. Ekzemple, esploristoj interesitaj pri studado de la protestoj de Occupy Gezi en Turkio en la somero de 2013 kutime fokusus la konduton de protestantoj dum la evento. Ceren Budak kaj Duncan Watts (2015) povis fari pli per uzado de la ĉiam-naturo de Twitter por studi protestantojn, kiuj uzis Twitter antaŭe, dum kaj post la okazaĵo. Kaj ili povis krei komparecon de neparticipantoj antaŭ, dum kaj post la okazaĵo (figuro 2.2). Entute, ilia eks-poŝto inkludis la tweets de 30,000 homoj dum du jaroj. Pliigante la komune uzatan datumon de la protestoj kun ĉi tiu alia informo, Budak kaj Vattoj povis lerni multe pli: ili povis taksi kiajn homojn pli inklinas partopreni en la protestoj de Gezi kaj taksi la ŝanĝojn de sintenoj de partoprenantoj kaj nepartoprenantoj, ambaŭ baldaŭ (komparante antaŭ-Gezi dum Gezi) kaj longtempe (komparante antaŭ-Gezi kun post-Gezi).

Figuro 2.2: Dezajno uzata de Budak kaj Vattoj (2015) por studi la okupaciojn de Occupy Gezi en Turkio en la somero de 2013. Per uzado de ĉiama naturo de Twitter, la esploristoj kreis kion ili nomis eks-poŝta panelo kiu inkludis pri 30,000 homoj dum du jaroj. Kontraste al tipa studo, kiu enfokusigis partoprenantojn dum la protestoj, la eks-poŝto aldonas 1) datumojn de partoprenantoj antaŭ kaj post la okazaĵo kaj 2) datumoj de nepartoprenantoj antaŭ, dum kaj post la okazaĵo. Ĉi tiu riĉa strukturo de datumoj ebligis al Budak kaj Vattoj taksi kiajn homojn pli inklinas partopreni en la protestoj de Gezi kaj taksi la ŝanĝojn de sintenoj de partoprenantoj kaj ne-partoprenantoj, kaj baldaŭ (komparante antaŭ-Gezi kun Gezi dum Gezi ) kaj longtempe (komparante antaŭ-Gezi kun post-Gezi).

Figuro 2.2: Dezajno uzata de Budak and Watts (2015) por studi la okupaciojn de Occupy Gezi en Turkio en la somero de 2013. Per uzado de ĉiama naturo de Twitter, la esploristoj kreis kion ili nomis eks-poŝta panelo kiu inkludis pri 30,000 homoj dum du jaroj. Kontraste al tipa studo, kiu enfokusigis partoprenantojn dum la protestoj, la eks-poŝto aldonas 1) datumojn de partoprenantoj antaŭ kaj post la okazaĵo kaj 2) datumoj de nepartoprenantoj antaŭ, dum kaj post la okazaĵo. Ĉi tiu riĉa strukturo de datumoj ebligis al Budak kaj Vattoj taksi kiajn homojn pli inklinas partopreni en la protestoj de Gezi kaj taksi la ŝanĝojn de sintenoj de partoprenantoj kaj ne-partoprenantoj, kaj baldaŭ (komparante antaŭ-Gezi kun Gezi dum Gezi ) kaj longtempe (komparante antaŭ-Gezi kun post-Gezi).

Skeptika eble pruvas, ke iuj el ĉi tiuj taksoj povus esti faritaj sen ĉiam-pri datumaj kolektoj (ekz., Longtempa taksoj de sintenoŝanĝo), kaj tio estas ĝusta, kvankam tia kompilaĵo por 30,000 homoj estus sufiĉe multekosta. Eĉ donita senlima buĝeto, tamen mi ne povas pensi pri iu ajn alia metodo, kiu esence permesas al esploristoj vojaĝi reen en tempo kaj rekte observi la konduton de la partoprenantoj en la pasinteco. La plej proksima alternativo estus kolekti retrospektivajn raportojn pri konduto, sed ĉi tiuj raportoj estus de limigita granduleco kaj dubinda precizeco. Tablo 2.1 provizas aliajn ekzemplojn de studoj, kiuj uzas ĉiam-datenfonto por studi neatenditan eventon.

Tablo 2.1: Studoj de neatenditaj okazaĵoj uzantaj ĉiam-sur grandaj datumaj fontoj.
Neatendita okazaĵo Ĉiam-sur datuma fonto Citaĵo
Okupu Gezi-movadon en Turkio Twitter Budak and Watts (2015)
Umbrella protestas en Hongkongo Weibo Zhang (2016)
Ŝotadoj de policano en Novjorko Raportoj malrapidaj kaj maldikaj Legewie (2016)
Persono kuniĝi al ISIS Twitter Magdy, Darwish, and Weber (2016)
11an de septembro 2001 atako livejournal.com Cohn, Mehl, and Pennebaker (2004)
11an de septembro 2001 atako mesaĝaj mesaĝoj Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Krom studi neatenditajn eventojn, ĉiam-sur grandaj datum-sistemoj ankaŭ ebligas esploristojn produkti realtempajn taksojn, kiuj povas esti gravaj en agordoj kie politikistoj-en registaro aŭ industrio- volas respondi laŭ situacio-konscienco. Ekzemple, sociaj amaskomunikilaraj datumoj povas esti uzataj por gvidi krizan respondon al naturaj katastrofoj (Castillo 2016) kaj diversaj diversaj grandaj datumaj fontoj povas esti uzataj en reala tempo taksoj de ekonomia agado (Choi and Varian 2012) .

En konkludo, ĉiam-sur datumaj sistemoj ebligas esploristojn studi neatenditajn eventojn kaj provizi en reala tempo informojn al politikistoj. Mi tamen opinias, ke ĉiam-sur datumaj sistemoj estas tre taŭga por traktado de ŝanĝoj dum tre longaj tempoj. Ĉi tio estas, ĉar multaj grandaj sistemaj sistemoj senĉese ŝanĝiĝas - procezo, kiun mi vokos, poste disvastiĝos en la ĉapitro (sekcio 2.3.7).