2.3.2 Laging-on

Always-on big data ay nagbibigay-daan sa pag-aaral ng mga hindi inaasahang mga kaganapan at real-time na pagsukat.

Maraming mga malaking mga sistema ng data ay palaging-on; sila ay patuloy na pagkolekta ng data. Ito laging-on katangian nagbibigay ng mga mananaliksik na may pahabang datos (ie, data sa paglipas ng panahon). Ang pagiging laging-on ay may dalawang mahalagang implikasyon para sa pananaliksik.

Una, ang laging nakukuha sa pagkolekta ng data ay nagpapahintulot sa mga mananaliksik na pag-aralan ang mga hindi inaasahang pangyayari sa mga paraan na hindi maaaring maging posible. Halimbawa, ang mga mananaliksik na interesado sa pag-aaral sa mga protesta ng Occupy Gezi sa Turkey sa tag-init ng 2013 ay karaniwang tumutuon sa pag-uugali ng mga nagprotesta sa panahon ng kaganapan. Ang Ceren Budak at Duncan Watts (2015) ay nakagawa ng higit pa sa pamamagitan ng paggamit ng likas na katangian ng Twitter sa pag-aaral ng mga nagprotesta na gumagamit ng Twitter bago, sa panahon, at pagkatapos ng kaganapan. At, nakalikha sila ng isang grupo ng paghahambing ng mga hindi kasapi bago, sa panahon, at pagkatapos ng kaganapan (figure 2.2). Sa kabuuan, kasama sa kanilang ex-post panel ang mga tweet ng 30,000 katao sa loob ng dalawang taon. Sa pamamagitan ng pagdaragdag ng karaniwang ginagamit na data mula sa mga protesta kasama ang iba pang impormasyon, marami pang natutunan ang Budak at Watts: natantyungan nila kung anong uri ng mga tao ang mas malamang na lumahok sa mga protesta ng Gezi at tantyahin ang mga pagbabago sa mga saloobin ng mga kalahok at hindi kasapi, parehong sa maikling salita (paghahambing pre-Gezi sa panahon ng Gezi) at sa pangmatagalan (paghahambing pre-Gezi sa post-Gezi).

Figure 2.2: Disenyo na ginamit ng Budak at Watts (2015) upang pag-aralan ang mga protesta ng Occupy Gezi sa Turkey sa tag-init ng 2013. Sa paggamit ng likas na katangian ng Twitter, nililikha ng mga mananaliksik ang tinatawag nilang ex-post panel na kasama 30,000 katao sa loob ng dalawang taon. Sa kaibahan sa isang karaniwang pag-aaral na nakatuon sa mga kalahok sa panahon ng mga protesta, ang ex-post panel ay nagdadagdag ng 1) data mula sa mga kalahok bago at pagkatapos ng kaganapan at 2) data mula sa mga hindi kasapi bago, sa panahon, at pagkatapos ng kaganapan. Ang enriched na istraktura ng data na ito ay nagpapahintulot sa Budak at Watts na tantyahin kung anong uri ng mga tao ay mas malamang na lumahok sa mga protesta ng Gezi at upang tantyahin ang mga pagbabago sa mga saloobin ng mga kalahok at di-kalahok, kapwa sa maikling termino (paghahambing ng pre-Gezi sa panahon ng Gezi ) at sa mahabang panahon (paghahambing pre-Gezi sa post-Gezi).

Figure 2.2: Disenyo na ginamit ng Budak and Watts (2015) upang pag-aralan ang mga protesta ng Occupy Gezi sa Turkey sa tag-init ng 2013. Sa paggamit ng likas na katangian ng Twitter, nililikha ng mga mananaliksik ang tinatawag nilang ex-post panel na kasama 30,000 katao sa loob ng dalawang taon. Sa kaibahan sa isang karaniwang pag-aaral na nakatuon sa mga kalahok sa panahon ng mga protesta, ang ex-post panel ay nagdadagdag ng 1) data mula sa mga kalahok bago at pagkatapos ng kaganapan at 2) data mula sa mga hindi kasapi bago, sa panahon, at pagkatapos ng kaganapan. Ang enriched na istraktura ng data na ito ay nagpapahintulot sa Budak at Watts na tantyahin kung anong uri ng mga tao ay mas malamang na lumahok sa mga protesta ng Gezi at upang tantyahin ang mga pagbabago sa mga saloobin ng mga kalahok at di-kalahok, kapwa sa maikling termino (paghahambing ng pre-Gezi sa panahon ng Gezi ) at sa mahabang panahon (paghahambing pre-Gezi sa post-Gezi).

Maaaring ituro ng isang may pag-aalinlangan na ang ilan sa mga pagtatantya na ito ay maaaring gawin nang walang laging-sa mga pinagkukunan ng pagkolekta ng datos (halimbawa, mga pangmatagalang pagtatantya ng pagbabagong saloobin), at tama iyan, kahit na ang ganitong pagkolekta ng data para sa 30,000 katao ay lubos na mahal. Kahit na bibigyan ng walang limitasyong badyet, gayunpaman, hindi ko maisip ang anumang iba pang paraan na mahalagang nagbibigay-daan sa mga mananaliksik na maglakbay pabalik sa oras at direktang obserbahan ang pag-uugali ng mga kalahok sa nakaraan. Ang pinakamalapit na alternatibo ay ang mangolekta ng mga ulat sa pag-uugali ng pag-uugali, ngunit ang mga ulat na ito ay magiging limitado sa pagiging ganap at kaduda-dudang katumpakan. Ang talahanayan 2.1 ay nagbibigay ng iba pang mga halimbawa ng mga pag-aaral na gumagamit ng laging pinagmulan ng data upang pag-aralan ang hindi inaasahang kaganapan.

Talahanayan 2.1: Mga pag-aaral ng mga di-inaasahang pangyayari gamit ang laging nasa malaking mapagkukunan ng data.
Hindi inaasahang kaganapan Palaging pinagmulan ng data Pagsipi
Sakupin ang kilusang Gezi sa Turkey Twitter Budak and Watts (2015)
Protesta ng payong sa Hong Kong Weibo Zhang (2016)
Mga paniktik ng pulisya sa New York City Mga stop-and-frisk report Legewie (2016)
Ang taong sumali sa ISIS Twitter Magdy, Darwish, and Weber (2016)
Setyembre 11, 2001 atake livejournal.com Cohn, Mehl, and Pennebaker (2004)
Setyembre 11, 2001 atake Mga mensahe ng pager Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Bilang karagdagan sa pag-aaral ng mga hindi inaasahang pangyayari, ang mga malalaking data system na laging nagbibigay-daan din sa mga mananaliksik upang makabuo ng mga real-time na pagtatantya, na maaaring maging mahalaga sa mga setting kung saan ang mga gumagawa ng patakaran-sa gobyerno o industriya-ay nais tumugon batay sa situational awareness. Halimbawa, maaaring gamitin ang data ng social media upang gabayan ang tugon sa emerhensiya sa mga natural na kalamidad (Castillo 2016) at iba't ibang iba't ibang malalaking data source ang maaaring magamit upang makabuo ng mga real-time na pagtatantya ng pang-ekonomiyang aktibidad (Choi and Varian 2012) .

Sa wakas, ang mga sistema ng data na laging nagbibigay-daan sa mga mananaliksik na pag-aralan ang mga hindi inaasahang pangyayari at magbigay ng real-time na impormasyon sa mga gumagawa ng patakaran. Gayunpaman, hindi ko iniisip na ang mga sistema ng data na laging-on ay angkop para sa pagsubaybay ng mga pagbabago sa mahabang panahon. Iyon ay dahil maraming mga malaking data system ay patuloy na nagbabago-isang proseso na kukunin ko na tawag na lumipat sa ibang pagkakataon sa kabanata (seksyon 2.3.7).