2.3.1.2 Always-on

Always-on big data ay nagbibigay-daan sa pag-aaral ng mga hindi inaasahang mga kaganapan at real-time na pagsukat.

Maraming mga malaking mga sistema ng data ay palaging-on; sila ay patuloy na pagkolekta ng data. Ito laging-on katangian nagbibigay ng mga mananaliksik na may pahabang datos (ie, data sa paglipas ng panahon). Ang pagiging laging-on ay may dalawang mahalagang implikasyon para sa pananaliksik.

Una, laging-on data collection ay nagbibigay-daan sa mga mananaliksik upang pag-aralan hindi inaasahang mga kaganapan sa mga paraan na ay hindi posible dati. Halimbawa, ang mga mananaliksik na interesado sa pag-aaral ng Occupy Gezi protesta sa Turkey sa tag-init ng 2013 ay karaniwang tumuon sa mga pag-uugali ng protesters sa panahon ng kaganapan. Ceren Budak at Duncan Watts (2015) ay able sa gawin ang higit pa sa pamamagitan ng paggamit ng laging-on na katangian ng Twitter upang mag-aral Twitter-gamit protesters bago, habang, at pagkatapos ng kaganapan. At, sila ay able sa lumikha ng isang paghahambing na grupo ng mga non-kalahok (o mga kalahok na hindi nag-tweet tungkol sa mga protesta) bago, habang, at pagkatapos ng kaganapan (Figure 2.1). Sa kabuuan ng kanilang ex-post panel kasama ang mga tweet ng 30,000 mga tao sa paglipas ng dalawang taon. Sa pamamagitan ng augmenting ang karaniwang ginagamit ng data mula sa mga protesta sa mga ito iba pang impormasyon, Budak at Watts nagawang malaman ang higit pa: sila ay magagawang upang matantya kung anong mga uri ng mga tao ay mas malamang na sumali sa mga Gezi protesta at upang matantya ang mga pagbabago sa saloobin ng mga kalahok at mga di-kalahok, parehong sa short-term (paghahambing ng pre-Gezi sa panahon Gezi) at sa pang-matagalang (paghahambing ng pre-Gezi sa post-Gezi).

Figure 2.1: Design ginagamit ng Budak at Watts (2015) upang pag-aralan ang sumakop Gezi protesta sa Turkey sa tag-init ng 2013. Sa pamamagitan ng paggamit ang laging-on na katangian ng Twitter, ang mga mananaliksik nilikha kung ano ang kanilang tinatawag na isang ex-post panel na kasama si 30,000 mga tao sa paglipas ng dalawang taon. Sa kaibahan sa mga tipikal na pag-aaral na nakatutok sa mga kalahok sa panahon ng protests, ang ex-post panel nagdadagdag ng 1) data mula sa mga kalahok bago at pagkatapos ng kaganapan at 2) data mula sa mga di-kalahok bago, habang, at pagkatapos ng kaganapan. Ito enriched istraktura ng data pinagana Budak at Watts upang matantya kung ano ang uri ng mga tao ay mas malamang na sumali sa mga Gezi protesta at upang matantya ang mga pagbabago sa saloobin ng mga kalahok at mga di-kalahok, parehong sa short-term (paghahambing ng pre-Gezi sa panahon Gezi) at sa pang-matagalang (paghahambing ng pre-Gezi sa post-Gezi).

Figure 2.1: Design ginagamit ng Budak and Watts (2015) upang pag-aralan ang sumakop Gezi protesta sa Turkey sa tag-init ng 2013. Sa pamamagitan ng paggamit ang laging-on na katangian ng Twitter, ang mga mananaliksik nilikha kung ano ang kanilang tinatawag na isang ex-post panel na kasama si 30,000 mga tao sa paglipas ng dalawang taon. Sa kaibahan sa mga tipikal na pag-aaral na nakatutok sa mga kalahok sa panahon ng protests, ang ex-post panel nagdadagdag ng 1) data mula sa mga kalahok bago at pagkatapos ng kaganapan at 2) data mula sa mga di-kalahok bago, habang, at pagkatapos ng kaganapan. Ito enriched istraktura ng data pinagana Budak at Watts upang matantya kung ano ang uri ng mga tao ay mas malamang na sumali sa mga Gezi protesta at upang matantya ang mga pagbabago sa saloobin ng mga kalahok at mga di-kalahok, parehong sa short-term (paghahambing ng pre-Gezi sa panahon Gezi) at sa pang-matagalang (paghahambing ng pre-Gezi sa post-Gezi).

Ito ay totoo na ang ilan sa mga estima ay maaaring ay ginawa nang walang laging-on pinagkukunan ng data collection (eg, pang-matagalang mga pagtatantya ng attitude baguhin), bagaman tulad ng pagkolekta ng data para sa 30,000 mga tao ay ay lubos na mahal. At, kahit na ibinigay ng isang walang limitasyong badyet, hindi ko tingin ng anumang iba pang paraan na mahalagang ay nagbibigay-daan sa mga mananaliksik upang maglakbay pabalik sa panahon at direkta obserbahan kalahok na pag-uugali sa nakalipas. Ang pinakamalapit na alternatibo ay upang mangolekta ng paggunita ng mga ulat ng pag-uugali, ngunit ang mga ulat ay magiging ng limitadong granularity at kaduda-dudang katumpakan. Table 2.1 nagbibigay ng iba pang mga halimbawa ng mga pag-aaral na gumagamit ng isang laging-on data source sa pag-aaral ng isang hindi inaasahang kaganapan.

Table 2.1: Pag-aaral ng mga hindi inaasahang mga kaganapan gamit ang laging-on big pinagkukunan ng data.
Hindi inaasahang kaganapan Always-on data source banggit
Occupy Gezi kilusan sa Turkey kaba Budak and Watts (2015)
Umbrella protesta sa Hong Kong Weibo Zhang (2016)
Shootings ng pulis sa New York City Stop-and-sumayaw-sayaw ulat Legewie (2016)
Taong pagsali ISIS kaba Magdy, Darwish, and Weber (2016)
Septiyembre 11, 2001 pag-atake livejournal.com Cohn, Mehl, and Pennebaker (2004)
Septiyembre 11, 2001 pag-atake pager mensahe Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Pangalawa, laging-on data collection ay nagbibigay-daan sa mga mananaliksik upang makabuo ng real-time measurements, na maaaring maging mahalaga sa mga setting na kung saan ang patakaran makers nais na hindi lamang malaman mula sa mga umiiral na pag-uugali ngunit din tumugon dito. Halimbawa, social media data ay maaaring gamitin upang gabayan mga tugon sa mga natural na kalamidad (Castillo 2016) .

Sa wakas, laging-on data systems paganahin ang mga mananaliksik sa pag-aaral hindi inaasahang mga kaganapan at magbigay ng real-time na impormasyon sa mga gumagawa ng patakaran. Hindi ko, gayunpaman, imungkahi na na laging-on data systems paganahin mananaliksik upang subaybayan ang mga pagbabago sa paglipas ng mahabang panahon ng oras. Iyon ay dahil sa maraming mga malaki mga sistema ng data ay patuloy na nagbabago-isang proseso na tinatawag drift (Seksyon 2.3.2.4).