2.4.2 Forecasting at nowcasting

Predicting ang hinaharap ay mahirap, ngunit predicting sa kasalukuyan ay mas madali.

Ang ikalawang pangunahing diskarte sa mga mananaliksik ay maaaring gamitin sa pagmamasid data ay pagtataya . Ang paggawa ng hula tungkol sa kinabukasan ay napakahirap, at marahil sa dahilang iyon, ang pagtataya ay hindi kasalukuyang isang malaking bahagi ng panlipunang pananaliksik (bagaman ito ay isang maliit at mahalagang bahagi ng demograpya, ekonomiya, epidemiology at agham pampolitika). Dito, gayunpaman, nais kong magtuon ng pansin sa isang espesyal na uri ng pagtataya na tinatawag na presentcasting -isang kataga na nagmula sa pagsasama-sama ng "ngayon" at "pagtataya." Sa halip na hulaan ang hinaharap, ang mga pagtatangka sa paggamit ngayon upang magamit ang mga ideya mula sa pagtataya upang masukat ang kasalukuyang estado ng mundo; ito ay sumusubok na "mahulaan ang kasalukuyan" (Choi and Varian 2012) . Ang pag-aayun ay may potensyal na maging lalong kapaki-pakinabang sa mga pamahalaan at mga kumpanya na nangangailangan ng napapanahon at tumpak na mga panukala ng mundo.

Ang isang setting kung saan ang pangangailangan para sa napapanahong at tumpak na pagsukat ay napakalinaw ay epidemiology. Isaalang-alang ang kaso ng trangkaso ("ang trangkaso"). Bawat taon, ang epidemya ng pana-panahong trangkaso ay nagdudulot ng milyun-milyong mga sakit at daan-daang libong pagkamatay sa buong mundo. Dagdag pa, bawat taon, may posibilidad na ang isang nobela na form ng trangkaso ay maaaring lumitaw na papatayin ang milyun-milyon. Halimbawa, ang 1918 influenza outbreak, ay pinatay sa pagitan ng 50 at 100 milyong tao (Morens and Fauci 2007) . Dahil sa pangangailangan upang subaybayan at potensyal na tumugon sa mga paglaganap ng influenza, ang mga pamahalaan sa buong mundo ay lumikha ng mga sistema ng pagbabantay ng trangkaso. Halimbawa, regular at sistematikong kinokolekta ng US Centers for Disease Control and Prevention (CDC) ang impormasyon mula sa maingat na piniling mga doktor sa buong bansa. Kahit na ang system na ito ay gumagawa ng mataas na kalidad na data, mayroon itong isang pag-uulat lag. Iyon ay, dahil sa oras na kinakailangan para sa data na dumarating mula sa mga doktor upang malinis, maiproseso, at mai-publish, ang sistema ng CDC ay naglabas ng mga pagtatantya kung gaano karami ang trangkaso noong nakaraang dalawang linggo. Ngunit, sa paghawak ng isang umuusbong na epidemya, ang mga opisyal ng pampublikong kalusugan ay hindi gustong malaman kung gaano karami ang trangkaso noong nakaraang dalawang linggo; gusto nilang malaman kung gaano karami ang trangkaso ngayon.

Kasabay nito ang pagkolekta ng CDC ng data upang masubaybayan ang trangkaso, ang Google ay nangongolekta din ng data tungkol sa pagkalat ng influenza, bagaman sa isang medyo iba't ibang anyo. Ang mga tao mula sa buong mundo ay patuloy na nagpapadala ng mga query sa Google, at ang ilan sa mga tanong na ito-tulad ng "mga lunas sa trangkaso" at "mga sintomas ng trangkaso" -hihiwatig na ang taong gumagawa ng query ay may trangkaso. Gayunpaman, ang paggamit ng mga query sa paghahanap upang tantiyahin ang pagkalat ng trangkaso ay nakakalito: hindi lahat ng may trangkaso ay gumagawa ng paghahanap na may kaugnayan sa trangkaso, at hindi bawat paghahanap na may kaugnayan sa trangkaso ay mula sa isang taong may trangkaso.

Si Jeremy Ginsberg at isang koponan ng mga kasamahan (2009) , ang ilan sa Google at ang ilan sa CDC, ay may mahalagang at matalinong ideya na pagsamahin ang dalawang mapagkukunang ito ng data. Halos, sa pamamagitan ng isang uri ng statistical alchemy, pinagsama ng mga mananaliksik ang mabilis at hindi tumpak na data ng paghahanap sa mabagal at tumpak na data ng CDC upang makagawa ng mabilis at tumpak na sukat ng pagkalat ng influenza. Ang isa pang paraan upang isipin ang tungkol dito ay ginamit nila ang data ng paghahanap upang pabilisin ang data ng CDC.

Higit na partikular, gamit ang data mula 2003 hanggang 2007, tinantiya ni Ginsberg at mga kasamahan ang ugnayan sa pagitan ng pagkalat ng trangkaso sa data ng CDC at ang dami ng paghahanap para sa 50 milyong natatanging mga termino. Mula sa prosesong ito, na kung saan ay ganap na data-driven at hindi nangangailangan ng dalubhasang medikal na kaalaman, ang mga mananaliksik na natagpuan ng isang hanay ng 45 iba't ibang mga query na tila pinaka-predictive ng CDC data sa pagkalat ng trangkaso. Pagkatapos, gamit ang mga relasyon na natutunan nila mula sa 2003-2007 data, sinubukan ni Ginsberg at mga kasamahan ang kanilang modelo sa panahon ng 2007-2008 influenza season. Natagpuan nila na ang kanilang mga pamamaraan ay maaaring maging kapaki-pakinabang at tumpak na ngayon ang mga ito (figure 2.6). Ang mga resultang ito ay na-publish sa Nature at natanggap ang pagsakop sa coverage coverage. Ang proyektong ito-na tinatawag na Google Flu Trends-ay naging isang madalas na paulit-ulit na talinghaga tungkol sa kapangyarihan ng malaking data upang baguhin ang mundo.

Figure 2.6: Ginamit ni Jeremy Ginsberg at mga kasamahan (2009) ang data ng paghahanap ng Google sa data ng CDC upang lumikha ng Google Flu Trends, na maaaring maipahayag ngayon ang rate ng sakit na tulad ng influenza (ILI). Ang mga resulta sa figure na ito ay para sa mid-Atlantic na rehiyon ng Estados Unidos sa 2007-2008 influenza season. Kahit na ito ay sa simula napaka promising, ang pagganap ng Google Flu Trends decayed sa paglipas ng panahon (Cook et al 2011 Olson et al 2013 Lazer et al 2014). Inangkop mula sa Ginsberg et al. (2009), tayahin 3.

Figure 2.6: Ginamit ni Jeremy Ginsberg at mga kasamahan (2009) data ng paghahanap ng Google sa data ng CDC upang lumikha ng Google Flu Trends, na maaaring maipahayag ngayon ang rate ng sakit na tulad ng influenza (ILI). Ang mga resulta sa figure na ito ay para sa mid-Atlantic na rehiyon ng Estados Unidos sa 2007-2008 influenza season. Kahit na ito ay sa simula napaka promising, ang pagganap ng Google Flu Trends decayed sa paglipas ng panahon (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Inangkop mula sa Ginsberg et al. (2009) , tayahin 3.

Gayunpaman, ang maliwanag na kuwento ng tagumpay na ito ay naging isang kahihiyan. Sa paglipas ng panahon, natuklasan ng mga mananaliksik ang dalawang mahahalagang limitasyon na ginagawang mas kahanga-hanga sa Google Flu Trends kaysa sa una itong lumitaw. Una, ang pagganap ng Google Flu Trends ay talagang hindi mas mahusay kaysa sa isang simpleng modelo na tinatantya ang dami ng trangkaso batay sa isang linear na extrapolation mula sa dalawang pinakahuling measurements ng prevalence ng trangkaso (Goel et al. 2010) . At, sa loob ng ilang tagal ng panahon, ang Google Flu Trends ay talagang mas masahol pa sa simpleng pamamaraan na ito (Lazer et al. 2014) . Sa madaling salita, ang Google Flu Trends sa lahat ng data nito, pag-aaral ng makina, at malakas na computing ay hindi nakapagpapalaki ng isang simple at madaling maunawaan na heuristik. Ito ay nagpapahiwatig na kapag sinusuri ang anumang forecast o nowcast, mahalaga na ihambing ang laban sa isang baseline.

Ang pangalawang mahalagang caveat tungkol sa Google Flu Trends ay ang kakayahan nitong mahuhulaan ang data ng CDC na lagay ay madaling kapitan ng panandaliang pagkabigo at pangmatagalan na pagkabulok dahil sa pag- aalis at algorithmic confounding . Halimbawa, noong 2009 ang pag-aalsa ng Swine Flu ng Google Flu Trends ay kapansin-pansing binabawasan ang halaga ng trangkaso, marahil dahil ang mga tao ay may posibilidad na baguhin ang kanilang pag-uugali sa paghahanap bilang tugon sa laganap na takot sa isang pandemic sa buong mundo (Cook et al. 2011; Olson et al. 2013) . Bilang karagdagan sa mga panandaliang problema, unti-unting nabulok ang pagganap sa paglipas ng panahon. Ang pag-diagnose ng mga dahilan para sa matagalang pagkabulok ay mahirap dahil ang mga algorithm sa paghahanap sa Google ay pagmamay-ari, ngunit lumilitaw na noong 2011 nagsimula ang Google na magmungkahi ng mga kaugnay na mga term sa paghahanap kapag ang mga tao ay naghanap ng mga sintomas ng trangkaso tulad ng "lagnat" at "ubo" ang tampok na ito ay hindi na aktibo). Ang pagdaragdag ng tampok na ito ay isang makatwirang bagay na dapat gawin kung nagpapatakbo ka ng isang search engine, ngunit ang pagbabagong ito ng algorithm ay may epekto sa pagbuo ng higit pang mga paghahanap na may kaugnayan sa kalusugan na naging dahilan ng pagpapalaki ng Influenza sa Flu ng Google (Lazer et al. 2014) .

Ang dalawang caveat ay kumplikado sa hinaharap na mga pagsisikap sa pag-eensayo, ngunit hindi nila ito mapapahamak. Sa katunayan, sa pamamagitan ng paggamit ng mas maingat na pamamaraan, ang Lazer et al. (2014) at Yang, Santillana, and Kou (2015) ay nakaiwas sa dalawang problemang ito. Sa pag-asa, inaasahan ko na ang mga pag-aaral sa pag-eensayo na nagsasanib ng mga malalaking data ng mapagkukunan sa data na nakolekta ng researcher ay magbibigay-daan sa mga kumpanya at pamahalaan na lumikha ng mas napapanahon at mas tumpak na pagtatantya sa pamamagitan ng mahalagang pagpapabilis ng anumang pagsukat na ginawa nang paulit-ulit sa paglipas ng panahon na may ilang lag. Ipinapakita rin ng mga proyekto ng pag-eensayo tulad ng Google Flu Trends kung ano ang maaaring mangyari kung ang mga pinagmumulan ng data ay pinagsama sa higit pang tradisyonal na data na nilikha para sa mga layunin ng pananaliksik. Ang pag-iisip muli sa pagkakatulad ng sining ng kabanata 1, ang pagwawalang-kilos ay may potensyal na pagsamahin ang mga readymade na istilo ng Duchamp sa mga pasadyang estilo ng Michelangelo upang makapagbigay ng mga gumagawa ng desisyon nang mas napapanahon at mas tumpak na mga sukat ng kasalukuyan at mga hula ng malapit na hinaharap.