2.4.2 Pagpanagna ug nowcasting

Pagtagna sa umaabot lisod, apan pagtagna sa karon mao ang mas sayon.

Ang ikaduha nga nag-unang pamaagi sa mga tigdukiduki nga mahimong gamiton uban sa mga obserbasyon nga datos ang gitagna . Ang pagpanag-an mahitungod sa umaabot lisud kaayo, ug tingali tungod niana nga hinungdan, ang pagpanagna dili karon usa ka dako nga bahin sa social research (bisan kini usa ka gamay ug importante nga bahin sa demograpiya, ekonomiya, epidemiology ug siyensya sa politika). Dinhi, hinoon, gusto ko nga ipunting ang usa ka espesyal nga matang sa pagpanagna nga gitawag karon- usa ka termino nga naggikan sa pagsagol sa "karon" ug "pagtagna." Imbis nga pagtagna sa umaabot, ang mga paningkamot nga gamiton ang mga ideya gikan sa pagpanagna aron sukdon ang kasamtangang estado sa kalibutan; kini misulay sa "pagtagna sa karon" (Choi and Varian 2012) . Ang pag-angkon adunay potensyal nga mahimong labi ka mapuslanon sa mga gobyerno ug mga kompaniya nga nagkinahanglan sa tukma sa panahon ug sa tukma nga mga lakang sa kalibutan.

Ang usa ka dapit diin ang panginahanglan alang sa tukma sa panahon ug tukma nga pagsukod klaro kaayo mao ang epidemiology. Tagda ang kaso sa trangkaso ("ang trangkaso"). Matag tuig, ang epidemya sa trangkaso sa panahon sa panahon hinungdan sa minilyon nga mga sakit ug gatusan ka libo nga mga kamatayon sa tibuok kalibutan. Dugang pa, matag tuig, adunay usa ka posibilidad nga ang usa ka bag-ong porma sa trangkaso mahimong motumaw nga makapatay sa minilyon. Pananglitan, ang 1918 nga pagbangkaw sa trangkaso gibanabanang mipatay sa 50 ngadto sa 100 ka milyong tawo (Morens and Fauci 2007) . Tungod sa panginahanglan nga masubay ug posibleng motubag sa outbreaks sa trangkaso, ang mga gobyerno sa tibuok kalibutan nagmugna sa mga sistema sa surveillance sa influenza. Pananglitan, ang US Centers for Disease Control and Prevention (CDC) kanunay ug sistematikong nagkolekta sa kasayuran gikan sa mga gipiling mga doktor sa tibuok nasud. Bisan tuod kini nga sistema naghatag og taas nga kalidad nga datos, kini adunay lag nga pag-report. Kana mao, tungod sa panahon nga gikinahanglan alang sa datos nga gikan sa mga doktor nga limpyohan, giproseso, ug gimantala, ang sistema sa CDC nagpagawas sa mga pagbana-bana kon unsa kadaghan ang flu nga duha ka semana ang milabay. Apan, sa dihang nagdala sa usa ka bag-ong epidemya, ang mga opisyales sa panglawas sa publiko dili gustong mahibal-an kung unsa ka dako ang influenza didto duha ka semana ang milabay; gusto nila mahibal-an kon unsa ka dako ang influenza karon.

Sa samang higayon nga ang pagkolekta sa CDC sa kasayuran aron masubay ang influenza, ang Google usab nangolekta og datos mahitungod sa influenza prevalence, bisan pa sa nagkalainlain nga porma. Ang mga tawo gikan sa tibuok kalibutan kanunay nga nagpadala sa mga pangutana ngadto sa Google, ug ang uban niini nga mga pangutana-sama sa "mga tambal sa trangkaso" ug "mga sintomas sa flu" -mahimong nagpakita nga ang tawo nga adunay pangutana adunay trangkaso. Apan, ang paggamit niining mga pangutana sa pagpangita sa pag-estimate sa pagkaylap sa flu usa ka malisud: dili tanan nga adunay trangkaso naghimo sa pagpangita nga may kalabutan sa trangkaso, ug dili tanang pagpangita nga may kalabutan sa flu gikan sa usa nga adunay trangkaso.

Si Jeremy Ginsberg ug usa ka team sa mga kaubanan (2009) , ang pipila sa Google ug ang uban sa CDC, adunay importante ug hanas nga ideya sa pagsagup niining duha ka mga tinubdan sa datos. Sa kinatibuk-an, pinaagi sa usa ka matang sa statistic alchemy, ang mga tigdukiduki nagkombinar sa dali ug dili tukma nga datos sa pagpangita uban ang hinay ug tukma nga datos sa CDC aron makahimo og dali ug tukma nga pagsukod sa influenza prevalence. Ang laing paagi nga hunahunaon kini mao nga gigamit nila ang data sa pagpangita aron mapadali ang data sa CDC.

Labing espesipiko, gamit ang datos gikan sa 2003 hangtud 2007, gibanabana ni Ginsberg ug mga kauban ang relasyon tali sa pagkaylap sa influenza sa CDC nga datos ug ang gidaghanon sa pagpangita alang sa 50 milyones nga mga termino. Gikan niini nga proseso, nga hingpit nga gidumala sa datos ug wala magkinahanglan og espesyalista nga medikal nga kahibalo, nakit-an sa mga tigdukiduki ang usa ka hugpong sa 45 ka lainlaing mga pangutana nga ingon og labing makatagna sa datos sa CDC flu prevalence. Dayon, ginamit ang mga relasyon nga ilang nakat-unan gikan sa datos sa 2003-2007, gisulayan ni Ginsberg ug mga kaubanan ang ilang modelo sa 2007-2008 nga panahon sa influenza. Nakaplagan nila nga ang ilang mga pamaagi sa pagkatinuod makahimo nga mapuslanon ug tukma karoncasts (numero 2.6). Kini nga mga resulta gimantala sa Nature ug nakadawat sa adoring press coverage. Kini nga proyekto-nga gitawag og Google Flu Trends-nahimong usa ka kanunay nga gisubli nga sambingay mahitungod sa gahum sa dagkong mga datos aron mausab ang kalibutan.

Figure 2.6: Si Jeremy Ginsberg ug mga kaubanan (2009) nagsagol sa data sa pagpangita sa Google sa datos sa CDC aron paghimo sa Google Flu Trends, nga mahimo na karon nga ang rate sa influenza-like illness (ILI). Ang mga resulta niini nga numero alang sa tunga nga Atlantikong rehiyon sa Estados Unidos sa 2007-2008 nga panahon sa influenza. Bisan tuod sa sinugdanan kini nga nagsaad kaayo, ang paghimo sa Google Flu Trends nagkadunot sa paglabay sa panahon (Cook et al 2011; Olson et al 2013 2013; Lazer et al. 2014). Gikuha gikan sa Ginsberg et al. (2009), numero 3.

Figure 2.6: Si Jeremy Ginsberg ug mga kaubanan (2009) nagsagol sa data sa pagpangita sa Google sa datos sa CDC aron paghimo sa Google Flu Trends, nga mahimo na karon nga ang rate sa influenza-like illness (ILI). Ang mga resulta niini nga numero alang sa tunga nga Atlantikong rehiyon sa Estados Unidos sa 2007-2008 nga panahon sa influenza. Bisan tuod sa sinugdanan kini nga nagsaad kaayo, ang paghimo sa Google Flu Trends nagkadunot sa paglabay sa panahon (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Gikuha gikan sa Ginsberg et al. (2009) , numero 3.

Bisan pa, kining dayag nga sugilanon sa kalampusan nahimong usa ka kaulawan. Sa paglabay sa panahon, ang mga tigdukiduki nakadiskobre sa duha ka importante nga mga limitasyon nga naghimo sa Google Flu Trends nga dili kaayo impresibo kay sa una niini. Una, ang paghimo sa Google Flu Trends sa pagkatinuod dili mas maayo kay sa usa ka simple nga modelo nga nagbanabana sa gidaghanon sa flu nga nakabase sa usa ka linear nga pag-extrapolation gikan sa duha ka labing bag-o nga pagsukod sa flu prevalence (Goel et al. 2010) . Ug, sulod sa pipila ka mga yugto sa panahon, ang Google Flu Trends sa pagkatinuod mas grabe kay niining yano nga paagi (Lazer et al. 2014) . Sa laing pagkasulti, ang Google Flu Trends uban ang tanan nga mga datos, pagkat-on sa makina, ug gamhanan nga pagkompyuter wala kaayo makalabaw sa yano ug mas sayon ​​nga masabtan nga heuristik. Kini nagpasabot nga sa pagtimbang-timbang sa bisan unsa nga forecast o karoncast, importante nga itandi ang baseline.

Ang ikaduha nga importante nga caveat mahitungod sa Google Flu Trends mao nga ang abilidad sa pagtag-an sa datos sa CDC nga trangkaso nahiluna sa dili madugay nga kapakyasan ug dugay nga pagkadunot tungod sa drift ug algorithmic confounding . Pananglitan, sa panahon sa 2009 nga pag-outbreak sa Swine Flu sa Google Flu Trends, sa makadaghan gipalabi ang gidaghanon sa trangkaso, lagmit tungod kay ang mga tawo adunay kalagmitan nga magbag-o sa ilang pagpangita sa pagtubag sa kaylap nga kahadlok sa tibuok kalibutan nga pandemik (Cook et al. 2011; Olson et al. 2013) . Gawas pa niining mga problema sa hamubo nga panahon, ang hinay-hinay hinay-hinay nga pagkahanaw sa paglabay sa panahon. Ang pag-diagnose sa mga rason alang sa dugay nga pagkagun-ob lisod tungod kay ang mga search algorithm sa Google gipanag-iya, apan kini nagpakita nga sa 2011 ang Google nagsugod sa pagsugyot sa mga may kalabutan nga mga termino sa pagpangita kung ang mga tawo nangita sa mga sintomas sa flu sama sa "fever" ug "ubo" ( kini nga bahin dili aktibo). Ang dugang nga kini nga bahin usa ka hingpit nga makatarunganon nga butang nga buhaton kung nagdagan ka sa usa ka search engine, apan kini nga kausaban sa algorithm adunay epekto sa pagmugna og dugang pang pagpangita nga may kalabutan sa panglawas nga maoy hinungdan sa Google Flu Trends nga gipaubsan ang pagkalat sa flu (Lazer et al. 2014) .

Kining duha ka mga caveats komplikado sa umaabot nga mga paningkamot sa ginahimo karon, apan dili kini mapakyas kanila. Sa pagkatinuod, pinaagi sa paggamit sa mas maayo nga pamaagi, ang Lazer et al. (2014) ug Yang, Santillana, and Kou (2015) nakalingkawas niining duha nga mga problema. Sa pag-abante, nagpaabot ako nga ang pagtuon sa pag-uswag nga naghiusa sa dagkong mga tinubdan sa datos sa tigdukiduki nga nakolekta nga datos makahimo sa mga kompaniya ug gobyerno nga makamugna og mas tukma sa panahon ug mas tukma nga mga pagbanabana pinaagi sa pagpa-speed up sa bisan unsang pagsukod nga gihimo balik-balik sa paglabay sa panahon uban sa pipila ka lag. Ang mga proyekto sa pagtan-aw sama sa Google Flu Trends nagpakita usab kung unsa ang mahitabo kon ang dagkong mga tinubdan sa datos gihugpong sa dugang tradisyonal nga datos nga gimugna alang sa mga katuyoan sa pagsiksik. Ang paghunahuna balik sa pagkasamok sa arte sa kapitulo 1, ang pag-uswag adunay potensyal nga makombinar ang mga readymade nga estilo sa Duchamp uban sa mga istilo ni Michelangelo nga mga kinaugali aron makahatag ang mga naghimo sa desisyon sa mas tukma nga panahon ug mas tukmang mga pagsukod sa kasamtangan ug mga panagna sa umaabot nga panahon.