2.4.2 Forecasting kaj nowcasting

Antaŭdirante la estonteco estas malfacile, sed antaŭdirante la ĉeestanta estas facila.

La dua ĉefaj strategiaj esploristoj povas uzi kun observaj datumoj antaŭvidas . Farante divenojn pri la estonteco estas tre malfacile, kaj eble pro tio, prognozo ne nuntempe estas granda parto de socia esplorado (kvankam ĝi estas malgranda kaj grava parto de demografio, ekonomio, epidemiologio kaj politika scienco). Ĉi tie, tamen, mi ŝatus fokusigi specialan specon de antaŭvido nomata neliganta- termino derivita de kombinado de "nun" kaj "prognozo". Prefere ol antaŭdiri la estontecon, nuntempaj provoj uzi ideojn de prognozo por mezuri la aktualan staton de la mondo; ĝi provas "antaŭdiri la aktualan" (Choi and Varian 2012) . Nunkastado havas la eblecon esti speciale utila por registaroj kaj kompanioj kiuj postulas ĝustatempe kaj precizajn mezurojn de la mondo.

Fikso kie la bezono por ĝustatempe kaj preciza mezuro estas tre klara estas epidemiologio. Konsideri la kazon de gripo ("la gripo"). Ĉiu jaro, sezonaj gripo-epidemioj kaŭzas milionojn da malsanoj kaj cientos de miloj da mortoj en la mondo. Plie, ĉiun jaron, ekzistas ebleco ke nova formo de influenza povus emerĝi, kiu mortigos milionojn. La eksplodo de gripo de 1918, ekzemple, estas kalkulita mortigi inter 50 kaj 100 milionoj da homoj (Morens and Fauci 2007) . Pro la neceso spuri kaj potenciale respondi al influoj de gripo, registaroj de la mondo kreis sistemojn de gigado de gripo. Ekzemple, la usonaj Centroj por Malsana Kontrolo kaj Antaŭzorgo (CDC) regule kaj sisteme kolektas informojn de atente elektitaj kuracistoj ĉirkaŭ la lando. Kvankam ĉi tiu sistemo produktas altkvalitajn datumojn, ĝi havas raporton malforta. Tio estas, pro la tempo, kiam la datumoj alvenas de kuracistoj por esti purigitaj, procesitaj kaj publikigitaj, la CDC-sistemo publikigas taksojn pri kiom da gripo antaŭ du semajnoj. Sed, kiam pritraktanta emerĝan epidemion, publikaj sanaj oficialuloj ne volas scii kiom da gripo antaŭ du semajnoj; Ili volas scii kiom da gripo estas nun.

Samtempe, ke la CDC kolektas datumojn por spuri la gripo, Google ankaŭ kolektas informojn pri gripeca prevalenco, kvankam en sufiĉe malsama formo. Homoj de la mondo senĉese sendas demandojn al Google, kaj iuj el ĉi tiuj demandoj -kiaj "fluaj rimedoj" kaj "griomaj simptomoj" -might indikas, ke la persono kiu faras la konsulton havas la gripo. Sed, uzante ĉi tiuj serĉaj demandoj por taksi la gripecon estas malfacila: ne ĉiuj, kiuj havas la gripo, faras fluon-serĉitan serĉon, kaj ne ĉiu fluo-serĉita serĉo estas de iu, kiu havas la gripo.

Jeremy Ginsberg kaj teamo de kolegoj (2009) , iuj ĉe Google kaj iuj ĉe CDC, havis la gravan kaj inteligentan ideon kombini ĉi tiujn du datumojn. Proksimume, per speco de statistika alkemio, la esploristoj kombinis la rapidajn kaj malĝustajn serĉojn kun la malrapida kaj preciza CDC-datumoj por produkti rapidajn kaj precizajn mezuradojn de influenza prevalenco. Alia maniero por pensi pri ĝi estas, ke ili uzis la serĉajn datumojn por akceli la CDC-datumojn.

Pli specife, uzante datumojn de 2003 ĝis 2007, Ginsberg kaj kolegoj taksis la rilaton inter la prevalencia de gripo en la CDC-datumoj kaj la serĉa volumo por 50 milionoj da malsamaj terminoj. De ĉi tiu procezo, kiu estis tute informita kaj ne postulis specialajn medicinajn konojn, la esploristoj trovis serion de 45 malsamaj demandoj, kiuj ŝajnis esti plej antaŭdifinaj de la datumoj de la fluo de CDC. Tiam, uzante la interrilatojn, kiujn ili lernis de la datumoj de 2003-2007, Ginsberg kaj kolegoj provis sian modelon dum la sezono 2007-2008-gripo. Ili trovis, ke iliaj proceduroj efektive povus fari utilajn kaj precizajn nunkizojn (figuro 2.6). Ĉi tiuj rezultoj estis publikigitaj en Naturo kaj ricevis adorojn pri gazetaro. Ĉi tiu projekto, kiu nomiĝis Google Flu Trends - fariĝis ofte ripetita parabolo pri la potenco de grandaj datumoj por ŝanĝi la mondon.

Figuro 2.6: Jeremy Ginsberg kaj kolegoj (2009) kombinis Google serĉajn datumojn kun CDC-datumoj por krei Google Flu Trends, kiuj povus nun elsendi la indicon de influenza-malsano (ILI). Rezultoj en ĉi tiu cifero estas por la mid-Atlantika regiono de Usono en la 2007-2008-glua sezono. Kvankam ĝi estis komence tre promesplena, la agado de Google Flu Trends decayis per tempo (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014). Adaptita de Ginsberg et al. (2009), figuro 3.

Figuro 2.6: Jeremy Ginsberg kaj kolegoj (2009) kombinis Google serĉajn datumojn kun CDC-datumoj por krei Google Flu Trends, kiuj povus nun elsendi la indicon de influenza-malsano (ILI). Rezultoj en ĉi tiu cifero estas por la mid-Atlantika regiono de Usono en la 2007-2008-glua sezono. Kvankam ĝi estis komence tre promesplena, la agado de Google Flu Trends decayis per tempo (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Adaptita de Ginsberg et al. (2009) , figuro 3.

Tamen, ĉi tiu evidenta rakonto eventuale fariĝis embaraso. Laŭlonge de la tempo, esploristoj malkovris du gravajn limigojn, kiuj faras Google Flu Trends malpli impresaj ol ĝi komence aperis. Unue, la agado de Google Flu Trends efektive ne multe pli bone ol tiu de simpla modelo, kiu taksas la kvanton de gripo bazita sur lineara ekstrapolado de la du plej freŝaj mezuroj de gripo-prevalenco (Goel et al. 2010) . Kaj dum kelkaj tempoj, Google Flu Trends estis efektive pli malbona ol ĉi tiu simpla aliro (Lazer et al. 2014) . Alivorte, Google Flu Trends kun ĉiuj ĝiaj datumoj, maŝinlernado kaj potenca komputado ne drame superas simplan kaj pli facile kompreni heurismon. Ĉi tio sugestas, ke, kiam vi taksas ajnan prognozon aŭ nuntempon, gravas kompari kontraŭ baza linio.

La dua grava pruvo pri Google Flu Trends estas, ke ĝia kapablo antaŭdiri la CDC-fluon-datumon inklinas al baldaŭa malsukceso kaj longdaŭra dekadenco pro dilado kaj algoritma konflikto . Ekzemple, dum la 2009-datita Porkopluo, Google Flu Trends drame submetis la influon de la gripo, probable ĉar homoj inklinas ŝanĝi sian serĉadon en respondo al disvastigita timo de tutmonda pandemio (Cook et al. 2011; Olson et al. 2013) . Aldone al ĉi tiuj baldaŭaj problemoj, la agado laŭgrade decayis laŭlonge de la tempo. Diagnozi la kialojn por ĉi tiu longdaŭra dekadenco estas malfacilaj, ĉar la algoritmoj de serĉo de Google estas posedaj, sed ŝajnas, ke en 2011, Google komencis sugesti rilatajn serĉojn, kiam homoj serĉas fluon de simptomoj kiel "febro" kaj "tuso" (ankaŭ ŝajnas ke ĉi tiu funkcio jam ne aktivigas). Aldonante ĉi tiun funkcion estas plene racia por fari se vi estas serĉanta serĉilon, sed ĉi tiu algoritma ŝanĝo havis la efikon generi pli da sano-serĉoj, kiuj kaŭzis Google-flugojn por superresti la gripecon (Lazer et al. 2014) .

Ĉi tiuj du kvereloj komplikas estontajn nuntempajn klopodojn, sed ili ne kondamnas ilin. Fakte, per pli zorgaj metodoj, Lazer et al. (2014) kaj Yang, Santillana, and Kou (2015) povis eviti ĉi tiujn du problemojn. Mi antaŭeniras, mi atendas, ke nuntempaj studoj, kiuj kombinas grandajn datumojn kun esploristoj kolektitaj datumoj ebligos al kompanioj kaj registaroj krei pli ĝustatempe kaj pli precizajn taksojn, esence rapidigante ajnan mezuron, kiu estas farita ree dum tempo kun iom da malforto. Nuntempaj projektoj kiel Google Flu Trends ankaŭ montras, kio povas okazi, se grandaj datumoj estas kombinitaj kun pli tradiciaj datumoj kreitaj por esploroj. Pensante reen al la arta analogio de ĉapitro 1, nuncastado havas la eblon kombini dukapablajn legimojn kun Michelangelo-style-custommades por provizi decidojn kun pli ĝustatempe kaj pli precizaj mezuroj de la ĉeestanta kaj antaŭdiroj de proksima estonteco.