2.4.2 Forecasting en nowcasting

It foarsizzen fan 'e takomst is hurd, mar it foarsizzen fan de oanwêzich is makliker.

De twadde wichtichste strategy ûndersikers kinne brûke mei feiten 't waarnimming is forecasting. It meitsjen fan guesses oer de takomst is benammen dreech, en faaks fan dat reden is de prognose net op it stuit in grut part fan sosjale ûndersyk (hoewol it in lyts en wichtich part is fan demografy, ekonomy, epidemyology en politike wittenskip). Hjir, lykwols, wol ik graach rjochtsje op in spesjale soarte fan prognizearjen dy't nowurden neamd wurdt - in term dy't ûntliend is fan it kombinearjen fan "no" en "foarsizzing". Ferantwurdzje fan 'e takomst, noarket besykje ideeën fan prestaasje te brûken om de hjoeddeistige status te mjitten fan de wrâld; It besyket it "hjoed de dei te foarsjen" (Choi and Varian 2012) . Nowcasting hat it potinsjeel om benammen brûkber te wêzen foar regearingen en bedriuwen dy't eartiids en krekte maatregels fan 'e wrâld ferwachtsje.

Ien ynstelling dêr't de needsaak foar tiid en genôch mjitting is tige dúdlik is epidemiology. Tink oan it gefal fan grippe ("de gryp"). Jierlikse seizoene grippe-epidemy feroarsake miljoenen sykte en hûnderten tûzenen deaden om 'e wrâld. Fierder, alle jierren is der in mooglikheid dat in nije foarm fan grippe ûntstean kin dat miljoenen ferliezen. De (Morens and Fauci 2007) 1918, is bygelyks geschikt om te (Morens and Fauci 2007) tusken 50 en 100 miljoen minsken (Morens and Fauci 2007) . Troch it needsaak om te spoaren en mooglik te beantwurdzjen op grippe-útbrekken, hawwe oerheden oer de hiele wrâld ynfloed op gryptsysteem makke. Bygelyks, de US Centers foar Disease Control and Prevention (CDC) regelje regelmjittich en systematysk ynformaasje fan sertifisearre selektearre doarpen om it lân. Hoewol dit systeem makket fan heechweardige gegevens, hat it in rapportaazje. Dat is, fanwege de tiid dat it nedich is foar de gegevens fan dokters dy't wurde gien, ferwurde en publisearre wurde, skriuwt it CDC-systeem skatten oer hoefolle gryp wie der twa wike lyn. Mar, by it behanneljen fan in opkommende epidemy, wol publike sûnenssitearders net witte hoefolle grippe der twa wiken lyn wie; Hja wolle witte hoefolle gryp is der no krekt.

Tagelyk dat it CDC it sammeljen fan gegevens om grip te spoaren, hat Google ek gegevens sammelt oer grippepresinsje, hoewol yn in hiel oare foarm. Minsken fan 'e wrâld stjoere stoppende fraach nei Google, en guon fan dizze fraachstikken - lykas "grippe remedies" en "grypsymptomen" -gearkomste jouwe oan dat de persoan dy't de query makke hat de gryp. Mar, mei dizze sykopdrachten om te skypjen is grippe foarkommen hurd: net elkenien dy't de gryp hat in soartgelikenske sykopdracht, en net elke soartgelikense sykopdracht is fan ien dy't de gryp hat.

Jeremy Ginsberg en in team fan kollega's (2009) , guon by Google en guon by CDC, hienen it wichtichste en wiidweidige idee om dizze twa gegevensboarnen te kombinearjen. Rûchwei, troch in soarte fan statistyske alchemy, kombinearren de ûndersikers de flugge en net genoeche sykresultaten mei de stadige en krekte CDC-gegevens om gau en genôch mjittingen fan grippepresinsje te produsearjen. In oar manier om te tinke oer is dat se de sykadata brûkten om de CDC-gegevens te ferbetterjen.

Mear spesifyk, it gebrûk fan gegevens fan 2003 oant 2007, skreau Ginsberg en kollega's de relaasje tusken de prevalens fan grippe yn 'e CDC-gegevens en it sykkommintaar foar 50 miljoen ûnderskate begripen. Fan dat proses, dat folslein gegevensboarne wie en gjin spesjale medyske kennis hie, fûnen de ûndersikers in opset fan 45 ferskillende fragen dy't it meast foarsjoen wiene fan de CDC-grippe-prestaasjes. Doe't de relaasjes dy't se learde fan 'e gegevens fan 2003-2007, wienen Ginsberg en kollega's har model yn' t jier foar it influenza 2007-2008. Se fûnen dat har prosedueres faaks nuttich en krekte tapassing meitsje koenen (figuer 2.6). Dizze resultaten waarden yn 'e natuer publisearre en krigen de parseberjochten oanbean. Dit projekt - wat Google Flu Trends neamd waard waard in faak-werhelle gelikenis oer de krêft fan grutte gegevens om de wrâld te feroarjen.

Figure 2.6: Jeremy Ginsberg en kollega's (2009) kombinearjen Google's gegevens mei CDC-gegevens om Google Flu Trends te meitsjen, dy't de rigel fan influenza-like sykte (ILI) brûke koe. Resultaten yn dizze figuer binne foar it midden Atlantyske regio fan 'e Feriene Steaten yn it seizoen 2007-2008. Alhoewol't it earst tige belangryk wie, waard de prestaasjes fan Google Flu Trends yn 'e tiid ôfrûne (Cook et al., 2011 Olson et al., 2013, Lazer et al., 2014). Adaptearre fan Ginsberg et al. (2009), figuer 3.

Figure 2.6: Jeremy Ginsberg en kollega's (2009) kombinearjen Google's gegevens mei CDC-gegevens om Google Flu Trends te meitsjen, dy't de rigel fan influenza-like sykte (ILI) brûke koe. Resultaten yn dizze figuer binne foar it midden Atlantyske regio fan 'e Feriene Steaten yn it seizoen 2007-2008. Alhoewol't it earst tige belangryk wie, waard de prestaasjes fan Google Flu Trends yn 'e tiid ôfrûne (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Adaptearre fan Ginsberg et al. (2009) , figuer 3.

Dit skynber súksesfolle ferhaal late lykwols úteinlik yn in skande. Yn 'e rin fan' e tiid ûntduts ûndersikers twa wichtige beheining dy't Google Flu Trends minder yndirekte meitsje as it earst ferskynde. Earst wie de optreding fan Google Flu Trends eins net folle better as dy fan in ienfâldige model dy't de bedrach fan 'e gryp basearre op basis fan in lineêre ekstrapolaasje út de twa resinte mjittingen fan gripprevalens (Goel et al. 2010) . En, oer in oantal tiidperioaden, waard Google Flu Trends effisjinter as dizze ienfâldige oanpak (Lazer et al. 2014) . Mei oare wurden, Google Flu Trends mei al har gegevens, masine learen, en krêftige kompjûten hawwe net dramatysk útfierd foar in ienfâldige en makliker te heuristyske. Dit suggerearret dat as it evaluearjen fan alle foarútsichten of it oerdriuwt, it is wichtich om te fergelykjen tsjin in baseline.

De twadde wichtige opsetting oer Google Flu Trends is dat har fermogen om de CDC-grippe gegevens foar te foaren te praten wie foar koarte termyn-mislearring en lange termyn ferfal fanwegen drift en algoritmyske ferfeling . Bygelyks, yn 'e 2009 Swine Flu Gout útbrekke Google Flu Trends dramatysk de ütstekken fan' e grippe ynflaasje, wierskynlik om't minsken har sykgedrach neigerje as gefolch fan wiidweidige eangst foar in wrâldwide pandemy (Cook et al. 2011; Olson et al. 2013) . Neist dizze koarte termyn problemen hat de prestaasjes stadichoan oer tiid ferfallen. Diagnostearjen fan de redenen foar dizze langduorjende ferfal binne swier, om't de Google-sykskoadings algoritme binne proprietarysk, mar it ferskynt dat yn 2011 begon te begripen fan relevante syktermen as minsken sykje nei grypsymptomen lykas "fieber" en "hoeskjen" (it liket ek dat Dizze funksje is net mear aktyf). It tafoegjen fan dizze funksje is in folslein ridlik ding te dwaan as jo in sykmasine leare, mar dizze algoritmyske wiziging hat it effekt fan mear sûnenssyndustyske sykjen dy't de Google Flu Trends feroarsake hawwe om de gripprevinsje te oerwinnen (Lazer et al. 2014) .

Dizze twa hoedingen sille de takomstige ynset fan 'e takomst komplisearje, mar se dogge har net. Yn feite, troch mear smerende metoaden te brûken, Lazer et al. (2014) en Yang, Santillana, and Kou (2015) kinne dizze twa problemen foarkomme. Goed foarút, ferwachtsje ik dat aktuele stúdzjes dy't grutte gegevensboarnen kombinearje mei ûndersikers sammele gegevens, soargje dat bedriuwen en regearingen mear tiid en krekter genôch skepping meitsje kinne troch in mooglike rappering te meitsjen dy't mjittich heger wurdt mei tiid ferhannele. Nocast-projekten lykas Google Flu Trends sjonge ek wat kin barre as grutte data boarnen kombinearje mei mear tradisjonele data dy't makke binne foar doel fan ûndersiik. Tinkend oan 'e keunst analogy fan haadstik 1 hat Nowcasting it potinsjeel om Duchad-styl fertikmoades te kombinearjen mei Michelangelo-styl custommades om te kommunisaasjebedriuwen mei mear tiidstich en genoegere mjittingen fan' e hjoeddeistige en foarsizzings fan 'e nocht.