2.4.2 Forecasting en nowcasting

It foarsizzen fan 'e takomst is hurd, mar it foarsizzen fan de oanwêzich is makliker.

De twadde wichtichste strategy brûkt troch ûndersikers mei feiten 't waarnimming is forecasting. It foarsizzen fan 'e takomst is notoriously dreech, mar it kin wêze ongelooflijk wichtich foar beslút makkers, oft se wurkje yn bedriuwen of oerheden.

Kleinberg et al. (2015) biedt twa ferhalen dy't ferdúdlikjen it belang fan forecasting foar bepaalde belied problemen. Imagine ien belied maker, ik neam har Anna, dy't konfrontearre in droechte en moat beslute oft te hieren in shaman te dwaan in rein dûns te fergrutsjen de kâns op rein. In oar belied maker, ik neam him Bob, moatte beslute oft te nimmen in oerkoepeljende oan it wurk te kommen dat hieltyd wiet op 'e wei nei hûs. Sawol Anna en Bob kin meitsje in better beslút as se begripe Wetter, mar se moatte witte ferskillende dingen. Anna moat te ferstean oft de rein dûns feroarsaket rein. Bob, oan 'e oare kant, hat net nedich te begripen neat oer kausaliteit; er krekt moat in accurate Wettervorhersage. Sosjale ûndersikers faak rjochtsje op wat Kleinberg et al. (2015) neame "rein dance-like" belied problemen-dyjingen dy't rjochtsje op kausaliteit-en negearje "paraplu-like" belied problemen dy't rjochte op forecasting.

Ik graach nei rjochtsje, lykwols, op in spesjale soarte fan forecasting neamd nowcasting -a term ôflaat fan kombinearjen "no" en "forecasting." Leaver as it foarsizzen fan 'e takomst, nowcasting besykjen om foarsizze de hjoeddeiske (Choi and Varian 2012) . Yn oare wurden, nowcasting brûkt forecasting metoaden foar problemen fan mjitting. As sadanich, dat moat wêze foaral brûkber foar oerheden dy't nedich op 'e tiid en akkuraat maatregels oer harren lannen. Nowcasting kin yllustrearre meast dúdlik mei it foarbyld fan Google Flu Trends.

Yntinke dat jo gefoel in bytsje ûnder it waar sa jo yntype "gryp remedies" yn in sykmasine, krije in side fan de keppelings yn antwurd, en dan folgje ien fan harren nei in helpful webside. No yntinke dizze aktiviteit dat spile út it perspektyf fan de sykmasine. Alle momint, miljoenen fan fragen binne oankomst fan om 'e wrâld, en dizze stream fan fragen-wat Battelle (2006) hat de namme it "databank fan foarnimmens" - jout in hieltyd bywurke finster yn it kollektyf globale bewustwêzen. Mar, kearde dizze stream fan ynformaasje yn in mjitting fan it foarkommen fan de gryp is dreech. Gewoan tellen op it tal fragen foar "gryp remedies" kin net wurkje goed. Net elkenien dy't hat de gryp sykopdrachten foar gryp remedies en net elkenien dy't searchers foar gryp remedies hat de gryp.

De wichtige en tûke trick efter Google Flu Trends wie om in mjitting probleem yn in forecasting probleem. De Amerikaanske Centers for Disease Control and Prevention (CDC) hat in influenza monitoring systeem dat sammelet ynformaasje fan dokters om it lân. Mar, ien probleem mei dizze CDC systeem is der is in twa wike rapportaazje lag; de tiid dat duorret foar de gegevens oankomst fan dokters wurde skjinmakke, ferwurke, en publisearre. Mar, doe't de behanneling fan in opkommende epidemy, folkssûnens kantoaren net wolle witte hoefolle influenza wie der twa wiken lyn; se wolle witte hoefolle influenza is der rjocht no. Yn feite, yn in protte oare tradisjonele boarnen fan sosjale data, binne der hiaten tusken weagen fan datasammeling en rapportaazje lang net. De measte grutte gegevens boarnen, oan 'e oare kant, binne altyd-op (paragraaf 2.3.1.2).

Dêrom, Jeremy Ginsberg en kollega (2009) besocht te foarsizze de CDC griep gegevens út de Google sykje gegevens. Dit is in foarbyld fan "it foarsizzen fan de oanwêzich" omdat de ûndersikers waarden besocht om te mjitten hoefolle gryp is der no troch it foarsizzen fan takomst gegevens út de CDC, takomstige gegevens dy't mei it mjitten fan de oanwêzich. Mei help fan machine learen, se socht troch 50 miljoen ferskillende syktermen te sjen dy't meast foarsizzend fan de CDC griep gegevens. Uteinlik, fûnen se in set fan 45 ferskillende fragen dy't like te wêzen meast foarsizzend, en de resultaten wiene hiel goed: se koene brûke it sykjen gegevens te foarsizze de CDC gegevens. In part basearre op dizze papier, dat waard publisearre yn Nature, Google Flu Trends waard in faak werhelle sukses ferhaal oer de macht fan grutte gegevens.

Der binne twa wichtige caveats oan dizze skynbere súkses, lykwols, en ynsjoch dizze caveats sil helpe jo evaluearje en dwaan forecasting en nowcasting. Earste, de prestaasjes fan Google Flu Trends wie eins net folle better as in ienfâldige model dy't rûst it bedrach fan gryp basearre op in liniearre Extrapolation fan de twa meast resinte mjittingen fan griep foarkommen (Goel et al. 2010) . En, oer in skoft perioaden Google Flu Trends wie eins slimmer as dit ienfâldige oanpak (Lazer et al. 2014) . Yn oare wurden, Google Flu Trends mei al syn gegevens, machine learen, en krêftige Computing net dramatysk outperform in ienfâldige en makliker te begripen heuristyske. Dat suggerearret dat as de beoardieling fan alle für of nowcast is it wichtich om te ferlykjen tsjin in nulmjitting.

De twadde wichtige caveat oer Google Flu Trends is dat syn fermogen om foarsizze de CDC griep gegevens wie gevoelig te koarte-termyn failure en lange-termyn ferfal fanwege drift en algorithmic confounding. Bygelyks, yn 'e 2009 Swine Flu útbrekken Google Flu Trends dramatysk oer-rûsd it bedrach fan gryp, nei alle gedachten omdat minsken oanstriid te feroarjen harren sykje gedrach nei oanlieding fan wiidferspraat eangst fan in wrâldwiid pandemy (Cook et al. 2011; Olson et al. 2013) . Neist dizze koarte-termyn problemen, de prestaasje stadichoan slop oer tiid. Diagnosing de redenen foar dizze lange termyn ferfal binne dreech, omdat de Google sykje Algorithmen binne kommersjele, mar docht bliken dat yn 2011 Google makke wizigings dy soe suggest ferbân syktermen as minsken sykje foar symptomen as "koarts" en "hoest" (it ek lykje dat dizze funksje is net mear aktyf). Taheakjen fan dizze funksje is in folslein reedlike ding om te dwaan as jo binne rinnen in sykmasine bedriuw, en dat hie it effekt fan it generearjen fan mear sûnens related searches. Dat wie nei alle gedachten in súkses foar it bedriuw, mar dat feroarsake Google Flu Trends nei boppe-estimate gryp foarkommen (Lazer et al. 2014) .

Gelokkich, dy problemen mei Google Flu Trends binne fixable. Yn feite, mei help fan mear foarsichtich metoaden, Lazer et al. (2014) en Yang, Santillana, and Kou (2015) koenen te krijen bettere resultaten. Going foarút, ik ferwachtsje dat nowcasting ûndersiken dy't kombinearje grutte gegevens mei ûndersiker sammele gegevens-dat kombinearje Duchamp-styl Readymades mei Michaelangelo-styl Custommades-sil ynskeakelje beliedsmakkers om produsearje flugger en krekter mjittings fan de hjoeddeiske en foarsizzings fan 'e takomst.