2.4.2 prognoosimise ja nowcasting

Tuleviku ennustamine on raske, aga ennustavad praeguse on lihtsam.

Teine peamine strateegia mida teadlased vaatlusandmetega prognoosib. Tuleviku ennustamine on väga raske, kuid see võib olla väga oluline, otsustajatele, kas nad töötavad ettevõtetes või valitsused.

Kleinberg et al. (2015) pakub kaks lugu, et selgitada, kui tähtis on prognoosimine teatud poliitiliste probleemidega. Kujutage ette, üks poliitika tegija, ma helistan talle Anna, kes seisab põua ja peab otsustama, kas palgata šamaan teha Rain Dance suurendada Selge. Teine poliitika tegija, ma helistan talle Bob, peab otsustama, kas võtta vihmavarju töötada, et vältida märgumise teel koju. Mõlemad Anna ja Bob saab teha paremini oma otsust, kui nad mõistavad, ilm, kuid neil on vaja teada erinevaid asju. Anna vaja aru saada, kas vihma tants tekitab vihma. Bob, teiselt poolt, ei ole vaja mõista midagi põhjuslikkuse; ta lihtsalt vajab täpset prognoosi. Sotsiaalne teadlased sageli keskenduda sellele, mida Kleinberg et al. (2015) nimetavad "vihma tantsijannat" poliitika probleeme-need, mis keskenduvad põhjuslikkuse-ja ignoreerida "vihmavarju-like" poliitika probleeme, mis on keskendunud prognoosimine.

Sooviksin keskenduda, aga on eriline prognoosimine nimetatakse nowcasting -a tuletatud mõiste ühendab "nüüd" ja "prognoosimine." Selle asemel, ennustavad tulevikku, nowcasting üritab ennustada praeguse (Choi and Varian 2012) . Teisisõnu nowcasting kasutab prognoosimise meetodid probleemi mõõtmist. Sellisena see peaks olema eriti kasulik valitsused kes vajavad õigeaegset ja täpset meetmed nende riikides. Nowcasting võib illustreerida kõige selgemini näitel Google Flu Trends.

Kujutage ette, et teil on tunne natuke alla ilmaga, et sa kirjutad "gripp abinõud" otsingumootorisse, saab linkide lehekülje vastuseks ja järgige üks neist kasulik veebileht. Kujutlege seda tegevust mängitakse vaatenurgast otsingumootor. Iga hetk, miljoneid päringuid saabuvad maailmas, ja see vool päringuid-mida Battelle (2006) on nimetanud "andmebaasi kavatsused" - annab uuendatakse pidevalt akna kollektiivse globaalse teadvuse. Kuid keerates voog informatsiooni mõõtmine levimus gripp on raske. Lihtsalt lugedes üles arvu päringuid "gripp abinõud" ei pruugi hästi töötada. Mitte igaüks, kes on gripp otsib gripp abinõud ja mitte igaüks, kes otsijatele gripp abinõud on gripp.

Oluline ja kaval trikk taga Google Flu Trends oli omakorda mõõtmise probleem arvesse prognoosimise probleem. USA Centers for Disease Control and Prevention (CDC) on gripi seire süsteem, mis kogub teavet arstid üle kogu riigi. Kuid üks probleem on see CDC süsteem on olemas kaks nädalat aruandluse lag; aeg, mis kulub andmete saabuvad arstid tuleb puhastada, töödeldav ja avaldatakse. Aga kui lahendatakse jõudu koguv epideemia, rahvatervise kontorid ei taha teada, kui palju gripi oli kaks nädalat tagasi; nad tahavad teada, kui palju grippi on praegu. Tegelikult paljud teised traditsioonilised allikad sotsiaalse andmetel on lõhed lained andmete kogumise ja teatamisviivitusest. Enamik suur andmeallikate, teiselt poolt, on alati sees (§ 2.3.1.2).

Seetõttu Jeremy Ginsberg ja tema kolleegid (2009) püüdis ennustada CDC Gripi andmeid Google'i otsingu andmed. See on näide "ennustavad praeguse", sest teadlased üritasid mõõta, kui palju gripp on nüüd ennustades tulevikku andmeid CDC, tulevikus andmeid, mis mõõdab kohal. Kasutades masinõpe, otsiti läbi 50 miljonit erinevat otsingu tingimusi, et näha, mis on kõige ennustada CDC Gripi andmeid. Lõppkokkuvõttes leidsid nad komplekt 45 erinevat päringut, mis tundus olevat kõige ennustav ning tulemused olid päris head: nad võiksid kasutada otsingut andmeid ennustada CDC andmeid. Põhineb osaliselt Selles raamatus, mis ilmus ajakirjas Nature, Google Flu Trends sai sageli korrata edu lugu võimu suur andmed.

On kaks tähtsat räägib asjaolu see näiline edu siiski, ja mõista neid hoiatusi aitab hinnata ja teha prognoose ja nowcasting. Esiteks tulemuslikkuse Google Flu Trends polnud tegelikult palju parem kui lihtne mudel, mis hindab summa gripp põhineb lineaarse ekstrapoleerimise kahe viimase mõõtmise gripi levikut (Goel et al. 2010) . Ja üle mõnel perioodil Google Flu Trends oli tegelikult hullem kui see lihtne lähenemine (Lazer et al. 2014) . Teisisõnu, Google Flu Trends koos kõigi oma andmed, masin õppimise ja võimas arvuti ei dramaatiliselt edestama lihtne ja lihtsam mõista heuristiline. See näitab, et kui ta hindab igal prognoosi või nowcast on oluline võrrelda võrreldes praeguse olukorraga.

Teine oluline hoiatus Google Flu Trends on see, et tema võime ennustada CDC Gripi andmed olid altid lühiajalise rikke ja pikaajalise lagunemise tõttu triivi ja algoritmilise segavate. Näiteks 2009 aasta jooksul seagripipuhang Google Flu Trends oluliselt üle hinnatud gripiviiruse kogust, ilmselt seetõttu, et inimesed kipuvad muutma oma otsingut käitumisest reaktsioonina laialt levinud hirm globaalse pandeemia (Cook et al. 2011; Olson et al. 2013) . Peale nende lühiajalise probleeme, jõudlus tasapisi lagunenud aja jooksul. Diagnoosimine põhjust pikaajaline lagunemine on raske, sest Google otsingu algoritmid on patenteeritud, kuid tundub, et aastal 2011 Google tegi muudatusi, mis näitaks, mis on seotud otsingusõnu, kui inimesed otsivad sümptomeid nagu "katk" ja "köha" (see ka tundub et see funktsioon ei ole enam aktiivne). Lisades see funktsioon on täiesti mõistlik asi, mida teha, kui teil on otsingumootori äri, ja see mõjuks oli tekitada rohkem tervisega seotud otsingud. See oli ilmselt edu äri, kuid see tekitas Google Flu Trends üle hinnata gripi levikut (Lazer et al. 2014) .

Õnneks on need probleemid Google Flu Trends on fikseeritav. Tegelikult kasutatakse rohkem ettevaatlik meetodeid, Lazer et al. (2014) ja Yang, Santillana, and Kou (2015) suutsid saada paremaid tulemusi. Läheb edasi, ma eeldan, et nowcasting uuringuid, mis ühendavad suured andmeid uurija kogutud andmete, mis ühendavad Duchamp-stiilis Readymades koos Michaelangelo stiilis Custommades-võimaldab poliitikutel toota kiiremat ja täpsemat mõõtmist käesoleva ja tuleviku ennustamisel.