2.4.2 prognoosimise ja nowcasting

Tuleviku ennustamine on raske, aga ennustavad praeguse on lihtsam.

Teine peamine strateegia, mida teadlased saavad kasutada vaatlusandmetega, prognoositakse . Tulevikus tehtud ettekujutused tulevikust on teadaolevalt keerulised ja ehkki sellepärast pole prognoosimine hetkel suur osa sotsiaalsetest uuringutest (kuigi see on demograafia, majanduse, epidemioloogia ja politoloogia väike ja oluline osa). Siiski tahaksin siinkohal keskenduda spetsiifilisele prognoosimisele, mida nimetatakse nüüd kastamiseks - terminit, mis on tuletatud "nüüd" ja "prognoosimisest" ühendamisest. Selle asemel, et ennustada tulevikku, püüab nüüd esitada prognoose kasutades ideid hetkeseisu mõõtmiseks maailma; see üritab "hetke ennustada" (Choi and Varian 2012) . Tänapäeval võib olla eriti kasulik valitsustele ja ettevõtetele, kes vajavad maailma õigeaegseid ja täpseid mõõtmeid.

Üks seade, kus õigeaegse ja täpse mõõtmise vajadus on väga selge, on epidemioloogia. Mõelge gripi juhtumile ("gripp"). Hooajalised gripipedemiad põhjustavad igal aastal miljoneid haigusi ja sadu tuhandeid surmajuhtumeid kogu maailmas. Lisaks sellele on igal aastal tõenäoline, et tekib uus gripi vorm, mis tapab miljoneid. Näiteks on gripiviiruse 1918. aasta arv umbes 50-100 miljonit inimest (Morens and Fauci 2007) . Kuna vajadus jälgida ja potentsiaalselt reageerida gripipuhangutele, on üle maailma valitsused loonud gripi seiresüsteemid. Näiteks USA haiguste tõrje ja ennetamise keskused koguvad korrapäraselt ja süstemaatiliselt teavet hoolikalt valitud arstide kohta kogu riigis. Kuigi see süsteem toodab kvaliteetseid andmeid, on sellel aruandluspuhang. See tähendab, et kuna arstide poolt puhastatavate, töödeldud ja avaldatud andmete hankimise aeg kulub, vabaneb CDC süsteem hinnangute kohta, kui palju grippi oli kaks nädalat tagasi. Kuid ähvardava epideemia käitlemisel ei taha rahvatervise ametnikud teada, kui palju grippi oli kaks nädalat tagasi; nad tahavad teada, kui palju grippi praegu on.

Samal ajal, kui CDC kogub andmeid gripi jälgimiseks, kogub Google andmeid gripi levimuse kohta, kuigi see on üsna teistsuguses vormis. Inimesed kogu maailmast saadavad Google'ile päringuid pidevalt ja mõned neist päringutest (nt "gripi õiguskaitsevahendid" ja "gripi sümptomid") näitavad, et päringus osalejal on gripp. Kuid nende otsingupäringute kasutamine gripi levimuse hindamiseks on keeruline: mitte kõik, kellel on gripp, teevad gripil põhineva otsingu, mitte iga gripi-vastane otsing pole pärine isikust, kellel on gripp.

Jeremy Ginsberg ja kolleegide meeskond (2009) , mõnedel Google'il ja mõnedel CDC-l oli mõlema andmeallika ühendamiseks oluline ja nutikas idee. Umbes statistilise alkeemiatööstuse kaudu ühendasid teadlased kiirete ja ebatäpsete otsinguandmete aeglase ja täpse CDC andmetega, et toota kiiresti ja täpselt gripi levimust. Teine võimalus seda mõelda on see, et nad kasutasid CDC andmete kiirendamiseks otsingandmeid.

Täpsemalt, kasutades andmeid aastatel 2003-2007, hindasid Ginsbergi ja tema kolleegid suhteid gripi levimuse kohta CDC andmetel ja 50 miljoni erineva terminiga otsingumahtu. Sellest protsessist, mis oli täiesti andmepõhine ja ei nõua meditsiinilisi eriteavet, leidis uurija 45 erinevat päringut, mis näisid olevat CDC-le gripi levimusandmete kõige prognoosimad. Siis, kasutades 2003.-2007. Aasta andmetel saadud suhteid, katsid Ginsbergi ja tema kolleegid oma mudelit 2007.-2008. Aasta gripihooajal. Nad leidsid, et nende protseduurid võivad tõepoolest teha kasulikke ja täpseid viivitusi (joonis 2.6). Need tulemused ilmusid Looduses ja said ajakirjandusvabaduse. See projekt, mida sai nimeks Google Flu Trends, sai sageli korduvaks näitena suurte andmete võimu üle maailma muuta.

Joonis 2.6: Jeremy Ginsberg ja tema kolleegid (2009) kombineerisid Google'i otsinguandmeid CDC-andmetega, et luua Google Flu Trendsid, mis võiksid täiendada gripitaolise haiguse (ILI) kiirust. Selle näitaja tulemused on USA-Atlandi piirkonna jaoks 2007.-2008. Aasta gripi hooajal. Kuigi see oli algselt väga paljutõotav, langesid Google Flu Trendsi tulemused aja jooksul (Cook et al. 2011; Olson et al. 2013; Lazer jt, 2014). Kohandatud Ginsberg et al. (2009), joonis 3.

Joonis 2.6: Jeremy Ginsberg ja tema kolleegid (2009) kombineerisid Google'i otsinguandmeid CDC-andmetega, et luua Google Flu Trendsid, mis võiksid täiendada gripitaolise haiguse (ILI) kiirust. Selle näitaja tulemused on USA-Atlandi piirkonna jaoks 2007.-2008. Aasta gripi hooajal. Kuigi see oli algselt väga paljutõotav, langesid Google Flu Trendsi tulemused aja jooksul (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Kohandatud Ginsberg et al. (2009) , joonis 3.

Kuid see näiline edulugu muutus lõpuks piinlikuks. Aja jooksul avastasid teadlased kaks olulist piirangut, mis muudavad Google'i vereringetrendid vähem muljetavaldavaks kui algselt ilmunud. Esiteks ei olnud Google Flu Trendsi toimivus tegelikult palju parem kui lihtsa mudeli puhul, milles hinnati gripiväärtust, mis põhineb mõlema kõige hiljutise gripi levimuse mõõtmise lineaarel ekstrapoleerimisel (Goel et al. 2010) . Mõne ajaperioodi jooksul oli Google Flu Trends tegelikult lihtsam lähenemisviisist hullem (Lazer et al. 2014) . Teisisõnu ei andnud Google Flu Trends koos kõigi andmete, masinloetmise ja võimsa arvutusega oluliselt paremat lihtsat ja hõlpsamini mõistetav heuristilist. See näitab, et hinnates prognoose või nüüd, on oluline võrrelda algtasemega.

Teine oluline hoiatus Google Flu Trends'ide kohta on see, et selle võime ennustada CDC-ga seotud gripiandmeid oli aluseks lühiajalistele ebaõnnestumistele ja pikaajalisele lagunemisele triiv- ja algoritmilise segunemise tõttu . Näiteks 2009. aasta sepsise gripipuhangu ajal on Google Flu Trends märkimisväärselt üle hinnanud gripiviirust, tõenäoliselt seetõttu, et inimesed kalduvad muutma oma otsingukäitumist vastuseks ülemaailmse pandeemia laiale levimisele (Cook et al. 2011; Olson et al. 2013) . Lisaks neile lühiajalistele probleemidele langesid toimingud aja jooksul järk-järgult. Selle pikaajalise lagunemise põhjuste diagnoosimine on keeruline, kuna Google'i otsingualgoritmid on varalised, kuid tundub, et 2011. aastal hakkas Google pakkuma seotud otsingutermineid, kui inimesed otsivad selliseid gripi sümptomeid nagu "palavik" ja "köha" (tundub ka seda see funktsioon pole enam aktiivne). Selle funktsiooni lisamine on täiesti mõistlik, kui te kasutate otsingumootorit, kuid selle algoritmilise muutuse tulemusena saadi rohkem tervisega seotud otsinguid, mis põhjustasid Google'i gripiviiruste ülemäärasest levimust (Lazer et al. 2014) .

Need kaks hoiatavust muudavad tulevasi jõupingutusi tulevikus veelgi keerulisemaks, kuid nad ei hävitavad neid. Tegelikult, kasutades hoolikamaid meetodeid, Lazer et al. (2014) ja Yang, Santillana, and Kou (2015) suutsid neid kahte probleemi vältida. Edaspidi eeldan, et uuringute, mis ühendavad suuri andmeallikaid teadlaste poolt kogutud andmetega, abil saavad ettevõtted ja valitsused luua õigeaegseid ja täpsemaid hinnanguid, kiirendades oluliselt mõne aja jooksul korduvalt tehtud mõõtmisi. Selles projektis nagu Google Flu Trends ka praegu, kui suured andmeallikad on ühendatud traditsiooniliste andmetega, mis loodi teadusuuringute eesmärgil. Pidades silmas 1. peatüki kunstnägemat analoogiat, on nüüdseks saamine võimalik ühendada Duchampi stiilis valamud koos Michelangelo-stiilis custommades'ga, et anda otsustajatele õigeaegseid ja täpsemaid mõõtmisi praeguse hetke ja lähituleviku prognooside kohta.