2.4.2 Forecasting og udarbejdelse af korttidsprognoser

Forudsige fremtiden er hårdt, men forudsige foreliggende er nemmere.

Den anden hovedstrategiske forsker kan bruge med observationsdata er prognoser . Gætninger om fremtiden er notorisk vanskelige, og det er måske af den grund, at prognoser for øjeblikket ikke er en stor del af den sociale forskning (selv om det er en lille og vigtig del af demografi, økonomi, epidemiologi og statsvidenskab). Her vil jeg dog gerne fokusere på en særlig form for prognoser kaldet nowcasting- et udtryk, der stammer fra at kombinere "nu" og "prognoser". I stedet for at forudsige fremtiden, nucasting forsøg på at bruge ideer fra prognoser til at måle den nuværende tilstand af verden; den forsøger at "forudsige nutiden" (Choi and Varian 2012) . Nowcasting har potentialet til at være særligt nyttigt for regeringer og virksomheder, som kræver tidlige og præcise foranstaltninger i verden.

En indstilling hvor behovet for rettidig og præcis måling er meget klar er epidemiologi. Overvej tilfælde af influenza ("influenza"). Hvert år forårsager sæsoninfluenzaepidemier millioner af sygdomme og hundredtusinder af dødsfald rundt om i verden. Derudover er der hvert år mulighed for, at en ny form for influenza kan opstå, der ville dræbe millioner. 1918 influenza udbrud, for eksempel, anslås at have dræbt mellem 50 og 100 millioner mennesker (Morens and Fauci 2007) . På grund af behovet for at spore og potentielt reagere på influenza udbrud har regeringer over hele verden skabt influenza overvågningssystemer. For eksempel indsamler de amerikanske centre for sygdomsbekæmpelse og forebyggelse (CDC) regelmæssigt og systematisk oplysninger fra nøje udvalgte læger rundt om i landet. Selv om dette system producerer data af høj kvalitet, har den et rapporteringslag. På grund af den tid det tager for dataene, der kommer fra læger, der skal rengøres, behandles og offentliggøres, frigiver CDC-systemet estimater for, hvor meget influenza der var for to uger siden. Men når folk behandler en epidemi, vil folkesundhedstjenesten ikke gerne vide, hvor meget influenza der var for to uger siden; de vil vide, hvor meget influenza der er lige nu.

Samtidig med at CDC indsamler data for at spore influenza, indsamler Google også data om influenza-prævalens, selv om det er helt anderledes. Folk fra hele verden sender konstant forespørgsler til Google, og nogle af disse forespørgsler - som "influenzaløsemidler" og "influenzalignende symptomer" - kan indikere, at den person, der foretager spørgsmålet, har influenza. Men ved hjælp af disse søgninger til at estimere influenza prævalens er vanskelig: ikke alle, der har influenza, gør en influenza-relateret søgning, og ikke alle influenza-relaterede søgning er fra nogen, der har influenza.

Jeremy Ginsberg og et team af kolleger (2009) , nogle hos Google og nogle hos CDC, havde den vigtige og kloge ide at kombinere disse to datakilder. Groft, gennem en slags statistisk alkemi, kombinerede forskerne de hurtige og unøjagtige søgedata med de langsomme og nøjagtige CDC-data for at producere hurtige og præcise målinger af influenza-prævalens. En anden måde at tænke på er, at de brugte søgedataene til at fremskynde CDC-dataene.

Mere specifikt anslog Ginsberg og kolleger ved hjælp af data fra 2003 til 2007 forholdet mellem forekomsten af ​​influenza i CDC-data og søgevolumen for 50 millioner forskellige vilkår. Fra denne proces, som var helt data-drevet og ikke havde brug for specialiseret medicinsk viden, fandt forskerne et sæt af 45 forskellige forespørgsler, der syntes at være mest forudsigelige for CDC-influenza-prævalensdataene. Derefter testede Ginsberg og kollegaerne deres model i løbet af influenzasæsonen 2007-2008 ved hjælp af de forhold, de lærte af dataene fra 2003-2007. De fandt ud af, at deres procedurer rent faktisk kunne gøre brugbare og nøjagtige nyheder (figur 2.6). Disse resultater blev offentliggjort i Nature og modtaget adoring pressedækning. Dette projekt, der kaldes Google Flu Trends-blev en ofte gentaget lignelse om kraften i store data til at ændre verden.

Figur 2.6: Jeremy Ginsberg og kolleger (2009) kombinerede Google-søgedata med CDC-data for at oprette Google Flu-tendenser, som kunne fremskynde graden af ​​influenzalignende sygdom (ILI). Resultaterne i denne figur er for den midteratlantiske region i USA i 2007-2008 influenzasæsonen. Selvom det oprindelig var meget lovende, forfaldne udførelsen af ​​Google Flu-tendenser over tid (Cook et al., 2011; Olson et al., 2013; Lazer et al., 2014). Tilpasset fra Ginsberg et al. (2009), figur 3.

Figur 2.6: Jeremy Ginsberg og kolleger (2009) kombinerede Google-søgedata med CDC-data for at oprette Google Flu-tendenser, som kunne fremskynde graden af ​​influenzalignende sygdom (ILI). Resultaterne i denne figur er for den midteratlantiske region i USA i 2007-2008 influenzasæsonen. Selvom det oprindelig var meget lovende, forfaldne udførelsen af ​​Google Flu-tendenser over tid (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Tilpasset fra Ginsberg et al. (2009) , figur 3.

Imidlertid blev denne tilsyneladende succeshistorie til sidst en forlegenhed. Over tid opdagede forskerne to vigtige begrænsninger, der gør Google Flu Trends mindre imponerende end den oprindeligt dukkede op. For det første var præstationen af ​​Google Flu Trends faktisk ikke meget bedre end en simpel model, der estimerer mængden af ​​influenza baseret på en lineær ekstrapolering fra de to seneste målinger af influenza-prævalens (Goel et al. 2010) . Og i nogle perioder var Google Flu Trends faktisk værre end denne enkle tilgang (Lazer et al. 2014) . Med andre ord udviklede Google Flu-tendenser med al dens data, maskinindlæring og kraftig databehandling ikke dramatisk en enkel og lettere at forstå heuristisk. Dette tyder på, at når man vurderer enhver prognose eller nucast, er det vigtigt at sammenligne sig med en basislinie.

Den anden vigtige advarsel om Google Flu Trends er, at dens evne til at forudsige CDC influenza data var tilbøjelig til kortsigtet fiasko og langsigtet forfald på grund af drift og algoritmisk confounding . F.eks. I løbet af svineinfluenzaudbruddet i 2009 oversvømmede Google Flu-tendenser voldsomt omfanget af influenza, sandsynligvis fordi folk har en tendens til at ændre deres søgeadfærd som følge af udbredt frygt for en global pandemi (Cook et al. 2011; Olson et al. 2013) . Ud over disse kortsigtede problemer blev præstationen gradvist forfaldet over tid. Diagnostisering af årsagerne til dette langsigtede henfald er vanskeligt, fordi Google-søgalgoritmerne er proprietære, men det ser ud til, at Google i 2011 begyndte at foreslå relaterede søgeord, når folk søger influenzaproblemer som "feber" og "hoste" (det ser også ud til, at denne funktion er ikke længere aktiv). Tilføjelse af denne funktion er en helt fornuftig ting at gøre, hvis du kører en søgemaskine, men denne algoritmiske forandring medførte, at der blev genereret flere sundhedsrelaterede søgninger, der fik Google Flu Trends til at overvurdere influenza-forekomsten (Lazer et al. 2014) .

Disse to advarsler komplicerer fremtidige nucasting-bestræbelser, men de dømmer dem ikke. Faktisk ved at anvende mere omhyggelige metoder, Lazer et al. (2014) og Yang, Santillana, and Kou (2015) kunne undgå disse to problemer. I fremtiden forventer jeg, at nucasting-undersøgelser, der kombinerer store datakilder med forskerindsamlede data, vil gøre det muligt for virksomheder og regeringer at skabe mere rettidige og mere præcise estimater ved i høj grad at fremskynde enhver måling, som gentages gentagne gange i løbet af tiden med en vis forsinkelse. Nowcasting-projekter som Google Flu Trends viser også, hvad der kan ske, hvis store datakilder kombineres med mere traditionelle data, der blev oprettet med henblik på forskning. Idet man tænker på den analoge kunst i kapitel 1, har nucasting potentialet til at kombinere Duchamp-stil readymades med Michelangelo-stilkammerater for at give beslutningstagere mere rettidige og mere præcise målinger af nutiden og forudsigelser i den nærmeste fremtid.