2.4.2 Prognoser og nowcasting

Å forutsi den fremtidige er vanskelig, men forutsi den fore er enklere.

Den andre hovedstrategien forskerne kan bruke med observasjonsdata er prognoser . Å gjette gjetninger om fremtiden er notorisk vanskelig, og kanskje av den grunn er prognoser for tiden ikke en stor del av sosialforskning (selv om det er en liten og viktig del av demografi, økonomi, epidemiologi og statsvitenskap). Her vil jeg imidlertid fokusere på en spesiell type prognoser som kalles nåcasting- et begrep som kommer fra å kombinere "nå" og "prognoser." I stedet for å forutsi fremtiden, prøver nå å bruke ideer fra prognoser for å måle dagens tilstand av verden; det forsøker å "forutsi nåtiden" (Choi and Varian 2012) . Nowcasting har potensial til å være spesielt nyttig for regjeringer og bedrifter som krever tidsriktige og nøyaktige tiltak i verden.

En innstilling der behovet for rettidig og nøyaktig måling er veldig tydelig, er epidemiologi. Tenk på tilfelle av influensa ("influensa"). Hvert år forårsaker sesonginfluensaepidemier millioner av sykdommer og hundretusener av dødsfall over hele verden. Videre, hvert år, er det en mulighet for at en ny form for influensa kunne dukke opp som ville drepe millioner. Utbruddet i 1918, for eksempel, anslås å ha drept mellom 50 og 100 millioner mennesker (Morens and Fauci 2007) . På grunn av behovet for å spore og potensielt reagere på influensautbrudd, har regjeringer over hele verden skapt influensaovervåkingssystemer. For eksempel samler de amerikanske sentrene for sykdomskontroll og forebygging (CDC) regelmessig og systematisk informasjon fra nøye utvalgte leger rundt om i landet. Selv om dette systemet produserer data av høy kvalitet, har det et rapporteringslag. Det er på grunn av den tiden det tar for dataene som kommer fra leger som skal rengjøres, behandles og publiseres, gir CDC-systemet estimater for hvor mye influensa det var for to uker siden. Men når det gjelder å håndtere en fremvoksende epidemi, vil ikke helsepersonell vite hvor mye influensa det var for to uker siden; de vil vite hvor mye influensa det er akkurat nå.

Samtidig med at CDC samler inn data for å spore influensa, samler Google også data om influensautbredelse, men i en ganske annen form. Folk fra hele verden sender stadig spørsmål til Google, og noen av disse spørringene - for eksempel "influensaløsninger" og "influensasymptomer" - kan tyde på at personen som stiller spørringen har influensa. Men ved hjelp av disse søkene å estimere influensautbredelsen er vanskelig: ikke alle som har influensa, gjør et influenselatert søk, og ikke alle influenselaterte søk er fra noen som har influensa.

Jeremy Ginsberg og et team av kolleger (2009) , noen hos Google og noen på CDC, hadde den viktige og klare ideen om å kombinere disse to datakilder. Grovt, gjennom en slags statistisk alkymi, kombinerte forskerne de raske og unøyaktige søkedataene med langsom og nøyaktig CDC-data for å produsere raske og nøyaktige målinger av influensautbredelsen. En annen måte å tenke på er at de brukte søkedataene for å øke hastigheten på CDC-dataene.

Mer spesifikt, ved bruk av data fra 2003 til 2007, anslår Ginsberg og kollegaer forholdet mellom utbredelsen av influensa i CDC-dataene og søkevolumet for 50 millioner forskjellige vilkår. Fra denne prosessen, som var helt data-drevet og ikke krever spesialisert medisinsk kunnskap, fant forskerne et sett med 45 forskjellige spørringer som syntes å være mest forutsigbare for CDC-influensaprevalensdataene. Deretter testet Ginsberg og kollegaene ved hjelp av relasjonene de lærte fra 2003-2007-dataene modellen sin i influensasesongen 2007-2008. De fant ut at deres prosedyrer faktisk kunne gjøre nyttige og nøyaktige nyanser (figur 2.6). Disse resultatene ble publisert i Nature og mottok adoring pressedekning. Dette prosjektet, som ble kalt Google Flu Trends, ble en ofte gjentatt lignelse om kraften til store data for å forandre verden.

Figur 2.6: Jeremy Ginsberg og kolleger (2009) kombinerte Googles søkedata med CDC-data for å skape Google Flu-trender, noe som kunne senke graden av influensalignende sykdom (ILI). Resultatene i denne figuren er for Midt-Atlanterhavsregionen i USA i influensasesongen 2007-2008. Selv om det i utgangspunktet var svært lovende, forringet ytelsen til Google Flu Trends over tid (Cook et al., 2011; Olson et al., 2013; Lazer et al., 2014). Tilpasset fra Ginsberg et al. (2009), figur 3.

Figur 2.6: Jeremy Ginsberg og kolleger (2009) kombinerte Googles søkedata med CDC-data for å skape Google Flu-trender, noe som kunne senke graden av influensalignende sykdom (ILI). Resultatene i denne figuren er for Midt-Atlanterhavsregionen i USA i influensasesongen 2007-2008. Selv om det i utgangspunktet var svært lovende, forringet ytelsen til Google Flu Trends over tid (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Tilpasset fra Ginsberg et al. (2009) , figur 3.

Men denne tilsynelatende suksesshistorien ble til slutt en forlegenhet. Over tid oppdaget forskere to viktige begrensninger som gjør Google Flu Trend mindre imponerende enn det som opprinnelig ble vist. For det første var ytelsen til Google Flu Trends faktisk ikke mye bedre enn en enkel modell som anslår mengden influensa basert på en lineær ekstrapolering fra de to siste målene med influensautbredelse (Goel et al. 2010) . Og i løpet av noen tidsperioder var Google Flu Trends faktisk verre enn denne enkle tilnærmingen (Lazer et al. 2014) . Med andre ord, utviklingen av Google Fluer med all data, maskinlæring og kraftig databehandling, har ikke dramatisk overgått en enkel og lettere å forstå heuristisk. Dette antyder at når man vurderer en hvilken som helst prognose eller nåst, er det viktig å sammenligne seg mot en grunnlinje.

Den andre viktige advarselen om Google Flu-trender er at dets evne til å forutsi CDC-influensedata var utsatt for kortsiktig fiasko og langsiktig forfall på grunn av drift og algoritmisk forvirring . For eksempel, under utbruddet av svin influensa i 2009, har Google Flu Trends overvurdert kraftig mengden influensa, sannsynligvis fordi folk har en tendens til å endre sin søkeadferd som et svar på utbredt frykt for en global pandemi (Cook et al. 2011; Olson et al. 2013) . I tillegg til disse kortsiktige problemene, ble ytelsen gradvis forfallet over tid. Diagnostisering av årsakene til dette langsiktige forfallet er vanskelig fordi Google-søkealgoritmene er proprietære, men det ser ut til at Google i 2011 begynte å foreslå relaterte søkeord når folk søker etter influensasymptomer som "feber" og "hoste" (det ser også ut til at denne funksjonen er ikke lenger aktiv). Å legge til denne funksjonen er en helt fornuftig ting å gjøre hvis du kjører en søkemotor, men denne algoritmiske forandringen bidro til å generere flere helsemessige søk som forårsaket at Google Flu Trends overestimerer influensautbredelsen (Lazer et al. 2014) .

Disse to advarslene kompliserer fremtidige nåkastingstiltak, men de gjør dem ikke dårlige. Faktisk, ved å bruke mer forsiktige metoder, Lazer et al. (2014) og Yang, Santillana, and Kou (2015) var i stand til å unngå disse to problemene. Fremover forventer jeg at nåkastingstudier som kombinerer store datakilder med forskerinnsamlede data, vil gjøre det mulig for bedrifter og regjeringer å skape mer rettidige og mer nøyaktige estimater ved å i hovedsak øke hastigheten på noen målinger som gjentas gjentatte ganger over tid med noe lag. Nowcasting-prosjekter som Google Flu Trends viser også hva som kan skje hvis store datakilder er kombinert med mer tradisjonelle data som ble opprettet for forskningens formål. Når man tenker tilbake til den analoge artikkelen i kapittel 1, har nåkasting potensialet til å kombinere Duchamp-stil readymades med Michelangelo-stilkammerater for å gi beslutningstakere mer rettidige og mer nøyaktige målinger av nåtiden og spådommer i nær fremtid.