2.4.2 Prognoser och Nowcasting

Att förutsäga framtiden är svårt, men att förutsäga detta är lättare.

Den andra huvudstrategins forskare kan använda med observationsdata är prognos . Att göra gissningar om framtiden är notoriskt svårt, och det är kanske av den anledningen att prognoser för närvarande inte är en stor del av social forskning (även om det är en liten och viktig del av demografi, ekonomi, epidemiologi och statsvetenskap). Här vill jag dock fokusera på en speciell typ av prognoser som kallas nucasting- en term som härrör från att kombinera "nu" och "prognoser". I stället för att förutsäga framtiden försöker man nu att använda ideer från prognoser för att mäta nuvarande tillstånd av världen; den försöker "förutse nutiden" (Choi and Varian 2012) . Nowcasting har potential att vara särskilt användbart för regeringar och företag som kräver tidliga och korrekta åtgärder i världen.

En inställning där behovet av snabb och korrekt mätning är mycket tydlig är epidemiologi. Tänk på influensa ("influensan"). Varje år orsakar säsongsinfluensaepidemier miljontals sjukdomar och hundratusentals dödsfall runt om i världen. Vidare finns det varje år möjlighet att en ny form av influensa uppstår som skulle döda miljoner. Utbrottet från 1918 beräknas till exempel ha dödat mellan 50 och 100 miljoner människor (Morens and Fauci 2007) . På grund av behovet av att spåra och eventuellt reagera på influensautbrott har regeringar runt om i världen skapat influensaövervakningssystem. Till exempel samlar de amerikanska centren för sjukdomskontroll och förebyggande åtgärder (CDC) regelbundet och systematiskt information från noga utvalda läkare runt om i landet. Även om detta system producerar högkvalitativa data har den en rapporteringslagring. Det är på grund av den tid det tar för de uppgifter som kommer från läkare att rengöras, bearbetas och publiceras, CDC-systemet släpper upp beräkningar av hur mycket influensa det fanns för två veckor sedan. Men när folkhälsopersonal hanterar en framväxande epidemi vill inte veta hur mycket influensa det var för två veckor sedan; de vill veta hur mycket influensa det finns just nu.

Samtidigt som CDC samlar in data för att spåra influensa samlar Google också data om influensaliknande prevalens, även om det är helt annorlunda. Människor från hela världen skickar ständigt frågor till Google, och några av dessa frågor - till exempel "influensalösningar" och "influensasymtom" - kan indikera att personen som gör frågan har influensa. Men med hjälp av dessa sökfrågor för att uppskatta influensautbredningen är knepigt: inte alla som har influensa gör en influensrelaterad sökning, och inte varje influensrelaterad sökning är från någon som har influensa.

Jeremy Ginsberg och ett team av kollegor (2009) , några hos Google och några på CDC, hade en viktig och smart idé att kombinera dessa två datakällor. Grovt, genom en slags statistisk alkemi, kombinerade forskarna de snabba och felaktiga sökdata med långsamma och exakta CDC-data för att producera snabba och noggranna mätningar av influensaliknande prevalens. Ett annat sätt att tänka på är att de använde sökdata för att påskynda CDC-data.

Mer specifikt, genom att använda data från 2003 till 2007, beräknade Ginsberg och kollegor sambandet mellan förekomsten av influensa i CDC-data och sökvolymen för 50 miljoner separata termer. Från denna process, som var helt datadriven och inte behövde specialiserad medicinsk kunskap, hittade forskarna en uppsättning av 45 olika frågor som tycktes vara mest förutsägda för CDC-influensans prevalensdata. Sedan, genom att använda de relationer som de lärde sig från 2003-2007-data, testade Ginsberg och kollegor deras modell under influensasäsongen 2007-2008. De fann att deras rutiner verkligen kunde göra användbara och korrekta nucasts (figur 2.6). Dessa resultat publicerades i Nature och mottog prydnadspresning. Detta projekt, som kallades Google Flu Trends, blev en ofta upprepad liknelse om kraften i stora data för att förändra världen.

Figur 2.6: Jeremy Ginsberg och kollegor (2009) kombinerade Google-sökdata med CDC-data för att skapa Google Flu-trender, som skulle kunna döma graden av influensaliknande sjukdomar (ILI). Resultatet i denna siffra är för den midatlantiska regionen i Förenta staterna under influensasäsongen 2007-2008. Trots att det ursprungligen var mycket lovande, försvagades resultatet av Google Flu-trender över tiden (Cook et al., 2011; Olson et al., 2013; Lazer et al., 2014). Anpassad från Ginsberg et al. (2009), figur 3.

Figur 2.6: Jeremy Ginsberg och kollegor (2009) kombinerade Google-sökdata med CDC-data för att skapa Google Flu-trender, som skulle kunna döma graden av influensaliknande sjukdomar (ILI). Resultatet i denna siffra är för den midatlantiska regionen i Förenta staterna under influensasäsongen 2007-2008. Trots att det ursprungligen var mycket lovande, försvagades resultatet av Google Flu-trender över tiden (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Anpassad från Ginsberg et al. (2009) , figur 3.

Men denna uppenbara framgångshistoria blev så småningom en skam. Med tiden upptäckte forskare två viktiga begränsningar som gör Google Flu Trends mindre imponerande än det som ursprungligen uppträdde. Först var resultatet av Google Flu Trends faktiskt inte mycket bättre än en enkel modell som uppskattar influensavängden baserat på en linjär extrapolering från de två senaste mätningarna av influensaliknande prevalens (Goel et al. 2010) . Och under några tidsperioder var Google Flu Trends faktiskt värre än det här enkla tillvägagångssättet (Lazer et al. 2014) . Med andra ord, Google Flu Trends med all sin data, maskininlärning och kraftfull databehandling, har inte dramatiskt överträffat en enkel och lättare förståelse av heuristiken. Detta tyder på att när man utvärderar eventuell prognos eller nuvarande är det viktigt att jämföra med en baslinje.

Den andra viktiga försiktigheten om Google Flu-trender är att dess förmåga att förutsäga data från CDC-influensan var benägen att kortsiktigt misslyckas och långsiktigt förfall på grund av drift och algoritmisk förvirring . Till exempel, under utbrottet av svininfluensan 2009, underskattade Google Influens Trends dramatiskt mängden influensa, förmodligen för att människor tenderar att ändra sitt sökande beteende som en följd av utbredd rädsla för en global pandemi (Cook et al. 2011; Olson et al. 2013) . Förutom dessa kortsiktiga problem försvagades prestationen gradvis över tiden. Att diagnostisera orsakerna till detta långsiktiga förfall är svårt eftersom Google-sökalgoritmerna är proprietära, men det visade sig att Google började föreslå relaterade söktermer när människor söker efter influensaliknande symptom som "feber" och "hosta" (det verkar också som att den här funktionen är inte längre aktiv). Att lägga till den här funktionen är en helt rimlig sak att göra om du kör en sökmotor, men den här algoritmiska förändringen medförde att man genererade mer hälsoprelaterade sökningar som orsakade att Google Flu Trendens överskattar influensautbredningen (Lazer et al. 2014) .

Dessa två tillvägagångssätt komplicerar framtida ansträngningar, men de dömer dem inte. Faktum är att genom att använda mer försiktiga metoder, Lazer et al. (2014) och Yang, Santillana, and Kou (2015) kunde undvika dessa två problem. Framåtriktat förväntar jag mig att nuvarande studier som kombinerar stora datakällor med uppgifter som samlar in uppgifter kommer att göra det möjligt för företag och regeringar att skapa mer aktuella och mer exakta uppskattningar genom att i huvudsak påskynda varje mätning som gjorts upprepade gånger över tiden med viss lagring. Nowcasting-projekt som Google Flu Trends visar också vad som kan hända om stora datakällor kombineras med mer traditionella data som skapades för forskningsändamål. Med tanke på den gamla analogien i kapitel 1 har nucasting möjligheten att kombinera Duchamp-stil readymades med Michelangelo-stil custommades för att ge beslutsfattare mer aktuella och mer exakta mätningar av nutiden och förutsägelser av den närmaste framtiden.