2.4.2 předpovídání a nowcasting

Předpovídání budoucnosti je těžké, ale předpovídá přítomnost je jednodušší.

Druhá hlavní strategie, kterou vědci mohou použít s prognostickými daty, jsou prognózy . Představení odhadů o budoucnosti je znatelně obtížné a zřejmě proto prognóza v současné době nepatří k velké části sociálního výzkumu (i když je to malá a důležitá část demografie, ekonomie, epidemiologie a politické vědy). Zde bych se však chtěl zaměřit na speciální předpověď nazvanou nowcasting - termín odvozený od kombinace "nyní" a "prognózování". Spíše než předpovídat budoucnost, pokusy nyní využívat myšlenky z prognózy pro měření současného stavu světa; snaží se "předpovědět přítomnost" (Choi and Varian 2012) . Nowcasting má potenciál být obzvláště užitečný pro vlády a společnosti, které vyžadují včasné a přesné opatření na světě.

Jedním z nastavení, kdy je potřeba včasné a přesné měření velmi jasné, je epidemiologie. Zvažte případ chřipky ("chřipka"). Každý rok epidemie sezónní chřipky způsobuje miliony onemocnění a stovek tisíc úmrtí na celém světě. Dále, každý rok, existuje možnost, že by se mohla objevit nová forma chřipky, která by zabila miliony lidí. Výskyt chřipky z roku 1918 se odhaduje například na 50 až 100 milionů lidí (Morens and Fauci 2007) . Vzhledem k potřebě sledovat a potenciálně reagovat na výskyt chřipky, vlády celého světa vytvořily systémy sledování chřipky. Například Centra pro kontrolu a prevenci nemocí (CDC) USA pravidelně a systematicky shromažďují informace od pečlivě vybraných lékařů v celé zemi. I když tento systém vytváří vysoce kvalitní data, vykazuje zpoždění vykazování. To znamená, že kvůli času, který potřebuje, aby údaje, které přicházejí od lékařů, byly vyčištěny, zpracovány a publikovány, systém CDC vydává odhady o tom, kolik chřipky bylo před dvěma týdny. Ale při řešení vznikající epidemie, úředníci veřejného zdraví nechtějí vědět, kolik chřipky tam bylo před dvěma týdny; chtějí vědět, kolik chřipky je právě teď.

Současně s tím, že CDC shromažďuje data pro sledování chřipky, Google shromažďuje také údaje o prevalenci chřipky, i když v zcela odlišné podobě. Lidé z celého světa neustále posílají dotazy společnosti Google a některé z těchto dotazů - například "nápravě chřipky" a "příznaky chřipky" - mohou znamenat, že osoba, která dotaz zpracovává, má chřipku. Použití těchto vyhledávacích dotazů k odhalení prevalence chřipky je však obtížné: ne každý, kdo má chřipku, provádí vyhledávání související s chřipkou, a ne každé vyhledávání související s chřipkou je od někoho, kdo má chřipku.

Jeremy Ginsberg a tým kolegů (2009) , někteří na Googlu a někteří na CDC, měli důležitý a chytrý nápad kombinovat tyto dva zdroje dat. Prostřednictvím určité statistické alchymie výzkumníci kombinovali rychlé a nepřesné vyhledávací údaje s pomalými a přesnými daty CDC, aby vytvořili rychlé a přesné měření prevalence chřipky. Dalším způsobem, jak přemýšlet o tom, je, že použili vyhledávací data pro urychlení dat CDC.

Konkrétněji, za použití údajů z let 2003 až 2007, Ginsberg a kolegové odhadli vztah mezi prevalencí chřipky v CDC a objemem vyhledávání na 50 milionů výrazných výrazů. Z tohoto procesu, který byl zcela datově řízený a nevyžadoval specializované lékařské znalosti, výzkumníci našli soubor 45 různých dotazů, které se zdají být nejvíce předpovědní údajům o prevalenci chřipky CDC. Potom pomocí vztahů, které se dozvěděli z údajů za období 2003-2007, Ginsberg a jeho kolegové testovali svůj model v období chřipky 2007-2008. Zjistili, že jejich postupy mohou skutečně dělat užitečné a přesné zprávy (obrázek 2.6). Tyto výsledky byly zveřejněny v přírodě a obdržely adorování tisku. Tento projekt, nazývaný Chřipkové trendy Google, se stal často opakovaným podobenstvím o síle velkých dat, které změnily svět.

Obr. 2.6: Jeremy Ginsberg a kolegové (2009) spojili vyhledávací data Google s daty CDC a vytvořili tak Google Chřipkové trendy, které by nyní mohly způsobit chřipkové onemocnění (ILI). Výsledky v tomto čísle jsou pro středoatlantický region Spojených států v období chřipky 2007-2008. Ačkoli to bylo zpočátku velmi slibné, výkon Chřipkové trendy Google se časem rozpadl (Cook et al., 2011, Olson et al., 2013, Lazer et al., 2014). Adaptováno od Ginsberg a kol. (2009), obrázek 3.

Obr. 2.6: Jeremy Ginsberg a kolegové (2009) spojili vyhledávací data Google s daty CDC a vytvořili tak Google Chřipkové trendy, které by nyní mohly způsobit chřipkové onemocnění (ILI). Výsledky v tomto čísle jsou pro středoatlantický region Spojených států v období chřipky 2007-2008. Ačkoli to bylo zpočátku velmi slibné, výkon Chřipkové trendy Google se časem rozpadl (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Adaptováno od Ginsberg et al. (2009) , obrázek 3.

Tento zdaleka úspěšný příběh se však nakonec proměnil v rozpaky. Časem vědci objevili dvě významná omezení, která činí Chřipkové trendy Google méně působivou, než se původně objevila. Za prvé, výkon Chřipkové trendy Google nebyl ve skutečnosti mnohem lepší než výkon jednoduchého modelu, který odhaduje množství chřipky na základě lineární extrapolace z posledních dvou měření prevalence chřipky (Goel et al. 2010) . A v některých časových obdobích bylo chřipkové trendy Google skutečně horší než tento jednoduchý přístup (Lazer et al. 2014) . Jinými slovy, Chřipkové trendy Google se všemi daty, strojovým učením a výkonným výpočetním systémem dramaticky nepřekročily jednoduchý a jednodušší heuristiku. To naznačuje, že při vyhodnocování jakékoliv předpovědi nebo nyní je důležité srovnávat se základní hodnotou.

Druhým důležitým upozorněním ohledně chřipkových trendů Google je skutečnost, že jeho schopnost předpovědět údaje o chřipce z CDC byla náchylná k krátkodobému selhání a dlouhodobému úpadku kvůli driftu a algoritmickému zmatení . Například během epidemie prasečí chřipky v roce 2009 Google Chřipkové trendy dramaticky nadhodnotily množství chřipky, pravděpodobně proto, že lidé mají tendenci měnit své vyhledávací chování v reakci na rozšířený strach z globální pandemie (Cook et al. 2011; Olson et al. 2013) . Kromě těchto krátkodobých problémů výkon postupně klesá v průběhu času. Diagnostika příčin tohoto dlouhodobého úpadku je obtížná, protože vyhledávací algoritmy Google jsou vlastní, ale zdá se, že v roce 2011 Google začal navrhovat související vyhledávací dotazy, když lidé vyhledávají příznaky chřipky jako "horečka" a "kašel" (také se zdá, že tato funkce již není aktivní). Přidání této funkce je zcela rozumné, pokud používáte vyhledávač, ale tato algoritmická změna měla za následek generování dalších vyhledávacích dotazů týkajících se zdraví, které způsobily, že Chřipkové trendy Google nadhodnocují prevalenci chřipky (Lazer et al. 2014) .

Tyto dvě námitky komplikují budoucí úsilí, ale nedělají to. Ve skutečnosti s použitím opatrnějších metod Lazer et al. (2014) a Yang, Santillana, and Kou (2015) se dokázali vyhnout těmto dvěma problémům. V budoucnu očekávám, že současné studie, které kombinují velké zdroje dat s údaji shromážděnými od výzkumných pracovníků, umožní společnostem a vládám vytvářet včasnější a přesnější odhady tím, že v podstatě urychlují jakékoliv měření, které se opakovaně provádějí s určitým časovým zpožděním. Projekty Nowcastingu, jako je například Chřipkové trendy Google, také ukazují, co se může stát, pokud jsou velké zdroje dat spojeny s tradičními daty, které byly vytvořeny pro účely výzkumu. Když přemýšlíme zpět k analogii umění v kapitole 1, nyní má nyní možnost kombinovat readymades ve stylu Duchampu s custommades stylem Michelangelo s cílem poskytnout rozhodujícím osobám včasnější a přesnější měření přítomnosti a předpovědi blízké budoucnosti.