2.4.2 predpovedanie a nowcasting

Predpovedanie budúcnosti je ťažké, ale predpovedá prítomnosť je jednoduchšie.

Druhá hlavná stratégia, ktorú vedci dokážu použiť s prognostickými údajmi z pozorovania. Odhadovanie budúcnosti je zrejme zložité a možno z tohto dôvodu prognóza nie je v súčasnosti veľkou súčasťou sociálneho výskumu (aj keď je to malá a dôležitá časť demografie, ekonomiky, epidemiológie a politológie). Tu sa však chcem zamerať na špeciálny druh prognóz nazvaný nowcasting - termín odvodený z kombinácie "teraz" a "prognózovania". Skôr ako predpovedať budúcnosť, pokusy teraz používať nápady z prognózovania na meranie súčasného stavu svetove, zo sveta; pokúša sa "predpovedať prítomnosť" (Choi and Varian 2012) . Nowcasting má potenciál byť obzvlášť užitočný pre vlády a spoločnosti, ktoré vyžadujú včasné a presné opatrenia sveta.

Jedným z nastavení, v ktorom je potreba včasného a presného merania veľmi jasná, je epidemiológia. Zvážte prípad chrípky ("chrípka"). Každý rok epidémie sezónnej chrípky spôsobujú milióny chorôb a stovky tisíc úmrtí na celom svete. Navyše, každý rok existuje možnosť, že by sa mohla objaviť nová forma chrípky, ktorá by zabila milióny ľudí. Výskyt chrípkovej chrípky z roku 1918 sa odhaduje napríklad na 50 až 100 miliónov ľudí (Morens and Fauci 2007) . Vzhľadom na potrebu sledovať a potenciálne reagovať na vypuknutie chrípky, vlády na celom svete vytvorili systémy na sledovanie chrípky. Napríklad Centrum pre kontrolu a prevenciu chorôb (CDC) USA pravidelne a systematicky zhromažďuje informácie od starostlivo vybraných lekárov po celej krajine. Hoci tento systém vytvára vysoko kvalitné údaje, vykazuje oneskorenie pri podávaní správ. To znamená, že kvôli času, ktorý je potrebný na vyčistenie, spracovanie a publikovanie údajov od lekárov, CDC systém uvádza odhad výskytu chrípky pred dvoma týždňami. Ale pri zvládaní vznikajúcej epidémie, úradníci verejného zdravia nechcú vedieť, koľko chrípky tam bolo pred dvoma týždňami; chcú vedieť, koľko chrípky je práve teraz.

Zároveň, že CDC zhromažďuje údaje na sledovanie chrípky, spoločnosť Google zhromažďuje aj údaje o prevalencii chrípky, hoci v úplne odlišnej forme. Ľudia z celého sveta neustále posielajú otázky spoločnosti Google a niektoré z týchto dopytov - ako napríklad "nápravné opatrenia proti chrípke" a "príznaky chrípky" - môžu naznačovať, že osoba, ktorá podala dotaz, má chrípku. Použitie týchto vyhľadávacích dopytov na odhad prevalencie chrípky je však zložité: nie každý, kto má chrípku, robí vyhľadávanie súvisiace s chrípkou, a nie každé vyhľadávanie súvisiace s chrípkou pochádza od osoby, ktorá má chrípku.

Jeremy Ginsberg a tím kolegov (2009) , niektorí v spoločnosti Google a niektorí v spoločnosti CDC, mali dôležitý a chytrý nápad kombinovať tieto dva zdroje údajov. Zhruba prostredníctvom nejakej štatistickej alchýmie výskumníci kombinovali rýchle a nepresné vyhľadávacie údaje s pomalými a presnými údajmi CDC s cieľom vytvoriť rýchle a presné merania prevalencie chrípky. Ďalším spôsobom, ako o tom premýšľať, je, že použili vyhľadávacie údaje na zrýchlenie údajov CDC.

Konkrétnejšie, s použitím údajov z rokov 2003 až 2007, Ginsberg a kolegovia odhadli vzťah medzi prevalenciou chrípky v údajoch CDC a objemom vyhľadávania pre 50 miliónov odlišných výrazov. Z tohto procesu, ktorý bol úplne založený na údajoch a nevyžadoval špecializované lekárske znalosti, výskumníci zistili súbor 45 rôznych otázok, ktoré sa zdajú byť najpregnujúcejšie z údajov o prevalencii chrípky v CDC. Potom pomocou vzťahov, ktoré sa naučili z údajov za roky 2003 - 2007, Ginsberg a kolegovia testovali svoj model počas chrípkovej sezóny 2007-2008. Zistili, že ich postupy môžu naozaj robiť užitočné a presné signály (obrázok 2.6). Tieto výsledky boli uverejnené v prírode a obdržali adorovanie tlačovej správy. Tento projekt, ktorý sa nazýva Google Chrípkové trendy, sa stal často opakovaným podobenstvom o sile veľkých dát na zmenu sveta.

Obr. 2.6: Jeremy Ginsberg a kolegovia (2009) kombinovali údaje vyhľadávania Google s údajmi CDC a vytvorili tak Google Chrípkové trendy, ktoré by mohli teraz vyskytnúť mieru ochorenia podobného chrípke (ILI). Výsledky v tomto čísle sú pre stredoatlantický región Spojených štátov v chrípkovej sezóne 2007-2008. Hoci to bolo na začiatku veľmi sľubné, výkonnosť chrípkových trendov Google sa časom rozpadla (Cook et al., 2011, Olson a kol., 2013, Lazer et al., 2014). Adaptované od Ginsberg a kol. (2009), obrázok 3.

Obrázok 2.6: Jeremy Ginsberg a kolegovia (2009) spojili vyhľadávacie údaje Google s údajmi CDC, aby vytvorili Google Chrípkové trendy, ktoré by mohli teraz odhaliť mieru ochorenia podobného chrípke (ILI). Výsledky v tomto čísle sú pre stredoatlantický región Spojených štátov v chrípkovej sezóne 2007-2008. Hoci to bolo na začiatku veľmi sľubné, výkonnosť chrípkových trendov Google sa časom rozpadla (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Adaptované od Ginsberg et al. (2009) , obrázok 3.

Tento zdanlivý príbeh o úspechu sa však nakoniec zmenil na rozpaky. V priebehu času výskumníci zistili dve dôležité obmedzenia, ktoré spôsobujú, že chrípkové trendy Google sú menej pôsobivé, ako sa pôvodne objavili. Po prvé, výkonnosť Chrípkových trendov Google v skutočnosti nie je oveľa lepšia ako výkon jednoduchého modelu, ktorý odhaduje množstvo chrípky na základe lineárnej extrapolácie z dvoch najnovších meraní prevalencie chrípky (Goel et al. 2010) . A počas niekoľkých časových období bola chrípková tendencia Google skutočne horšia ako tento jednoduchý prístup (Lazer et al. 2014) . Inými slovami, Chrípkové trendy spoločnosti Google so všetkými jej údajmi, strojovým vzdelávaním a výkonným výpočtovým systémom dramaticky neprekonali jednoduchý a ľahko pochopiteľný heuristický nástroj. To naznačuje, že pri hodnotení akejkoľvek prognózy alebo momentálneho zobrazovania je dôležité porovnať sa so základnou líniou.

Druhým dôležitým upozornením na Chrípkové trendy Google je to, že jeho schopnosť predpovedať údaje o chrípke z CDC bola náchylná na krátkodobé zlyhanie a dlhodobý úpadok kvôli driftu a algoritmickému zmätku . Napríklad počas epidémie prasacej chrípky v roku 2009 Google Chrípkové trendy dramaticky nadhodnotili množstvo chrípky, pravdepodobne preto, že ľudia majú tendenciu meniť svoje správanie pri vyhľadávaní ako odpoveď na rozšírený strach z globálnej pandémie (Cook et al. 2011; Olson et al. 2013) , Okrem týchto krátkodobých problémov sa výkon postupne znižoval v priebehu času. Diagnostika príčin tohto dlhodobého úpadku je zložitá, pretože vyhľadávacie algoritmy Google sú proprietárne, ale zdá sa, že v roku 2011 spoločnosť Google začala navrhovať súvisiace hľadané výrazy, keď ľudia vyhľadávajú príznaky chrípky ako "horúčka" a "kašeľ" (zdá sa tiež, že táto funkcia už nie je aktívna). Pridanie tejto funkcie je úplne rozumné, ak máte spustený vyhľadávací nástroj, ale táto algoritmická zmena mala za následok generovanie ďalších vyhľadávaní súvisiacich so zdravím, ktoré spôsobili, že Google Chrípkové trendy preceňujú prevalenciu chrípky (Lazer et al. 2014) .

Tieto dve námietky komplikujú budúce úsilie, ale nerobia ich. V skutočnosti, s použitím opatrnejších metód, Lazer et al. (2014) a Yang, Santillana, and Kou (2015) sa dokázali vyhnúť týmto dvom problémom. Pokračujem v očakávaní, že súčasné štúdie, ktoré kombinujú veľké zdroje údajov s údajmi zhromaždenými výskumnými pracovníkmi, umožnia spoločnostiam a vládam vytvoriť včasnejšie a presnejšie odhady tým, že urýchlia akékoľvek merania, ktoré sa časom opakovane robia s určitým oneskorením. Projekty typu Nowcasting, ako je napríklad Chrípkové trendy Google, tiež ukazujú, čo sa môže stať, ak sa veľké zdroje údajov kombinujú s tradičnými údajmi vytvorenými na účely výskumu. Pripomínajúc analógiu umenia v kapitole 1, teraz má teraz možnosť kombinovať readymade v štýle Duchamp so zákazníkmi v štýle Michelangelo s cieľom poskytnúť rozhodovateľom včasnejšie a presnejšie merania súčasnosti a predpovede blízkej budúcnosti.