2.4.2 Prognozowanie i krótkoterminowego prognozowania

Przewidywanie przyszłości jest trudne, ale przewidywania obecny jest łatwiejsze.

Drugą główną strategią, którą badacze mogą wykorzystać do prognozowania, są dane obserwacyjne. Podejmowanie domysłów na temat przyszłości jest niezwykle trudne i być może dlatego prognozy nie stanowią obecnie dużej części badań społecznych (choć jest to mała i ważna część demografii, ekonomii, epidemiologii i nauk politycznych). Tutaj jednak chciałbym skupić się na specjalnym rodzaju prognozowania zwanym terazcastcastingiem - termin wywodzący się z połączenia "teraz" i "prognozowania". Zamiast przewidywać przyszłość, teraz prognozuje próby wykorzystania pomysłów z prognozowania do pomiaru obecnego stanu na świecie; próbuje "przewidzieć teraźniejszość" (Choi and Varian 2012) . Nowcasting może być szczególnie przydatny dla rządów i firm, które wymagają terminowych i dokładnych pomiarów na świecie.

Jednym z warunków, w których potrzeba szybkiego i dokładnego pomiaru jest bardzo jasna, jest epidemiologia. Rozważ przypadek grypy ("grypa"). Każdego roku epidemie grypy sezonowej powodują miliony chorób i setki tysięcy zgonów na całym świecie. Co więcej, każdego roku może pojawić się nowa forma grypy, która zabiłaby miliony. Szacuje się, że na przykład wybuch epidemii grypy z 1918 roku zabił od 50 do 100 milionów ludzi (Morens and Fauci 2007) . Ze względu na potrzebę śledzenia i potencjalnej reakcji na epidemie grypy, rządy na całym świecie stworzyły systemy nadzoru grypy. Na przykład amerykańskie Centra Kontroli i Zapobiegania Chorób (CDC) regularnie i systematycznie zbierają informacje od starannie wybranych lekarzy z całego kraju. Chociaż ten system generuje wysokiej jakości dane, ma opóźnienie raportowania. Oznacza to, że ze względu na czas potrzebny do oczyszczenia, przetworzenia i opublikowania danych od lekarzy, system CDC publikuje szacunki ilości wirusa grypy sprzed 2 tygodni. Jednak przy reagowaniu na pojawiającą się epidemię urzędnicy zdrowia publicznego nie chcą wiedzieć, ile grypy miało miejsce dwa tygodnie temu; chcą wiedzieć, ile jest obecnie grypy.

W tym samym czasie, gdy CDC zbiera dane do śledzenia grypy, Google zbiera również dane na temat rozpowszechnienia grypy, chociaż w zupełnie innej formie. Ludzie z całego świata stale wysyłają zapytania do Google, a niektóre z tych zapytań - na przykład "środki zaradcze przeciwko grypie" i "objawy grypy" - mogą wskazywać, że osoba wysyłająca zapytanie ma grypę. Jednak wykorzystanie tych zapytań do oszacowania częstości występowania grypy jest trudne: nie każdy, kto ma grypę, przeprowadza poszukiwanie grypowe, a nie każde poszukiwanie grypowe pochodzi od osoby, która ma grypę.

Jeremy Ginsberg i zespół współpracowników (2009) , niektórzy z Google, a niektórzy z CDC, mieli ważny i sprytny pomysł na połączenie tych dwóch źródeł danych. Z grubsza, dzięki swoistej statystycznej alchemii naukowcy połączyli szybkie i niedokładne dane z wyszukiwania z powolnymi i dokładnymi danymi CDC, aby uzyskać szybkie i dokładne pomiary częstości występowania grypy. Innym sposobem na przemyślenie tego jest to, że wykorzystali dane wyszukiwania do przyspieszenia danych CDC.

Dokładniej mówiąc, wykorzystując dane z lat 2003-2007, Ginsberg i współpracownicy oszacowali związek pomiędzy występowaniem grypy w danych CDC a liczbą wyszukiwań dla 50 milionów różnych terminów. Z tego procesu, który był całkowicie oparty na danych i nie wymagał specjalistycznej wiedzy medycznej, naukowcy odkryli zestaw 45 różnych zapytań, które wydawały się najbardziej predykcyjne dla danych o występowaniu grypy CDC. Następnie, wykorzystując relacje, których nauczyli się z danych z lat 2003-2007, Ginsberg i współpracownicy przetestowali swój model w sezonie epidemicznym 2007-2008. Okazało się, że ich procedury rzeczywiście mogą przydać się w czasie rzeczywistym (zob. Rys. 2.6). Wyniki te zostały opublikowane w Nature i otrzymały uwielbianą relację z prasy. Ten projekt, który nazywał się Google Flu Trends, stał się często powtarzaną przypowieścią o sile dużych danych do zmiany świata.

Ilustracja 2.6: Jeremy Ginsberg i współpracownicy (2009) połączyli dane z wyszukiwarki Google z danymi CDC, aby utworzyć Google Flu Trends, który może teraz przewidywać częstotliwość chorób grypopodobnych (ILI). Wyniki w tej liczbie dotyczą regionu środkowoatlantyckiego Stanów Zjednoczonych w sezonie grypowym 2007-2008. Chociaż początkowo był bardzo obiecujący, wydajność Google Flu Trends z czasem ulegała rozkładowi (Cook i wsp. 2011, Olson i wsp. 2013, Lazer i wsp. 2014). Adaptacja z Ginsberg i in. (2009), rysunek 3.

Ilustracja 2.6: Jeremy Ginsberg i współpracownicy (2009) połączyli dane z wyszukiwarki Google z danymi CDC, aby utworzyć Google Flu Trends, który może teraz przewidywać częstotliwość chorób grypopodobnych (ILI). Wyniki w tej liczbie dotyczą regionu środkowoatlantyckiego Stanów Zjednoczonych w sezonie grypowym 2007-2008. Chociaż początkowo był bardzo obiecujący, wydajność Google Flu Trends z czasem ulegała rozkładowi (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Adaptacja z Ginsberg et al. (2009) , rysunek 3.

Jednak ta pozorna historia sukcesu ostatecznie przerodziła się w zażenowanie. Z biegiem czasu naukowcy odkryli dwa ważne ograniczenia, które sprawiają, że Google Flu Trends jest mniej imponujący niż początkowo się pojawił. Po pierwsze, wydajność Google Flu Trends nie była w rzeczywistości lepsza niż w przypadku prostego modelu, który szacuje ilość grypy na podstawie liniowej ekstrapolacji z dwóch ostatnich pomiarów rozpowszechnienia grypy (Goel et al. 2010) . Przez pewien okres czasu Google Flu Trends był gorszy od tego prostego podejścia (Lazer et al. 2014) . Innymi słowy, Google Flu Trends ze wszystkimi swoimi danymi, uczeniem maszynowym i wydajnymi komputerami nie drastycznie przewyższył prostą i łatwiejszą do zrozumienia heurystykę. Sugeruje to, że przy ocenie każdej prognozy lub nowcastingu ważne jest porównanie z wartością bazową.

Drugim ważnym zastrzeżeniem dotyczącym Google Flu Trends jest to, że jego zdolność do przewidywania danych grypy CDC była podatna na krótkoterminową awarię i długotrwałe rozpad ze względu na dryf i algorytmiczne zakłócenia . Na przykład podczas epidemii świńskiej grypy Google Flu Trends drastycznie przeceniło ilość grypy, prawdopodobnie dlatego, że ludzie mają tendencję do zmiany swoich zachowań poszukiwawczych w odpowiedzi na powszechny strach przed globalną pandemią (Cook et al. 2011; Olson et al. 2013) . Oprócz tych krótkoterminowych problemów, wydajność stopniowo z czasem ulegała rozkładowi. Diagnozowanie przyczyn tego długotrwałego rozpadu jest trudne, ponieważ algorytmy wyszukiwania Google są zastrzeżone, ale wydaje się, że w 2011 r. Google zaczął sugerować pokrewne terminy wyszukiwania, gdy ludzie szukają objawów grypy, takich jak "gorączka" i "kaszel" (wydaje się również, że ta funkcja nie jest już aktywna). Dodanie tej funkcji jest całkowicie rozsądną czynnością, jeśli korzystasz z wyszukiwarki, ale ta zmiana algorytmiczna spowodowała wygenerowanie większej liczby wyszukiwań związanych ze zdrowiem, które spowodowały, że Google Flu Trends przecenił częstość występowania grypy (Lazer et al. 2014) .

Te dwa zastrzeżenia komplikują przyszłe wysiłki nowcastingowe, ale nie powodują ich zguby. W rzeczywistości, stosując bardziej ostrożne metody, Lazer et al. (2014) i Yang, Santillana, and Kou (2015) byli w stanie uniknąć tych dwóch problemów. Idąc dalej, spodziewam się, że studia nowcastingowe łączące duże źródła danych z danymi zebranymi przez badaczy pozwolą firmom i rządom na tworzenie bardziej aktualnych i dokładniejszych danych szacunkowych, zasadniczo przyspieszając wszelkie pomiary dokonywane wielokrotnie z pewnym opóźnieniem. Projekty prognozujące, takie jak Google Flu Trends, pokazują również, co może się stać, jeśli duże źródła danych zostaną połączone z bardziej tradycyjnymi danymi, które zostały utworzone do celów badawczych. Wracając do analogii sztuki z rozdziału 1, nowcasting ma potencjał, by połączyć gotowe style Duchampa z kustoszami w stylu Michała Anioła, aby zapewnić decydentom bardziej aktualne i dokładniejsze pomiary teraźniejszości i przewidywań na najbliższą przyszłość.