2.4.2 Napovedovanje in kratkoročnega napovedovanja

Napovedovanje prihodnosti je težko, vendar napovedujejo darilo je lažje.

Drugi glavni raziskovalci strategije se lahko uporabljajo z napovedovanjem opazovalnih podatkov. Ugibanje o prihodnosti je težavno, morda zato napovedovanje trenutno ni velik del družbenih raziskav (čeprav je to majhen in pomemben del demografije, ekonomije, epidemiologije in političnih znanosti). Vendar pa se želim osredotočiti na posebno vrsto napovedovanja, imenovane " nowcasting" -a izraz, ki izhaja iz združevanja "zdaj" in "napovedovanja". Namesto napovedovanja prihodnjih poskusov uporabe napovedi za merjenje trenutnega stanja sveta; poskuša "napovedati sedanjost" (Choi and Varian 2012) . Potovalna oprema ima potencial, da je še posebej koristna vladam in podjetjem, ki zahtevajo pravočasne in natančne ukrepe na svetu.

Ena nastavitev, kjer je potreba po pravočasnem in natančnem merjenju zelo jasna, je epidemiologija. Upoštevajte primer gripe ("gripa"). Vsako leto epidemije sezonske gripe povzročajo milijone bolezni in več sto tisoč smrtnih primerov po vsem svetu. Poleg tega se vsako leto lahko pojavi nova oblika gripe, ki bi ubila milijone ljudi. Ocenjuje se, da je na primer izbruh gripe 1918 ubitih med 50 in 100 milijoni ljudi (Morens and Fauci 2007) . Zaradi potrebe po sledenju in morebitnim odzivom na izbruhe gripe so vlade po vsem svetu ustvarile sisteme za nadzor gripe. Ameriški centri za nadzor in preprečevanje bolezni (CDC) na primer redno in sistematično zbirajo podatke skrbno izbranih zdravnikov po vsej državi. Čeprav ta sistem proizvaja visoko kakovostne podatke, ima poročevalsko zaostajanje. To pomeni, da zaradi časa, potrebnega za čiščenje, obdelavo in objavo podatkov, ki jih dobijo zdravniki, sistem CDC sprosti ocene o tem, koliko gripe je bilo pred dvema tednoma. Toda pri ravnanju z nastajajočo epidemijo uradniki javnega zdravstva ne želijo vedeti, koliko gripe je bilo pred dvema tednoma; želijo vedeti, koliko gripe je zdaj.

Obenem, da CDC zbira podatke za spremljanje gripe, Google zbira tudi podatke o razširjenosti gripe, čeprav v precej drugačni obliki. Ljudje iz vsega sveta nenehno pošiljajo poizvedbe Googlu, nekatere od teh poizvedb - kot so "ukrepi proti gripi" in "simptomi gripe" - kažejo, da ima oseba, ki je poizvedovala, gripo. Toda uporaba teh iskalnih poizvedb za oceno razširjenosti gripe je težavna: ne vsakdo, ki ima gripo, gre za iskanje gripe, in ne vsaka preiskava, povezana z gripo, od osebe, ki ima gripo.

Jeremy Ginsberg in skupina sodelavcev (2009) , nekateri v Googlu in nekateri v CDC, so imeli pomembno in pametno idejo za združitev teh dveh podatkovnih virov. Približno, z nekakšno statistično alchemijo, so raziskovalci združili hitre in netočne podatke za iskanje s počasnimi in natančnimi podatki CDC, da bi lahko hitro in natančno merili prevalenco influence. Drug način razmišljanja je, da so uporabili podatke za iskanje, da bi pospešili podatke CDC.

Natančneje, z uporabo podatkov od leta 2003 do leta 2007 sta Ginsberg in sodelavci ocenili razmerje med razširjenostjo gripe v podatkih CDC in obsegom iskanja za 50 milijonov različnih izrazov. Iz tega procesa, ki je bil popolnoma usmerjen na podatke in ni zahteval specializiranega medicinskega znanja, so raziskovalci našli sklop 45 različnih poizvedb, ki so se zdele najbolj predvidljive za podatke o razširjenosti gripe CDC. Nato s pomočjo odnosov, ki so se jih naučili iz podatkov za leti 2003-2007, sta Ginsberga in sodelavci testirali svoj model med sezono gripe 2007-2008. Ugotovili so, da bi lahko njihovi postopki dejansko postali koristni in točni zdaj (slika 2.6). Ti rezultati so bili objavljeni v Naravi in so bili obogateni s pokritjem medijev. Ta projekt, imenovan Google Flu Trends, je postal pogosto ponavljajoča se priča o moči velikih podatkov za spremembo sveta.

Slika 2.6: Jeremy Ginsberg in sodelavci (2009) so združili Googlove podatke o iskanju s podatki CDC za ustvarjanje Googlovih trendov gripe, ki bi lahko zdaj pokazali stopnjo gripe podobne bolezni (ILI). Rezultati v tej številki so za sredozemsko regijo Združenih držav v sezoni gripe 2007-2008. Čeprav je bila na začetku zelo obetavna, se je učinkovitost Googlovih trendov gripe razpadla skozi čas (Cook et al., 2011; Olson et al., 2013; Lazer et al., 2014). Prilagojeno od Ginsberg et al. (2009), slika 3.

Slika 2.6: Jeremy Ginsberg in sodelavci (2009) združili Googlove podatke o iskanju s podatki CDC za ustvarjanje Googlovih trendov gripe, ki bi lahko zdaj pokazali stopnjo gripe podobne bolezni (ILI). Rezultati v tej številki so za sredozemsko regijo Združenih držav v sezoni gripe 2007-2008. Čeprav je bila na začetku zelo obetavna, se je učinkovitost Googlovih trendov gripe razpadla skozi čas (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Prilagojeno od Ginsberg et al. (2009) , slika 3.

Vendar se je ta očitna zgodba o uspehu sčasoma spremenila v zadrego. Raziskovalci so sčasoma odkrili dve pomembni omejitvi, zaradi katerih so Google Flu Trends manj impresivni, kot se je prvotno pojavil. Prvič, učinkovitost Googlovih trendov gripe ni bila dejansko precej boljša kot pri preprostem modelu, ki ocenjuje količino gripe, ki temelji na linearni ekstrapolaciji iz dveh najnovejših meritev prevalence gripe (Goel et al. 2010) . In v določenih časovnih obdobjih so bili Google Trendi gripe dejansko slabši od tega preprostega pristopa (Lazer et al. 2014) . Z drugimi besedami, Google Spremljanje gripe z vsemi podatki, strojno učenje in močno računalništvo ni dramatično presegalo enostavne in lažje razumljive hevristike. To kaže, da je pri ocenjevanju morebitnih napovedi ali zdajšnjih primerov pomembno primerjati glede na izhodiščno vrednost.

Druga pomembna opozorila o trendih Google Flu Trends je, da je bila njena sposobnost napovedovanja podatkov o gripih CDC nagnjena k kratkotrajnemu neuspehu in dolgotrajnemu razpadanju zaradi premikanja in algoritmičnega zmede . Na primer, med izbruhom virusa svinjskega gripa iz leta 2009 so Google Spremembe gripe dramatično precenili količino gripe, verjetno zato, ker ljudje ponavadi spreminjajo svoje vedenje iskanja kot odgovor na razširjen strah pred globalno pandemijo (Cook et al. 2011; Olson et al. 2013) . Poleg teh kratkoročnih problemov se je uspešnost sčasoma postopoma razpadla. Diagnosticiranje razlogov za to dolgotrajno propadanje je težavno, ker so Googlovi iskalni algoritmi zaščiteni, vendar se zdi, da je Google leta 2011 začel predlagati povezane iskalne poizvedbe, ko ljudje iščejo simptome gripe, kot sta "zvišana telesna temperatura" in "kašelj" (tudi to se zdi ta funkcija ni več aktivna). Dodajanje te funkcije je popolnoma smiselna stvar, če uporabljate iskalnik, vendar je ta algoritemska sprememba povzročila ustvarjanje več zdravja povezanih iskanj, zaradi katerih so Google Spremembe gripe preveč ovrednotili prevalenco gripe (Lazer et al. 2014) .

Ta dva opozorila otežita prihodnja prizadevanja, vendar jih ne obsodita. Dejansko z uporabo bolj previdnih metod, Lazer et al. (2014) in Yang, Santillana, and Kou (2015) sta se lahko izognili tema dvema težavama. Pričakujem, da bodo zdaj študije, ki združujejo velike vire podatkov z zbranimi podatki raziskovalcev, podjetjem in vladam omogočile, da ustvarijo pravočasnejše in natančnejše ocene s tem, da bistveno pospešijo kakršne koli meritve, ki se večkrat sčasoma izvajajo z nekaj zaostanki. Projekti, kot so Google Flu Trends, kažejo, kaj se lahko zgodi, če so veliki viri podatkov združeni z bolj tradicionalnimi podatki, ki so bili ustvarjeni za namene raziskav. Če razmišljamo o analogiji umetnosti iz poglavja 1, lahko zdaj pripravimo kombinacije pripomb v slogu Duchamp z gostinskimi storitvami v Michelangelo, da bi oblikovalcem odločanja zagotovili pravočasnejše in natančnejše meritve sedanjosti in napovedi bližnje prihodnosti.