2.4.2 Predviđanje i nowcasting

Predviđanje budućnosti je teško, ali predviđanje sadašnjost je lakše.

Drugi glavni istraživači strategije mogu koristiti s promatranim podacima predviđanja . Pogađanje budućnosti je poznato teško, a možda i zbog toga predviđanje trenutno nije veliki dio društvenih istraživanja (iako je mali i važan dio demografije, ekonomije, epidemiologije i političke znanosti). Ovdje bih, međutim, želio usredotočiti se na posebnu vrstu predviđanja koja se zove nowcasting - pojam koji proizlazi iz kombinacije "sada" i "predviđanja". Umjesto predviđanja budućnosti, nowcasting pokušava koristiti ideje iz predviđanja za mjerenje trenutnog stanja svijeta; pokušava "predvidjeti sadašnjost" (Choi and Varian 2012) . Nowcasting ima potencijal da bude osobito korisno vladi i tvrtkama koje zahtijevaju pravovremene i točne mjere svijeta.

Jedno mjesto gdje je potreba za pravodobnim i točnim mjerenjem vrlo jasna je epidemiologija. Razmotrimo slučaj gripe ("gripa"). Svake godine sezonska epidemija gripe uzrokuje milijune bolesti i stotine tisuća smrti širom svijeta. Nadalje, svake godine postoji mogućnost da se pojavi novi oblik gripe koji bi ubio milijune. Primjerice, procjena utjecaja gripe iz 1918. godine ubila je između 50 i 100 milijuna ljudi (Morens and Fauci 2007) . Zbog potrebe da prate i potencijalno reagiraju na epidemije influence, vlade diljem svijeta stvorile su sustave nadzora influence. Na primjer, američki centri za kontrolu i prevenciju bolesti (CDC) redovito i sustavno prikupljaju informacije iz pažljivo odabranih liječnika širom zemlje. Iako ovaj sustav proizvodi visoko kvalitetne podatke, on ima zakašnjelo izvješćivanje. Drugim riječima, zbog vremena potrebno za čišćenje, obradu i objavljivanje podataka koji dolaze od liječnika, CDC sustav objavljuje procjene količine gripe prije dva tjedna. No, kada se bave epidemijom u nastajanju, službenici javnog zdravstva ne žele znati koliko je gripa bilo prije dva tjedna; žele znati koliko je gripa upravo sada.

U isto vrijeme kada CDC prikuplja podatke za praćenje influence, Google prikuplja podatke o prevalenciji influence, iako u sasvim različitom obliku. Ljudi širom svijeta stalno šalju upite Googleu, a neki od tih upita - poput "lijekova protiv gripe" i "simptoma gripe" - ukazuju da osoba koja upućuje upit ima gripe. No, upotreba tih upita za pretraživanje za procjenu prevalencije gripe je lukav: ne svi koji imaju gripe čine pretraživanje povezano s gripe, a ne svako pretraživanje povezano s gripe je od nekoga tko ima gripe.

Jeremy Ginsberg i tim kolega (2009) , neki u Googleu, a neki na CDC-u, imali su važnu i pametnu ideju za kombiniranje tih dvaju izvora podataka. Dugotrajno, kroz neku vrstu statističke alkemije, istraživači su kombinirali brz i neprecizne podatke o pretraživanju s polaganim i točnim CDC podacima kako bi se postigla brza i precizna mjerenja prevalencije influence. Drugi način razmišljanja o tome jest da su podatke pretraživanja pretražili kako bi ubrzali podatke o CDC-u.

Točnije, koristeći podatke od 2003. do 2007., Ginsberg i suradnici procijenili su odnos između prevalencije influence u CDC podacima i opsega pretraživanja za 50 milijuna različitih pojmova. Iz tog procesa, koji je bio potpuno vođen podatkom i nije zahtijevao specijalizirano medicinsko znanje, istraživači su pronašli niz od 45 različitih upita koji su izgledali kao najpredvidljiviji za podatke o prevalenciji CDC gripa. Zatim, koristeći se odnosima koji su naučili iz podataka 2003-2007, Ginsberg i kolege su testirali svoj model tijekom sezone influence 2007-2008. Utvrdili su da njihovi postupci mogu doista korisno i precizno prikazivati ​​(sl. 2.6). Ti su rezultati objavljeni u prirodi i primili su adoriziranu medijsku prezentaciju. Ovaj projekt - koji se zvao Google Raširenost gripe - postao je često ponovljena parabola o snazi ​​velikih podataka za promjenu svijeta.

Slika 2.6: Jeremy Ginsberg i njegovi kolege (2009) kombinirali su Google podatke pretraživanja s CDC podacima kako bi stvorili Google Raširenost gripe, što bi moglo predstaviti stopu bolesti sličnih gripi (ILI). Rezultati u ovoj slici odnose se na sredinu atlantske regije Sjedinjenih Država u sezoni influence 2007-2008. Premda je u početku bilo vrlo obećavajuće, performanse Google Raširenosti gripe tijekom vremena su propadale (Cook et al., 2011; Olson i sur., 2013; Lazer i sur., 2014). Prilagođeno iz Ginsberg et al. (2009), slika 3.

Slika 2.6: Jeremy Ginsberg i njegovi kolege (2009) kombinirali su Google podatke pretraživanja s CDC podacima kako bi stvorili Google Raširenost gripe, što bi moglo predstaviti stopu bolesti sličnih gripi (ILI). Rezultati u ovoj slici odnose se na sredinu atlantske regije Sjedinjenih Država u sezoni influence 2007-2008. Premda je u početku bilo vrlo obećavajuće, performanse Google Raširenosti gripe tijekom vremena su propadale (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Prilagođeno iz Ginsberg et al. (2009) , slika 3.

Međutim, ova očita priča o uspjehu konačno se pretvorila u neugodnost. S vremenom su istraživači otkrili dva važna ograničenja koja Google Raširenost gripe čini manje impresivnom nego što se u početku pojavila. Prvo, izvedba Google Raširenosti gripe zapravo nije mnogo bolja od one jednostavnog modela koji procjenjuje količinu gripe na temelju linearne ekstrapolacije iz dva najnovija mjerenja prevalencije gripe (Goel et al. 2010) . A, tijekom nekih vremenskih razdoblja, Google Raširenost gripe zapravo je lošija od ovog jednostavnog pristupa (Lazer et al. 2014) . Drugim riječima, Google Raširenost gripe sa svim svojim podacima, učenje stroja i moćno računanje nije dramatično nadmašio jednostavnu i lakše razumljivu heuristiku. To sugerira da je prilikom ocjenjivanja bilo kakve prognoze ili promatranja, važno je usporediti s osnovnom linijom.

Drugi važan prijedlog o Google Raširenostima gripe je da je njegova sposobnost predviđanja podataka o CDC gripi bila sklona kratkoročnom neuspjehu i dugoročnom raspadu zbog pomaka i algoritamske konfuzije . Na primjer, tijekom izbijanja svinjske gripe iz 2009. godine Google Raširenost gripe dramatično je precijenila količinu gripe, vjerojatno zbog toga što ljudi često mijenjaju ponašanje pretraživanja kao odgovor na šire strah od globalne pandemije (Cook et al. 2011; Olson et al. 2013) , Pored ovih kratkoročnih problema, performanse su postupno raspadale tijekom vremena. Dijagnosticiranje razloga za to dugoročno raspadanje je teško jer su Googleovi algoritmi pretraživanja vlasnički, ali čini se da je u 2011. Google počeo predlagati srodne pojmove za pretraživanje kada ljudi traže simptome gripe kao što su "groznica" i "kašalj" (također se čini da ova značajka više nije aktivna). Dodavanje ove značajke potpuno je razumno učiniti ako pokrenete tražilicu, ali ova algoritamska promjena imala je učinak generiranja više pretraživanja povezanih s zdravljem, što je uzrokovalo prevaljivanje prevalencije gripe (Lazer et al. 2014) .

Ta dva upozorenja kompliciraju buduće napore za promatranje, ali ih ne zabranjuju. Zapravo, koristeći opreznije metode, Lazer et al. (2014) a Yang, Santillana, and Kou (2015) uspjeli su izbjeći ova dva problema. Naprijed, očekujem da će studije koje kombiniraju velike izvore podataka s prikupljenim podacima istraživača omogućiti tvrtkama i vladama stvaranje pravovremenijih i preciznijih procjena u osnovi ubrzavajući mjerenja koja se tijekom vremena uzastopno odvijaju s nekim odmakom. Sadašnji projekti poput Google Raširenosti gripe također pokazuju što se može dogoditi ako se veliki izvori podataka kombiniraju s tradicionalnijim podacima koji su stvoreni za potrebe istraživanja. Razmišljajući o umjetničkoj analogiji poglavlja 1, sadnja ima mogućnost kombiniranja Duchampovih stilova s ​​Michelangelovom stilu custommades kako bi se donosiocima odluka učinilo pravodobnim i točnijim mjerenjima sadašnjosti i predviđanjima bliskoj budućnosti.