2.4.2 predviđanja i nowcasting

Predviđanje budućnosti je teško, ali predviđanje sadašnjost je lakše.

Drugi glavni istraživači strategije mogu da koriste prognozu podataka sa opservacijama. Izlaganje o budućnosti je ozbiljno teško, i možda iz tog razloga, prognoziranje trenutno nije veliki dio društvenih istraživanja (iako je to mali i važan dio demografije, ekonomije, epidemiologije i političkih nauka). Ovde, međutim, želeo bih da se fokusiram na posebnu prognozu pod nazivom " nowcasting" - izraz koji se sastoji od kombinovanja "sada" i "predviđanja". Umesto predviđanja budućih pokušaja da se ideje iz prognoze koriste za merenje trenutnog stanja svijeta; pokušava da "predvidi sadašnjost" (Choi and Varian 2012) . Trenutno emitovanje ima potencijal da bude posebno korisno vladama i kompanijama koje zahtijevaju pravovremene i tačne mere svijeta.

Jedno okruženje gde je potreba za pravovremenim i preciznim merenjem veoma jasna je epidemiologija. Razmotrite slučaj gripe ("grip"). Svake godine sezonska epidemija gripa izaziva milione bolesti i stotine hiljada smrtnih slučajeva širom svijeta. Dalje, svake godine postoji mogućnost da se pojavljuje novi oblik gripa koji bi ubio milione. Na primer, procenjuje se da je izbijanje gripe iz 1918. godine ubilo između 50 i 100 miliona ljudi (Morens and Fauci 2007) . Zbog potrebe da se prate i potencijalno reaguju na epidemije gripa, vlade širom svijeta stvorile su sisteme za nadzor gripa. Na primjer, Centri za kontrolu i prevenciju bolesti SAD (CDC) redovno i sistematski prikupljaju informacije od pažljivo odabranih doktora širom zemlje. Iako ovaj sistem proizvodi visokokvalitetne podatke, on ima izveštajno zaostajanje. To jest, zbog vremena potrebnog za očišćavanje, obradu i objavljivanje podataka od doktora, CDC sistem objavljuje procjene koliko je gripa bilo prije dvije sedmice. Ali, kada se suočava sa pojavom epidemije, službenici za javno zdravlje ne žele da znaju koliko je gripa bilo prije dvije sedmice; žele da znaju koliko je trenutno gripa.

U isto vrijeme kada CDC prikuplja podatke za praćenje gripa, Google takođe prikuplja podatke o prevalenciji gripa, iako u sasvim drugačijem obliku. Ljudi iz celog sveta stalno upućuju upite na Google, a neki od ovih upita - kao što su "lekovi protiv gripa" i "simptomi gripa" - možda ukazuju na to da osoba koja pravi upit ima grip. Ali, koristeći ove upitne pretrage za procjenu prevalence gripa je neugodno: ne svako ko ima gripa, traži srodno gripo, a ne svaka pretraga o gripu od osobe koja ima grip.

Jeremy Ginsberg i tim kolega (2009) , neki na Google-u i neki u CDC-u, imali su važnu i pametnu ideju da kombinuju ova dva izvora podataka. Grubo, kroz neku vrstu statističke alhemije, istraživači su kombinovali brze i netačne podatke za pretraživanje sa sporim i preciznim CDC podacima kako bi se omogućilo brzo i precizno merenje prevalencije gripa. Drugi način razmišljanja o tome je da su koristili podatke za pretraživanje kako bi ubrzali CDC podatke.

Konkretnije, koristeći podatke od 2003. do 2007. godine, Ginsberg i kolege procijenili su odnos između prevalencije gripa u CDC podacima i obima pretraživanja za 50 miliona različitih pojmova. Iz ovog procesa, koji je u potpunosti bio podacen na podatak i nije zahtevao specijalno medicinsko znanje, istraživači su pronašli skup od 45 različitih upita koji su se činili kao prediktivni za podatke o prevalenciji CDC-a. Zatim, koristeći veze koje su naučili iz podataka iz 2003-2007, Ginsberg i kolege testirali su svoj model tokom sezone gripa 2007-2008. Otkrili su da njihova procedura zaista može učiniti korisnim i preciznim sada (slika 2.6). Ovi rezultati su objavljeni u Prirodi i dobili su obradu pokrivenosti štampe. Ovaj projekat - koji se zvao Google Flu Trends-postao je često ponovljena parabola o moći velikih podataka kako bi se promenio svet.

Slika 2.6: Jeremy Ginsberg i kolege (2009) su kombinirali podatke Google pretrage sa CDC podacima kako bi kreirali Google trendove gripa, koji bi sada mogli pokazati brzinu bolesti slične gripi (ILI). Rezultati u ovoj slici su za srednjoatlantski region Sjedinjenih Država u sezoni gripe 2007-2008. Iako je u početku bilo veoma obećavajuće, performanse Google Flu Trends-a su se raspadale tokom vremena (Cook et al., 2011, Olson et al., Lazer et al., 2014). Prilagođeno od Ginsberg-a ​​i dr. (2009), slika 3.

Slika 2.6: Jeremy Ginsberg i kolege (2009) kombinirali podatke Google pretrage sa CDC podacima kako bi kreirali Google trendove gripa, koji bi sada mogli pokazati brzinu bolesti slične gripi (ILI). Rezultati u ovoj slici su za srednjoatlantski region Sjedinjenih Država u sezoni gripe 2007-2008. Iako je u početku bilo veoma obećavajuće, performanse Google Flu Trends-a su se raspadale tokom vremena (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Prilagođeno od Ginsberg et al. (2009) , slika 3.

Međutim, ova očigledna priča o uspehu na kraju se pretvorila u sramotu. Tokom vremena istraživači su otkrili dva važna ograničenja koja čine Google trendove gripa manje impresivnim nego što se prvobitno pojavilo. Prvo, performanse Google Flu Trendsa zapravo nisu bile mnogo bolje od onog jednostavnog modela koji procjenjuje količinu gripa zasnovanu na linearnoj ekstrapolaciji iz dva najnovija mjerenja prevalencije gripa (Goel et al. 2010) . I tokom nekih vremenskih perioda Google trendovi gripa su u stvari bili lošiji od ovog jednostavnog pristupa (Lazer et al. 2014) . Drugim rečima, Google trendovi gripa sa svim svojim podacima, mašinskim učenjem i moćnim računarima nisu dramatično prevazišli jednostavnu i lakšu razumljivu heuristiku. Ovo ukazuje na to da prilikom procene bilo kakve prognoze ili sadašnje emisije važno je upoređivanje sa osnovnom linijom.

Druga bitna opomena o Google Flu Trendsu je da je njegova sposobnost da predvidi podatke o gripu CDC-a sklonost kratkotrajnom neuspjehu i dugotrajnom raspadu zbog drifta i algoritamskog zbunjivanja . Na primer, tokom epidemije svinjskog gripa iz 2009. godine Google trendovi gripa su dramatično precijenili količinu gripa, verovatno zato što ljudi teže da promijene svoje ponašanje u pretraživanju kao odgovor na sveobuhvatni strah od globalne pandemije (Cook et al. 2011; Olson et al. 2013) . Pored ovih kratkoročnih problema, performanse su postepeno propadale tokom vremena. Dijagnostikovanje razloga za ovo dugotrajno raspadanje je teško jer su algoritmi Google pretraživanja vlasnički, ali se čini da je u 2011. godini Google počeo da predlaže uslove za pretragu kada ljudi tragaju za simptomima gripa kao što su "groznica" i "kašalj" (takođe izgleda da ova funkcija više nije aktivna). Dodavanje ove funkcije je potpuno opravdana stvar ako koristite pretraživač, ali je ova algoritamska promjena imala efekat generisanja više zdravstvenih pretrage koje su uzrokovale Google trendove gripa da precenjuju prevalenciju gripa (Lazer et al. 2014) .

Ova dva upozorenja komplikuju buduće napore u emisiji, ali ih ne osuđuju. Zapravo, koristeći pažljivije metode, Lazer et al. (2014) i Yang, Santillana, and Kou (2015) su uspeli da izbegnu ova dva problema. Idem naprijed, očekujem da studije koje sada emituju emisije koje kombinuju velike izvore podataka sa sakupljenim istraživačkim istraživačima omogućavaju kompanijama i vladama da kreiraju što preciznije i preciznije procjene čime će bitno ubrzati bilo kakve mere koje se vrše više puta s vremenom. Projekti koji emituju emisije poput Google Flu Trends takođe pokazuju šta se može dogoditi ako se veliki izvor podataka kombinuje sa više tradicionalnih podataka koji su kreirani u svrhu istraživanja. Razmišljajući se o analogiji umetnosti iz poglavlja 1, sada emitovanje ima potencijal da kombinira radove u Duchampovom stilu, sa kustosima u stilu Michelangelo, kako bi donosiocima odluka omogućili pravovremnije i preciznije merenje sadašnjosti i predviđanja bliske budućnosti.