2.4.2 Predviđanje i nowcasting

Predviđanje budućnosti je teško, ali predviđanje sadašnjost je lakše.

Druga glavna strategija koristili istraživači s opservacijskih podataka predviđa. Predviđanje budućnosti nevjerojatno je teško, ali to može biti vrlo važno za donošenje odluka, da li oni rade u tvrtki ili vlada.

Kleinberg et al. (2015) nudi dvije priče koje pojasniti važnost predviđanja za određene probleme politike. Zamislite jednu politiku za kavu, ja ću zvati Anna, koji se suočava s suše i mora odlučiti hoće li se angažirati šamana učiniti kišni ples povećati šanse za kišu. Još jedna politika za kavu, ja ću ga zvati Bob, mora odlučiti hoće li ponijeti kišobran na posao kako bi se izbjeglo uzimajući mokro na putu kući. I Anna i Bob može donijeti bolju odluku, ako oni razumiju vrijeme, ali oni moraju znati o raznim stvarima. Anna treba razumjeti da li je kiša ples izaziva kišu. Bob, s druge strane, ne treba shvatiti ništa o uzročnosti; On samo treba točnu prognozu. Socijalni znanstvenici često usredotočuju na ono Kleinberg et al. (2015) nazivaju "kiša dance-like" politike problema-one koje se fokusiraju na kauzalnosti-i ignorirati "Umbrella-kao" politika probleme koje su fokusirane na predviđanja.

Volio bih da se usredotočite, međutim, na posebnom vrstom predviđanja zove nowcasting -a pojam izveden iz kombiniranja "sada" i "predviđanja." Umjesto predviđanje budućnosti, nowcasting pokušaj predviđanja sadašnjost (Choi and Varian 2012) . Drugim riječima, nowcasting koristi metode predviđanja za probleme mjerenja. Kao takva, ona bi trebala biti posebno korisno za vlade koje trebaju pravodobne i točne mjere o njihovim zemljama. Nowcasting može se ilustrirati najjasnije na primjeru Google Raširenost gripe.

Zamislite da ste osjećaj malo pod vremenskim tako upišete "lijekova protiv gripe" u tražilicu, primati stranicu linkova u odgovoru, a zatim slijedite jedan od njih korisne web stranice. Sada zamislite ovo aktivnost koja se igra iz perspektive tražilice. Svaki trenutak, milijuni upita dolaze iz cijelog svijeta, a taj tok upitima što Battelle (2006) nazvao je "baza podataka o namjerama" - osigurava stalno ažuriraju prozor u kolektivnu globalne svijesti. Međutim, okrećući ovaj tok informacija u mjerenje učestalosti gripe je teško. Jednostavno računajući gore broj upita za "lijekova protiv gripe" ne bi mogli dobro funkcionirati. Nije svatko tko ima pretraživanja gripe za lijekovima protiv gripe, a ne svatko tko traga za lijekovima protiv gripe ima gripu.

Važan i pametan trik iza Google Raširenost gripe je skrenuti problem mjerenja u problem predviđanja. Američki Centri za kontrolu i prevenciju bolesti (CDC) ima sustav praćenja gripe koji prikuplja informacije od liječnika diljem zemlje. Međutim, problem s ovim CDC sustav je tu je dva tjedna izvješća kašnjenja; vrijeme koje je potrebno za podatke koji dolaze od liječnika da se čisti, obrađuju i objavljuju. No, pri rukovanju epidemiju u nastajanju, javnozdravstvene službe ne žele znati koliko gripe bilo je prije dva tjedna; oni žele znati koliko je gripa je upravo sada. U stvari, u mnogim drugim tradicionalnim izvorima socijalnih podataka, postoje razlike između valova prikupljanja podataka i pomaka izvješćivanje. Većina velikih izvora podataka, s druge strane, su uvijek na (Odjeljak 2.3.1.2).

Dakle, Jeremy Ginsberg i kolege (2009) pokušao predvidjeti podatke CDC gripe iz podataka za pretraživanje Google. To je primjer "predviđanje sadašnjost", jer su istraživači pokušavaju izmjeriti koliko gripa je sada predviđanjem budućih podataka iz CDC-a, budući podataka koji se mjerenje sadašnjost. Koristeći strojno učenje, oni su tražili preko 50 milijuna različitih traženih pojmova kako bi vidjeli koji su najviše prediktivni podataka CDC-gripe. Na kraju, otkrili su niz od 45 različitih upita što se činilo da se većina prediktivno, a rezultati su bili prilično dobri: oni mogu koristiti pretraživanje podataka za predviđanje podatke CDC. Dijelom temelji na radu, koji je objavljen u časopisu Nature, Google Raširenost gripe postao često ponavlja priča o uspjehu o snazi ​​velikih podataka.

Postoje dva važna upozorenja na ovaj prividni uspjeh, međutim, i razumijevanje tih upozorenja će vam pomoći procijeniti i napraviti predviđanja i nowcasting. Prvo, performanse Google Raširenost gripe zapravo nije mnogo bolje nego jednostavan model koji procjenjuje količinu gripe na temelju linearne ekstrapolacije iz dviju najnovijih mjerenja pojavnosti gripe (Goel et al. 2010) . I, više nekim vremenskim razdobljima Google Raširenost gripe je zapravo gore nego ovaj jednostavan pristup (Lazer et al. 2014) . Drugim riječima, Google Raširenost gripe sa svim svojim podacima, strojnog učenja i snažan computing nije dramatično nadmašiti jednostavan i lakše razumjeti heurističke. Ovo sugerira da je u procjeni bilo predviđanje ili nowcast važno usporediti protiv osnovne linije.

Drugo važno upozorenje o Google Raširenost gripe je da je njegova sposobnost predvidjeti podatke CDC gripe bio sklon kratkoročno neuspjeha i dugoročnog propadanja zbog drifta i algoritamske zbrka. Na primjer, u 2009 svinjske gripe epidemije Google Raširenost gripe dramatično procijenjene količine gripe, vjerojatno zato što ljudi imaju tendenciju da promijene svoje ponašanje pretragu odgovor na rasprostranjenog straha od globalne pandemije (Cook et al. 2011; Olson et al. 2013) . Osim tih kratkoročnih problema, izvedba postupno istrunuo tijekom vremena. Dijagnosticiranje razloge tog dugoročnog propadanja teško jer su Google algoritmi pretraživanja su vlasnički, ali čini se da je u 2011. Google je napravio promjene koje će predlagati povezane pojmove za pretraživanje, kada ljudi tražiti simptome kao "groznica" i "kašalj" (to također činiti da je ova značajka više nije aktivan). Dodavanje ove značajke je potpuno razumna stvar za učiniti ako radite posao tražilice, a imala je za posljedicu generiranje više zdravstvenih pretraživanja. To je vjerojatno bio uspjeh za tvrtku, ali to je uzrokovalo Google Raširenost gripe na precjenjuju rasprostranjenosti gripe (Lazer et al. 2014) .

Srećom, ovi problemi s Google Raširenost gripe mogu učvrstiti. U stvari, koristeći oprezniji metode, Lazer et al. (2014) i Yang, Santillana, and Kou (2015) bili u mogućnosti da biste dobili bolje rezultate. Ubuduće očekujem da nowcasting studije koje kombiniraju velika podatke sa istraživač prikupljeni podataka koji kombiniraju Duchamp stilu Readymades s Michaelangelo stilu Custommades-će omogućiti donositeljima odluka za proizvodnju brže i točnije mjerenje sadašnjosti i predviđanja budućnosti.