2.4.2 prognozavimas ir nowcasting

Prognozuoti ateitį yra sunku, bet prognozuoti šiuo metu yra lengviau.

Naudojama mokslininkai su stebėjimo duomenimis antras pagrindinis strategija prognozavimas. Prognozuoti ateitį yra gerai žinoma sunku, bet jis gali būti nepaprastai svarbus sprendimų priėmėjams, ar jie dirba įmonėse arba vyriausybių.

Kleinberg et al. (2015) siūlo dvi istorijas, kad išaiškinti prognozavimo svarbą tam tikrose politikos problemas. Įsivaizduokite, vieną politikos formuotojas, aš kviesiu savo Ana, kuris susiduria su sausra ir turi nuspręsti, ar samdyti Shaman padaryti lietaus šokį padidinti lietaus tikimybė. Kita politikos formuotojas, aš kviesiu jį Bobas, turi nuspręsti, ar imtis skėtį dirbti, kad išvengtumėte šlapias pakeliui namo. Tiek Ana ir Bobas gali padaryti geresnį sprendimą, jei jie supranta oras, bet jie turi žinoti skirtingus dalykus. Ana turi suprasti, ar lietus šokių sukelia lietų. Bobas, kita vertus, nereikia suprasti nieko apie priežastingumo; jis tiesiog turi tikslios prognozės. Socialiniai mokslininkai dažnai sutelkti dėmesį į tai, ką Kleinberg et al. (2015) vadina "lietus šokių kaip" politikos problemas-tie, kurie sutelkti dėmesį į priežastingumo-ir ignoruoti "skėtis-kaip" politikos problemas, yra orientuota į prognozavimo.

Norėčiau atkreipti dėmesį, tačiau, specialios rūšies prognozavimo vadinamas nowcasting -a terminas gauta apjungus "dabar" ir "prognozavimą." Užuot prognozuoti ateitį, nowcasting bando nuspėti dovana (Choi and Varian 2012) . Kitaip tariant, nowcasting naudoja prognozavimo metodus problemų matavimo. Kaip tokia, ji turėtų būti ypač naudinga vyriausybių, kuriems reikia laiku ir tikslią priemones apie jų šalyse. Nowcasting galima aiškiausiai iliustruoja su "Google" gripo tendencijose pavyzdyje.

Įsivaizduokite, kad jūs jaučiatės šiek tiek pagal oru, todėl jūs tipo "gripo gynimo" į paieškos variklis, gauti nuorodų puslapį atsako, o tada vadovaukitės vienu iš jų į naudingą tinklalapį. Dabar įsivaizduokite, ši veikla buvo sužaistos iš paieškos perspektyvos. Kiekviena akimirka, milijonai užklausų atvyksta iš viso pasaulio, ir tai Užklausų-ką srautas Battelle (2006) pavadino "duomenų ketinimų", - pateikia nuolat atnaujinamą langą į kolektyvinę pasaulio sąmonę. Tačiau paversti šią informaciją srautą į nuo gripo paplitimo matavimas yra sunku. Tiesiog skaičiuoti iki užklausų numerį "gripo gynimo priemonių" gali neveikti. Ne kiekvienas, kuris turi gripo ieško gripo gynimo priemonėmis ir ne kiekvienas, kuris ieškotojams dėl gripo gynimo priemonių turi gripas.

Svarbu ir protingas apgauti atsilieka Google "gripo tendencijose buvo paversti matavimo problemą į prognozavimo problema. JAV Ligų kontrolės ir prevencijos (CDC) turi gripo stebėsenos sistemą, kad renka informaciją iš gydytojų visoje šalyje. Tačiau viena problema su šia CDC sistemos yra dviejų savaičių ataskaitų atsilikimas; laikas užtrunka duomenų atvykstančių iš gydytojų būti valomi, tvarkomi ir skelbiami. Tačiau, kai tvarkymo kylanti epidemija, visuomenės sveikatos biurai nenori žinoti, kiek gripas buvo prieš dvi savaites; jie nori žinoti, kiek gripo yra dabar. Iš tiesų, daugelio kitų tradicinių šaltinių socialinių duomenimis, Lietuvoje yra atotrūkis tarp bangos duomenų rinkimo ir ataskaitų VVG. Labiausiai didelių duomenų šaltiniai, kita vertus, yra visuomet įjungtų (2.3.1.2 skyrius).

Todėl Jeremy Ginsbergas ir kolegos (2009) bandė prognozuoti CDC gripo duomenis iš "Google" paieškos duomenys. Tai yra "prognozuoja, dabartinė", nes mokslininkai bando įvertinti, kiek gripo yra dabar, prognozuojant būsimus duomenis iš CDC, ateities duomenis, kurie yra matavimo dabartį pavyzdys. Naudojant mašina mokymo, jie ieškojo per 50 mln įvairiose paieškos sąlygų ir pamatysite, kurie yra labiausiai prognozuojantys CDC gripo duomenis. Galų gale, jie rado 45 įvairių užklausų rinkinį, kad atrodė labiausiai prognozuojantys, o rezultatai buvo gana gera: jie galėtų naudotis paieškos duomenis prognozuoti CDC duomenis. Iš dalies pagrįsta šiame dokumente, kuris buvo paskelbtas "Nature", "Google" gripo tendencijose tapo dažnai kartojamas sėkmės istorija apie didelių duomenų galios.

Yra du svarbūs įspėjimų, kad šio akivaizdaus sėkmės, tačiau ir suprasti šiuos įspėjimus, kurie padės jums įvertinti ir daryti prognozes ir nowcasting. Pirma, "Google" gripo tendencijose pasirodymas buvo tikrai ne daug geriau nei paprastas modelis, kuris įvertins gripo sumą remiantis linijiniu ekstrapoliacija iš dviejų paskutinių matavimų gripo paplitimą (Goel et al. 2010) . Ir per kai kurių laikotarpių Google "gripo tendencijose buvo tikrai blogiau nei šis paprastas požiūris (Lazer et al. 2014) . Kitaip tariant, "Google" gripo tendencijose su visais savo duomenimis, mašina mokymo ir galingas skaičiavimo nebuvo smarkiai lenkia paprastas ir lengviau suprasti euristiką. Tai rodo, kad, kai reikia įvertinti bet kokį prognozę arba nowcast ji yra svarbu palyginti lyginant su pradine padėtimi.

Antrasis svarbus įspėjimas apie "Google" gripo tendencijose yra tai, kad jos gebėjimas prognozuoti CDC gripo duomenis buvo linkę į trumpalaikius nepakankamumas ir ilgalaikis irimo dėl dreifo ir algoritminės komplikuota. Pavyzdžiui, per 2009 kiaulių gripo protrūkio Google "gripo tendencijose dramatiškai pervertintos gripo sumą, turbūt, nes žmonės linkę keisti savo paieškos elgesį reaguojant į plačiai baimės pasaulinę pandemiją (Cook et al. 2011; Olson et al. 2013) . Be šių trumpalaikių problemų, spektaklis pamažu sunyko per tam tikrą laiką. Diagnostika Šio ilgalaikio nykimo priežastis yra sunku, nes "Google" paieškos algoritmai yra patentuotas, tačiau atrodo, kad 2011 Google "padarė pakeitimus, kad būtų teigti, susijusius paieškos žodžius, kai žmonės ieško simptomų, pavyzdžiui," karštinės "ir" kosulys "(ji taip pat atrodo , kad ši funkcija yra ne ilgesnis aktyvus). Įrašyta šią funkciją yra visiškai pagrįsta, ką reikia padaryti, jei dirbate paieškos verslą, ir tai turėjo sukurti daugiau su sveikata susijusioms paieškas poveikį. Tai buvo tikriausiai sėkmė versle, tačiau ji sukelia "Google" gripo tendencijas pervertina gripo paplitimą (Lazer et al. 2014) .

Laimei, šios problemos su "Google" gripo tendencijose galima pataisyti. Iš tikrųjų, naudojant atsargūs metodus, Lazer et al. (2014) ir Yang, Santillana, and Kou (2015) galėjo gauti geresnius rezultatus. Ateityje, tikiuosi, kad nowcasting tyrimai, kurie sujungti didelius duomenis tyrėjas surinkta duomenų, kad sujungti Duchamp'o stiliaus Readymades su Michaelangelo stiliaus Custommades-leis politikus gaminti greičiau ir tiksliau matavimus dabarties ir prognozes ateičiai.