2.4.2 prognozavimas ir nowcasting

Prognozuoti ateitį yra sunku, bet prognozuoti šiuo metu yra lengviau.

Antroji pagrindinė strategija tyrėjai gali naudoti su stebėjimo duomenys prognozuojant. Darant prielaidas apie ateitį, žinoma, sunku, o gal dėl šios priežasties prognozavimas šiuo metu nėra didelė socialinių tyrimų dalis (nors tai yra nedidelė ir svarbi demografijos, ekonomikos, epidemiologijos ir politologijos dalis). Tačiau čia norėčiau atkreipti dėmesį į specialų prognozavimo būdą, vadinamą " nowcasting" - terminu, kuris gaunamas iš "dabar" ir "prognozavimo" derinimo. Užuot prognozuojant ateitį, dabartiniai bandymai bandyti naudoti idėjas prognozuojant dabartinei būklei įvertinti pasaulio; ji bando "numatyti dovaną" (Choi and Varian 2012) . "Nowcasting" gali būti ypač naudinga vyriausybėms ir įmonėms, kurioms reikia laiku ir tikslių pasaulio priemonių.

Vienas iš nustatymų, pagal kurį reikia laiku ir tiksliai įvertinti matavimus, yra epidemiologija. Apsvarstykite gripo atvejį ("gripas"). Kasmet sezoninių gripo epidemijos visame pasaulyje sukelia milijonus ligų ir šimtus tūkstančių mirčių. Be to, kiekvienais metais egzistuoja galimybė, kad gali atsirasti naujoji gripo forma, kuri nužudytų milijonus žmonių. Pvz., 1918 m. Gripo protrūkis numanomai sumažėjo nuo 50 iki 100 milijonų žmonių (Morens and Fauci 2007) . Dėl poreikio stebėti ir potencialiai reaguoti į gripo protrūkius, vyriausybės visame pasaulyje sukūrė gripo priežiūros sistemas. Pavyzdžiui, JAV ligų kontrolės ir prevencijos centrai (CDC) reguliariai ir sistemingai renka informaciją iš kruopščiai atrinktų gydytojų visoje šalyje. Nors ši sistema gamina aukštos kokybės duomenis, ji turi ataskaitų teikimo trukmę. Tai yra dėl to, kad laikas, per kurį duomenys iš gydytojų buvo išvalomi, apdorojami ir paskelbti, CDC sistema išleidžia įverčius, kiek gripo buvo prieš dvi savaites. Tačiau, susidūrus su nauja epidemija, visuomenės sveikatos pareigūnai nenori žinoti, kiek gripo buvo prieš dvi savaites; jie nori žinoti, kiek šiuo metu yra gripas.

Tuo pačiu metu, kai CDC renka duomenis gripo stebėjimui, "Google" taip pat renka duomenis apie gripo paplitimą, nors ir gana skirtingoje formoje. Žmonės iš viso pasaulio nuolat siunčia "Google" užklausas, o kai kurios iš šių užduotys, pvz., "Gripo priemonės" ir "gripo simptomai", gali parodyti, kad asmuo, pateikiantis užklausą, yra sukėlęs gripą. Tačiau naudojant šias paieškos užklausas įvertinti gripo paplitimą yra sudėtinga: ne kiekvienas, kuris turi gripą, atlieka su gripu susijusią paiešką, o ne kiekviena su gripu susijusi paieška yra iš to asmens, kuris serga gripu.

Jeremy Ginsbergas ir kolegų komanda (2009) , Kai kurie "Google", o kai kurie - CDC, turėjo svarbią ir protingą idėją sujungti šiuos du duomenų šaltinius. Maždaug per tam tikrą statistinę alchemiją mokslininkai greitą ir netikslią paieškos informaciją sujungė su lėta ir tiksliomis CDC duomenimis, kad būtų galima greitai ir tiksliai įvertinti gripo paplitimą. Kitas būdas pagalvoti apie tai, kad jie panaudojo paieškos duomenis, kad pagreitintų CDC duomenis.

Tiksliau, naudodamasis duomenimis nuo 2003 iki 2007 m., Ginsbergas ir jo kolegos apskaičiavo santykį tarp gripo paplitimo CDC duomenų ir paieškos apimties 50 milijonų skirtingų terminų. Iš šio proceso, kuris buvo visiškai pagrįstas duomenimis ir nereikalavo specializuotų medicinos žinių, mokslininkai nustatė 45 skirtingas užklausas, kurios atrodė labiausiai nuspėjamos apie CDC gripo paplitimo duomenis. Tada, pasinaudodami santykiais, kuriuos jie išmoko 2003-2007 m. Duomenimis, Ginsbergas ir jo kolegos 2007-2008 m. Gripo sezono metu išbandė savo modelį. Jie nustatė, kad jų procedūros iš tiesų galėtų būti naudingos ir tikslios (žr. 2.6 pav.). Šie rezultatai buvo paskelbti " Nature" ir gavo žavesio spaudai. Šis projektas, vadinamas "Google Flu Trends", tapo dažnai pasikartojančia pranaše apie didelių duomenų galybę keisti pasaulį.

2.6 pav.: Jeremy Ginsbergas ir jo kolegos (2009 m.) Kartu su "Google" paieškos duomenimis su CDC duomenimis sukūrė "Google" gripo tendencijas, kurios dabar galėtų parodyti gripo tipo ligos (ILI) greitį. Šio skaičiaus rezultatai yra JAV vidurio Atlanto regione gripo sezonu 2007-2008 m. Nors iš pradžių buvo labai daug žadančių, "Google" gripo tendencijų veikimas laikui bėgant sumažėjo (Cook ir kt., 2011; Olson ir kt. 2013; Lazer ir kt., 2014). Adaptuota iš Ginsberg ir kt. (2009), 3 pav.

2.6 pav.: Jeremy Ginsbergas ir jo kolegos (2009) Kartu su "Google" paieškos duomenimis su CDC duomenimis sukūrė "Google" gripo tendencijas, kurios dabar galėtų parodyti gripo tipo ligos (ILI) greitį. Šio skaičiaus rezultatai yra JAV vidurio Atlanto regione gripo sezonu 2007-2008 m. Nors iš pradžių buvo labai daug žadančių, "Google" gripo tendencijų veikimas laikui bėgant sumažėjo (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Adaptuota iš Ginsberg et al. (2009) , 3 pav.

Tačiau šis akivaizdus sėkmės istorija ilgainiui tapo nepatogus. Laikui bėgant mokslininkai atrado du svarbius apribojimus, dėl kurių "Google" gripo tendencijos yra mažiau įspūdingos nei iš pradžių pasirodžiusios. Pirma, "Google" gripo tendencijų efektyvumas iš tiesų nebuvo daug geresnis nei paprasto modelio, pagal kurį apskaičiuota gripo koncentracija pagrįsta linijine ekstrapoliacija iš dviejų naujausių gripo paplitimo matavimų (Goel et al. 2010) . Be to, per tam tikrus laikotarpius "Google" gripo tendencijos iš tikrųjų buvo blogesnės nei šis paprastas požiūris (Lazer et al. 2014) . Kitaip tariant, "Google" gripo tendencijos su visais duomenimis, mašininio mokymosi ir galingų skaičiavimų nebuvo smarkiai pralenkė paprastą ir lengviau suprantamą heuristic. Tai rodo, kad vertinant bet kokius prognozes ar prognozes, svarbu palyginti su bazine linija.

Antrasis svarbus įspėjimas apie "Google" gripo tendencijas yra tas, kad jo gebėjimas numatyti CDC gripo duomenis buvo linkęs į trumpalaikį nesėkmę ir ilgalaikį skilimą dėl dreifo ir algoritminės klaidinančios problemos . Pavyzdžiui, 2009 m. "Swine Flu" protrūkio metu "Google" gripo tendencijos smarkiai pervertino gripo kiekį, tikriausiai dėl to, kad žmonės linkę keisti savo elgesį ieškodami plačiai paplitusios baimės dėl pasaulinės pandemijos (Cook et al. 2011; Olson et al. 2013) . Kartu su šiomis trumpalaikėmis problemomis produkcija palaipsniui mažėja. "Google" paieškos algoritmai yra patentuoti, nes "Google" paieškos algoritmai yra patentuoti, tačiau paaiškėjo, kad 2011 m. "Google" pradėjo siūlyti susijusius paieškos terminus, kai žmonės ieško gripo simptomų, tokių kaip "karščiavimas" ir "kosulys" (taip pat atrodo, kad ši funkcija nebėra aktyvi). Šios funkcijos pridėjimas yra visiškai protingas dalykas, jei jūs naudojate paieškos variklį, tačiau šis algoritminis pakeitimas sukūrė daugiau su sveikata susijusių paieškų, dėl kurių "Google" gripo tendencijos pervertino gripo paplitimą (Lazer et al. 2014) .

Šie du įspėjimai apsunkina ateities pastangas ateityje, tačiau jie jų neduoda. Iš tiesų, taikant kruopštesnius metodus, Lazer et al. (2014) O Yang, Santillana, and Kou (2015) Sugebėjo išvengti šių dviejų problemų. Tikiuosi, kad dabarties tyrimai, kurie sujungia didelius duomenų šaltinius su mokslo darbuotojų surinktais duomenimis, leis įmonėms ir vyriausybėms laiku atlikti tikslesnius skaičiavimus, taip pat pagreitins bet kokį matavimą, kuris tam tikru atsilikimu yra kintamas. "Now -casting" projektai, tokie kaip "Google" gripo tendencijos, taip pat rodo, kas gali atsitikti, jei dideli duomenų šaltiniai derinami su labiau tradiciniais duomenimis, kurie buvo sukurti tyrimų tikslais. Grįždamas prie 1 skyriaus meno analogijos, "nowcasting" gali sujungti Duchamp stiliaus "readymades" su "Michelangelo" stiliaus "custommades", kad sprendimus priimantys asmenys galėtų laiku ir tiksliau matyti dabartinę ir artimiausios ateities prognozes.