2.4.2 Spá og nowcasting

Spá fyrir um framtíðina er erfitt, en spá staðar er auðveldara.

Annað helstu stefnan vísindamenn geta notað með athugunargögn er spá . Gerð giska á framtíðinni er algerlega erfitt og kannski af því ástæða er spáin ekki um þessar mundir stór hluti félagsrannsókna (þótt það sé lítill og mikilvægur hluti af lýðfræði, hagfræði, faraldsfræði og stjórnmálafræði). Hér vil ég hins vegar einbeita mér að sérstökum spá sem kallast núcasting- term sem er unnin úr því að sameina "nú" og "spá." Fremur en að spá fyrir um framtíðina, reyna nú að reyna að nota hugmyndir frá spá til að mæla núverandi ástand af heiminum; það reynir að "spá fyrir um nútíðina" (Choi and Varian 2012) . Nowcasting hefur tilhneigingu til að vera sérstaklega gagnlegt fyrir stjórnvöld og fyrirtæki sem krefjast tímabundinna og nákvæma ráðstafana heimsins.

Ein stilling þar sem þörf er á tímanlegri og nákvæmri mælingu er mjög skýr er faraldsfræði. Íhuga málið um inflúensu ("flensu"). Á hverju ári, árstíðabundin inflúensu faraldur veldur milljónir veikinda og hundruð þúsunda dauðsfalla um allan heim. Enn fremur, það er möguleiki á að nýtt inflúensubólga gæti komið fram sem myndi drepa milljónir. Árið 1918 er sýnt að inflúensuveiki hafi drepið á milli 50 og 100 milljónir manna (Morens and Fauci 2007) . Vegna þess að þörf sé á að fylgjast með og hugsanlega bregðast við inflúensuárásum hafa ríkisstjórnir um allan heim búið til inflúensu eftirlitskerfi. Til dæmis safna Bandaríkjamiðstöðvar fyrir sjúkdómsstjórn og forvarnir (CDC) reglulega og kerfisbundið upplýsingar frá vandlega völdum læknum um landið. Þó að þetta kerfi framleiðir hágæða gögn, þá hefur það skýrslugerð. Það er vegna þess tíma sem það tekur fyrir gögnin sem koma frá læknum að vera hreinsaðar, unnar og birtar, gefur CDC kerfið út áætlanir um hversu mikið flensu það var fyrir tveimur vikum. En þegar meðhöndlun á nýjum faraldri vill embættismenn hins opinbera ekki vita hversu mikið inflúensu það var fyrir tveimur vikum; Þeir vilja vita hversu mikið inflúensu það er núna.

Á sama tíma og CDC safnar gögnum til að fylgjast með inflúensu, er Google einnig að safna gögnum um inflúensuþátt, þótt í öðruvísi formi. Fólk frá öllum heimshornum er stöðugt að senda fyrirspurnir til Google, og sum þessara fyrirspurna, svo sem "flensu úrræði" og "inflúensu einkenni" - geta bent til þess að sá sem gerir fyrirspurnina hefur flensu. En með því að nota þessar leitarfyrirspurnir til að meta útbreiðslu flensu er erfiður: ekki allir sem eru með inflúensu gera flensu tengd leit, og ekki er hvert flensatengt leit frá einhverjum sem hefur flensu.

Jeremy Ginsberg og hópur samstarfsmanna (2009) , sumir hjá Google og sumir á CDC, höfðu mikilvægt og snjallt hugmynd að sameina þessar tvær gagnasöfn. U.þ.b. í gegnum góða tölfræðilega gullgerðarlist, sameinaðir vísindamenn hratt og ónákvæmar leitargögn með hægum og nákvæmum CDC-gögnum til að framleiða hratt og nákvæma mælingar á inflúensuþáttum. Önnur leið til að hugsa um það er að þeir notuðu leitargögnin til að flýta fyrir CDC gögnunum.

Nánar tiltekið, með því að nota gögn frá 2003 til 2007, áætluðu Ginsberg og samstarfsmenn sambandið milli algengi inflúensu í CDC gögnunum og leitarmagninu fyrir 50 milljónir mismunandi skilmála. Frá þessu ferli, sem var algjörlega gagnvirkt og ekki krafist sérhæfðrar læknisfræðilegrar þekkingar, funduðu vísindamenn með 45 mismunandi fyrirspurnum sem virtust vera mest fyrirsjáanlegar af gögnum um CDC-flensu. Þá, með því að nota samböndin sem þeir lærðu frá 2003-2007 gögnunum, prófuð Ginsberg og samstarfsmenn líkan þeirra á 2007-2008 inflúensu tímabilinu. Þeir fundu að verklag þeirra gætu örugglega verið gagnlegar og nákvæmar núna (mynd 2.6). Þessar niðurstöður voru birtar í náttúrunni og fengu umsjónarmaður um fjölmiðla. Þetta verkefni, sem kallast Google Flu Trends, varð oft endurtekin dæmisaga um kraft stórra gagna til að breyta heiminum.

Mynd 2.6: Jeremy Ginsberg og samstarfsmenn (2009) sameina Google leitargögn með CDC-gögnum til að búa til flensuþrengingar í Google, sem gæti dregið úr inflúensulíkum veikindum (ILI). Niðurstöður í þessari mynd eru fyrir Mið-Atlantshafssvæðið í Bandaríkjunum á árunum 2007-2008. Þrátt fyrir að það var upphaflega mjög efnilegur, þá var árangur Google flöktarþrengna rifin með tímanum (Cook et al., 2011; Olson o.fl., 2013; Lazer et al., 2014). Aðlagað frá Ginsberg et al. (2009), mynd 3.

Mynd 2.6: Jeremy Ginsberg og samstarfsmenn (2009) sameina Google leitargögn með CDC-gögnum til að búa til flensuþrengingar í Google, sem gæti dregið úr inflúensulíkum veikindum (ILI). Niðurstöður í þessari mynd eru fyrir Mið-Atlantshafssvæðið í Bandaríkjunum á árunum 2007-2008. Þrátt fyrir að það var upphaflega mjög efnilegur, þá var árangur Google flöktarþrengna rifin með tímanum (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Aðlagað frá Ginsberg et al. (2009) , mynd 3.

Hins vegar varð þetta augljós velgengni saga að lokum í vandræðum. Með tímanum uppgötvuðu vísindamenn tvær mikilvægar takmarkanir sem gera Google Flensu Stefna minna áhrifamikill en það birtist upphaflega. Í fyrsta lagi var árangur Google flöktarþrenginga í raun ekki miklu betri en einfalt líkan sem áætlar magn flensu sem byggist á línulegri útreikningi frá tveimur nýjustu mælingum á flensuheilbrigði (Goel et al. 2010) . Og á nokkrum tímum voru vextir í Google-inflúensu verri en þetta einfalda nálgun (Lazer et al. 2014) . Með öðrum orðum, þróun Google-gróðurhúsalofttegunda, með öllum gögnum hennar, vélaþjálfun og öflugri tölvunarfræði, var ekki verulega betri en einfalt og auðveldara að skilja heuristic. Þetta bendir til þess að við mat á hvaða spá eða nú þegar er það mikilvægt að bera saman við upphafsgildi.

Annað mikilvægt forsendu um þróun Google Fluens er sú að hæfni þess til að spá fyrir um geisladiskarflensu gögn var tilhneigð til skamms tíma bilun og langtíma rotnun vegna svíf og algrímfræði confounding . Til dæmis, meðan á gróðurhúsalofttegundum 2009 stóð, urðu miklar áhættur á áhrifum inflúensu, en líklega vegna þess að fólk hefur tilhneigingu til að breyta leitarniðurstöðum sínum til að bregðast við mikilli ótta við heimsfaraldri (Cook et al. 2011; Olson et al. 2013) . Í viðbót við þessar skammtímavandamál, niðurstaðan smám saman smám saman með tímanum. Greining á ástæðum þessarar langtíma rotnun er erfitt vegna þess að Google leitarreiknirnir eru sérsniðnar, en það virðist sem Google byrjaði að stinga upp á tengdum leitarskilmálum þegar fólk leitar að einkennum eins og "hita" og "hósti" (það virðist einnig Þessi eiginleiki er ekki lengur virkur). Að bæta við þessum eiginleikum er algerlega sanngjarnt að gera ef þú ert að keyra leitarvél, en þessi reikniritabreyting hefur áhrif á að búa til fleiri heilsufarslegar leitir sem ollu því að Google inflúensuþrengslan hafi ofmetið flensuþætti (Lazer et al. 2014) .

Þessir tveir forsendur flækja framtíðarátakið, en þeir gera það ekki. Í raun, með því að nota fleiri varkár aðferðir, Lazer et al. (2014) og Yang, Santillana, and Kou (2015) tóku að forðast þessi tvö vandamál. Áfram er gert ráð fyrir því að nútæknisrannsóknir sem sameina stórar gagnaheimildir með gögnum sem safnað er til rannsókna munu gera fyrirtækjum og ríkisstjórnum kleift að búa til tímanlegar og nákvæmari áætlanir með því að hraðfæra hvaða mælingar sem eru gerðar ítrekað með tímanum með nokkrum töf. Núverandi verkefni, svo sem Google Fluine Trends, sýna einnig hvað getur gerst ef stórar gagnasöfn eru sameinuð fleiri hefðbundnum gögnum sem voru búnar til til rannsókna. Hugsaðu aftur á listrænu hliðstæðan í kafla 1, núcasting hefur tilhneigingu til að sameina Duchamp-stíl readymades með Michelangelo-stíl custommades í því skyni að veita ákvarðendum meiri tímabær og nákvæmari mælingar á nútíðinni og spá í náinni framtíð.