2.4.2 Прагназаванне і прагназаванне бягучай надвор'я

Прадказваць будучыню цяжка, але прадказанні бягучага лягчэй.

Другі асноўныя даследчыкі стратэгіі можна выкарыстоўваць з наглядальнымі дадзенымі з'яўляецца прагназаванне. Рабіць здагадкі пра будучыню, як вядома, цяжка, і, магчыма, па гэтай прычыне, прагназаванне не ў цяперашні час вялікая частка сацыяльных даследаванняў (хоць гэта невялікая і важная частка дэмаграфіі, эканомікі, эпідэміялогіі і паліталогіі). Тут, аднак, я хацеў бы засяродзіцца на асаблівым родзе прагназаванне называецца бягучай надвор'ем -a тэрміна , атрыманай у выніку аб'яднання «цяпер» і «прагназаванне» . Замест таго , каб прадказваць будучыню, прагназаванне бягучай надвор'е спробы выкарыстоўваць ідэі прагназавання для ацэнкі бягучага стану свету; ён спрабуе «прадказаць сучаснасць» (Choi and Varian 2012) . Мае бягучую надвор'е патэнцыялу быць асабліва карыснымі для ўрадаў і кампаній, якія патрабуюць своечасовых і дакладных паказчыкаў у свеце.

Адзін параметр, дзе неабходнасць своечасовага і дакладнага вымярэння вельмі ясна эпідэміялогія. Разгледзім выпадак грыпу ( «грып»). Кожны год, сезонныя эпідэміі грыпу выклікаюць мільёны хвароб і сотні тысяч людзей па ўсім свеце. Акрамя таго, кожны год, існуе верагоднасць таго, што новая форма грыпу можа ўзнікнуць, што б забіць мільёны. Ўспышка грыпу 1918 гады, напрыклад, па ацэнках, загінула ад 50 да 100 мільёнаў чалавек (Morens and Fauci 2007) . З-за неабходнасці адсочваць і патэнцыйна рэагаваць на ўспышкі грыпу, ўрада па ўсім свеце стварылі сістэмы эпідэміялагічнага нагляду за грыпам. Напрыклад, амерыканскія Цэнтры па кантролі і прафілактыцы захворванняў (CDC) рэгулярна і сістэматычна збіраць інфармацыю з старанна адабраных лекараў па ўсёй краіне. Хоць гэтая сістэма вырабляе высакаякасныя дадзеныя, то ёсць адставанне справаздачнасці. Гэта значыць, з-за часу, якое патрабуецца для дадзеных, якія паступаюць ад лекараў, якія будуць ачышчаныя, апрацаваны і апублікаваныя ў CDC сістэма выпускае ацэнкі, колькі грыпу там было два тыдні таму. Але, пры звароце да нарастаючай эпідэміі, службовыя асобы грамадскага аховы здароўя не хочуць ведаць, колькі грыпу было два тыдні таму; яны хочуць ведаць, колькі грыпу ёсць прама цяпер.

У той жа час, што CDC збіраюць дадзеныя для адсочвання грыпу, Google таксама збіраюць дадзеныя аб распаўсюджанасці грыпу, хоць і ў зусім іншай форме. Людзі з усяго свету, пастаянна пасылаючы запыты ў Google, і некаторыя з гэтых запытаў, такія як «сродкі прававой абароны ад грыпу» і «прыкметы грыпу» -might паказваюць, што чалавек робіць запыт мае грып. Але, выкарыстоўваючы гэтыя пошукавыя запыты для ацэнкі распаўсюджанасці грыпу складана: не кожны, хто мае грып робіць грып, звязаныя з пошукам, і не кожны грып звязанага пошуку ад каго-небудзь, хто мае грып.

Джэрэмі Гинсберг і каманда калегаў (2009) , некаторыя на Google і некаторыя на CDC, мелі важную і разумную ідэю аб'яднаць гэтыя дзве крыніцы дадзеных. Груба кажучы, праз свайго род статыстычнай алхіміі, даследчыкі сумясцілі хуткія і недакладныя дадзеныя пошуку з павольнымі і дакладнымі дадзенымі CDC для таго, каб вырабляць хуткія і дакладныя вымярэння распаўсюджанасці грыпу. Іншы спосаб думаць пра гэта з'яўляецца тое, што яны выкарысталі дадзеныя пошуку, каб паскорыць дадзеныя CDC.

Больш канкрэтна, выкарыстоўваючы дадзеныя з 2003 па 2007 год, Гинзберг і яго калегі ацанілі сувязь паміж распаўсюджанасцю грыпу ў дадзеных CDC і аб'ём пошуку на 50 мільёнаў розных тэрмінаў. З гэтага працэсу, які быў цалкам кіраванымі дадзенымі і не патрабуе спецыялізаванага медыцынскага веды, даследчыкі выявілі набор з 45 розных запытаў, якія, здавалася, найбольш прадказанне дадзеных аб распаўсюджанасці грыпу CDC. Затым, выкарыстоўваючы тыя адносіны, якія яны даведаліся з дадзеных 2003-2007, Гинзберг і яго калегі праверылі сваю мадэль на працягу сезона 2007-2008 гадоў грыпу. Яны выявілі, што іх працэдуры могуць сапраўды зрабіць карысныя і дакладныя nowcasts (малюнак 2.6). Гэтыя вынікі былі апублікаваныя ў Nature і атрымалі абагаўлёнаму асвятленне ў прэсу. Гэты праект, які быў названы Google Flu Trends-стала часта паўтараецца прытча пра сілу вялікіх дадзеных, каб змяніць свет.

Малюнак 2.6: Джэрэмі Гинзберг і калегі (2009) аб'яднаныя дадзеныя пошуку Google з дадзенымі CDC для стварэння Google Flu Trends, якія маглі б няшно хуткасць грыпападобных захворванняў (ГПЗ). Вынікі на гэтым малюнку для Сярэдзінна-Атлантычнага рэгіёну Злучаных Штатаў у сезоне 2007-2008 грыпу. Нягледзячы на ​​тое, што першапачаткова было вельмі шматабяцальным, прадукцыйнасць Google Flu Trends распаліся на працягу доўгага часу (Cook і інш 2011 ;. Олсон і інш 2013; .. Lazer і інш 2014). Адаптавана з Гинзберга і інш. (2009), малюнак 3.

Малюнак 2.6: Джэрэмі Гинзберг і калегі (2009) аб'яднаныя дадзеныя пошуку Google з дадзенымі CDC для стварэння Google Flu Trends, якія маглі б няшно хуткасць грыпападобных захворванняў (ГПЗ). Вынікі на гэтым малюнку для Сярэдзінна-Атлантычнага рэгіёну Злучаных Штатаў у сезоне 2007-2008 грыпу. Нягледзячы на тое, што першапачаткова было вельмі шматабяцальным, прадукцыйнасць Google Flu Trends распаліся ў працягу доўгага часу (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) і (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) і (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) і (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Адаптавана з Ginsberg et al. (2009) і Ginsberg et al. (2009) , малюнак 3.

Аднак гэтая ўяўная гісторыя поспеху ў рэшце рэшт, ператварыўся ў збянтэжанасць. З часам, даследчыкі выявілі два важных абмежаванні, якія робяць Google Flu Trends менш уражлівым, чым гэта першапачаткова з'явілася. Ва- першых, прадукцыйнасць Google Flu Trends быў на самай справе не нашмат лепш , чым простая мадэль , якая ацэньвае колькасць грыпу , заснаваны на лінейнай экстрапаляцыі з двух апошніх вымярэнняў распаўсюджанасці грыпу (Goel et al. 2010) і (Goel et al. 2010) . І ў працягу некалькіх перыядаў часу, Google Flu Trends быў на самай справе горш , чым гэты просты падыход (Lazer et al. 2014) і (Lazer et al. 2014) . Іншымі словамі, Google Flu Trends з усімі яго дадзенымі, машыннага навучання і магутнай вылічальнай тэхнікі не рэзка апярэджваць просты і лёгкі для разумення эўрыстыкі. Гэта сведчыць аб тым, што пры ацэнцы любога прагнозу або прагназавання бягучай надвор'я, важна параўнаць з базавым.

Другі важны нюанс аб Google Flu Trends з'яўляецца тое , што яго здольнасць прадказваць дадзеныя грыпу CDC быў схільны да кароткатэрміновай недастатковасці і доўгатэрміновага распаду з - за дрэйфу і алгарытмічнай змешванню. Напрыклад, падчас ўспышкі 2009 свінога грыпу Google Flu Trends значна завысіў колькасць грыпу, верагодна , таму , што людзі , як правіла, мяняюць сваё пошукавае паводзіны ў адказ на паўсюдны страх глабальнай пандэміі (Cook et al. 2011; Olson et al. 2013) і (Cook et al. 2011; Olson et al. 2013) і (Cook et al. 2011; Olson et al. 2013) , У дадатку да гэтых кароткатэрміновых праблемах, прадукцыйнасць паступова распадалася на працягу доўгага часу. Дыягнаставанне прычыны гэтага доўгатэрміновага распаду цяжка, таму што алгарытмы пошуку Google з'яўляюцца ўласнасцю, але гэта, здаецца, што ў 2011 годзе Google пачаў прапаноўваць адпаведныя тэрміны пошуку, калі людзі шукаюць прыкметы грыпу, як «ліхаманка» і «кашаль» (гэта таксама, здаецца, што ня гэтая функцыя больш не актыўны). Даданне гэтай функцыі з'яўляецца цалкам разумным , што трэба зрабіць , калі вы працуеце ў пошукавую сістэму, але гэта алгарытмічны змена мела эфект генерацыі больш пошукаў , звязаных са здароўем , якія выкліканы Google Flu Trends пераацэньваць распаўсюджанасць грыпу (Lazer et al. 2014) і (Lazer et al. 2014) .

Гэтыя два перасцярог ўскладняюць будучыя намаганні прагназавання бягучай надвор'я, але яны не пакідаць іх. На самай справе, з дапамогай больш дбайных метадаў, Lazer et al. (2014) і Lazer et al. (2014) і Yang, Santillana, and Kou (2015) атрымалася пазбегнуць гэтых двух праблем. Забягаючы наперад, я чакаю, што даследаванні бягучай надвор'я, якія спалучаюць у сабе вялікія крыніцы дадзеных з дадзенымі даследчыка сабранымі дазволіць кампаніям і ўрадам ствараць больш хуткія і больш дакладныя ацэнкі, па сутнасці, паскараючы любы вымярэнне, якое вырабляецца некалькі разоў на працягу доўгага часу з некаторым адставаннем. Прагназаванне бягучай надвор'я праекты, такія як Google Flu Trends таксама паказваюць, што можа адбыцца, калі вялікія крыніцы дадзеных у спалучэнні з больш традыцыйнымі дадзенымі, якія былі створаны для мэт даследавання. Успамінаючы мастацтва аналогіі кіраўніка 1, мае бягучую надвор'е патэнцыял для аб'яднання readymades дзюша стылем з custommades Michelangelo стылю, каб забяспечыць твар, якія прымаюць рашэнні больш своечасовымі і больш дакладнымі вымярэннямі сучаснасці і прадказаннем бліжэйшай будучыні.