2.4.2 Прагназаванне і прагназаванне бягучай надвор'я

Прадказваць будучыню цяжка, але прадказанні бягучага лягчэй.

Другая асноўная стратэгія , выкарыстоўваная даследчыкамі з наглядальнымі дадзенымі прагназавання. Прадказанне будучыні, як вядома, цяжка, але гэта можа быць вельмі важна для асоб, якія прымаюць рашэнні, ці працуюць яны ў кампаніі або ўрада.

Kleinberg et al. (2015) і Kleinberg et al. (2015) прапануе дзве гісторыі , якія растлумачваюць важнасць прагназавання для пэўных палітычных праблем. Уявіце сабе, адзін вытворца палітыкі, я буду называць яе Ганна, якая сутыкаецца з засухай і павінны вырашыць, ці варта наняць шамана, каб зрабіць танец дажджу, каб павялічыць верагоднасць дажджу. Іншы вытворца палітыкі, я буду называць яго Бобам, павінен вырашыць, ці варта браць з сабой парасон, каб працаваць, каб пазбегнуць промокания на шляху дадому. І Ганна, і Боб могуць прыняць лепшае рашэнне, калі яны разумеюць надвор'е, але яны павінны ведаць розныя рэчы. Ганна павінна зразумець, ці выклікае танец дажджу дождж. Боб, з іншага боку, не трэба разумець што-небудзь аб прычыннасці; ён проста неабходны дакладны прагноз. Сацыяльныя даследчыкі часта засяроджваюцца на тым, што Kleinberg et al. (2015) і Kleinberg et al. (2015) называюць «танец дажджу, як" палітычныя праблемы-тыя , якія сканцэнтраваны на прычыннасці-і ігнараваць "зонтоподобно" праблемы палітыкі , якія сканцэнтраваны на прагназаванні.

Я хацеў бы засяродзіцца, аднак, на асаблівы спосаб прагназавання называецца бягучай надвор'я -a тэрмін , атрыманы ў выніку аб'яднання "цяпер" і "прагназаванне" . Замест таго , каб прадказваць будучыню, прагназаванне бягучай надвор'я спрабуе прадказаць цяперашні (Choi and Varian 2012) . Іншымі словамі, выкарыстоўвае метады прагназавання бягучай надвор'я прагназавання для задач вымярэння. Такім чынам, гэта павінна быць асабліва карысна для ўрадаў, якія патрабуюць своечасовых і дакладных мер, аб сваіх краінах. Прагназаванне бягучай надвор'я можна праілюстраваць найбольш ясна на прыкладзе Google Flu Trends.

Уявіце, што вы адчуваеце сябе крыху пад надвор'ем, так што вы тыпу "лекі ад грыпу" ў пошукавай сістэме, атрымаць старонку спасылак у адказ, а затым ідуць адзін з іх карысны вэб-старонку. Цяпер уявіце сабе, гэтая дзейнасць разыгрываецца з пункту гледжання пошукавай сістэмы. Кожны момант, мільёны запытаў прыбываюць з усяго свету, і гэты паток запытаў , што- Battelle (2006) назваў «база дадзеных намераў" - прадастаўляе пастаянна абнаўляецца акно ў калектыўнае глабальнае прытомнасць. Тым не менш, ператвараючы гэты паток інфармацыі ў вымярэнне распаўсюджанасці грыпу цяжка. Проста падлічваючы колькасць запытаў для "сродкаў абароны ад грыпу" не можа добра працаваць. Не кожны, хто мае пошукі грыпу для сродкаў абароны ад грыпу і не кожны, хто шукальнікі для прававой абароны грыпу грып.

Важны і хітры трук ззаду Google Flu Trends павінна была ператварыць праблему вымярэння ў праблему прагназавання. Цэнтры ЗША па кантролі і прафілактыцы захворванняў (CDC) мае сістэму маніторынгу грыпу, які збірае інфармацыю ад лекараў па ўсёй краіне. Тым не менш, адна праблема з гэтай сістэмай СиДиСи існуе затрымка справаздачнасці двухтыднёвы; час, якое патрабуецца для дадзеных, якія паступаюць ад лекараў, якія будуць ачышчаныя, апрацаваны і апублікаваныя. Але, пры звароце з якая ўзнікае эпідэміі, офісы грамадскага аховы здароўя не хочуць ведаць, колькі грыпу там было два тыдні таму; яны хочуць ведаць, колькі грыпу ёсць прама цяпер. На самай справе, у многіх іншых традыцыйных крыніц сацыяльных дадзеных, існуе разрыў паміж хвалямі збору дадзеных і затрымкі справаздачнасці. Большасць буйных крыніц дадзеных, з другога боку, заўсёды-на (раздел 2.3.1.2).

Таму, Джэрэмі Гинсберг і яго калегі (2009) паспрабавалі спрагназаваць дадзеныя грыпу CDC па дадзеных пошуку Google. Гэта з'яўляецца прыкладам "прадказанні бягучага", так як даследчыкі спрабавалі вызначыць, колькі грыпу ў цяперашні час шляхам прагназавання будучых дадзеных з CDC, у будучыні дадзеных, вымярэння сучаснасці. Выкарыстанне машыннага навучання, яны шукалі праз 50 мільёнаў розных пошукавых тэрмінаў, каб убачыць, якія з'яўляюцца найбольш прагнастычная дадзеных грыпу CDC. У канчатковым рахунку, яны выявілі набор з 45 розных запытаў, якія, здавалася, найбольш прадказаннем, і вынікі былі вельмі добрыя: яны маглі б выкарыстоўваць дадзеныя пошуку для прагназавання дадзеных CDC. Часткова на аснове гэтым артыкуле, які быў апублікаваны ў Nature, Google Flu Trends стала часта паўтараецца гісторыя поспеху пра сілу вялікіх аб'ёмаў дадзеных.

Ёсць два важных перасцярог на гэты відавочны поспех, аднак, і разуменне гэтых папярэджанняў пры дапаможа вам ацаніць і зрабіць прагноз і бягучай надвор'я. Ва- першых, прадукцыйнасць Google Flu Trends быў на самай справе не нашмат лепш , чым простая мадэль , якая ацэньвае велічыню грыпу , заснаваны на лінейнай экстрапаляцыі з двух апошніх вымярэнняў распаўсюджанасці грыпу (Goel et al. 2010) і (Goel et al. 2010) . І, у працягу некаторых перыядаў часу Google Flu Trends быў на самай справе горш , чым гэты просты падыход (Lazer et al. 2014) і (Lazer et al. 2014) . Іншымі словамі, Google Flu Trends з усімі яго дадзенымі, машыннага навучання і магутнай вылічальнай тэхнікі не значна апярэджваць просты і лягчэй зразумець эўрыстыку. Гэта сведчыць аб тым, што пры ацэнцы любога прагнозу або па прагназаванні бягучай надвор'я, важна , каб параўнаць з базавымі паказчыкамі.

Другі важны нюанс аб Google Flu Trends з'яўляецца тое , што яго здольнасць прадказваць дадзеныя грыпу CDC быў схільны да кароткатэрміновай недастатковасці і доўгатэрміновага распаду з - за дрэйфу і алгарытмічнай змешванню. Напрыклад, падчас 2009 ўспышкі свіны грып Google Flu Trends значна завышана колькасць грыпу, верагодна , таму , што людзі , як правіла, мяняюць сваё пошукавае паводзіны ў адказ на паўсюдны страх глабальнай пандэміі (Cook et al. 2011; Olson et al. 2013) і (Cook et al. 2011; Olson et al. 2013) і (Cook et al. 2011; Olson et al. 2013) . У дадатак да гэтых кароткатэрміновыя праблемы, прадукцыйнасць паступова распадаліся на працягу доўгага часу. Дыягнаставанне прычыны гэтага доўгатэрміновага распаду цяжка, так як алгарытмы пошуку Google з'яўляюцца ўласнасцю кампаніі, але гэта, здаецца, што ў 2011 годзе Google унёс змены, якія меркавалі б звязаныя ўмовы пошуку, калі людзі шукаюць сімптомы, як "ліхаманка" і "кашаль" (гэта таксама, здаецца, што гэтая функцыя больш не працуе). Даданне гэтай функцыі з'яўляецца цалкам разумна, што трэба зрабіць, калі вы працуеце ў пошукавай бізнэс, і гэта мела эфект генерацыі больш пошукаў, звязаных са здароўем. Верагодна , гэта быў поспех для бізнесу, але гэта выклікала Google Flu Trends пераацэньваць распаўсюджанасці грыпу (Lazer et al. 2014) і (Lazer et al. 2014) .

На шчасце, гэтыя праблемы з Google Flu Trends папраўна. На самай справе, выкарыстоўваючы больш дбайныя метады, Lazer et al. (2014) і Lazer et al. (2014) і Yang, Santillana, and Kou (2015) былі ў стане атрымаць лепшыя вынікі. Забягаючы наперад, я чакаю, што даследаванні бягучай надвор'я, якія спалучаюць у сабе вялікія дадзеныя з даследчыкам былі сабраныя дадзеныя, якія камбінуюць-Readymades дзюша стылі з Michaelangelo стылі Custommades-дазволяць палітыкам вырабляць хуткія і больш дакладныя вымярэння сучаснасці і прадказанні будучыні.