2.4.2 предвидувања и nowcasting

Предвидување на иднината е тешко, но предвидувањето на присутни е полесно.

Втората главна стратегија се користи од страна на истражувачите со податоци од набљудувањата прогнозира. Предвидување на иднината е Птицата е тешко, но тоа може да биде многу важно за носителите на одлуки, без разлика дали работат во компании или влади.

Kleinberg et al. (2015) нуди две приказни кои се појасни значењето на прогнозирање за одредени проблеми политика. Замислете еден од креаторите на политиката, јас ќе ја нарекуваат Ана, кој се соочува со суша и мора да одлучи дали да се вработи шаман да се направи дожд танц да се зголеми шансите за дожд. Уште еден од креаторите на политиката, јас ќе го нарекуваат Боб, мора да одлучи дали да се земе чадор да се работи за да се избегне влажнеше на пат кон дома. Двете Ана и Боб може да се направи подобро решение ако разберат дека временските услови, но тие треба да знаат различни работи. Ана треба да се разбере дали танц дожд предизвикува дожд. Боб, од друга страна, не се потребни за да се разбере нешто за каузалност; тој само треба точна прогноза. Социјална истражувачите често се фокусираат на она Kleinberg et al. (2015) го нарекуваат "дожд танц-како" проблеми, овие политики кои се фокусираат на каузалноста-и да ги игнорираат проблемите политика "чадор-како", кои се фокусирани на предвидување.

Јас би сакал да се фокусира, сепак, на посебен вид на предвидување наречена nowcasting -А термин изведен од комбинирање на "сега" и "предвидување". Наместо предвидување на иднината, nowcasting обиди да се предвиди присутни (Choi and Varian 2012) . Со други зборови, nowcasting користи методите за прогнозирање за проблемите на мерење. Како таква, таа треба да биде особено корисно за владите кои бараат навремено и точно мерки за двете земји. Nowcasting може да се илустрира најјасно со примерот на Google грип Трендови.

Замислете дека сте чувство малку под временски услови, така што пишувате "грип лекови" во пребарувач, да се примаат страница на линкови, како одговор, а потоа следат една од нив да корисен веб страница. Сега замисли оваа активност се одигра надвор од перспектива на пребарувач. Секој момент, милиони пребарувања се пристигнуваат од целиот свет, а овој поток на пребарувања, што Battelle (2006) го нарече "база на податоци за намери" - обезбедува континуирано се ажурираат прозорец во колективната глобалната свест. Сепак, претворајќи ја оваа прилив на информации во мерење на распространетоста на грип е многу тешко. Едноставно пребројување на бројот на пребарувања за "грип лекови" не може да работи добро. Не секој што има пребарувања грип за грип лекови и не се сите кои бараат за грип правни лекови против грип.

Важно и умен трик зад Google грип Трендови да ја претвори проблем со мерење во проблемот на предвидување. Американскиот центар за контрола и превенција на болести (ЦДЦ) има систем за следење на грип кој собира информации од лекарите во земјата. Сепак, еден проблем со овој систем ЦДЦ е што две недели известување заостануваат А; времето што е потребно за податоците кои пристигнуваат од лекарите да бидат исчистени, обработува и објавува. Но, кога ракувате со нова епидемија, јавното здравје канцеларии не сакаат да знаат колку грип беше таму пред две недели; тие сакаат да знаат колку грип има во моментов. Всушност, во многу други традиционални извори на социјалните податоци, постојат јазови меѓу бранови на собирање на податоци и заостанува известување. Повеќето големи извори на податоци, од друга страна, се секогаш на (Оддел 2.3.1.2).

Затоа, Џереми Гинсберг и колеги (2009) се обиде да се предвиди податоци грип ЦДЦ од податоците за пребарување на Google. Ова е пример на "предвидувањето на сегашноста", бидејќи истражувачите се обидуваат да се измери колку грип сега е таму со предвидување на идните податоците на ЦДЦ, иднина податоци што се мерење на сегашноста. Користење на машина за учење, тие бараа преку 50 милиони различни термини за пребарување за да видите кои се најмногу предвидливо на податоци грип ЦДЦ. На крајот на краиштата, тие се наоѓаат во собата на 45 различни прашања што се чинеше да биде многу предвидливо, а резултатите беа прилично добро: тие би можеле да ги користат податоците за пребарување да се предвиди податоци ЦДЦ. Со седиште во дел на овој труд, која беше објавена во Nature, Google грип Трендови стана често се повторува успешна приказна за моќта на големите податоци.

Постојат две важни ограничувања за овој очигледен успех, сепак, и разбирање на овие ограничувања ќе ви помогне да се оцени и да се направи предвидување и nowcasting. Прво, ефикасноста на Google грип Трендови всушност не е многу подобро отколку едноставен модел кој се проценува износот на грип врз основа на линеарна екстраполацијата од двете најнови мерења на преваленца грип (Goel et al. 2010) . И, над некои периоди Google грип Трендови беше всушност полошо од овој едноставен пристап (Lazer et al. 2014) . Со други зборови, Google грип Трендови со сите податоци, машинско учење, и моќни компјутери не се драматично се надминуваат едноставен и полесно да се разбере хеуристичка. Ова укажува дека при оценувањето било прогноза или nowcast важно е да се споредат и спротивстават на основната линија.

Вториот важен протест за Google грип тренд е во тоа што во неговата способност да се предвиди податоци грип ЦДЦ беше подложен на краткорочни неуспех и долгорочни распаѓање поради препуштање на околностите и алгоритамски изненадувачките. На пример, во текот на 2009 Свинскиот грип епидемија Google грип Трендови драматично над-проценува износот на грип, веројатно затоа што луѓето имаат тенденција да се промени нивниот начин за пребарување како одговор на општ страв на глобална пандемија (Cook et al. 2011; Olson et al. 2013) . Во прилог на овие краткорочни проблеми, претставата постепено распаѓање со текот на времето. Дијагностицирање на причините за овој долгорочен распаѓање е тешко, бидејќи алгоритми за пребарување на Google се неслободни, но се чини дека во 2011 година, Google направи промени кои ќе укажуваат на сродни термини за пребарување, кога луѓето бараат за симптоми како "треска" и "кашлица" (тоа, исто така, се чини дека дека оваа функција не е веќе активен). Додавањето на оваа функција е сосема разумен нешто да се направи, ако сте водење на бизнис пребарувач, и тоа имаше ефект на генерирање на повеќе пребарувања поврзани со здравјето. Ова беше веројатно успех за бизнисот, но тоа предизвика Google грип Трендови преваленцата грип над-проценка (Lazer et al. 2014) .

За среќа, овие проблеми со Google грип Трендови се исправиме. Всушност, со користење на повеќе внимателен методи, Lazer et al. (2014) и Yang, Santillana, and Kou (2015) беа во можност да добиете подобри резултати. Оди напред, очекувам дека nowcasting студии кои се комбинираат големи податоци со истражувачот собира податоци кои се комбинираат Readymades Дишан стил со Микеланџело стил Custommades-ќе им овозможи на креаторите на политиката да се произведе побрзо и попрецизно мерење на сегашните и предвидувања за иднината.