2.4.2 предвидувања и nowcasting

Предвидување на иднината е тешко, но предвидувањето на присутни е полесно.

Вториот главен истражувач на стратегија може да користи со набљудувачки податоци за прогнозирање . Правењето претпоставки за иднината е познато тешко, а можеби и поради тоа, прогнозирањето во моментот не е голем дел од општествените истражувања (иако тоа е мал и важен дел од демографијата, економијата, епидемиологијата и политичката наука). Меѓутоа, овде би сакал да се фокусирам на посебен вид прогнозирање, наречено сега, термин кој се добива од комбинирање на "сега" и "прогнозирање". Наместо да ги предвидува идните, сега се обидуваат да ги користат идеите од прогнозирање за да ја измерат моменталната состојба на светот; се обидува да го "предвиди сегашноста" (Choi and Varian 2012) . Nowcasting има потенцијал да биде особено корисен за владите и компаниите кои бараат навремени и прецизни мерки во светот.

Една околина каде што е многу јасна е потребата за навремено и прецизно мерење е епидемиологијата. Размислете за случајот на грип ("грип"). Секоја година, сезонските епидемии на грип предизвикуваат милиони болести и стотици илјади смртни случаи ширум светот. Понатаму, секоја година, постои можност да се појави нова форма на инфлуенца која би убила милиони лица. На пример, избувнувањето на грипот од 1918 година, на пример, се проценува дека убило помеѓу 50 и 100 милиони луѓе (Morens and Fauci 2007) . Поради потребата да се следат и потенцијално да се одговори на епидемии на грип, владите од целиот свет создадоа системи за следење на грип. На пример, Центрите за контрола и превенција на болести во САД (ЦДЦ) редовно и систематски собираат информации од внимателно избрани лекари низ целата земја. Иако овој систем произведува висококвалитетни податоци, тој има застој во известувањето. Тоа е, поради времето потребно за податоците што доаѓаат од лекарите да бидат исчистени, обработени и објавени, ЦДЦ системот објавува проценки за тоа колку грип има пред две недели. Но, кога се соочуваат со новите епидемии, функционерите за јавно здравје не сакаат да знаат колку грип има пред две недели; тие сакаат да знаат колку грип е во моментов.

Во исто време кога ЦДЦ собира податоци за следење на грипот, Google исто така собира податоци за преваленцата на инфлуенца, иако во сосема поинаква форма. Луѓето од целиот свет постојано испраќаат прашања до Google, а некои од овие прашања - како што се "лекови против грип" и "симптоми на грип" - најверојатно покажуваат дека лицето кое го прави прашањето има грип. Но, користењето на овие пребарувања за проценка на преваленцата на грип е незгодно: не секој кој го има грипот прави пребарување поврзано со грип, а не секое пребарување поврзано со грип е од некој кој има грип.

Џереми Гинзберг и тим колеги (2009) , некои во Google, а некои во ЦДЦ, имале важна и паметна идеја да ги комбинираат овие два извори на податоци. Грубо, преку еден вид на статистичка алхемија, истражувачите ги комбинираа брзите и неточни податоци за пребарување со бавните и точни CDC податоци, со цел да произведат брзи и прецизни мерења на преваленцата на инфлуенца. Друг начин да се размислува за тоа е дека тие ги користеа податоците за пребарување за да ги забрзаат податоците за ЦДЦ.

Поконкретно, користејќи податоци од 2003 до 2007 година, Гинсберг и неговите колеги ја проценуваа односот помеѓу преваленцата на инфлуенца во податоците на ЦДЦ и обемот на пребарување за 50 милиони различни изрази. Од овој процес, кој беше комплетно управуван со податоци и не бараше специјализирано медицинско знаење, истражувачите пронајдоа збир од 45 различни пребарувања кои се чинеше дека се најмногу предвидливи за податоците за преваленцата на ЦДЦ. Потоа, користејќи ги односите што ги научиле од податоците од 2003-2007, Гинсберг и неговите колеги го тестираа својот модел за време на сезона на грип 2007-2008. Тие откриле дека нивните постапки навистина можат да направат корисни и точни податоци (слика 2.6). Овие резултати беа објавени во Природата и добија пофалба за покривање на медиумите. Овој проект - кој беше наречен Гугл Грип Трендс - стана често повторувана парабола за моќта на големите податоци за промена на светот.

Слика 2.6: Џереми Гинзберг и неговите колеги (2009) ги комбинираа податоците за пребарување на Google со податоците на ЦДЦ за да создадат Гугл Грип трендови, кои би можеле да ја објават стапката на болест слична на грип (ILI). Резултатите во оваа бројка се за средината на атлантскиот регион на САД во сезона на грип 2007-2008. Иако првично беше многу ветувачки, перформансите на Гугл Грип Тренд се распаѓаа со текот на времето (Кук и др., 2011; Олсон и сор., 2013; Ласер и соработници 2014). Адаптирана од Ginsberg et al. (2009), слика 3.

Слика 2.6: Џереми Гинзберг и неговите колеги (2009) комбинираа податоците за пребарување на Google со податоците на ЦДЦ за да создадат Гугл Грип трендови, кои би можеле да ја објават стапката на болест слична на грип (ILI). Резултатите во оваа бројка се за средината на атлантскиот регион на САД во сезона на грип 2007-2008. Иако првично беше многу ветувачки, перформансите на Гугл Грип Тренд се распаѓаа со текот на времето (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Адаптирана од Ginsberg et al. (2009) , слика 3.

Сепак, оваа очигледна успешна приказна на крајот се претвори во непријатност. Со текот на времето, истражувачите открија две важни ограничувања кои го прават Google Flu Trends помалку импресивен отколку што првично се појави. Прво, ефикасноста на Google Flu Trends всушност не беше многу подобра од онаа на едноставен модел кој ја проценува количината на грип врз основа на линеарна екстраполација од двете најнови мерења на преваленцата на грип (Goel et al. 2010) . И, во текот на некои временски периоди, Google Flu Trends беше всушност полошо од овој едноставен пристап (Lazer et al. 2014) . Со други зборови, Google Flu Trends со сите свои податоци, машинско учење и моќни компјутери не драматично ги надминаа едноставните и полесни за разбирање хеуристички. Ова укажува на тоа дека при проценката на било каква прогноза или сега е важно да се спореди со основната линија.

Второто важно предупредување за Google Flu Trends е дека нејзината способност да ги предвиди податоците за грип на ЦДЦ беше склона кон краткотрајната неуспех и долготрајното распаѓање поради лошото и алгоритамско изумирање . На пример, за време на појавата на свинскиот грип во 2009 година Google Flu Trends драматично ги прецени износот на грип, веројатно затоа што луѓето имаат тенденција да го променат своето однесување во одговорот на широко распространетиот страв од глобална пандемија (Cook et al. 2011; Olson et al. 2013) . Покрај овие краткорочни проблеми, перформансите постепено се распаѓаа со текот на времето. Дијагностицирањето на причините за ова долготрајно распаѓање е тешко, бидејќи алгоритмите за пребарување на Google се неслободни, но се чини дека во 2011 година Google почна да предлага соодветни термини за пребарување кога луѓето бараат симптоми на грип како "треска" и "кашлица" (исто така се чини дека оваа функција веќе не е активна). Додавањето на оваа карактеристика е сосема разумна работа ако работите со пребарувач, но оваа алгоритамска промена има ефект да генерира повеќе здравствени пребарувања, што предизвика Google Trends да ги прецени преваленцата на грипот (Lazer et al. 2014) .

Овие две предупредувања ги комплицираат идните напори за емитување сега, но тие не ги уништуваат. Всушност, со користење на повнимателни методи, Lazer et al. (2014) и Yang, Santillana, and Kou (2015) беа во можност да ги избегнат овие два проблеми. Очекувам дека сега студиите што ќе ги комбинираат големите извори на податоци со податоците собрани од истражувачите ќе им овозможат на компаниите и на владите да создадат навремени и попрецизни процени преку суштинско забрзување на мерењата што постојано се прават со текот на времето со одредено задоцнување. Проекти како што се Google Flu Trends исто така покажуваат што може да се случи ако големите извори на податоци се комбинирани со повеќе традиционални податоци кои се создадени за целите на истражувањето. Размислувајќи за аналогијата на уметноста од поглавјето 1, сега е можно да се комбинираат подготвените подготовки во стилот на Duchamp со контејнери во стилот на Микеланџело, со цел да им се даде на донесувачите на одлуки со попрецизни и попрецизни мерења на сегашноста и предвидувањата за блиска иднина.