2.4.2 Предвиђање и новцастинг

Предвиђање будућности тешко, али предвиђање поклон је лакше.

Други главни истраживачи стратегије могу да користе прогнозирајуће податке. Претпоставка о будућности је озбиљно тешка, па можда из тог разлога, прогнозирање тренутно није велики дио друштвених истраживања (иако је то мали и важан дио демографије, економије, епидемиологије и политичких наука). Овде, међутим, желео бих да се фокусирам на посебну прогнозу под називом " новцастинг" - израз који се састоји од комбиновања "сада" и "прогнозирања". Уместо да предвиђате будуће покушаје сада користећи идеје из прогнозе за мерење тренутног стања света; покушава да "предвиди садашњост" (Choi and Varian 2012) . Поредак има потенцијала да буде посебно корисна владама и компанијама које захтевају правовремене и тачне мере света.

Једно окружење где је потреба за правовременим и прецизним мерењем веома јасна је епидемиологија. Размотрите случај грипе ("грип"). Сваке године сезонска епидемија грипа изазива милионе болести и стотине хиљада смртних случајева широм света. Даље, сваке године постоји могућност да се појављује нови облик грипа који би убио милионе. Процењује се да је избијање грипе из 1918. године убило између 50 и 100 милиона људи (Morens and Fauci 2007) . Због потребе да се прате и потенцијално реагују на епидемије грипа, владе широм свијета су створиле системе за надзор грипа. На пример, амерички центри за контролу и превенцију болести (ЦДЦ) редовно и систематски прикупљају информације од пажљиво одабраних лекара широм земље. Иако овај систем производи висококвалитетне податке, он има извештајно заостајање. То јест, због времена потребног за очишћавање, обраду и објављивање података од доктора, ЦДЦ систем објављује процјене колико је грипа било прије двије седмице. Али, када се суочава са појавом епидемије, службеници за јавно здравље не желе знати колико је грипа било прије двије седмице; они желе знати колико је тренутно грипа.

У исто време када ЦДЦ прикупља податке за праћење грипа, Гоогле такође прикупља податке о преваленцији грипа, иако у сасвим другачијем облику. Људи из целог света стално упућују упите на Гоогле, а неке од ових упита - као што су "лекови против грипа" и "симптоми грипа" - могу да указују на то да особа која прави упит има грип. Али, користећи ове упитне претраге за процјену преваленце грипа је необично: не свако ко има грипа тражи претраживање с флуором, а не свака претрага о грипу од особе која има грип.

Јереми Гинсберг и тим колега (2009) , неки у Гоогле-у и неки у ЦДЦ-у, имали су важну и паметну идеју да комбинују ова два извора података. Грубо, кроз неку врсту статистичке алхемије, истраживачи су комбиновали брзе и нетачне податке за претраживање са спорим и прецизним ЦДЦ подацима како би се омогућило брзо и прецизно мерење преваленције инфлуенце. Други начин размишљања о томе је да су користили податке за претраживање како би убрзали ЦДЦ податке.

Конкретније, користећи податке од 2003. до 2007. године, Гинсберг и колеге проценили су однос између преваленције грипа у ЦДЦ подацима и обима претраживања за 50 милиона различитих појмова. Из овог процеса, који је у потпуности био подацен на податак и није захтевао специјално медицинско знање, истраживачи су пронашли скуп од 45 различитих упита који се чинили као најнапреднији подаци о преваленцама ЦДЦ-а. Затим, користећи односе које су научили из података из 2003-2007, Гинсберг и колеге тестирали су свој модел током сезоне грипа 2007-2008. Открили су да би њихове процедуре могле стварно бити корисне и прецизне сада (слика 2.6). Ови резултати су објављени у Природи и добили су обраду покривености штампе. Овај пројекат - који се звао Гоогле Флу Трендс-постао је често поновљена прича о моћи великих података да би се променио свет.

Слика 2.6: Јереми Гинсберг и колеге (2009) су комбиновали Гоогле податке са подацима са ЦДЦ подацима како би створили Гоогле трендове грипа, који би сада могли показати брзину болести сличне грипу (ИЛИ). Резултати на овој слици су за средњоатлантски регион Сједињених Држава у сезони грипе 2007-2008. Иако је у почетку било веома обећавајуће, перформансе Гоогле Флу Трендс-а су се распадале током времена (Цоок ет ал., 2011, Олсон ет ал., Лазер ет ал., 2014). Адаптирано од Гинсберг ет ал. (2009), слика 3.

Слика 2.6: Јереми Гинсберг и колеге (2009) комбиновали Гоогле податке са подацима са ЦДЦ подацима како би створили Гоогле трендове грипа, који би сада могли показати брзину болести сличне грипу (ИЛИ). Резултати на овој слици су за средњоатлантски регион Сједињених Држава у сезони грипе 2007-2008. Иако је у почетку било веома обећавајуће, перформансе Гоогле Флу Трендс-а су се распадале током времена (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Адаптирано од Ginsberg et al. (2009) , слика 3.

Међутим, ова очигледна прича о успјеху на крају се претворила у непријатност. Током времена истраживачи су открили два важна ограничења која Гоогле трендове грипа утичу на импресивност него што се првобитно појавила. Прво, перформансе Гоогле Флу Трендса заправо нису биле много боље од оног једноставног модела који процењује колицину грипа засноване на линеарној екстраполацији из последње две мјере преваленције грипа (Goel et al. 2010) . И, током неких временских периода, Гоогле Флу Трендс је у ствари био лошији од овог једноставног приступа (Lazer et al. 2014) . Другим речима, Гоогле Флу Трендс са свим својим подацима, машинским учењем и моћним рачунарима није драматично превазишао једноставну и лакшу разумљиву хеуристику. Ово указује на то да приликом процене било какве прогнозе или садашње емисије важно је упоређивање са основном линијом.

Друга битна опомена о Гоогле Флу Трендс-у је да је његова способност да предвиди податке о грипу ЦДЦ-а склоно краткотрајном неуспјеху и дуготрајном пропадању због дриблинга и алгоритамског збуњивања . На пример, током избијања вируса свињског грипа из 2009. године Гоогле трендови грипа су драматично прецијенили количину грипа, вероватно зато што људи теже да промене своје понашање у претраживању као одговор на широки страх од глобалне пандемије (Cook et al. 2011; Olson et al. 2013) . Поред ових краткорочних проблема, перформансе су постепено пропадале током времена. Дијагностиковање разлога за ово дугорочно распадање је тешко јер су алгоритми за претрагу Гоогле власништва, али се чини да је у 2011. години Гоогле почео да предлаже услове за претрагу када људи трагају за симптомима грипа попут "грознице" и "кашља" (такође изгледа да ова функција више није активна). Додавање ове функције је потпуно оправдана ствар ако користите претраживач, али је ова алгоритамска промјена имала ефекат генерисања више здравствених претрага које су узроковале трендове Гоогле Флу Трендс-а да прецјењујеју преваленцу грипа (Lazer et al. 2014) .

Ова два упозорења компликују будуће напоре у емисији, али их не осуђују. Заправо, користећи пажљивије методе, Lazer et al. (2014) и Yang, Santillana, and Kou (2015) су могли избјећи ова два проблема. Настављајући, очекујем да ће студије сада емитовања који комбинују велике изворе података са прикупљеним истраживачким подацима омогућити компанијама и владама да креирају више правовремене и прецизније процјене сасвим убрзавајући било какве мере које се понављају с временом са неким заостанком. Пројекти који емитују емисије попут Гоогле Флу Трендс такође показују шта се може десити ако се велики извор података комбинује са више традиционалних података који су креирани у сврху истраживања. Размишљајући се о аналогији уметности из поглавља 1, сада емитовање има потенцијал да комбинира радове у Дуцхамповом начину рада са сточарским купцима у Мицхелангело-у, како би доносиоцима одлука дала више правовремених и прецизнија мерења садашњости и предвиђања блиске будућности.