2.4.2 Proqnozlaşdırma və Anlık Hava Tahmini

Gələcək proqnozlaşdırılması çətindir, lakin indiki proqnozlaşdırılması asandır.

Müşahidə data tədqiqatçılar tərəfindən istifadə ikinci əsas strategiyası proqnozlaşdırılması olunur. gələcək proqnozlaşdırılması notoriously çətindir, lakin onlar şirkətlər və hökumətlər iş olsun, qərar qəbul edənlər üçün olduqca əhəmiyyətli ola bilər.

Kleinberg et al. (2015) müəyyən siyasət problemləri proqnozlaşdırma əhəmiyyətini aydınlaşdırmaq iki hekayələr təklif edir. bir siyasət ustası Təsəvvür edin, mən bir quraqlıq qarşı-qarşıya və yağış şansını artırmaq üçün bir yağış rəqs etmək üçün bir şaman işə qərar olmalıdır, onun Anna, zəng edəcəyik. Başqa bir siyasət ustası, Mən yolu ev yaş əldə qarşısını almaq üçün iş bir çətir etmək barədə qərar qəbul etməlidir, Bob ona zəng edəcəyik. Onlar hava anlamaq əgər Anna və Bob, həm də daha yaxşı bir qərar qəbul edə bilər, lakin onlar fərqli şeylər bilmək lazımdır. Anna yağış rəqs yağış səbəb olub-olmadığını anlamaq lazımdır. Bob, digər tərəfdən, səbəbiyyət haqqında bir şey dərk etmək lazım deyil; o, yalnız dəqiq proqnoz lazımdır. Sosial tədqiqatçılar tez-tez nə diqqət Kleinberg et al. (2015) "yağış rəqs kimi" siyasəti problemləri-o diqqət səbəbiyyət və proqnozlaşdırma yönəlib "çətir kimi" siyasəti problemləri görməməzlikdən gəldiyini çağırırıq.

I "indi" birləşən və gələn -a müddətli proqnozlaşdırılması adlı Anlık Hava Tahmini xüsusi növ, lakin diqqət etmək istərdim "proqnozlaşdırılması". Əksinə gələcək proqnozlaşdırılması daha indiki proqnozlaşdırmaq cəhdləri Anlık Hava Tahmini (Choi and Varian 2012) . Başqa sözlə, Anlık Hava Tahmini ölçü problemləri proqnozlaşdırılması üsulları istifadə edir. Belə ki, onların ölkələri haqqında vaxtında və dəqiq tədbirlər tələb hökumətlərinə xüsusilə faydalı olmalıdır. Anlık Hava Tahmini Google Flu Trends nümunə ən aydın təsvir oluna bilər.

Bir axtarış mühərriki daxil "qrip vasitələrin" yazın belə hava altında bir az hiss olunur Təsəvvür edin ki, cavab links bir səhifə almaq və sonra bir faydalı web onlardan biri edin. İndi bu fəaliyyəti search engine baxımından həyata ifa düşünün. Hər an, sorğu milyonlarla dünyanın gələn, və sorğu-nə bu stream Battelle (2006) "niyyət bazası" adlandırıb - kollektiv qlobal şüurun bir daim yenilənir pəncərə edir. Lakin, qrip yayılması bir ölçü informasiya bu axın dönüş çətindir. Sadəcə "qrip vasitələrin" üçün sorğu sayı hesablanması yaxşı iş ola bilər. qrip vasitələrin axtarış qripi var qrip qrip çarələr axtarış və hər kəs var hər kəs.

Google Flu Trends arxasında mühüm və ağıllı oyun bir proqnozlaşdırılması problemi bir ölçü problemi çevirmək idi. Xəstəliklərə Nəzarət və Qarşısının Alınması üzrə ABŞ Mərkəzləri (CDC) ölkə ətrafında həkimlər məlumat toplayır qrip monitorinq sistemi var. Lakin bu CDC sistemi ilə bir problem iki həftə hesabat lag var edir; Bu həkimlər gələn məlumat üçün lazım vaxt təmizlənmiş emal və nəşr olunacaq. inkişaf etməkdə olan epidemiya idarə zaman, ictimai səhiyyə idarələri iki həftə əvvəl var idi nə qədər qrip bilmək istəmirəm; İndi orada nə qədər qrip onlar bilmək istəyirəm. Əslində, sosial məlumatların bir çox digər ənənəvi mənbələri, məlumatların toplanması dalğaları və hesabat qalır arasında boşluqlar var. Ən böyük məlumat mənbələri, digər tərəfdən, həmişə-on (Bölmə 2.3.1.2) var.

Buna görə də, Jeremy Ginsberg və həmkarları (2009) Google axtarış data CDC qripi məlumat proqnozlaşdırmaq çalışdı. Bu tədqiqatçılar mövcud ölçü CDC, gələcək məlumatlar gələcək məlumatları proqnozlaşdırılması indi nə qədər qrip ölçmək üçün çalışırıq, çünki "Hazırda proqnozlaşdırılması" bir nümunəsidir. maşın öyrənmə istifadə edərək, onlar CDC qripi məlumatların ən sadələşdirilmiş olan görmək üçün 50 milyon müxtəlif axtarış sözü vasitəsilə axtarış. Nəhayət, onlar ən sadələşdirilmiş olmaq görünürdü 45 müxtəlif sorğu bir sıra aşkar və nəticələri olduqca yaxşı idi: onlar CDC məlumatların proqnozlaşdırmaq üçün axtarış data istifadə edə bilər. Təbiət nəşr bu kağız üzərində qismən əsasən, Google Flu Trends böyük data gücü haqqında tez-tez təkrar uğur hekayəsi oldu.

İki əhəmiyyətli caveats lakin bu aydın uğur üçün və bu caveats dərk qiymətləndirmək kömək və proqnozlaşdırılması və Anlık Hava Tahmini edəcəyik. Birincisi, Google Flu Trends performans həqiqətən qripi yayılması iki ən son ölçmələr xətti ekstrapolyasiya əsasında qripi dəyərini sadə model daha çox daha yaxşı idi (Goel et al. 2010) . Və bir müddət dövrlər ərzində Google Flu Trends Bu sadə yanaşma daha həqiqətən pis idi (Lazer et al. 2014) . Başqa sözlə, bütün məlumatları, maşın öyrənmə və güclü hesablama Google Flu Trends dramatik Heuristic anlamaq üçün sadə və asan üstün etməyib. Bu hər hansı bir proqnoz qiymətləndirilməsi və ya nowcast zaman bir baza qarşı müqayisə etmək vacibdir ki.

Google Flu Trends haqqında ikinci əhəmiyyətli xəbərdarlıq CDC qripi məlumat proqnozlaşdırmaq qabiliyyəti qısamüddətli uğursuzluq çünki driftalqoritmik confounding uzunmüddətli çürüməyə meylli idi. Məsələn, 2009-cu il Donuz qripi epidemiyası Google Flu Trends zamanı dramatik insanlar qlobal pandemiya geniş qorxu cavab axtarış davranışı dəyişmək üçün edirlər yəqin ki, çünki, qrip məbləği həddindən artıq təxmin (Cook et al. 2011; Olson et al. 2013) . bu qısa müddətli problemləri ilə yanaşı, performans tədricən zamanla çürük. Bu uzun müddətli tənəzzül səbəbləri diaqnostikası Google axtarış alqoritmlər mülkiyyət, çünki çətin, lakin bu (bu da görünür insanlar "od" və "öskürək" kimi simptomlar üçün axtarış zaman 2011-ci ildə Google bağlı axtarış sözü gəlir ki dəyişikliklər görünür bu xüsusiyyət) artıq aktiv deyil. bu xüsusiyyət əlavə bir search engine iş çalışan əgər bunu tamamilə ağlabatan şey, və daha səhiyyə ilə bağlı axtarışlar yaradan təsir göstərmişdir. Bu yəqin ki, iş üçün bir uğur idi, lakin o, artıq-smeta qrip yayılması üçün Google Flu Trends səbəb (Lazer et al. 2014) .

Sevindirici haldır ki, Google Flu Trends ilə bu problemlər fixable var. Əslində, daha diqqətli üsulları istifadə edərək, Lazer et al. (2014)Yang, Santillana, and Kou (2015) daha yaxşı nəticələr əldə edə bildik. Irəli gedərək, mən tədqiqatçı ilə böyük data birləşdirmək Anlık Hava Tahmini tədqiqatlar data-Michaelangelo-stil ilə Duchamp-style Readymades birləşdirmək Custommades-daha sürətli və daha dəqiq indiki ölçmə və gələcək proqnozlar istehsal siyasətçilər imkan toplanan gözləyirik.