2.4.2 Forecasting jeung nowcasting

Ngaramal mangsa nu bakal datang anu teuas, tapi ngaramal hadir nyaeta gampang.

Para panalungtik strategi utama kadua tiasa make jeung data observational ieu forecasting. Nyieun guesses ngeunaan mangsa nu bakal datang téh notoriously hese, jeung sugan pikeun alesan yén, forecasting teu ayeuna bagian badag panalungtikan sosial (sanajan mangrupakeun bagian leutik tur penting démografi, ékonomi, epidemiology jeung elmu pulitik). Di dieu, kumaha oge, kuring remen difokuskeun jenis husus tina forecasting disebut nowcasting -a istilah asalna tina ngagabungkeun "ayeuna" jeung "forecasting". Tinimbang ngaramal hareup, nowcasting usaha migunakeun pamendak ti forecasting pikeun ngukur kaayaan ayeuna tina dunya; eta nyoba keur "prediksi hadir" (Choi and Varian 2012) . Nowcasting boga potensi pikeun jadi hususna kapaké pikeun pamaréntah jeung pausahaan nu merlukeun ukuran timely tur akurat ngeunaan dunya.

Hiji setting tempat butuh ukur timely tur akurat pisan jelas nyaeta epidemiology. Mertimbangkeun kasus influenza ( "flu"). Unggal taun, epidemics influenza musiman ngakibatkeun jutaan alatan kasakit jeung ratusan rébu tina maotna sakuliah dunya. Salajengna, unggal taun, aya kamungkinan yen bentuk novél ngeunaan influenza bisa muncul anu bakal maéhan jutaan. Wabah 1918 influenza, contona, diperkirakeun geus ditelasan antara 50 jeung 100 juta urang (Morens and Fauci 2007) . Kusabab kudu lagu na berpotensi ngabales wabah influenza, pamaréntah sabudeureun dunya geus nyieun sistem panjagaan influenza. Contona, puseur AS pikeun Control Kasakit jeung Pencegahan (CDC) rutin sarta sistematis ngumpulkeun informasi tina dokter dipilih taliti sabudeureun nagara. Sanajan Sistim ieu ngahasilkeun data kualitas luhur, mibanda lag ngalaporkeun. Hartina, kusabab waktu anu diperlukeun pikeun data anjog ti dokter bisa cleaned, diprosés, sarta diterbitkeun, anu CDC Sistim Kaluaran perkiraan flu sabaraha aya dua minggu katukang. Tapi, nalika nanganan hiji wabah munculna, pajabat kaséhatan publik teu hayang nyaho sabaraha influenza aya dua minggu ka tukang; aranjeunna hoyong terang sabaraha influenza aya ayeuna.

Dina waktu nu sarua yén CDC geus ngumpulkeun data pikeun ngalacak influenza, Google oge ngumpulkeun data ngeunaan Prévalénsi influenza, najan dina formulir rada béda. Jalma ti sakumna dunya terus ngirim queries Google, sarta sababaraha queries-sapertos ieu salaku "remedies flu" jeung "gejala flu" -might nunjukkeun yén jalma nyieun query ngabogaan flu. Tapi, maké queries pilarian ieu keur estimasi Prévalénsi flu nya tricky: teu dulur anu boga flu ngajadikeun hiji pilarian nu patali flu, sarta moal unggal pilarian nu patali flu nya ti batur anu boga flu.

Jeremy Ginsberg sarta tim ti kolega (2009) , sababaraha di Google jeung sababaraha di CDC, kagungan gagasan penting jeung palinter ngagabungkeun dua sumber data ieu. Kasarna, ngaliwatan hiji jenis alchemy statistik, nu peneliti digabungkeun data pilarian saum sareng taliti jeung data CDC slow sarta akurat dina urutan pikeun ngahasilkeun ukuran saum sareng tepat Prévalénsi influenza. Cara séjén pikeun mikir ngeunaan eta nyaeta aranjeunna dipaké data pilarian mun nyepetkeun data CDC.

Leuwih husus, ngagunakeun data ti 2003 nepi ka 2007, Ginsberg sareng kolega Anjeun diperkirakeun hubungan antara Prévalénsi influenza dina data CDC sarta volume milarian 50 juta istilah béda. Ti proses ieu, nu éta sagemblengna data-disetir sarta henteu merlukeun pangaweruh médis husus, anu peneliti kapanggih a set 45 queries béda nu seemed janten paling duga tina CDC data Prévalénsi flu. Lajeng, ngagunakeun hubungan nu maranéhna diajar tina data 2003-2007, Ginsberg sareng kolega Anjeun dites modél maranéhanana salila usum 2007-2008 influenza. Aranjeunna kapanggih yen prosedur maranéhanana memang bisa nyieun nowcasts mangpaat tur akurat (inohong 2.6). Hasil ieu dikaluarkeun dina Alam jeung narima sinyalna pencét adoring. proyék-mana ieu disebut Google Flu Tren-janten hiji pasemon mindeng-terusan ngeunaan kakuatan data badag pikeun ngarobah dunya.

Gambar 2.6: Jeremy Ginsberg sareng kolega Anjeun (2009) digabungkeun Google data pilarian kalawan data CDC mun nyieun Google Flu Tren, nu bisa nowcast laju geringna influenza-kawas (ILI). Hasilna dina inohong ieu téh keur pertengahan Atlantik wewengkon Amérika Serikat dina usum 2007-2008 influenza. Sanajan ieu mimitina pisan ngajangjikeun, kinerja Google Flu Tren decayed leuwih waktos (Cook dkk 2011;. Olson dkk 2013;.. Lazer dkk 2014). Diadaptasi tina Ginsberg et al. (2009), inohong 3.

Gambar 2.6: Jeremy Ginsberg sareng kolega Anjeun (2009) digabungkeun Google data pilarian kalawan data CDC mun nyieun Google Flu Tren, nu bisa nowcast laju geringna influenza-kawas (ILI). Hasilna dina inohong ieu téh keur pertengahan Atlantik wewengkon Amérika Serikat dina usum 2007-2008 influenza. Sanajan ieu mimitina pisan ngajangjikeun, kinerja Google Flu Tren decayed leuwih waktos (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Diadaptasi tina Ginsberg et al. (2009) , inohong 3.

Sanajan kitu, carita kasuksésan katempo ieu pamustunganana ngancik kana hiji isin. Kana waktu, peneliti manggihan dua watesan Kadé nyieun Google Flu Tren kirang impressive ti dinya mimitina mucunghul. Kahiji, kinerja Google Flu Tren ieu sabenerna henteu leuwih hadé ti nu ti model basajan nu ngira-ngira jumlah flu dumasar kana hiji extrapolation linier tina dua ukuran panganyarna ngeunaan Prévalénsi flu (Goel et al. 2010) . Na, ngaliwatan sababaraha perioda waktu, Google Flu Tren ieu sabenerna leuwih goreng ti pendekatan basajan ieu (Lazer et al. 2014) . Dina basa sejen, Google Flu Tren kalawan sakabeh datana, learning mesin, sarta komputasi kuat teu nyirorot outperform a heuristik basajan tur gampang-to-ngarti. Ieu nunjukkeun yen lamun evaluating ramalan wae atanapi nowcast, hal anu penting pikeun ngabandingkeun ngalawan dasar a.

The caveat penting kadua ngeunaan Google Flu Tren éta kamampuhna pikeun ngaduga data flu CDC éta rawan gagalna jangka pondok tur buruk jangka panjang kusabab drift na confounding algorithmic. Contona, dina mangsa wabah 2009 Flu Khinzir Google Flu Tren nyirorot overestimated jumlah influenza, meureun kusabab urang condong ngarobah kabiasaan pilarian maranéhanana di respon kana sieun nyebar tina hiji pandemic global (Cook et al. 2011; Olson et al. 2013) . Salian masalah jangka pondok ieu, kinerja laun decayed kana waktu. Diagnosing alesan pikeun buruk jangka panjang ieu mangrupakeun hésé kusabab algoritma pilarian Google mangrupakeun proprietary, tapi nembongan yen taun 2011 Google mimiti suggesting istilah pilarian patali lamun urang milari gejala kawas flu "muriang" jeung "batuk" (eta oge sigana nu fitur ieu geus euweuh aktif). Nambahkeun fitur ieu ngarupakeun hal sagemblengna lumrah pikeun ngalakukeun lamun ngajalankeun hiji search engine, tapi robah algorithmic ieu miboga efek generating langkung maluruh nu patali kaséhatan anu disababkeun Google Flu Tren mun overestimate Prévalénsi flu (Lazer et al. 2014) .

Dua caveats ngahesekeun usaha nowcasting hareup, tapi maranéhna teu doom aranjeunna. Kanyataanna, ku ngagunakeun métode leuwih ati, Lazer et al. (2014) jeung Yang, Santillana, and Kou (2015) éta bisa nyingkahan dua masalah ieu. Bade maju, abdi nyangka yén studi nowcasting nu ngagabungkeun sumber data badag kalawan data panalungtik-dikumpulkeun bakal ngaktipkeun pausahaan jeung pamaréntah pikeun nyieun perkiraan langkung timely tur leuwih akurat ku dasarna ngebut nepi ukur sagala nu dijieun sababaraha kali ngaliwatan waktu kalawan sababaraha lag. proyék Nowcasting kayaning Flu Google Tren ogé némbongkeun kumaha tiasa lumangsung lamun sumber data badag anu digabungkeun jeung data tradisional leuwih nu dijieun pikeun tujuan panalungtikan. Pamikiran deui ka analogi seni bab 1, nowcasting boga potensi pikeun ngagabungkeun readymades Duchamp-gaya kalayan Michelangelo-gaya custommades dina urutan nyadiakeun makers kaputusan kalawan ukuran leuwih timely tur leuwih tepat hadir jeung prediksi ti mangsa nu bakal datang.