2.4.2 prakiraan lan nowcasting

Ngiro-iro mangsa punika hard, nanging ngiro saiki luwih gampang.

Utama strategi kaloro digunakake dening peneliti karo data pangamatan iki prakiraan. Ngiro-iro mangsa punika notoriously angel, nanging bisa luar biasa penting kanggo keputusane produsen, apa padha bisa ing perusahaan utawa pemerintah.

Kleinberg et al. (2015) nawakake loro critane sing njlentrehake pentinge prakiraan kanggo masalah privasi tartamtu. Mbayangno siji Edo privasi, aku arep nelpon Anna dheweke, sing madhep ketiga lan kudu arep apa kanggo ngrekrut dukun apa tari udan kanggo nambah kasempatan saka udan. Edo privasi liyane, aku arep nelpon wong Bob, kudu mutusaké apa kanggo njupuk payung bisa kanggo supaya njupuk udan ing ngarep dalan. Loro-lorone Anna lan Bob bisa nggawe kaputusan luwih apik yen padha ngerti weather, nanging kudu ngerti bab kang beda. Anna perlu ngerti apa tari udan nimbulaké udan. Bob, ing tangan liyane, ora kudu mangerténi apa-apa bab causality; mung perlu lan ramalan akurat. Peneliti Social asring fokus apa Kleinberg et al. (2015) nyebataken "udan tari-kaya" privasi masalah-wong sing fokus ing causality-lan ditolak lewat "payung-kaya" masalah privasi sing fokus ing prakiraan.

Aku kaya kanggo fokus, Nanging, ing sajinis prakiraan disebut nowcasting -a Tembung asalé saka nggabungke "saiki" lan "prakiraan." Luwih saka ngiro-iro mangsa, nowcasting usaha kanggo mrédhiksi saiki (Choi and Varian 2012) . Ing tembung liyane, nowcasting migunakake cara prakiraan kanggo masalah pangukuran. Nalika kuwi, iku kudu utamané migunani kanggo pemerintah sing mbutuhake ngukur pas wektune lan akurat babagan negara. Nowcasting bisa gambaran paling cetha karo conto saka Google Flu Trends.

Mbayangno sing kroso sing dicokot miturut cuaca supaya sampeyan ngetik "obat flu" menyang search engine, nampa kaca pranala nanggepi, banjur tindakake siji saka wong-wong mau kanggo kaca mbiyantu. Saiki mbayangno kegiatan iki kang diputer metu saka perspektif search engine. Saben wayahe, mayuta-yuta kwéri sampun saka sak donya, lan stream saka pitakon-apa Battelle (2006) wis disebut "database maksud" - menehi jendhela saya dianyari menyang eling global bebarengan. Nanging, ngowahi stream iki informasi menyang pangukuran prévalènsi flu angel. Mung ngetang nganti nomer pitakon kanggo "obat flu" bisa uga ora bisa uga. Ora saben wong kang duwe telusuran flu kanggo obat flu lan ora kabeh wong sing searchers kanggo obat flu wis flu.

Carane penting lan pinter konco Google Flu Trends ana kanggo nguripake masalah pangukuran menyang masalah prakiraan. Pusat US kanggo Pangendhalian lan Panyegahan Penyakit (CDC) duwe sistem monitoring influenza sing informasi saka Doctors ing saindhenging negara. Nanging, siji masalah karo sistem CDC iki ana Reporting lag rong minggu; wektu iku njupuk kanggo data tekan saka Doctors kanggo di resiki, diproses, lan diterbitake. Nanging, nalika nangani epidemi berkembang, kantor kesehatan masyarakat ora pengin ngerti carane akeh influenza ana rong minggu kepungkur; padha pengin ngerti carane akeh influenza ana sapunika. Ing kasunyatan, akeh sumber tradisional saka data sosial, ana kesenjangan antarane ombak data koleksi lan nglaporake lags. Paling sumber data amba, ing tangan liyane, sing tansah ing (Section 2.3.1.2).

Mulane, Jeremy Ginsberg lan kolega (2009) nyoba kanggo mrédhiksi data flu CDC saka data search Google. Iki conto "ngiro saiki" amarga peneliti padha nyoba kanggo ngukur sepira akeh flu ana saiki kanthi ngiro data mangsa saka CDC, data mangsa sing ukuran saiki. Nggunakake learning machine, padha nggolèki liwat 50 yuta digoleki beda kanggo ndeleng kang paling prediktif saka data flu CDC. Wekasanipun, padha ketemu karo pesawat saka 45 pitakon beda sing ketoke dadi paling prediktif, lan asil cukup apik: padha bisa nggunakake data search kanggo mrédhiksi data CDC. Adhedhasar ing bagean ing kertas iki, kang diterbitake ing Alam, Google Flu Trends dadi crita sukses asring bola bab daya saka data amba.

Ana loro caveats penting kanggo sukses nyoto iki, Nanging, lan pangerten caveats iki bakal mbantu ngira-ngira lan apa prakiraan lan nowcasting. First, kinerja Google Flu Trends bener ora akeh sing luwih apik saka sing model prasaja sing prakiraan jumlah flu adhedhasar extrapolation linear saka loro pangukuran paling anyar saka lazim flu (Goel et al. 2010) . Lan, liwat sawetara wektu Flu Google Trends bener Samsaya Awon saka pendekatan prasaja iki (Lazer et al. 2014) . Ing tembung liyane, Google Flu Trends karo kabeh datane, learning machine, lan komputerisasi kuat ora dramatically outperform prasaja lan luwih gampang mangertos heuristic. Iki nudhuhaké yèn nalika ngevaluasi forecast utawa nowcast iku penting kanggo mbandhingaké marang garis dasar sing.

The caveat penting kaping pindho babagan Google Flu Trends iku kemampuan kanggo mrédhiksi data flu CDC ana rawan kanggo Gagal short-term lan bosok long-term amarga saka mabur lan confounding algoritma. Contone, sak 2009 flu babi wabah Google Flu Trends dramatically liwat-kira-kira jumlah influenza, mbokmenawa amarga wong kathah ngganti prilaku panelusuran kanggo nanggepi wedi nyebar saka pandemi global (Cook et al. 2011; Olson et al. 2013) . Saliyane masalah short-term iki, kinerja mboko sithik rusak liwat wektu. Diagnosing alasan kanggo bosok long term iki angèl amarga kalkulus search Google tertutup, nanging katon ing 2011 Google digawe owah-owahan sing suggest digoleki related nalika wong nelusuri gejala kaya "mriyang" lan "watuk" (uga koyone sing fitur iki ora ono aktif). Nambahake fitur iki bab sakabehe cukup kanggo apa yen sampeyan mlaku bisnis search engine, lan iku kagungan pengaruh saka ngasilaken luwih searches kesehatan related. Iki ana mbokmenawa sukses kanggo bisnis, nanging iku nyebabake Google Flu Trends kanggo lazim flu liwat-ngira (Lazer et al. 2014) .

Begjanipun, masalah iki karo Google Flu Trends sing fixable. Ing kasunyatan, nggunakake cara liyane ati-ati, Lazer et al. (2014) lan Yang, Santillana, and Kou (2015) padha bisa kanggo oleh asil sing luwih apik. Arep maju, aku nyana yen pasinaon nowcasting sing gabungke data amba karo peneliti diklumpukake data-sing gabungke Readymades Duchamp-gaya karo Michaelangelo-gaya Custommades-bakal ngaktifake privasi produsen kanggo gawé pangukuran luwih cepet lan luwih akurat saka saiki lan ramalan ing mangsa.