2.4.2 Ramalan dan nowcasting

Meramalkan masa depan adalah sukar, tetapi meramalkan masa kini adalah lebih mudah.

Penyelidik strategi kedua yang kedua boleh menggunakan data pemerhatian sebagai peramalan . Membuat tekaan tentang masa depan amat sukar, dan mungkin kerana itu, ramalan tidak kini merupakan sebahagian besar penyelidikan sosial (walaupun ia adalah bahagian demografi, ekonomi, epidemiologi dan sains politik yang kecil dan penting). Di sini, saya ingin menumpukan perhatian kepada jenis ramalan khusus yang dipanggil pembawaan- istilah yang diperoleh daripada menggabungkan "sekarang" dan "ramalan." Daripada meramalkan masa depan, percubaan untuk menggunakan ide daripada ramalan untuk mengukur keadaan semasa dunia; ia cuba "meramalkan masa kini" (Choi and Varian 2012) . Nowcasting mempunyai potensi untuk menjadi sangat berguna kepada kerajaan dan syarikat yang memerlukan langkah-langkah yang tepat pada masanya dan tepat di dunia.

Satu persekitaran di mana keperluan untuk pengukuran tepat pada masanya dan tepat adalah sangat jelas epidemiologi. Pertimbangkan kes influenza ("selesema"). Setiap tahun, wabak influenza bermusim menyebabkan berjuta-juta penyakit dan ratusan ribu kematian di seluruh dunia. Tambahan pula, setiap tahun, ada kemungkinan bahawa bentuk novel influenza boleh muncul yang akan membunuh berjuta-juta. Sebagai wabak selesema tahun 1918, misalnya, dianggarkan telah membunuh antara 50 dan 100 juta orang (Morens and Fauci 2007) . Kerana keperluan untuk mengesan dan berpotensi menanggapi wabak influenza, kerajaan di seluruh dunia telah mencipta sistem pengawasan influenza. Sebagai contoh, Pusat Kawalan dan Pencegahan Penyakit Amerika Syarikat (CDC) secara berkala dan sistematik mengumpul maklumat daripada doktor yang dipilih dengan teliti di seluruh negara. Walaupun sistem ini menghasilkan data berkualiti tinggi, ia mempunyai lag laporan. Iaitu, kerana masa yang diperlukan untuk data yang diperoleh dari doktor untuk dibersihkan, diproses, dan diterbitkan, sistem CDC mengeluarkan anggaran mengenai berapa banyak flu yang ada dua minggu lalu. Tetapi, apabila mengendalikan wabak baru muncul, pegawai kesihatan awam tidak mahu mengetahui berapa banyak influenza di sana dua minggu lalu; mereka ingin tahu berapa banyak influenza yang ada sekarang.

Pada masa yang sama bahawa CDC mengumpul data untuk mengesan influenza, Google juga mengumpul data mengenai kelaziman selesema, walaupun dalam bentuk yang agak berbeza. Orang dari seluruh dunia sentiasa menghantar pertanyaan kepada Google, dan beberapa pertanyaan seperti "ubat flu" dan "gejala selesema" -mungkin menunjukkan bahawa orang yang membuat pertanyaan mempunyai selesema. Tetapi, dengan menggunakan pertanyaan carian ini untuk menganggarkan prevalensi selesema adalah rumit: tidak semua orang yang mengalami selesema membuat carian yang berkaitan dengan selesema, dan tidak setiap pencarian yang berkaitan dengan flu adalah dari seseorang yang mempunyai selesema.

Jeremy Ginsberg dan sekumpulan rakan sekerja (2009) , beberapa di Google dan beberapa di CDC, mempunyai idea penting dan pintar untuk menggabungkan dua sumber data ini. Secara kasar, melalui sejenis alkimia statistik, para penyelidik menggabungkan data carian yang pantas dan tidak tepat dengan data CDC yang lambat dan tepat untuk menghasilkan pengukuran prevalen influenza yang cepat dan tepat. Satu lagi cara untuk memikirkannya ialah mereka menggunakan data carian untuk mempercepatkan data CDC.

Secara lebih khusus, menggunakan data dari tahun 2003 hingga 2007, Ginsberg dan rakan sekerja menganggarkan hubungan antara kelaziman selesema dalam data CDC dan jumlah carian untuk 50 juta istilah berbeza. Dari proses ini, yang sepenuhnya didorong oleh data dan tidak memerlukan pengetahuan perubatan khusus, para penyelidik menemui satu set 45 pertanyaan yang berbeza yang kelihatannya paling menonjolkan data prevalensi flu CDC. Kemudian, dengan menggunakan hubungan yang mereka pelajari dari data 2003-2007, Ginsberg dan rakannya menguji model mereka semasa musim influenza 2007-2008. Mereka mendapati bahawa prosedur mereka memang boleh menjadikan sekarang ini berguna dan tepat (angka 2.6). Keputusan ini diterbitkan di Alam dan menerima liputan akhbar yang menyanjung. Projek ini - yang dipanggil Google Flu Trends-menjadi perumpamaan yang sering berulang mengenai kuasa data besar untuk mengubah dunia.

Rajah 2.6: Jeremy Ginsberg dan rakan sekerja (2009) menggabungkan data carian Google dengan data CDC untuk mencipta Trend Google Flu, yang kini boleh menyentuh kadar penyakit seperti influenza (ILI). Keputusan dalam angka ini adalah untuk kawasan pertengahan Atlantik Amerika Syarikat pada musim 2007-2008 influenza. Walaupun pada mulanya sangat menjanjikan, prestasi Trend Google Flu telah merosot dari masa ke masa (Cook et al 2011, Olson et al 2013, Lazer et al, 2014). Diadaptasi dari Ginsberg et al. (2009), angka 3.

Rajah 2.6: Jeremy Ginsberg dan rakan sekerja (2009) menggabungkan data carian Google dengan data CDC untuk mencipta Trend Google Flu, yang kini boleh menyentuh kadar penyakit seperti influenza (ILI). Keputusan dalam angka ini adalah untuk kawasan pertengahan Atlantik Amerika Syarikat pada musim 2007-2008 influenza. Walaupun pada mulanya sangat menjanjikan, prestasi Trend Google Flu telah merosot dari masa ke masa (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Diadaptasi dari Ginsberg et al. (2009) , angka 3.

Walau bagaimanapun, kisah kejayaan ini akhirnya berubah menjadi malu. Dari masa ke masa, penyelidik menemui dua batasan penting yang menjadikan Google Flu Trends kurang mengesankan daripada yang mula-mula muncul. Pertama, prestasi Trend Google Flu sebenarnya tidak lebih baik daripada model mudah yang menganggarkan jumlah selesema berdasarkan ekstrapolasi linear daripada dua pengukuran prevalen selesema terkini (Goel et al. 2010) . Dan, dalam beberapa jangka masa, Trend Google Flu sebenarnya lebih buruk daripada pendekatan sederhana ini (Lazer et al. 2014) . Dalam erti kata lain, Google Flu Trends dengan semua data, pembelajaran mesin, dan pengkomputeran yang kuat tidak secara dramatis mengatasi heuristik mudah dan mudah difahami. Ini menunjukkan bahawa apabila menilai apa-apa ramalan atau sekarang, penting untuk dibandingkan dengan garis dasar.

Kaveat penting kedua mengenai Trend Google Flu adalah keupayaannya untuk meramalkan data selesema CDC terdedah kepada kegagalan jangka pendek dan kerosakan jangka panjang akibat drift dan algorithmic confounding . Sebagai contoh, semasa wabak selesema babi 2009 di Google Flu Trends secara dramatis menafikan jumlah influenza, mungkin kerana orang cenderung menukar tingkah laku carian mereka sebagai tindak balas terhadap ketakutan yang meluas terhadap pandemik global (Cook et al. 2011; Olson et al. 2013) . Di samping masalah jangka pendek ini, prestasi secara beransur-ansur merosot dari masa ke masa. Mendiagnosis sebab-sebab kerosakan jangka panjang ini adalah sukar kerana algoritma carian Google adalah proprietari, tetapi pada tahun 2011 Google mula mencadangkan istilah carian berkaitan apabila orang mencari gejala flu seperti "demam" dan "batuk" (ia juga kelihatan seperti ciri ini tidak lagi aktif). Menambah ciri ini adalah perkara yang munasabah untuk dilakukan jika anda menjalankan enjin gelintar, tetapi perubahan algoritma ini mempunyai kesan menjana lebih banyak carian yang berkaitan dengan kesihatan yang menyebabkan Trend Google Flu untuk menaksir prevalensi selesema (Lazer et al. 2014) .

Kedua-dua kaveat merumitkan usaha-usaha masa kini di masa depan, tetapi mereka tidak menghukum mereka. Malah, dengan menggunakan kaedah yang lebih berhati-hati, Lazer et al. (2014) dan Yang, Santillana, and Kou (2015) dapat mengelakkan dua masalah ini. Melangkah ke hadapan, saya menjangkakan bahawa kajian pencahayaan yang menggabungkan sumber data besar dengan data yang dikumpul oleh penyelidik akan membolehkan syarikat dan kerajaan membuat lebih banyak anggaran tepat pada masanya dan lebih tepat dengan dasarnya mempercepatkan pengukuran yang dibuat berulang-ulang dari masa ke masa dengan sedikit lag. Projek siaran seperti Google Flu Trends juga menunjukkan apa yang boleh terjadi jika sumber data besar digabungkan dengan data yang lebih tradisional yang diciptakan untuk tujuan penyelidikan. Berpikir kembali kepada analogi seni bab 1, sekarang mempunyai potensi untuk menggabungkan readymade gaya Duchamp dengan custommades gaya Michelangelo untuk memberikan pengambil keputusan dengan pengukuran masa yang lebih tepat dan tepat pada masa kini dan ramalan masa depan yang dekat.