2.4.2 prognozēšana un nowcasting

Prognozējot nākotni ir grūti, taču prognozējot klāt ir vieglāk.

Tiek prognozēts otrais galvenais stratēģijas pētnieks, ko var izmantot ar novērošanas datiem. Domāšanas par nākotni pazīšana ir ļoti sarežģīta, un varbūt šā iemesla dēļ prognozēšana pašlaik nav liela daļa sociālo pētījumu (lai gan tā ir neliela un svarīga demogrāfijas, ekonomikas, epidemioloģijas un politikas zinātnes daļa). Tomēr šeit es gribētu pievērsties īpašam prognozēšanas veidam, ko sauc par tūlītēju aplikāciju - termins, kas iegūts, apvienojot "tagad" un "prognozēšanu". Tā vietā, lai prognozētu nākotni, tagadnē tiek mēģināts izmantot idejas no prognozēšanas, lai noteiktu pašreizējo stāvokli pasaules; tā mēģina "prognozēt tagadni" (Choi and Varian 2012) . Mūsdienās var būt īpaši noderīgi valdības un uzņēmumi, kam vajadzīgi savlaicīgi un precīzi pasaules mēroga pasākumi.

Viens no iestatījumiem, kurā precīzi jānosaka precīza un precīza mērīšana, ir epidemioloģija. Apsveriet gripas gadījumu ("gripu"). Katru gadu sezonas gripas epidēmijas izraisa miljoniem slimību un simtiem tūkstošu nāves gadījumu visā pasaulē. Turklāt katru gadu pastāv iespēja, ka var rasties jauna veida gripa, kas varētu nogalināt miljonus. Piemēram, 1918. gada gripas uzliesmojums ir samazinājies no 50 līdz 100 miljoniem cilvēku (Morens and Fauci 2007) . Ņemot vērā nepieciešamību izsekot un potenciāli reaģēt uz gripas uzliesmojumiem, valdības visā pasaulē ir izveidojušas gripas uzraudzības sistēmas. Piemēram, ASV Slimību kontroles un profilakses centri (CDC) regulāri un sistemātiski vāc informāciju no rūpīgi atlasītiem ārstiem visā valstī. Lai gan šī sistēma ražo augstas kvalitātes datus, tā ir novēlota. Tas ir tāpēc, ka laiks, kas nepieciešams, lai dati, kas ierodas no ārstiem, tiktu notīrīti, apstrādāti un publicēti, CDC sistēma atbrīvo aprēķinus par to, cik daudz gripas bija pirms divām nedēļām. Bet, rīkojoties ar jaunu epidēmiju, sabiedrības veselības aizsardzības amatpersonas nevēlas zināt, cik daudz gripas bija pirms divām nedēļām; viņi vēlas uzzināt, cik daudz gripas ir šobrīd.

Tajā pašā laikā, kad CDC apkopo datus, lai izsekotu gripu, Google arī vāc datus par gripas izplatību, lai gan pavisam citā veidā. Cilvēki no visas pasaules pastāvīgi sūta pieprasījumus uz Google, un daži no šiem jautājumiem, piemēram, "gripas novēršanas līdzekļi" un "gripas simptomi", var norādīt, ka personai, kas veic vaicājumu, ir gripa. Taču, izmantojot šos meklēšanas vaicājumus, lai novērtētu gripas izplatību, ir grūts: ne visi, kuriem ir gripa, meklē ar gripu saistītu meklēšanu, nevis katrs ar gripu saistīts meklēšanu ar gripu.

Džeremijs Ginsbergs un kolēģu komanda (2009) , daži no Google un daži no CDC bija svarīga un gudra ideja apvienot šos divus datu avotus. Aptuveni, izmantojot sava veida statistisko alķīmiju, pētnieki ātri un neprecīzi meklēšanas datus apvienoja ar lētām un precīzām CDC datiem, lai iegūtu ātrus un precīzus gripas izplatības mērījumus. Vēl viens veids, kā domāt par to, ir tas, ka viņi izmantoja meklēšanas datus, lai paātrinātu CDC datus.

Konkrētāk, izmantojot datus no 2003. līdz 2007. gadam, Ginsbergs un viņa kolēģi novērtēja saistību starp gripas izplatību CDC datos un meklēšanas apjomu 50 miljoniem atšķirīgu terminu. No šī procesa, kas bija pilnīgi balstīts uz datiem un neprasīja speciālas medicīniskas zināšanas, pētnieki atrada 45 dažādus jautājumus, kas, visticamāk, visvairāk prognozēja CDC gripas izplatības datus. Pēc tam, izmantojot attiecības, ko viņi iemācījušies no 2003. līdz 2007. gada datiem, Ginsbergs un viņa kolēģi 2007.-2008. Gada gripas sezonā pārbaudīja savu modeli. Viņi atklāja, ka viņu procedūras patiešām var radīt noderīgas un precīzas tūlītējas darbības (2.6. Attēls). Šie rezultāti tika publicēti " Nature" un tika saņemti dievkalpojumi preses pārraidē. Šis projekts, ko sauca par Google gripas tendencēm, kļuva par bieži atkārtotu līdzību par lielo datu iespējām mainīt pasauli.

2.6. Attēls. Jeremijs Ginsbergs un viņa kolēģi (2009) apvienoja Google meklēšanas datus ar CDC datiem, lai izveidotu Google gripas tendences, kas tagad varētu novērtēt gripai līdzīgu slimību (ILI) līmeni. Rezultāti šajā skaitlī attiecas uz Amerikas Savienoto Valstu vidusatlantijas reģionu 2007-2008 gripas sezonā. Lai gan sākotnēji tas bija ļoti daudzsološs, laika gaitā "Google Flu Trends" darbība samazinājās (Cook uc, 2011. Olson uc (Lazer uc), 2014). Pielāgots no Ginsbergas et al. (2009) 3. attēls.

2.6. Attēls. Jeremijs Ginsbergs un viņa kolēģi (2009) apvienoja Google meklēšanas datus ar CDC datiem, lai izveidotu Google gripas tendences, kas tagad varētu novērtēt gripai līdzīgu slimību (ILI) līmeni. Rezultāti šajā skaitlī attiecas uz Amerikas Savienoto Valstu vidusatlantijas reģionu 2007-2008 gripas sezonā. Lai gan sākotnēji tas bija ļoti daudzsološs, laika gaitā "Google Flu Trends" darbība samazinājās (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Pielāgots no Ginsberg et al. (2009) 3. attēls.

Tomēr šis acīmredzamais veiksmes stāsts galu galā kļuva par apgrūtinājumu. Laika gaitā pētnieki atklāja divus svarīgus ierobežojumus, kas Google gripas tendences padara mazāk iespaidīgu nekā sākotnēji parādījās. Pirmkārt, Google gripas izplatīšanās tendences faktiski nebija daudz labākas nekā vienkāršā modeļa, kurā novērtēts gripas daudzums, balstoties uz lineāru ekstrapolāciju no diviem jaunākajiem gripas izplatības mērījumiem (Goel et al. 2010) . Un dažu laika periodu laikā Google gripas tendences patiesībā bija sliktākas nekā šī vienkāršā pieeja (Lazer et al. 2014) . Citiem vārdiem sakot, Google Flu Trends ar visiem saviem datiem, mašīntulkošanu un jaudīgu datoru nav ievērojami pārspējis vienkāršu un vieglāk saprotamu heiristu. Tas liek domāt, ka, novērtējot jebkuru prognozi vai tūlītēju prognozi, ir svarīgi salīdzināt to ar bāzes līniju.

Otrais svarīgais brīdinājums par Google Flu tendencēm ir tas, ka tā spēja prognozēt CDC gripas datus bija saistīta ar īslaicīgu neveiksmi un ilgstošu sabrukšanu, jo tā radīja dreifu un algoritmisko sajukumu . Piemēram, 2009. gada cūku gripas uzliesmojuma laikā Google gripas tendences ievērojami pārspīlēja gripas daudzumu, iespējams, tāpēc, ka cilvēki mēdz mainīt savu meklēšanas darbību, reaģējot uz plaši izplatītām bailēm no globālās pandēmijas (Cook et al. 2011; Olson et al. 2013) . Papildus šīm īstermiņa problēmām veiktspēja pakāpeniski izzudīs laika gaitā. Šīs ilgstošās noplūdes iemeslu noteikšana ir sarežģīta, jo Google meklēšanas algoritmi ir patentēti, taču šķiet, ka 2011. gadā Google sāka piedāvāt saistītus meklēšanas vienumus, kad cilvēki meklē gripas simptomus, piemēram, "drudzis" un "klepus" (tas arī šķiet, ka šī funkcija vairs nav aktīva). Šīs funkcijas pievienošana ir pilnīgi saprātīga lieta, ja jūs izmantojat meklētājprogrammu, taču šīs algoritmiskās izmaiņas radīja vairāk ar veselību saistītu meklēšanas vaicājumu, kas izraisīja Google gripas tendences, lai pārspīlētu gripas izplatību (Lazer et al. 2014) .

Šie divi iebildumi sarežģī nākotnes centienus nākotnē, bet tie viņus neapgraiza. Patiesībā, izmantojot rūpīgākas metodes, Lazer et al. (2014) un Yang, Santillana, and Kou (2015) spēja izvairīties no šīm divām problēmām. Turpmāk es ceru, ka tagadnes pētījumi, kuros apvienoti lielie datu avoti ar pētnieku apkopotiem datiem, ļaus uzņēmumiem un valdībām izveidot savlaicīgākas un precīzākas aplēses, būtiski paātrinot jebkuru mērījumu, kas laika gaitā tiek veikts atkārtoti, ar zināmu kavēšanos. Tiešsaistes progresīvie projekti, piemēram, Google gripas tendences, arī parāda, kas var notikt, ja lielie datu avoti tiek apvienoti ar tradicionālajiem datiem, kas tika izveidoti pētījumu nolūkos. Domājot par 1. nodaļas mākslas analoģiju, tagadnešana var apvienot Duchamp stila gatavošanas darbus ar Mikelandželo stila custommades, lai nodrošinātu lēmumu pieņēmējiem savlaicīgākus un precīzākus pašreizējā mērījumus un tuvākajā nākotnē paredzamās prognozes.