2.4.2 aurreikuspena eta nowcasting

Etorkizuna aurreikustea zaila da, baina gaur aurreikustea errazagoa da.

Bigarren estrategia nagusiak ikertzaileek behatzeko datuekin erabil ditzake aurreikuspenak . Etorkizunari buruzko asmakizunak oso zaila da, eta, agian, horregatik, aurreikuspena ez da gaur egun ikerketa sozialaren zati handi bat (demografia, ekonomia, epidemiologia eta zientzia politikoko zati txiki eta garrantzitsu bat den arren). Hemen, ordea, aurreikuspen izeneko nowcasting -a epe "orain" konbinatuz eta "aurreikuspena". Baino etorkizuna iragartzeko eratorritako mota berezi bat ardatz nuke, ideiak erabili egungo egoera neurtzeko aurreikuspen batetik saiakerak nowcasting mundua; "gaur iragartzeko" (Choi and Varian 2012) saiakera egiten saiatzen da. Nowcastingek mundu osoko neurri egokiak eta zehatzak behar dituzten gobernuek eta enpresek bereziki baliagarria izan dezakete.

Neurketa puntuala eta zehatza beharra daukan ezarpena oso argia da epidemiologia. Gripearen kasuan ("gripea") aztertzea. Urtero, sasoiko gripearen epidemiak milioika gaixotasun eta mundu osoko ehunka milaka heriotza eragiten ditu. Gainera, urtero, badago aukera bat, milioika hiltzeko milioika eragin litekeen gripearen forma berria. 1918ko gripearen ondorioz, adibidez, 50 eta 100 milioi pertsona hil dira (Morens and Fauci 2007) . Izan ere, gripearen birusak erantzuteko eta potentzialki erantzuteko beharra dago, mundu osoko gobernuek gripearen kontrol sistemak sortu dituzte. Adibidez, Gaixotasunen Kontrolerako eta Prebentziorako Estatu Batuetako Zentroak aldizka eta sistematikoki biltzen dituzte herrialde osoan arretaz hautatutako medikuei buruzko informazioa. Sistema honek kalitatezko datuak sortzen dituen arren, txostenak lagin bat du. Hori dela eta, medikuek garbitu, prozesatu eta argitaratu ditzaten datuak jasotzen dituen denbora dela eta, CDC sistemak zenbat gripea izan zen bi aste iraun zuen. Baina, epidemia berri bat maneiatzean, osasun publikoko arduradunek ez dute bi aste inguru behar izan den gripearen berri jakiteko; zenbat gripe dagoen oraintxe jakin nahi dute.

Aldi berean, CDCk gripearen jarraipena egiteko datuak biltzen dituela, Google-k gripearen prebalentzia buruzko datuak ere biltzen ditu, nahiz eta modu nahiko bestelakoan. Mundu osoko jendea etengabe Google-ri kontsultak bidaltzen ari dira eta kontsultak horietako batzuk, hala nola "gripearen erremedioak" eta "gripearen sintomak" bezalakoak, adierazten du kontsulta egiten duen pertsonak gripeak dituela. Hala eta guztiz ere, gripearen prebalentzia kalkulatzeko bilaketa-kontsulta horiek erabiltzea zaila da: ez du gripeak eragindako gripeak eragiten duen gripearengatik, eta ez da gripearen inguruko edozein gripearengatik.

Jeremy Ginsberg eta lankide-taldea (2009) , batzuk Google-n eta batzuk CDC-n, ideia garrantzitsu eta argia izan zuten bi datu-iturri horiek konbinatzeko. Gutxienez, alkimia estatistiko baten bidez, ikertzaileek CDC datu motel eta zehatzak biltzeko datu azkar eta zehaztugabea biltzen dute, gripearen prebalentzia neurtzeko modu azkar eta zehatza egiteko. Beste modu batera pentsatu behar da CDC datuen bizkortzea errazteko bilaketa datuak erabili dituztela.

Zehatzago esanda, 2003tik 2007ra bitarteko datuak erabiliz, Ginsbergek eta lankideek kalkulatu dute CDC datuen eraginaren prebalentzia eta bilaketa-bolumena 50 milioi epe bereizi direla. Prozesu horretatik abiatuta, datuak erabat zuzenduak eta mediku ezagutza espezializatua behar ez zutenez, ikertzaileek 45 CDC gripearen prebalentzia datuak aurreikusteko gehien izan zituzten aurkikuntza multzo bat aurkitu zuten. Ondoren, 2003-2007 datuetatik ikasi zituzten harremanak erabiliz, Ginsbergek eta lankideek ereduari probatu egin zuten 2007-2008 denboraldian. Beren prozedurak gaur egun erabilgarriak eta zehatzak izan litezkeela frogatu dute (2.6 irudia). Emaitza hauek Naturan argitaratu ziren eta prentsa estaldura adoragarria jaso zuten. Proiektu hau, Google Gripearen Joerak deitzen zena, mundu osora aldatzeko datu handien botereari buruz askotan errepikatzen zen.

Figure 2.6: Jeremy Ginsberg eta lankideek (2009) Google bilaketa datuekin konbinatuta CDC datuekin konbinatuta, Google Gripearen Joerak sortzeko, gaur eguneko gripearen gaixotasuna (ILI) kutsatzeko. Xehetasun honetan emaitzak Estatu Batuetako eskualde Atlantikoko erdialdera 2007-2008ko gripearen denboraldirako dira. Hasieran oso itxaropentsua izan bazen ere, Google Flu Trends-en errendimenduak denbora gehiago iraun zuen (Cook et al. 2011; Olson et al. 2013; Lazer et al., 2014). Ginsberg et al. Egokitutakoa. (2009), 3. irudia.

Figure 2.6: Jeremy Ginsberg eta lankideek (2009) Google bilaketa datuekin konbinatuta CDC datuekin konbinatuta, Google Gripearen Joerak sortzeko, gaur eguneko gripearen gaixotasuna (ILI) kutsatzeko. Xehetasun honetan emaitzak Estatu Batuetako eskualde Atlantikoko erdialdera 2007-2008ko gripearen denboraldirako dira. Hasieran oso itxaropentsua izan bazen ere, Google Flu Trends-en errendimenduak denbora gehiago iraun zuen (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Ginsberg et al. (2009) Egokitutakoa Ginsberg et al. (2009) , 3. irudia.

Hala eta guztiz ere, itxurazko arrakasta istorioa azkenean lotsa bihurtu zen. Denborak aurrera egin ahala, ikertzaileek bi muga garrantzitsu aurkitu zituzten, hasieran agertu baino Google Irrifain Trends gutxiago ikusgarriak. Lehenik eta behin, Google Gripearen Trends errendimendua ez zen benetan gripearen prebalentzia neurtzen duten bi neurketa berrietatik (Goel et al. 2010) estrapolazio linealean oinarritutako eredu sinple bat baino askoz hobea. Eta, aldi batzuetan, Google Gripearen joerak okerrago zeuden ikuspegi hori baino (Lazer et al. 2014) . Beste era batera esanda, Google Flu Trends datu guztiekin, makinaren ikaskuntza eta informatika indartsuak ez ziren nabarmen handitu heuristiken erraz eta errazago ulertzeko. Horrek iradokitzen du aurreikuspenen edo gaurkotzeen ebaluazioa egitean, garrantzitsua da oinarri-oinarri baten aurka konparatzea.

Google Gripearen Trends buruzko oharra garrantzitsua da CDC gripearen datuak aurreikusteko gaitasuna epe laburrean hutsegitea eta epe luzerako desintegrazio joera izan zen, drift eta nahasmena algoritmikoa delako. Esate baterako, 2009ko Gripearen Gripearen iraungipenean Google Gripearen Joerak nabarmen hobetu du gripearen zenbatekoa, seguruenik jendeak bilaketa-portaera aldatu egiten baitu pandemia global baten beldurra hedatu dela eta (Cook et al. 2011; Olson et al. 2013) . Epe laburrerako arazo horiez gain, errendimendu pixkanaka denboran zehar desintegratzen da. Epe luzerako desintegrazio honen arrazoiak diagnostikatzea zaila da Google-ren bilaketa-algoritmoak jabeduna delako, baina 2011n Google-k antzeko bilaketa-terminoak iradoki zituela dirudi, "sukarra" eta "eztul" bezalako gripearen sintomak bilatzen dituztelako (badirudi ere funtzio hau ez dago aktiboagoa). Ezaugarri hau gehitzea arrazoizkoa da bilatzailea egiten ari bazara, baina aldaketa algoritmiko honek osasunaren inguruko bilaketak sortzeko eragina izan du, Google Gripearen Joerak eragin handia izan baitu gripearen prebalentzia (Lazer et al. 2014) .

Bi oharkabe hauek etorkizuneko ahaleginak areagotu egiten dituzte, baina ez dute kalte egiten. Izan ere, metodo zehatzagoak erabiliz, Lazer et al. (2014) eta Yang, Santillana, and Kou (2015) bi arazo horiek saihesteko gai izan ziren. Aurrerantzean, ikertzaileek jasotako datuekin bat datozen datu-iturri handiak konbinatzen dituzten azterketa gaurkotuak enpresei eta gobernuei denbora gehiago eta zehatzagoak kalkulatzeko aukera emango diela espero dut. Nowcasting proiektuak, hala nola, Google Flu Trends-ek erakusten duten zer gertatuko den gerta daiteke datu-iturri handiak ikerketaren helburuetarako sortu ziren datu tradizionalak konbinatuz gero. Kapitulu 1aren analogiaz pentsatzen ari garenez, gaur egun, Duchamp estiloko readymades batera konbinatu ahal izango ditu Michelangelo estiloko geruzak, erabakiak hartzerakoan etorkizun hurbilean aurreikuspenen eta aurreikuspenen neurketa zehatzagoak eta zehatzagoak eskaintzeko.