2.4.2 Rhagfynegi a nowcasting

Mae rhagweld y dyfodol yn anodd, ond yn rhagweld y presennol yn haws.

Gellir rhagweld yr ail brif ymchwilydd strategaeth gyda data arsylwadol. Mae gwneud dyfeisiau am y dyfodol yn hynod o anodd, ac efallai am y rheswm hwnnw, nid yw rhagolygon ar hyn o bryd yn rhan fawr o ymchwil gymdeithasol (er ei bod yn rhan fach a phwysig o ddemograffeg, economeg, epidemioleg a gwyddoniaeth wleidyddol). Yma, fodd bynnag, hoffwn ganolbwyntio ar fath arbennig o ragweld o'r enw nawr yn awr - y term sy'n deillio o gyfuno "yn awr" a "rhagweld." Yn hytrach na rhagweld y dyfodol, ymdrechion nawr i ddefnyddio syniadau rhag rhagweld i fesur y wladwriaeth gyfredol y byd; mae'n ceisio "rhagweld y presennol" (Choi and Varian 2012) . Mae gan Nowcasting y potensial i fod yn arbennig o ddefnyddiol i lywodraethau a chwmnïau sydd angen mesurau amserol a chywir y byd.

Un lleoliad lle mae'r angen am fesur amserol a chywir yn glir iawn yw epidemioleg. Ystyriwch achos ffliw ("y ffliw"). Bob blwyddyn, mae epidemigau ffliw tymhorol yn achosi miliynau o salwch a channoedd o filoedd o farwolaethau ledled y byd. Ymhellach, bob blwyddyn, mae posibilrwydd y gallai ffurf nofel o ffliw ddod i'r amlwg a fyddai'n lladd miliynau. Amcangyfrifir bod yr achosion o ffliw 1918, er enghraifft, wedi lladd rhwng 50 a 100 miliwn o bobl (Morens and Fauci 2007) . Oherwydd yr angen i olrhain ac o bosibl ymateb i achosion o'r ffliw, mae llywodraethau ledled y byd wedi creu systemau gwyliadwriaeth ffliw. Er enghraifft, mae Canolfannau UCH ar gyfer Rheoli Clefydau ac Atal (CDC) yn casglu gwybodaeth yn rheolaidd ac yn systematig gan feddygon a ddewiswyd yn ofalus ledled y wlad. Er bod y system hon yn cynhyrchu data o ansawdd uchel, mae ganddi lag adrodd. Hynny yw, oherwydd yr amser y mae'n ei gymryd i'r data sy'n dod o feddygon gael ei lanhau, ei brosesu a'i gyhoeddi, mae'r system CDC yn rhyddhau amcangyfrifon o faint o ffliw oedd pythefnos yn ôl. Ond, wrth drin epidemig sy'n dod i'r amlwg, nid yw swyddogion iechyd y cyhoedd am wybod faint o ffliw sydd yno pythefnos yn ôl; maent am wybod faint o ffliw sydd ar gael ar hyn o bryd.

Ar yr un pryd bod y CDC yn casglu data i olrhain y ffliw, mae Google hefyd yn casglu data am gyffredinrwydd y ffliw, er ei fod mewn ffurf eithaf gwahanol. Mae pobl o bob cwr o'r byd yn anfon ymholiadau i Google yn gyson, ac mae rhai o'r ymholiadau hyn - megis "meddyginiaethau ffliw" a "symptomau ffliw" - yn awgrymu bod gan y sawl sy'n gwneud yr ymholiad y ffliw. Ond, mae defnyddio'r ymholiadau chwilio hyn i amcangyfrif cyffredinrwydd ffliw yn anodd: nid yw pawb sydd â'r ffliw yn gwneud chwiliad sy'n gysylltiedig â ffliw, ac nid yw pob chwiliad sy'n gysylltiedig â ffliw yn dod o rywun sydd â'r ffliw.

Roedd gan Jeremy Ginsberg a thîm o gydweithwyr (2009) , rhai yn Google a rhai yn CDC, y syniad pwysig a chlir i gyfuno'r ddwy ffynhonnell ddata hyn. Ymhell, trwy fath o alchemi ystadegol, cyfunodd yr ymchwilwyr y data chwilio cyflym ac anghywir â'r data CDC araf a chywir er mwyn cynhyrchu mesuriadau cyflym a chywir o gyffredinrwydd y ffliw. Ffordd arall o feddwl amdano yw eu bod yn defnyddio'r data chwilio i gyflymu'r data CDC.

Yn fwy penodol, gan ddefnyddio data o 2003 i 2007, amcangyfrifodd Ginsberg a chydweithwyr y berthynas rhwng nifer y ffliw yn y data CDC a'r gyfrol chwilio am 50 miliwn o dermau gwahanol. O'r broses hon, a gwblhawyd gan ddata yn llwyr ac nad oedd angen gwybodaeth feddygol arbenigol arno, canfu yr ymchwilwyr set o 45 o ymholiadau gwahanol a oedd yn ymddangos yn rhagfynegol o ddata cyffredinol y ffliw CDC. Yna, gan ddefnyddio'r berthynas a ddysgwyd ganddynt o ddata 2003-2007, profodd Ginsberg a chydweithwyr eu model yn ystod tymor ffliw 2007-2008. Fe wnaethon nhw ganfod y gallai eu gweithdrefnau wir wneud darllediadau defnyddiol a chywir (ffigur 2.6). Cyhoeddwyd y canlyniadau hyn yn Natur ac fe dderbyniwyd sylw'r wasg adoring. Daeth y prosiect hwn - a elwir yn Google Flu Trends - yn ddameg a ailadrodd yn aml am bŵer data mawr i newid y byd.

Ffigwr 2.6: Jeremy Ginsberg a chydweithwyr (2009) cyfunwyd data chwiliad Google gyda data CDC i greu Google Flu Trends, a allai awrledu'r gyfradd salwch tebyg i ffliw (ILI). Mae'r canlyniadau yn y ffigur hwn ar gyfer rhanbarth canol yr Iwerydd yr Unol Daleithiau yn nhymor y ffliw 2007-2008. Er ei fod yn addawol iawn i ddechrau, roedd perfformiad Google Flu Trends wedi pydru dros amser (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014). Addaswyd o Ginsberg et al. (2009), ffigur 3.

Ffigwr 2.6: Jeremy Ginsberg a chydweithwyr (2009) cyfunwyd data chwiliad Google gyda data CDC i greu Google Flu Trends, a allai awrledu'r gyfradd salwch tebyg i ffliw (ILI). Mae'r canlyniadau yn y ffigur hwn ar gyfer rhanbarth canol yr Iwerydd yr Unol Daleithiau yn nhymor y ffliw 2007-2008. Er ei fod yn addawol iawn i ddechrau, roedd perfformiad Google Flu Trends wedi pydru dros amser (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Addaswyd o Ginsberg et al. (2009) , ffigur 3.

Fodd bynnag, fe wnaeth y stori lwyddiannus hon ymddangos yn gywilydd yn y pen draw. Dros amser, darganfu ymchwilwyr ddau gyfyngiad pwysig sy'n gwneud Google Flu Trends yn llai trawiadol nag y mae'n ymddangos i ddechrau. Yn gyntaf, nid oedd perfformiad Google Flu Trends mewn gwirionedd yn llawer gwell na model syml sy'n amcangyfrif faint o ffliw sydd wedi'i seilio ar allosodiad llinellol o'r ddau fesuriad diweddaraf o ran ffliw (Goel et al. 2010) . Ac, dros gyfnodau amser, roedd Google Flu Trends mewn gwirionedd yn waeth na'r dull syml hwn (Lazer et al. 2014) . Mewn geiriau eraill, nid oedd Google Flu Trends gyda'i holl ddata, dysgu peiriannau, a chyfrifiadura pwerus yn perfformio'n sylweddol yn heuristic syml a haws i'w ddeall. Mae hyn yn awgrymu, wrth werthuso unrhyw ragfynegiad neu nawr, mae'n bwysig cymharu yn erbyn llinell sylfaen.

Yr ail cafeat bwysig ynghylch Google Flu Trends yw bod ei allu i ragfynegi data ffliw CDC yn dueddol o fethiant tymor byr a pydredd tymor hir oherwydd dryswch drwg ac algorithmig . Er enghraifft, yn ystod achosion o Ffliw Moch 2009, roedd Google Flu Trends yn goramcangyfrif y ffliw yn ddramatig, mae'n debyg bod pobl yn tueddu i newid eu hymddygiad chwilio mewn ymateb i ofn eang pandemig byd-eang (Cook et al. 2011; Olson et al. 2013) . Yn ychwanegol at y problemau tymor byr hyn, mae'r perfformiad yn pydru'n raddol dros amser. Mae diagnosis y rhesymau dros y pydredd hirdymor hwn yn anodd oherwydd bod algorithmau chwilio Google yn berchnogol, ond mae'n ymddangos bod Google yn dechrau awgrymu termau chwilio cysylltiedig yn 2011 pan fydd pobl yn chwilio am symptomau'r ffliw fel "twymyn" a "peswch" (mae hefyd yn ymddangos bod nid yw'r nodwedd hon bellach yn weithgar). Mae ychwanegu'r nodwedd hon yn beth hollol resymol i'w wneud os ydych chi'n rhedeg peiriant chwilio, ond roedd y newid algorithmig hwn yn cael effaith cynhyrchu mwy o chwiliadau sy'n gysylltiedig ag iechyd a achosodd i Gyflyrau Ffliw Google i amcangyfrif cyffredinrwydd ffliw (Lazer et al. 2014) .

Mae'r ddau cafeatau hyn yn cymhlethu ymdrechion yn awr yn y dyfodol, ond nid ydynt yn eu hatal. Mewn gwirionedd, trwy ddefnyddio dulliau mwy gofalus, Lazer et al. (2014) a Yang, Santillana, and Kou (2015) yn gallu osgoi'r ddau broblem hyn. Wrth symud ymlaen, disgwyliaf y bydd astudiaethau sy'n awr yn cyfuno ffynonellau data mawr gyda data a gesglir gan ymchwilwyr yn galluogi cwmnļau a llywodraethau i greu amcangyfrifon mwy amserol a mwy cywir trwy gyflymu unrhyw fesur a wneir dro ar ôl tro dros amser gyda rhywfaint o lag. Mae prosiectau nowcasting megis Google Flu Trends hefyd yn dangos beth all ddigwydd os cyfunir ffynonellau data mawr gyda data mwy traddodiadol a grëwyd at ddibenion ymchwil. Gan feddwl yn ôl i'r cyfatebiad celf ym mhennod 1, mae gan nowcasting y potensial i gyfuno darluniau arddull Duchamp gyda custommades arddull Michelangelo er mwyn darparu mesuriadau mwy amserol a mwy cywir o'r presennol a rhagfynegiadau o'r dyfodol agos.