2.4.2 Rhagfynegi a nowcasting

Mae rhagweld y dyfodol yn anodd, ond yn rhagweld y presennol yn haws.

Yr ail brif strategaeth a ddefnyddir gan ymchwilwyr gyda data arsylwadol yn rhagweld. Mae rhagweld y dyfodol yn hynod o anodd, ond gall fod yn hynod o bwysig ar gyfer rhai sy'n gwneud penderfyniadau, a ydynt yn gweithio mewn cwmnïau neu llywodraethau.

Kleinberg et al. (2015) yn cynnig dwy stori sy'n egluro pwysigrwydd rhagolygon ar gyfer problemau polisi penodol. Dychmygwch un gwneuthurwr polisi, 'n annhymerus' galw hi Anna, sy'n wynebu sychder a rhaid penderfynu a ddylid llogi siaman i wneud dawns law i gynyddu'r siawns o law. luniwr polisi arall, 'n annhymerus' alw ef Bob, rhaid penderfynu a ddylid cymryd ymbarél i weithio er mwyn osgoi gwlychu ar y ffordd adref. Gall y ddau Anna a Bob yn gwneud penderfyniad yn well os ydynt yn deall y tywydd, ond mae angen iddynt wybod pethau gwahanol. Mae angen Anna i ddeall a yw'r dawns glaw yn achosi glaw. Bob, ar y llaw arall, nid oes angen i ddeall unrhyw beth am achosiaeth; e jyst angen rhagolwg cywir. Ymchwilwyr cymdeithasol yn aml yn canolbwyntio ar yr hyn Kleinberg et al. (2015) yn galw "glaw dawns-fel" problemau-y rhai polisi sy'n canolbwyntio ar achosiaeth-ac anwybyddu problemau polisi "ymbarél-fel" sy'n canolbwyntio ar rhagolygon.

Hoffwn i ganolbwyntio, fodd bynnag, ar fath arbennig o ragweld nowcasting elwir -a term yn deillio o gyfuno "yn awr" a "rhagolygon." Yn hytrach na rhagweld y dyfodol, nowcasting ymdrechion i ragweld y presennol (Choi and Varian 2012) . Mewn geiriau eraill, nowcasting yn defnyddio dulliau darogan ar gyfer problemau o fesur. Fel y cyfryw, dylai fod yn arbennig o ddefnyddiol i lywodraethau sydd angen mesurau amserol a chywir am eu gwledydd. Gellir Nowcasting gael ei darlunio fwyaf glir gyda'r enghraifft o Dueddiadau Ffliw Google.

Dychmygwch eich bod yn teimlo braidd o dan y tywydd er mwyn i chi deipio "meddyginiaethau ffliw" i mewn i beiriant chwilio, derbyn dudalen o gysylltiadau yn ymateb, ac yna dilynwch un ohonynt i dudalen we defnyddiol. Nawr ddychmygu y gweithgaredd hwn yn cael ei chwarae allan oddi wrth y safbwynt y peiriant chwilio. Pob eiliad, mae miliynau o ymholiadau yn cael eu cyrraedd o gwmpas y byd, ac ffrwd yma o ymholiadau-beth Battelle (2006) wedi galw y "gronfa ddata o fwriadau" - yn darparu diweddaru'n gyson ffenestr i ymwybyddiaeth fyd-eang ar y cyd. Fodd bynnag, gan droi ffrwd hwn o wybodaeth i mewn i fesur nifer yr achosion o ffliw yn anodd. Yn syml gyfrif i fyny y nifer o ymholiadau ar gyfer "meddyginiaethau ffliw" Ni allai weithio'n dda. Ni fydd pawb sydd â'r chwiliadau ffliw ar gyfer meddyginiaethau ffliw ac nid yw pawb sy'n chwilwyr gyfer meddyginiaethau ffliw sydd â'r ffliw.

Y gamp pwysig a chlyfar tu ôl Tueddiadau Ffliw Google oedd troi problem mesur i mewn i broblem rhagweld. Mae'r Canolfannau Unol Daleithiau ar gyfer Rheoli ac Atal Clefydau (CDC) yn system fonitro ffliw sy'n casglu gwybodaeth gan feddygon ledled y wlad. Fodd bynnag, un broblem gyda hyn system DCC yn mae oedi adrodd dwy wythnos; yr amser mae'n ei gymryd ar gyfer y data sy'n cyrraedd o feddygon i gael eu glanhau, eu prosesu, a'u cyhoeddi. Ond, wrth drin epidemig sy'n dod i'r amlwg, swyddfeydd iechyd y cyhoedd ddim eisiau gwybod faint y ffliw oedd yno bythefnos yn ôl; maent am wybod faint o ffliw mae ar hyn o bryd. Yn wir, mewn llawer o ffynonellau traddodiadol eraill o ddata cymdeithasol, mae bylchau rhwng tonnau o gasglu data a oedi adrodd. Mae'r rhan fwyaf o ffynonellau data mawr, ar y llaw arall, bob amser-ar (Adran 2.3.1.2).

Felly, Jeremy Ginsberg a chydweithwyr (2009) wedi ceisio rhagweld y data ffliw DCC o'r data chwilio Google. Mae hyn yn enghraifft o "rhagweld y presennol" oherwydd yr ymchwilwyr yn ceisio mesur faint o ffliw mae yna nawr drwy ragweld data yn y dyfodol gan y DCC, data yn y dyfodol sy'n mesur y presennol. Ddefnyddio dysgu peiriant, maent yn chwilio drwy 50 miliwn termau chwilio gwahanol i weld pa rai sydd fwyaf rhagfynegol o'r data ffliw DCC. Yn y pen draw, maent yn dod o hyd i set o 45 o ymholiadau gwahanol a oedd yn ymddangos i fod yn fwyaf rhagfynegol, ac mae'r canlyniadau yn eithaf da: gallent ddefnyddio'r data chwilio i ragweld y data DCC. Yn seiliedig yn rhannol ar y papur hwn, a gyhoeddwyd yn Nature, daeth Tueddiadau Ffliw Google stori lwyddiant ailadrodd yn aml ynghylch pŵer y data mawr.

Mae dau gafeat pwysig hwn llwyddiant ymddangosiadol, fodd bynnag, a bydd deall cafeatau hyn yn eich helpu i werthuso a gwneud rhagolygon a nowcasting. Yn gyntaf, mae'r perfformiad o Dueddiadau Ffliw Google oedd mewn gwirionedd yn rhagori llawer model syml sy'n amcangyfrif faint o ffliw yn seiliedig ar allosodiad llinellol gan y ddau fesuriad diweddaraf o nifer yr achosion ffliw (Goel et al. 2010) . Ac, dros rai cyfnodau amser Google Ffliw Tueddiadau oedd mewn gwirionedd yn waeth na dull syml hwn (Lazer et al. 2014) . Mewn geiriau eraill, nid Tueddiadau Ffliw Google gyda'i holl ddata, dysgu peiriant, a chyfrifiadureg pwerus oedd yn perfformio'n well na syml ac yn haws yn ddramatig i ddeall hewristig. Mae hyn yn awgrymu bod wrth werthuso unrhyw ragolwg neu nowcast mae'n bwysig cymharu yn erbyn llinell sylfaen.

Mae'r ail cafeat pwysig am Tueddiadau Ffliw Google yw bod ei allu i ragweld y data ffliw DCC yn dueddol o fethiant tymor byr a phydredd y tymor hir oherwydd drifft a dryslyd algorithmig. Er enghraifft, yn ystod 2009 achosion o Ffliw Moch Tueddiadau Ffliw Google ddramatig dros-amcangyfrif y swm o ffliw, yn ôl pob tebyg oherwydd bod pobl yn tueddu i newid eu hymddygiad chwilio mewn ymateb i ofn eang o bandemig byd-eang (Cook et al. 2011; Olson et al. 2013) . Yn ychwanegol at broblemau tymor byr hyn, mae'r perfformiad wedi pydru yn raddol dros gyfnod o amser. Gwneud diagnosis y rhesymau am hyn pydredd yn y tymor hir yn anodd oherwydd bod y algorithmau chwilio Google yn berchnogol, ond mae'n ymddangos bod yn 2011 Google gwneud newidiadau a fyddai'n awgrymu termau chwilio cysylltiedig pan fydd pobl yn chwilio am symptomau tebyg "twymyn" a "peswch" (mae hefyd yn ymddangos yn nad yw'r nodwedd hon yn weithredol). Ychwanegu nodwedd hon yn beth hollol resymol i'w wneud os ydych yn rhedeg busnes peiriant chwilio, ac mae'n cael yr effaith o greu mwy o chwiliadau cysylltiedig ag iechyd. Roedd hyn yn ôl pob tebyg yn llwyddiant ar gyfer y busnes, ond achosodd Tueddiadau Ffliw Google i nifer yr achosion ffliw gor-amcangyfrif (Lazer et al. 2014) .

Yn ffodus, y problemau hyn gyda Tueddiadau Ffliw Google yn fixable. Yn wir, gan ddefnyddio dulliau mwy gofalus, Lazer et al. (2014) a Yang, Santillana, and Kou (2015) yn gallu cael canlyniadau gwell. Wrth symud ymlaen, yr wyf yn disgwyl bod astudiaethau nowcasting sy'n cyfuno data mawr gyda ymchwilydd casglu data-sy'n cyfuno Readymades Duchamp-steil gyda Michaelangelo-arddull Custommades-yn galluogi llunwyr polisi i gynhyrchu mesuriadau gyflymach ac yn fwy cywir y presennol a rhagolygon ar gyfer y dyfodol.