2.4.2 Parashikimi dhe nowcasting

Parashikuar të ardhmen është e vështirë, por duke parashikuar të tashmen është më e lehtë.

Strategjia e dytë kryesore e përdorur nga studiues me të dhënat vëzhgimor është parashikuar. Parashikuar të ardhmen është tejet e vështirë, por ajo mund të jetë tepër e rëndësishme për vendim-marrësit, nëse ata punojnë në kompanitë apo qeveritë.

Kleinberg et al. (2015) ofron dy histori që sqarojnë rëndësinë e parashikimit për probleme të caktuara të politikës. Imagjinoni një krijues të politikave, unë do të thërrasë Anna saj, i cili po përballet me një thatësirë ​​dhe duhet të vendosë nëse do të punësojë një shaman për të bërë një valle shi për të rritur mundësinë e shiut. Një krijues i politikës, unë do të thërrasë atë Bob, duhet të vendosë nëse do të marrë një çadër për të punuar për të shmangur duke u lagur në rrugën shtëpi. Të dy Anna dhe Bob mund të bëjë një vendim më të mirë në qoftë se ata e kuptojnë moti, por ata duhet të dinë gjëra të ndryshme. Anna ka nevojë për të kuptuar nëse valle shi shkakton shi. Bob, nga ana tjetër, nuk ka nevojë për të kuptuar ndonjë gjë rreth shkakësisë; ai vetëm ka nevojë për një parashikim të saktë. Hulumtuesit sociale shpesh përqëndrohen në atë që Kleinberg et al. (2015) e quajnë "shi dance-si" problem-atyre politikave që fokusohen në shkakësisë-dhe injorojnë "ombrellë-like" probleme të politikave të cilat janë të fokusuara në parashikimin.

Do të doja të përqëndrohet, megjithatë, në një lloj të veçantë të parashikimit të quajtur nowcasting -a Termi rrjedh nga kombinimi i "tani" dhe "parashikimin." Në vend që të parashikuar të ardhmen, nowcasting përpjekjet për të parashikojnë të tashmen (Choi and Varian 2012) . Me fjalë të tjera, nowcasting përdor metoda të parashikimit për problemet e matjes. Si e tillë, ajo duhet të jetë veçanërisht e dobishme për qeveritë që kërkojnë marrjen e masave në kohë dhe të sakta për vendet e tyre. Nowcasting mund të ilustrohet më të qartë me shembullin e Google gripit Tendencat.

Paramendoni se ju jeni ndjeheni pak sipas motit kështu që ju shkruani "mjete të gripit" në një motor kërkimi, të marrë një faqe të lidhjeve në përgjigje, dhe pastaj ndiqni njërin prej tyre në një faqe të dobishme. Tani imagjinoni ky aktivitet po luhet nga perspektiva e motorit të kërkimeve. Çdo moment, miliona pyetje po vijnë nga e gjithë bota, dhe kjo rrymë e pyetje-çfarë Battelle (2006) e ka quajtur "baza e të dhënave e qëllimeve" - ofron një dritare përditësuar vazhdimisht në vetëdijen kolektive globale. Megjithatë, duke e kthyer këtë rrjedhë të informacionit në një matje të përhapjes së gripit është e vështirë. Thjesht duke numëruar deri numrin e pyetjeve për "mjetet e gripit" nuk mund të punojnë mirë. Jo çdo njeri që ka kërkimet gripit për mjetet e gripit dhe jo të gjithë që searchers për mjetet e gripit ka grip.

Mashtrim i rëndësishëm dhe i zgjuar prapa Google gripit Trendet ishte që të kthehet në një problem të matjes në një problem parashikimit. Qendra amerikane për Kontrollin dhe Parandalimin e Sëmundjeve (CDC) ka një sistem monitorimi gripit që mbledh informacion nga mjekët në të gjithë vendin. Megjithatë, një problem me këtë sistem CDC është se ka një vonesë raportimi dy javë; koha që i duhet për të dhënat që vijnë nga mjekët që të pastrohen, të përpunuara, dhe publikuar. Por, kur trajtimin e një epidemi në zhvillim, zyra e shëndetit publik nuk duan të dinë se sa gripi ishte dy javë më parë; ata duan të dinë se sa gripi nuk është e drejtë tani. Në fakt, në shumë burime të tjera tradicionale të dhënave sociale, ka boshllëqe në mes të valëve të mbledhjes së të dhënave dhe ngadalësi raportimit. Shumica e burimeve të mëdha të të dhënave, në anën tjetër, janë gjithmonë-në (Seksioni 2.3.1.2).

Prandaj, Jeremy Ginsberg dhe kolegët (2009) u përpoq për të parashikuar të dhënat gripit CDC nga të dhënat e kërkimit Google. Ky është një shembull i "parashikuar të tashmen", sepse hulumtuesit ishin duke u përpjekur për të matur se sa gripi ka tani duke parashikuar të dhënave në të ardhmen nga CDC, të dhëna në të ardhmen që është matëse të tashmen. Duke përdorur të mësuarit makinë, ata kërkuan nëpërmjet 50 milionë kushte të ndryshme të kërkimit për të parë se cilat janë më parashikuese e të dhënave të gripit CDC. Në fund të fundit, ata gjetën një grup prej 45 pyetjeve të ndryshme që duket të jetë më parashikuese, dhe rezultatet ishin mjaft të mirë, ata mund të përdorin të dhënat e kërkimit për të parashikuar të dhënat CDC. Bazuar pjesërisht në këtë letër, e cila u botua në natyrë, Google Trends gripit u bë një histori e përsëritur shpesh suksesi për fuqinë e të dhënave të mëdha.

Ka dy përjashtime të rëndësishme për këtë sukses të dukshëm, megjithatë, dhe të kuptuarit e këtyre paralajmërime do t'ju ndihmojë të vlerësojë dhe të bëjë parashikimin dhe nowcasting. Së pari, performanca e Google Trends gripit ishte në të vërtetë nuk është shumë më mirë se sa një model të thjeshtë që vlerëson sasinë e gripit të bazuar në një ekstrapolim lineare nga dy matjet më të fundit të mbizotërimit të gripit (Goel et al. 2010) . Dhe, me kalimin e disa afateve kohore Google Trends gripit ishte në fakt më e keqe se kjo qasje e thjeshtë (Lazer et al. 2014) . Me fjalë të tjera, Google Trends gripit me të gjitha të dhënat e saj, të mësuarit e makinës, dhe informatikë fuqishme nuk dramatike bëj më mirë një të thjeshtë dhe të lehtë për të kuptuar metodë deduktive. Kjo sugjeron se gjatë vlerësimit të ndonjë parashikim apo nowcast është e rëndësishme për të krahasuar kundër një bazë.

Paralajmërimi i dytë i rëndësishëm në lidhje me Google gripit Tendencat është se aftësia e tij për të parashikuar të dhënat e gripit CDC qenë të prirur për dështim afatshkurtër dhe prishja afatgjatë për shkak të domethënie dhe të ngatërruar algorithmic. Për shembull, gjatë vitit 2009 gripit shpërthimi Google gripit Trendet e dramatike mbi-vlerësuar sasinë e gripit, ndoshta për shkak se njerëzit kanë tendencë për të ndryshuar sjelljen e tyre e kërkimit në përgjigje të frikës së përhapur të një epidemi globale (Cook et al. 2011; Olson et al. 2013) . Përveç këtyre problemeve afatshkurtra, performanca kalbur gradualisht me kalimin e kohës. Diagnostifikimi arsyet për këtë shkatërrim afatgjatë janë të vështira për shkak të kërkimit algoritme Google janë të pronarit, por duket se në vitin 2011 Google ka bërë ndryshime që do të sugjerojnë kushtet që lidhen kërkimit kur njerëzit kërkoni për simptoma të tilla si "ethe" dhe "kollë" (ajo gjithashtu duket se ky funksion nuk është më aktiv). Duke shtuar këtë funksion është një gjë krejtësisht e arsyeshme të bëni nëse ju jeni drejtimin e një biznesi motor kërkimi, dhe kjo kishte efektin e gjenerimin e më shumë kërkimet e lidhura me shëndetin. Kjo ndoshta ishte një sukses për biznesin, por kjo shkaktoi Google gripit Trendet në mbi-vlerësim përhapjen e gripit (Lazer et al. 2014) .

Për fat të mirë, këto probleme me Google gripit Trendet janë ndreqshëm. Në fakt, duke përdorur metoda më e kujdesshme, Lazer et al. (2014) dhe Yang, Santillana, and Kou (2015) ishin në gjendje për të marrë rezultate më të mira. Duke shkuar përpara, unë pres që studimet nowcasting që kombinojnë të dhëna të mëdha me studiues mbledhur të dhëna-që kombinojnë materiale të gatshme Duchamp-style me Michaelangelo stilit Custommades-do të mundësojnë hartuesit e politikave për të prodhuar matjet më të shpejtë dhe më të saktë të së tashmes dhe parashikimet për të ardhmen.