2.4.2 Parashikimi dhe nowcasting

Parashikuar të ardhmen është e vështirë, por duke parashikuar të tashmen është më e lehtë.

Hulumtuesit e dytë të strategjisë kryesore që mund të përdorin me të dhënat e vëzhgimit po parashikojnë . Bërja e supozimeve për të ardhmen është tejet e vështirë, dhe ndoshta për këtë arsye parashikimi nuk është aktualisht një pjesë e madhe e hulumtimeve sociale (megjithëse është një pjesë e vogël dhe e rëndësishme e demografisë, ekonomisë, epidemiologjisë dhe shkencave politike). Këtu, sidoqoftë, do të doja të përqendrohesha në një lloj të veçantë të parashikimit të quajtur oracasting - termi që rrjedh nga kombinimi i "tani" dhe "parashikimi". Në vend që të parashikojë të ardhmen, tanicasting përpiqet të përdorë idetë nga parashikimi për të matur gjendjen aktuale e botës; ajo përpiqet të "parashikojë të tashmen" (Choi and Varian 2012) . Nowcasting ka potencial të jetë veçanërisht e dobishme për qeveritë dhe kompanitë që kërkojnë masa në kohë dhe të sakta të botës.

Një mjedis ku nevoja për matje në kohë dhe të saktë është shumë e qartë është epidemiologjia. Konsideroni rastin e influencës ("gripit"). Çdo vit, epidemitë sezonale të gripit shkaktojnë miliona sëmundje dhe qindra mijëra vdekje në mbarë botën. Më tej, çdo vit, ekziston mundësia që një formë e re e gripit të shfaqet që do të vriste miliona njerëz. Për shembull, shpërthimi i influencës i vitit 1918 është vlerësuar të ketë vrarë 50 deri 100 milionë njerëz (Morens and Fauci 2007) . Për shkak të nevojës për të ndjekur dhe potencialisht reagimin ndaj shpërthimeve të influencës, qeveritë në mbarë botën kanë krijuar sisteme të mbikëqyrjes së gripit. Për shembull, Qendrat e SHBA për Kontrollin dhe Parandalimin e Sëmundjeve (CDC) rregullisht dhe sistematikisht mbledhin informacion nga mjekët e përzgjedhur me kujdes në të gjithë vendin. Megjithëse ky sistem prodhon të dhëna me cilësi të lartë, ajo ka një vonesë raportimi. Kjo është, për shkak të kohës që duhet për të dhënat që mbërrijnë nga mjekët për t'u pastruar, përpunuar dhe publikuar, sistemi CDC lëshon vlerësime se sa grip ka pasur dy javë më parë. Por, kur merren me një epidemi në zhvillim, zyrtarët e shëndetësisë publike nuk duan të dinë se sa grip ka pasur dy javë më parë; ata duan të dinë se sa grip ka tani.

Në të njëjtën kohë kur CDC po grumbullon të dhëna për të përcjellë gripin, Google po mbledh gjithashtu të dhëna për prevalencën e influencës, edhe pse në një formë mjaft të ndryshme. Njerëzit nga e gjithë bota vazhdimisht dërgojnë pyetje te Google, dhe disa nga këto pyetje, të tilla si "mjetet juridike të gripit" dhe "simptomat e gripit", mund të tregojnë se personi që bën pyetjen ka gripin. Por, përdorimi i këtyre pyetjeve të kërkimit për të vlerësuar prevalencën e gripit është e ndërlikuar: jo të gjithë ata që kanë gripin bëjnë një kërkim lidhur me gripin dhe jo çdo kërkimi që lidhet me gripin është nga dikush që ka gripin.

Jeremy Ginsberg dhe një ekip kolegësh (2009) , disa në Google dhe disa në CDC, kishin idenë e rëndësishme dhe të zgjuar për të kombinuar këto dy burime të të dhënave. Përmes një lloj alkimi statistikore, hulumtuesit kombinuan të dhënat e kërkimit të shpejtë dhe të pasaktë me të dhënat e ngadalta dhe të sakta të CDC me qëllim që të prodhonin matje të shpejta dhe të sakta të prevalencës së influencës. Një tjetër mënyrë për të menduar për këtë është se ata kanë përdorur të dhënat e kërkimit për të përshpejtuar të dhënat e CDC.

Më konkretisht, duke përdorur të dhënat nga viti 2003 deri në vitin 2007, Ginsberg dhe kolegët vlerësuan marrëdhënien midis prevalencës së influencës në të dhënat e CDC dhe vëllimit të kërkimit për 50 milionë terma të ndryshëm. Nga ky proces, i cili ishte tërësisht i shtyrë nga të dhënat dhe nuk kërkonte njohuri të specializuara mjekësore, studiuesit gjetën një grup prej 45 pyetjesh të ndryshme që dukeshin më të parashikueshme për të dhënat e prevalencës së gripit CDC. Më pas, duke përdorur marrëdhëniet që ata mësuan nga të dhënat e 2003-2007, Ginsberg dhe kolegët testuan modelin e tyre gjatë sezonit të influencës 2007-2008. Ata gjetën se procedurat e tyre me të vërtetë mund të bënin shenja të dobishme dhe të sakta (figura 2.6). Këto rezultate u botuan në Natyrë dhe morën adhurimin e shtypit. Ky projekt, i cili u quajt "Trendet e gripit të Google", u bë një shëmbëlltyrë e përsëritur shpesh për fuqinë e të dhënave të mëdha për të ndryshuar botën.

Figura 2.6: Jeremy Ginsberg dhe kolegët (2009) kombinuan të dhënat e kërkimit të Google me të dhënat e CDC për të krijuar Trendet e Gripit të Google, të cilat mund të reflektojnë shkallën e sëmundjes së ngjashme me influencën (ILI). Rezultatet në këtë shifër janë për rajonin e Mesdheut Atlantik të Shteteve të Bashkuara në sezonin e influencës 2007-2008. Megjithëse fillimisht ishte shumë premtues, performanca e Google Trendet e gripit u kalbur me kalimin e kohës (Cook et al., 2011; Olson et al 2013; Lazer et al 2014). Përshtatur nga Ginsberg et al. (2009), figura 3.

Figura 2.6: Jeremy Ginsberg dhe kolegët (2009) kombinuan të dhënat e kërkimit të Google me të dhënat e CDC për të krijuar Trendet e Gripit të Google, të cilat mund të reflektojnë shkallën e sëmundjes së ngjashme me influencën (ILI). Rezultatet në këtë shifër janë për rajonin e Mesdheut Atlantik të Shteteve të Bashkuara në sezonin e influencës 2007-2008. Megjithëse fillimisht ishte shumë premtues, performanca e Google Trendet e gripit u kalbur me kalimin e kohës (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Përshtatur nga Ginsberg et al. (2009) , figura 3.

Megjithatë, kjo histori e suksesshme e suksesit u shndërrua në një siklet. Me kalimin e kohës, hulumtuesit zbuluan dy kufizime të rëndësishme që e bëjnë Google Trendet e gripit më pak mbresëlënës se sa u shfaq fillimisht. Së pari, performanca e Google Trendet e gripit nuk ishte në të vërtetë shumë më mirë se ajo e një modeli të thjeshtë që vlerëson sasinë e gripit bazuar në një ekstrapolim linear nga dy matjet më të fundit të prevalencës së gripit (Goel et al. 2010) . Dhe, gjatë disa periudhave kohore, Google Trendet e gripit ishte në fakt më e keqe se kjo qasje e thjeshtë (Lazer et al. 2014) . Me fjalë të tjera, Google Trendet e gripit me të gjitha të dhënat e tij, të mësuarit e makinës dhe kompjuterët e fuqishëm nuk e tejkalojnë dramatikisht një heuristik të thjeshtë dhe më të kuptueshëm. Kjo sugjeron që gjatë vlerësimit të çdo parashikimi ose të ardhurash, është e rëndësishme të krahasohet me një bazë.

Parashtrimi i dytë i rëndësishëm në lidhje me Trendet e Gripit të Google është se aftësia e tij për të parashikuar të dhënat e gripit të CDC ishte i prirur për dështimin afatshkurtër dhe prishjen afatgjatë për shkak të zhurmës së algoritmës dhe domethënies . Për shembull, gjatë shpërthimit të gripit të derrit 2009, Google Trendet e gripit në mënyrë dramatike e mbivlerësoi sasinë e gripit, ndoshta për shkak se njerëzit kanë tendencë të ndryshojnë sjelljen e tyre të kërkimit në përgjigje të frikës së përhapur nga një pandemi globale (Cook et al. 2011; Olson et al. 2013) . Përveç këtyre problemeve afatshkurtra, performanca gradualisht u kalua me kalimin e kohës. Diagnimi i arsyeve për këtë prishje afatgjatë është e vështirë, sepse algoritmet e kërkimit të Google janë të pronarit, por duket se në 2011 Google filloi të sugjeronte terma kërkimi të lidhur kur njerëzit kërkojnë për simptoma të gripit si "ethe" dhe "kollë" (gjithashtu duket se kjo veçori nuk është më aktive). Shtimi i kësaj karakteristike është një gjë krejtësisht e arsyeshme për të bërë nëse po drejton një motor kërkimi, por ky ndryshim algoritmik kishte efektin e gjenerimit të kërkimeve më të lidhura me shëndetin, gjë që shkaktoi Google Trendet e gripit për të mbivlerësuar prevalencën e gripit (Lazer et al. 2014) .

Këto dy paralajmërime komplikojnë përpjekjet e ardhshme të transmetimit, por nuk i dënojnë ata. Në fakt, duke përdorur metoda më të kujdesshme, Lazer et al. (2014) dhe Yang, Santillana, and Kou (2015) ishin në gjendje të shmangin këto dy probleme. Duke shkuar përpara, unë pres që studimet e transmetimit që kombinojnë burime të mëdha të të dhënave me të dhënat e mbledhura nga hulumtuesit, do t'u mundësojnë kompanive dhe qeverive të krijojnë vlerësime më të sakta dhe më të sakta, duke shpejtuar në masë të madhe çdo matje që përsëritet vazhdimisht me kalimin e kohës. Projektet e tilla si Google Trendet e gripit gjithashtu tregojnë se çfarë mund të ndodhë nëse burimet e mëdha të të dhënave kombinohen me të dhëna më tradicionale të krijuara për qëllime të hulumtimit. Duke u kthyer në analogjinë e artit të kapitullit 1, transmetimi ka potencialin për të kombinuar leximet e stilit të Duchamp-it me kujdestarët e stilit Michelangelo me qëllim që t'u japin vendimmarrësve masa më të sakta dhe më të sakta për të tashmen dhe parashikimet e së ardhmes së afërt.