2.4.2 პროგნოზირება და nowcasting

წინასწარმეტყველებდნენ მომავალს რთულია, მაგრამ ვარაუდობენ, რომ დღემდე არ არის ადვილი.

მეორე ძირითადი სტრატეგიის მკვლევარებს შეუძლიათ გამოიყენონ დაკვირვების მონაცემები პროგნოზირებაზე . მომავლის შესახებ წარმოდგენა გაცილებით ძნელია და, ალბათ, პროგნოზირება ამჟამად არ არის სოციალური კვლევის დიდი ნაწილი (თუმცა ეს არის დემოგრაფიის, ეკონომიკის, ეპიდემიოლოგიისა და პოლიტიკური მეცნიერების მცირე და მნიშვნელოვანი ნაწილი). აქ, თუმცა, მინდა განვიხილოთ სპეციალური ტიპის პროგნოზირება, რომელიც ახლა " გაცვლის " და "პროგნოზირების" კომბინირებისგან შედგება. იმის ნაცვლად, რომ მომავალი პროგნოზირება არ არის, მსოფლიოში; იგი ცდილობს "წარმოადგინოს დღემდე" (Choi and Varian 2012) . Nowcasting- ის პოტენციალი განსაკუთრებით სასარგებლოა მთავრობებისა და კომპანიებისთვის, რომლებიც საჭიროებენ მსოფლიოს დროულ და ზუსტ ზომებს.

ერთი გარემოება, სადაც დროული და ზუსტი გაზომვის აუცილებლობა ძალიან ნათელია, ეპიდემიოლოგიაა. განვიხილოთ გრიპის შემთხვევა ("გრიპის"). ყოველწლიურად, სეზონური გრიპის ეპიდემია იწვევს მილიონობით დაავადებას და ასიათასობით სიკვდილს მთელს მსოფლიოში. გარდა ამისა, ყოველ წელს, არსებობს შესაძლებლობა, რომ გრიპის რომანის ფორმა გამოჩნდეს, რომელიც მილიონებს კლავს. მაგალითად, 1918-ის გრიპის დაავადება, დაახლოებით (Morens and Fauci 2007) მილიონ ადამიანს შორისაა (Morens and Fauci 2007) . იმის გამო, რომ საჭიროა ტრეფიკინგის გამოვლენა და პოტენციურად რეაგირება, მთელს მსოფლიოში მთავრობამ შექმნა გრიპის სათვალთვალო სისტემები. მაგალითად, აშშ-ის დაავადებათა კონტროლისა და პრევენციის ცენტრები (CDC) რეგულარულად და სისტემატურად აგროვებენ ინფორმაციას მთელი ქვეყნის მასშტაბით შერჩეული ექიმებისგან. მიუხედავად იმისა, რომ ეს სისტემა მაღალხარისხიან მონაცემებს აწარმოებს, მას საანგარიშო პერიოდი აქვს. ანუ დროთა განმავლობაში ექიმების დასვლით დასუფთავება, დამუშავება და გამოქვეყნება ხდება, CDC სისტემა ავრცელებს ინფორმაციას, თუ რამდენად გრიპის არსებობა ორი კვირის წინ იყო. მაგრამ, როცა განვითარებადი ეპიდემიის გატარებისას, ჯანდაცვის სახელმწიფო მოხელეებს არ სურთ, გაიგონ, რამდენად გრიპი იყო ორი კვირის წინ; მათ უნდათ იციან, რამდენად გრიპის არსებობა ახლავეა.

ამავე დროს, CDC აგროვებს მონაცემების შეგროვებას გრიპის, ასევე Google ასევე აგროვებს ინფორმაციას გრიპის გავრცელების შესახებ, თუმცა საკმაოდ განსხვავებული ფორმით. მთელს მსოფლიოში მუდმივად იგზავნება კითხვები Google- ზე და ზოგიერთ შეკითხვას, როგორიცაა "გრიპის მკურნალობა" და "გრიპის სიმპტომები" - მიუთითებს იმაზე, რომ ადამიანს კითხვის ნიშნის ქვეშ მყოფი გრიპი აქვს. მაგრამ ამ საძიებო შეკითხვების გამოყენება ფრინველის პრევალენტობის შეფასებისას სახიფათოა: ყველას, ვისაც აქვს გრიპის ტრაქტი, გრიპის საწინააღმდეგო ძებნისა და არა ყველა გრიპის საწინააღმდეგო ძიება, ვისაც აქვს გრიპი.

ჯერემი გინსბერგი და კოლეგთა გუნდი (2009) , ზოგი Google- ზე და ზოგიერთს CDC- ს ჰქონდა ამ ორი მონაცემთა წყაროების შერწყმის მნიშვნელოვანი და ჭკვიანი იდეა. დაახლოებით სტატისტიკური ალქიმიის მეშვეობით, მკვლევარებმა შეადგინეს სწრაფი და არასწორი ძებნა მონაცემები ნელი და ზუსტი CDC მონაცემებით, რათა წარმოედგინათ გრიპის გავრცელების სწრაფი და ზუსტი გაზომვები. კიდევ ერთი გზა ფიქრი არის ის, რომ ისინი იყენებენ ძიების მონაცემებს დააჩქარონ CDC მონაცემები.

უფრო კონკრეტულად, 2003 წლიდან 2007 წლამდე მონაცემებით, ჯინსბერგმა და კოლეგებმა შეაფასეს ურთიერთობების გავლენა CDC- ის მონაცემებსა და 50 მლნ. ამ პროცესში, რომელიც მთლიანად მონაცემთა ორიენტირებული იყო და სპეციალიზებულ სამედიცინო ცოდნას არ ითხოვდა, მკვლევარებმა აღმოაჩინეს 45 განსხვავებული შეკითხვა, რაც, როგორც ჩანს, CDC გრიპის გავრცელების გავრცელების მონაცემების ყველაზე პროგნოზირებად იყო. შემდეგ, 2007-2007 წლებში მიღებული ურთიერთობების გამოყენებით, ჯინსბერგმა და კოლეგებმა 2007-2008 წლების გრიპის სეზონზე მათი მოდელი დაასრულა. მათ აღმოაჩინეს, რომ მათი პროცედურები მართლაც სასარგებლო და ზუსტ მომენტებს შეძლებდა (ფიგურა 2.6). ეს შედეგები გამოქვეყნდა ბუნებაში და მიიღო პრესის გაშუქება. ეს პროექტი, რომელსაც Google Flu Trends ეწოდა, ხშირად განმეორებითი იგავი გახდა მსოფლიოს დიდი შეცვლის შესახებ.

დიაგრამა 2.6: ჯერემი გინსბერგი და კოლეგები (2009) კომბინირებული Google- ის ძებნის მონაცემები CDC- ს მონაცემებით Google Flu Trends- ის შექმნის მიზნით, რომელიც შეიძლება გავლენა იქონიოს გრიპის მსგავსი ავადმყოფობის მაჩვენებელზე (ILI). შედეგები ამ ფიგურაში არის შუა რიცხვებში ატლანტიკური რეგიონი ამერიკის შეერთებული შტატების 2007-2008 გრიპის სეზონი. მიუხედავად იმისა, რომ თავდაპირველად ძალიან პერსპექტიული იყო, Google Flu Trends- ის შესრულება დროთა განმავლობაში განადგურდა (კუკი და 2011, ოლზონი და 2013, ლაზერული და სხვ.). ადაპტირებული ჯინსბერგიდან და სხვები. (2009), ფიგურა 3.

დიაგრამა 2.6: ჯერემი გინსბერგი და კოლეგები (2009) კომბინირებული Google- ის ძებნის მონაცემები CDC- ს მონაცემებით Google Flu Trends- ის შექმნის მიზნით, რომელიც შეიძლება გავლენა იქონიოს გრიპის მსგავსი ავადმყოფობის მაჩვენებელზე (ILI). შედეგები ამ ფიგურაში არის შუა რიცხვებში ატლანტიკური რეგიონი ამერიკის შეერთებული შტატების 2007-2008 გრიპის სეზონი. მიუხედავად იმისა, რომ თავდაპირველად ძალიან პერსპექტიული იყო, Google Flu Trends- ის შესრულება დროთა განმავლობაში განადგურდა (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . ადაპტირებული Ginsberg et al. (2009) , ფიგურა 3.

თუმცა, ეს აშკარა წარმატებული ისტორია საბოლოოდ გადაიქცა უხერხულობაში. დროთა განმავლობაში მკვლევარებმა აღმოაჩინეს ორი მნიშვნელოვანი შეზღუდვა, რომლებიც Google Flu Trends- ის ნაკლებად შთამბეჭდავი აღმოჩნდა, ვიდრე თავდაპირველად გამოჩნდა. პირველ რიგში, Google Flu Trends- ის შესრულება პრაქტიკულად არ იყო უკეთესი, ვიდრე უბრალო მოდელი, რომელიც აფასებს გრიპის მოცულობას ფსკ-ის პრევალენტობის ორი ბოლო გაზომვისგან (Goel et al. 2010) ხაზოვანი ექსტრაპოლაციის საფუძველზე. და, გარკვეული პერიოდის განმავლობაში, Google Flu Trends იყო მართლაც უარესი ამ მარტივი მიდგომა (Lazer et al. 2014) . სხვა სიტყვებით რომ ვთქვათ, Google Flu Trends- ის ყველა მონაცემებით, მანქანათმცოდნეობასთან და მძლავრი გამოთვლითთან შედარებით არ გამოირჩევა მარტივი და ადვილად გასაგები ჰუმანური. ეს ვარაუდობს, რომ ნებისმიერი პროგნოზირების ან შეფასების შეფასებისას, მნიშვნელოვანია, რომ შევადაროთ საბაზისო.

მეორე მნიშვნელოვანი caveat შესახებ Google გრიპის ტენდენციები არის, რომ მისი უნარი პროგნოზირება CDC გრიპის მონაცემები მიდრეკილება მოკლევადიანი უკმარისობა და გრძელვადიანი decay გამო დრიფტი და ალგორითმული confounding. მაგალითად, 2009 წლის ღორის გრიპის გამოვლენისას Google გრიპის ტენდენციები მკვეთრად გადაჭარბებული აღმოჩნდა გრიპის ოდენობით, ალბათ, იმიტომ, რომ ადამიანები განაპირობებენ ძიების ქცევას გლობალური პანდემიის გავრცელების შიშით (Cook et al. 2011; Olson et al. 2013) . ამ მოკლევადიანი პრობლემების გარდა, შესრულება თანდათანობით შემცირდა. ამ გრძელვადიანი განადგურების მიზეზების დიაგნოსტიკა ძნელია, რადგან Google ძიების ალგორითმები საკუთრებაა, მაგრამ როგორც ჩანს, 2011 წელს Google- მა დაიწყო წინადადებები დაკავშირებული საძიებო ტერმინებით, როდესაც ადამიანებს ეძებენ გრიპის სიმპტომები, როგორიცაა "ცხელება" და "ხველა" (როგორც ჩანს, ეს ფუნქცია აღარ არის აქტიური). ამ ფუნქციის დამატება სრულიად გონივრულია, თუ საძიებო სისტემებში ჩართულობთ, მაგრამ ამ ალგორითმული ცვლილებამ გამოიწვია უფრო ჯანმრთელობასთან დაკავშირებულ ძიებასთან დაკავშირებული პრობლემები, რამაც გამოიწვია Google Flu ტენდენციები გრიპის გავრცელების გადაჭარბებაზე (Lazer et al. 2014) .

ეს ორი გაჯანსაღება ართულებს მომავალ ძალისხმევას, მაგრამ ისინი არ აყენებენ მათ. სინამდვილეში, უფრო ფრთხილი მეთოდების გამოყენებით, Lazer et al. (2014) და Yang, Santillana, and Kou (2015) შეძლეს, რათა თავიდან ავიცილოთ ეს ორი პრობლემა. ველით, რომ დღევანდელი კვლევები, რომლებიც აერთიანებს მსხვილ მონაცემთა წყაროებს მკვლევარ-შეგროვებული მონაცემებით, საშუალებას მისცემს კომპანიებსა და მთავრობებს უფრო დროულად და უფრო ზუსტი შეფასებების შექმნა, რაც მნიშვნელოვნად გაზრდის რაიმე გაზომვას, რაც ხდება გარკვეული დროის გასვლის შემდეგ. Nowcasting- ის პროექტები, როგორიცაა Google Flu Trends, ასევე აჩვენებს, თუ რა შეიძლება მოხდეს, თუ დიდი მონაცემთა წყაროები შერწყმულია უფრო ტრადიციულ მონაცემებთან, რომლებიც შეიქმნა კვლევის მიზნებისთვის. ფიქრი 1-ის ხელოვნების ანალოგიის გათვალისწინებით, ახლახანს შედის დუჩამპის სტილის მკითხველების შერწყმის პოტენციალი, მიქელანჯელო-სტილის საცდელებით, რათა უზრუნველყონ გადაწყვეტილების მიმღები პირები უახლოეს მომავალში არსებული და წინასწარმეტყველების უფრო დროული და უფრო ზუსტი გაზომვით.