2.4.2 अंदाज आणि nowcasting

भविष्यात भाकीत कठीण आहे, पण सध्या भाकित सोपे आहे.

दुसरे मुख्य धोरण संशोधक निरीक्षणाचा डेटा वापरुन अंदाज लावू शकतात. भविष्यकाळात अंदाज घेणे कठीण आहे, आणि कदाचित त्या कारणास्तव, अंदाज सध्या सामाजिक संशोधनाचा एक मोठा भाग नाही (जरी तो लोकसंख्याशास्त्र, अर्थशास्त्र, रोगपरिस्थितिविज्ञान आणि राजकारणातील एक लहान आणि महत्त्वाचा भाग आहे). येथे, तथापि, मी "सध्या" आणि "अंदाज" एकत्रित करण्यापासून प्राप्त होणारी "आत्ता" आणि "अंदाज" एकत्रित होणारी "आत्ता" म्हणून ओळखले जाणाऱ्या एका विशिष्ट प्रकारचे अंदाज वर लक्ष केंद्रित करू इच्छितो. वर्तमान स्थितीचे मोजमाप करण्यासाठी अंदाज पासून कल्पना वापरण्याचे जगाचा; तो "सध्याचा अंदाज" (Choi and Varian 2012) करण्याचा प्रयत्न करतो सध्याच्या काळात जगाच्या समयोचित आणि अचूक उपायांसाठी आवश्यक असलेल्या सरकार आणि कंपन्यांना सध्या विशेषतः उपयुक्त ठरण्याची Nowcasting क्षमता आहे.

एक सेटिंग जेथे समयोचित आणि अचूक मोजमापची गरज अत्यंत स्पष्ट आहे एपिडेमिओलॉजी. इन्फ्लूएन्झा ("फ्लू") चे उदाहरण विचारात घ्या. प्रत्येक वर्षी, मोसमी इन्फ्लूएन्झा महादळात जगभरात लाखो आजार आणि लाखो मृत्यू होतात. शिवाय, प्रत्येक वर्षी इन्फ्लूएन्झाचा एक कादंबरीचा फॉर्म दिसू शकतो ज्यामुळे लाखो लोकांना मारता येईल. 1 9 18 मधील इन्फ्लूएन्झा फैलाव, उदाहरणार्थ, 50 ते 100 दशलक्ष लोक (Morens and Fauci 2007) यांच्यात मारले गेले आहे. इन्फ्लूएन्झा उद्रेकांना ट्रॅक करण्याची आणि संभाव्य प्रतिसाद देण्याची गरज असल्यामुळे, जगभरातील सरकारांनी इन्फ्लूएन्झा पाळत ठेवणे प्रणाली तयार केली आहे उदाहरणार्थ, अमेरिकेच्या रोग नियंत्रण आणि प्रतिबंध (सीडीसी) केंद्र नियमितपणे आणि पद्धतशीरपणे देशातील सुमारे काळजीपूर्वक निवडलेल्या डॉक्टरांकडून माहिती गोळा करतात. जरी ही प्रणाली उच्च-गुणवत्तेचा डेटा तयार करत असली तरी, त्याची एक अहवाल अंतर आहे. म्हणजेच डॉक्टरांनी डॉक्टरांकडून साफ ​​करणे, प्रक्रिया करणे आणि प्रकाशित केले जाणारे डेटा घेण्याकरता सीडीसी यंत्रणा दोन आठवड्यांपूर्वी किती प्रमाणात फ्लूचा अंदाज लावते परंतु, एका उदयोन्मुख रोगाची साथ हाताळतांना, सार्वजनिक आरोग्य अधिकारी दोन आठवड्यांपूर्वी किती इन्फ्लूएंझाले होते हे जाणून घेऊ इच्छित नाही; त्यांना हे जाणून घ्यायचे आहे की आत्ता तरी किती इन्फ्लूएंझा आहे.

सीडीसी इन्फ्लूएन्झाचा मागोवा घेण्यासाठी डेटा गोळा करीत आहे त्याचवेळी, Google इन्फ्लूएन्झा प्रमूलिबाबतही डेटा गोळा करीत आहे, जरी तो एका वेगळ्या स्वरूपात. जगभरातील लोक सतत Google ला प्रश्न पाठवत आहेत, आणि यापैकी काही क्वेरी - जसे "फ्लू रीमिडीज" आणि "फ्लूच्या लक्षणां" -संदर्भात सूचित करतात की ज्या व्यक्तीने क्वेरी बनविणारी व्यक्ती फ्लू आहे परंतु, फ्लू प्रसारांचा अंदाज घेण्याकरिता या शोध क्वेरींचा उपयोग करणे अवघड आहे: फ्लू असलेल्या प्रत्येकाने फ्लूशी संबंधित शोध केला नाही आणि प्रत्येक फ्लूशी संबंधित शोध फ्लूमुळे असणार्या कोणाचा नाही.

जेरेमी गिन्सबर्ग आणि सहकार्यांची एक टीम (2009) , काही गूगलमध्ये आणि काही सीडीसीमध्ये, या दोन डेटा स्त्रोतांना जोडण्यासाठी महत्वाची आणि चतुर कल्पना होती. साधारणपणे, संख्याशास्त्राच्या अल्मेमीद्वारे, संशोधकांनी जलद आणि अयोग्य शोध डेटामध्ये धीम व अचूक सीडीसी डेटा एकत्रित केला आहे ज्यामुळे इन्फ्लूएन्झा प्रथिनांच्या जलद आणि अचूक मापन होते. याबद्दल विचार करण्याचा आणखी एक मार्ग म्हणजे त्यांनी CDC डेटाची गती वाढविण्यासाठी शोध डेटाचा उपयोग केला.

विशेषतः, 2003 ते 2007 मधील डेटाचा वापर करून, गिन्सबर्ग आणि त्यांच्या सहकाऱ्यांनी अंदाज केला की सीडीसी डेटामधील इन्फ्लूएन्झाचा प्रसार आणि 50 दशलक्ष वेगवेगळ्या पदांसाठी शोध खंड यांच्यामधील संबंध. या प्रक्रियेतून, पूर्णपणे डाटा-चालित आणि विशेष वैद्यकीय ज्ञानाची आवश्यकता नसल्यामुळे, संशोधकांना 45 वेगवेगळ्या क्वेरींची एक संख्या आढळली जी सीडीसीच्या फ्लू प्रॅक्लालिस डेटाची सर्वात अंदाजपत्रक होती. नंतर 2003-2007 डेटावरून त्यांनी जे संबंध शोधले त्या वापरून, गिन्सबर्ग आणि सहकार्यांनी 2007-2008 इन्फ्लूएन्झा सीझन दरम्यान त्यांच्या मॉडेलचा तपास केला. त्यांना असे आढळले की त्यांच्या कार्यपद्धती खरंच उपयुक्त आणि अचूक आत्ता घडवू शकतात (आकृती 2.6). हे परिणाम निसर्गात प्रकाशित झाले आणि प्रेस कव्हरेज स्वीकारत प्राप्त झाले. हा प्रकल्प - ज्याला Google फ्लू ट्रेंड म्हणतात - जग बदलण्यासाठी मोठ्या डेटाच्या सामर्थ्याबद्दल बर्याचदा पुनरावृत्त बोधपर बनले.

आकृती 2.6: जेरेमी गिन्सबर्ग आणि सहकाऱ्यांनी (200 9) गुगल फ्लो ट्रेंड तयार करण्यासाठी सीडीसी डेटासह एकत्रित Google शोध डेटा, जो इन्फ्लूएन्झा-सारखी आजार (आयएलआय) दर लावू शकतो. या आकड्यात परिणाम 2007-2008 इन्फ्लूएन्झा सीझनमध्ये अमेरिकेच्या मध्य अटलांटिक प्रदेशात आहेत. सुरुवातीस खूप आशावादी असली तरी गुगल फ्लू ट्रेन्ड्सची कामगिरी बर्याच काळापासून खराब झाली (कुक एट अल. 2011; ओल्सन एट अल. 2013; लॅझर एट अल. 2014). गिन्सबर्ग एट अल कडून स्वीकारले (200 9), आकृती 3

आकृती 2.6: जेरेमी गिन्सबर्ग आणि सहकाऱ्यांनी (2009) गुगल फ्लो ट्रेंड तयार करण्यासाठी सीडीसी डेटासह एकत्रित Google डेटा शोधला जो इन्फ्लूएन्झा-सारखी आजार (आयएलआय) दर लावू शकतो. या आकड्यात परिणाम 2007-2008 इन्फ्लूएन्झा सीझनमध्ये अमेरिकेच्या मध्य अटलांटिक प्रदेशात आहेत. सुरुवातीस खूप आशावादी असली तरी गुगल फ्लू ट्रेन्ड्सची कामगिरी बर्याच काळापासून खराब झाली (Cook et al. 2011; Olson et al. 2013; Lazer et al. 2014) . Ginsberg et al. (2009) कडून स्वीकारले Ginsberg et al. (2009) , आकृती 3

तथापि, या उघड यश कथा शेवटी एक पेच मध्ये वळले. कालांतराने, संशोधकांनी दोन महत्वाची मर्यादा शोधली जी Google फ्लू प्रारंभीच्या तुलनेत कमी प्रभावी आहेत. प्रथम, फ्लू प्रॅक्विलान्स (Goel et al. 2010) च्या दोन अलिकडच्या मापदंडांवरून रेषीय एक्सट्रापोलेशनवर आधारित फ्लूच्या प्रमाणाचा अंदाज करणारा एक साधा मॉडेलच्या तुलनेत Google फ्लू ट्रेंडची कामगिरी प्रत्यक्षात जास्त चांगली नाही. आणि, काही काळापर्यंत, Google Flu Trends हे खरोखर या सोप्या पध्दतीपेक्षा अधिक वाईट होते (Lazer et al. 2014) . दुस-या शब्दात, Google फ्लू ट्रेन्डस् हे सर्व डेटा, मशीन शिकणे, आणि शक्तिशाली संगणनाने नाटकीय पद्धतीने एक सोपे आणि सोपे-समजण्यास संशोधक हे सुचविते की कोणत्याही पूर्वानुमान किंवा वर्तमानकाळाचे मूल्यांकन करताना, बेसलाइनच्या तुलनेत तुलना करणे महत्त्वाचे आहे.

Google फ्लू ट्रेन्ड्स बद्दलची दुसरी महत्त्वपूर्ण इशारा म्हणजे सीडीसी फ्लू डेटाची वर्तणूक करण्याची क्षमता झटपट आणि अल्गोरिदमिक गोंधळ यामुळे अल्पकालीन अपयशाला आणि दीर्घकालीन क्षय होण्याची शक्यता होती. उदाहरणार्थ, 200 9 च्या स्वाईन फ्लू प्रकोप दरम्यान, Google फ्लू ट्रेंड नाटकीयरित्या इन्फ्लूएन्झाच्या प्रमाणावर अवास्तव दर्शवित आहे, कारण बहुतेक लोक जागतिक महादारात (Cook et al. 2011; Olson et al. 2013) . या अल्पकालीन समस्या व्यतिरिक्त, कामगिरी हळूहळू वेळ प्रती decayed. या दीर्घकालीन क्षय कारणे निदान अवघड आहेत कारण Google शोध अल्गोरिदम स्वामित्व आहेत, परंतु 2011 मध्ये Google ने "बुवर" आणि "खोकला" सारख्या फ्लू संबंधी लक्षण शोधताना संबंधित शोध संज्ञा सुचण्यास सुरुवात केली असे दिसते हे वैशिष्ट्य यापुढे सक्रिय नाही) आपण एक शोध इंजिन चालवत असल्यास हे वैशिष्ट्य जोडणे पूर्णपणे वाजवी आहे, परंतु या अल्गोरिदमिक बदलामुळे अधिक आरोग्य संबंधित शोध निर्माण करण्याच्या परिणामी फ्लू प्रसार (Lazer et al. 2014) अधिक तीव्रतेने ठेवण्यासाठी Google फ्लू ट्रेन्ड बनविले होते.

हे दोन सावधान भविष्यातला आता सुरू असलेल्या प्रयत्नांना क्लिष्ट करते, परंतु ते त्यांना नशिब करत नाहीत. खरं तर, अधिक सावध पद्धती वापरून, Lazer et al. (2014) आणि Yang, Santillana, and Kou (2015) या दोन समस्या टाळण्यात सक्षम होते. पुढे जाऊन मी अपेक्षा करतो की अभ्यागतांनी एकत्रित केलेल्या डेटासह मोठे डेटा स्त्रोत एकत्रित करणार्या अभ्यासामुळे कंपन्यांना व सरकारांना वेळोवेळी आणि अधिक अचूक अंदाज तयार करणे शक्य होईल कारण काही अंतराने वारंवार केले जाणारे कोणतेही मोजमाप जलद गतीने चालते. गुगल फ्लू ट्रेन्डस्सारख्या आवर्तनात्मक प्रकल्प देखील हे देखील दर्शवितात की संशोधनाचे हेतूने तयार केलेल्या अधिक पारंपारिक डेटाशी मोठ्या डेटा स्रोत एकत्र केल्यास काय होऊ शकते. अध्याय 1 च्या आर्ट अॅलॉग्जचा विचार करून, आताच जवळच्या भविष्याविषयीच्या आणि भविष्यवाण्यांच्या वेळेनुसार आणि अधिक अचूक मोजमापांसह निर्णय घेणारे आणि मॅनहेलेजेलो-शैलीतील कस्टम मैड्ससह डचॅप-स्टाईल रेडीमेडे एकत्रित करण्याची क्षमता आता आहे.