2.4.2 अंदाज आणि nowcasting

भविष्यात भाकीत कठीण आहे, पण सध्या भाकित सोपे आहे.

आकलनशक्तीच्या डेटा संशोधक द्वारे वापरले दुसऱ्या मुख्य धोरण अंदाज आहे. भविष्यात भाकीत अगदीच कठीण आहे, पण ते कंपन्या सरकार अथवा काम आहे किंवा नाही हे, निर्णय घेणारे विश्वास बसणार नाही इतका महत्वाचे आहे.

Kleinberg et al. (2015) काही धोरण समस्या अंदाज महत्त्व स्पष्टीकरण दोन कथा देते. कल्पना करा एक धोरण मेकर, मी एक दुष्काळसदृश आणि पावसाची शक्यता वाढ करण्याचा पाऊस नृत्य करू shaman भाड्याने किंवा नाही ते ठरवू आवश्यक आहे कोण तिच्या अण्णा, कॉल करू या. आणखी धोरण मेकर, मी त्याला बॉब कॉल घरी वर ओले मिळत टाळण्यासाठी काम एक छत्री घेणे हे ठरवणे आवश्यक करू. ते हवामान समजून तर अण्णा आणि बॉब दोन्ही एक चांगले निर्णय करू शकता, पण ते वेगवेगळ्या गोष्टी माहित असणे आवश्यक आहे. अण्णा पाऊस नृत्य पाऊस पडतो की नाही हे समजून घेणे आवश्यक आहे. बॉब, दुसरीकडे, कार्यकारणभाव बद्दल काहीही समजून घेणे आवश्यक नाही; तो फक्त एक अचूक अंदाज आवश्यक आहे. सामाजिक संशोधक वेळा काय लक्ष केंद्रित Kleinberg et al. (2015) "पाऊस नृत्य सारखी" धोरण समस्या त्या लक्ष केंद्रित कार्यकारणभाव आणि "छत्री सारखी" अंदाज लक्ष केंद्रित आहेत ते धोरण समस्या दुर्लक्ष कॉल.

सध्या मला अंदाज प्रयत्न nowcasting लक्ष केंद्रित मात्र म्हणाले, "आता" यात आणि साधित केलेली -a मुदत अंदाज म्हणतात nowcasting एक विशेष प्रकारची इच्छित "अंदाज." त्याऐवजी भविष्यात भाकीत पेक्षा, (Choi and Varian 2012) . दुसऱ्या शब्दांत, nowcasting मापन समस्या अंदाज पद्धती वापरते. जसे की, ते त्यांच्या देशांतील सुमारे वेळेवर आणि अचूक उपाय आवश्यक सरकार विशेषतः उपयोगी असणे आवश्यक आहे. Nowcasting म्हणून Google Flu Trends उदाहरण सर्वात स्पष्टपणे दिसून येईल.

त्यामुळे आपण "फ्लू उपाय हा" एक शोध इंजिन मध्ये टाइप आपण हवामान अंतर्गत थोडा वाटत आहे की कल्पना, प्रतिसाद दुवे पृष्ठ प्राप्त, आणि नंतर एक उपयुक्त वेबपेज त्यांना एक अनुसरण. आता या क्रियाकलाप शोध इंजिन दृष्टीकोनातून बाहेर खेळला जात कल्पना. प्रत्येक क्षण, चौकशी लाखो जगभरातील आगमन आहेत, आणि शंका-काय हा प्रवाह Battelle (2006) "हेतू डेटाबेस" म्हटले आहे - सामूहिक जागतिक देहभान मध्ये अद्ययावत विंडो उपलब्ध आहे. तथापि, फ्लू प्रभाव मोजमाप मध्ये ही माहिती प्रवाह बंद कठीण आहे. फक्त अप मोजणी "फ्लू उपाय हा" क्वेरी संख्या चांगले काम करू शकत नाही. प्रत्येक फ्लू उपाय फ्लू शोध आणि सगळ्यांनाच फ्लू उपाय शोध फ्लू आहे आहेत.

म्हणून Google Flu Trends मागे महत्वाचे आणि हुशार युक्ती एक अंदाज समस्या मध्ये एक मापन समस्या चालू होते. अमेरिकन रोग नियंत्रण आणि प्रतिबंध केंद्रे (CDC) देशातील सुमारे डॉक्टर माहिती गोळा एक इन्फ्लूएन्झा निरीक्षण प्रणाली आहे. तथापि, या CDC प्रणाली एक समस्या दोन आठवड्यात अहवाल अंतर आहे आहे; तो डॉक्टर आगमन डेटा वेळ साफ करणे, प्रक्रिया, आणि प्रकाशित. पण, एक उदयोन्मुख रोगाची साथ हाताळणी करताना, सार्वजनिक आरोग्य कार्यालये शीतज्वर किती होता ते दोन आठवडे पूर्वी जाणून घेऊ इच्छित नाही; तेथे सध्या आहे शीतज्वर किती जाणून घ्यायचे आहे. खरं तर, सामाजिक डेटा इतर अनेक पारंपारिक स्रोत, डेटा संकलन लाटा आणि अहवाल lags दरम्यान अंतर आहेत. मोठे डेटा स्रोत, दुसरीकडे, नेहमी चालू (विभाग 2.3.1.2) आहेत.

म्हणून, जेरेमी Ginsberg आणि सहकारी (2009) Google शोध डेटा पासून CDC फ्लू डेटा अंदाज करण्याचा प्रयत्न केला. या संशोधक फ्लू किती CDC, भविष्यात डेटा उपस्थित मोजण्यासाठी आहे की भविष्यातील डेटा भाकीत आता आहे मोजण्याचा प्रयत्न कारण "उपस्थित भाकीत" एक उदाहरण आहे. मशीन लर्निंग चा वापर करून, ते CDC फ्लू डेटा सर्वात सूचक आहेत पाहण्यासाठी 50 लाख वेगळ्या शोध संज्ञा शोधून. शेवटी, ते सर्वात सूचक वाटत होतं की 45 विविध क्वेरी एक संच आढळला, आणि परिणाम जोरदार चांगले होते ते CDC डेटा अंदाज शोध डेटा वापरू शकतो. निसर्ग मध्ये प्रकाशित झाले या कागद, भाग मध्ये आधारित आहे, म्हणून Google Flu Trends मोठे डेटा शक्ती बद्दल एक अनेक वेळा पुनरावृत्ती यश झाला.

तेथे तथापि, या उघड यश दोन महत्वाचे सावधानता आहेत, आणि या सावधानता समजून आपण मूल्यमापन मदत आणि अंदाज आणि nowcasting करू. प्रथम, Google Flu Trends कामगिरी प्रत्यक्षात दोन फ्लू प्रभाव सर्वात अलीकडील मोजमाप एक रेषेचा extrapolation आधारित फ्लू रक्कम अंदाज एक साधी मॉडेल पेक्षा जास्त चांगले होते (Goel et al. 2010) . आणि, काही कालावधीतील म्हणून Google Flu Trends हे सोपे दृष्टिकोन पेक्षा प्रत्यक्षात वाईट होते (Lazer et al. 2014) . दुसऱ्या शब्दांत, त्याचा सर्व डेटा, मशीन शिक्षण, आणि शक्तिशाली संगणकीय सह Google Flu Trends नाटकीय नवगामी समजून एक साधे आणि सोपे मागे टाकणार आहे नाही. हे कोणत्याही अंदाज मूल्यांकन किंवा nowcast तेव्हा तो एक मूलभूत विरुद्ध तुलना महत्वाचे आहे की सूचित.

म्हणून Google Flu Trends दुसरा महत्त्वाचा इशारा CDC फ्लू डेटा अंदाज त्याच्या क्षमता अल्पकालीन अपयश आणि कारण वाहून नेणे आणि अल्गोरिथमसंबंधी confounding दीर्घकालीन किडणे प्रवण होते आहे. उदाहरणार्थ, 2009 स्वाइन फ्लू उद्रेक म्हणून Google Flu Trends दरम्यान नाटकीय शीतज्वर रक्कम अंदाज, लोक एक जागतिक साथीच्या व्यापक भीती प्रतिसाद त्यांची शोध वर्तन बदलण्यासाठी कल कदाचित कारण (Cook et al. 2011; Olson et al. 2013) . या अल्पकालीन समस्या व्यतिरिक्त, कामगिरी, कालांतराने हळूहळू decayed. कारण Google शोध अल्गोरिदम मालकी या दीर्घकालीन किडणे कारणे निवारण कठीण आहे, पण तो 2011 मध्ये लोक "ताप" आणि "खोकला" सारखी लक्षणे शोध तेव्हा Google संबंधित शोध अटी सूचित बदल केले की (तो देखील वाटते दिसते हे वैशिष्ट्य यापुढे सक्रिय आहे की). हे वैशिष्ट्य जोडणे आपण एक शोध इंजिन व्यवसाय चालवत असाल करू पुर्णपणे वाजवी गोष्ट आहे, आणि ते अधिक आरोग्य शोध निर्मिती प्रभाव होता. कदाचित ही व्यवसायासाठी एक यशस्वी झाला, पण तो प्रती-अंदाज फ्लू प्रभाव म्हणून Google Flu Trends झाल्याने (Lazer et al. 2014) .

सुदैवाने, Google Flu Trends सह या समस्या निराकरण आहेत. खरं तर, अधिक काळजी घ्या पद्धतींचा वापर करून, Lazer et al. (2014) आणि Yang, Santillana, and Kou (2015) चांगले परिणाम प्राप्त करण्यासाठी सक्षम होते. पुढे जाऊन, मी संशोधक मोठे डेटा एकत्र करतो, nowcasting अभ्यास डेटा की मायकेल-शैली Duchamp-शैली Readymades एकत्र Custommades होईल उपस्थित वेगवान व अधिक अचूक मोजमाप आणि भविष्यात अंदाज निर्मिती धोरण निर्मात्यांना सक्षम गोळा, अशी अपेक्षा.