3.6.2 विचाराधीन

बर्याच लोकांकडील मोठ्या डेटा स्रोतासह काही लोकांकडील सर्वेक्षण डेटा एकत्र करण्यासाठी पूर्वानुमान मॉडेल वापरून विचारण्यात आला.

सर्वे आणि मोठे डेटा स्त्रोत एकत्रित करण्याचा एक वेगळा मार्ग अशी प्रक्रिया आहे ज्याबद्दल मी बोललो जाईल मोठ्या प्रमाणावर डेटा स्त्रोत एकत्रित करण्यासाठी मोजमाप किंवा ग्रॅन्युलॅरिटीच्या अंदाजपत्रकास एकत्रित करण्यासाठी एक संशोधक विचाराधीन मॉडेलचा वापर करतो, जे डेटा स्त्रोताशी वैयक्तिकरित्या शक्य नसेल. जपानच्या ब्लूमनस्टॉकच्या कामावरून मोठ्या प्रमाणात विचारण्यात आलेला एक महत्वाचा उदाहरण म्हणजे गरीब देशांमधील विकास मार्गदर्शनासाठी डेटा गोळा करणे. भूतकाळात, या प्रकारचे डेटा गोळा करणारे संशोधक साधारणपणे दोन पैकी एक दृष्टिकोन घेतात: नमुना सर्वेक्षण किंवा सेन्सस नमुना सर्वेक्षणे, जेथे संशोधकांनी थोड्या लोकांना मुलाखत दिली, ते लवचिक, वेळेवर आणि तुलनेने स्वस्त असू शकतात. तथापि, या सर्वेक्षणे, कारण ते एका नमुन्यावर आधारलेले आहेत, बहुतेक त्यांच्या रिझोल्यूशनमध्ये मर्यादित असतात. नमुना सर्वेक्षणानुसार, विशिष्ट भौगोलिक प्रदेशांविषयी किंवा विशिष्ट डेमोग्राफिक गटांबद्दल अंदाज लावणे कठीण असते. दुसरीकडे, सर्वत्र मुलाखत घेण्याचा प्रयत्न करणे, आणि म्हणून ते लहान भौगोलिक प्रदेश किंवा डेमोग्राफिक गटांकरिता अनुमान काढण्यासाठी वापरले जाऊ शकतात. पण गणिताची किंमत सामान्यतः महाग असते, फोकसमध्ये अरुंद असते (ते फक्त काही प्रश्नांचा समावेश करतात) आणि वेळोवेळी नाही (ते दर 10 वर्षांनी (Kish 1979) ) (Kish 1979) . नमुना सर्वेक्षण किंवा सेन्सससह अडकल्याशिवाय, अशी कल्पना करा की संशोधकांनी दोन्ही उत्तम वैशिष्ट्ये एकत्रित करू शकतात. कल्पना करा जर संशोधक प्रत्येक प्रश्नासाठी दररोज प्रत्येक व्यक्तीला विचारू शकतील. अर्थात, हे सर्वव्यापी, नेहमीचे सर्वेक्षण हा एक प्रकारचा सामाजिक विज्ञान कल्पनेचा विषय आहे. पण असे दिसून येते की आपण बर्याच लोकांकडील डिजिटल ट्रेस असलेल्या सर्वेक्षणाचे प्रश्न एकत्रित करून हे अंदाजे सुरू करू शकता.

ब्ल्यूमनस्टॉकचे संशोधन सुरू झाले जेव्हा त्यांनी रवांडातील सर्वात मोठ्या मोबाइल फोन प्रदात्यासह भागीदारी केली आणि कंपनीने 2005 आणि 200 9 दरम्यान सुमारे 1.5 दशलक्ष ग्राहकांकडून निनावी हस्तांतरित व्यवहार प्रदान केले. या रेकॉर्डमध्ये प्रत्येक कॉल आणि मजकूर संदेश, जसे की प्रारंभ वेळ, कालावधी , आणि कॉलर आणि प्राप्तकर्त्याचे अंदाजे भौगोलिक स्थान. संख्याशास्त्रीय प्रश्नांबद्दल बोलण्यापूर्वी, हे लक्षात येते की हा पहिला टप्पा अनेक संशोधकांसाठी सर्वात कठीण असण्याची शक्यता आहे. मी अध्याय 2 मध्ये वर्णन केल्याप्रमाणे, सर्वात मोठा डेटा स्त्रोत संशोधकांकडे प्रवेश करण्यायोग्य आहे. विशेषतः टेलिफोन मेटा-डेटा विशेषत: प्रवेश करण्यायोग्य असल्याने तो निनावी करणे अशक्य आहे आणि त्यात जवळजवळ निश्चितपणे अशी माहिती समाविष्ट आहे जी सहभागींना संवेदनशील (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . या विशिष्ट बाबतीत, संशोधक डेटा संरक्षित करण्यासाठी सावध होते आणि त्यांच्या कामाची तृतीय पक्षाद्वारे देखरेख केली (म्हणजेच, त्यांच्या आयआरबी). मी अध्यायात सहाव्या अध्यायात या नैतिक मुद्द्यांकडे परत जाईन.

ब्लुमेनस्तॉकला संपत्ती आणि कल्याण मोजण्यात रूची होती. परंतु ही वैशिष्ट्ये कॉल रेकॉर्डमध्ये थेट नाहीत. दुस-या शब्दात, या संशोधनासाठी या नोंदी अपूर्ण आहेत-मोठा डेटा स्त्रोतांचा एक सामान्य वैशिष्ट्य जो प्र 2 प्रकर्यामध्ये तपशीलवार चर्चा करण्यात आला. तथापि, असे दिसते की कॉल रेकॉर्डमध्ये कदाचित काही माहिती असेल जी अप्रत्यक्षरित्या संपत्तीबद्दल आणि कल्याण ही शक्यता लक्षात घेऊन ब्लूमनस्टॉकने आपल्या फोन रेकॉर्डवर आधारित सर्वेक्षणाचा प्रतिसाद कसा देईल याचे अंदाज लावण्यासाठी मशीन शिकण्याचे मॉडेल प्रशिक्षित करणे शक्य आहे काय हे विचारले. जर हे शक्य असेल तर ब्लुमेनस्टॉक या मॉडेलचा वापर सर्व 15 लाख ग्राहकांच्या सर्वेक्षणाचे अंदाज सांगण्यासाठी करू शकेल.

अशा मॉडेलच्या उभारणीसाठी आणि प्रशिक्षित करण्यासाठी, किमुली इन्स्टिट्यूट ऑफ सायन्स अँड टेक्नॉलॉजीच्या ब्ल्यूमेंस्टॉक आणि रिसर्च सहाय्यकांनी सुमारे एक हजार ग्राहकांचे एक यादृच्छिक नमूने म्हटले आहे. संशोधकांनी या प्रकल्पाच्या उद्दिष्टांविषयी सहभागींना सांगितले, कॉल रेकॉर्डमध्ये सर्वेक्षणास प्रतिसाद जोडण्यासाठी त्यांच्या संमतीसाठी विचारले आणि नंतर त्यांची संपत्ती आणि कल्याण मोजण्यासाठी त्यांनी अनेक प्रश्नांची उत्तरे दिली, जसे की "आपल्या मालकीची रेडिओ? "आणि" आपल्याजवळ सायकल आहे का? "(आंशिक लिस्टसाठी आकृती 3.14 पहा). या सर्वेक्षणातील सर्व सहभागींना आर्थिकदृष्ट्या भरपाई देण्यात आली.

पुढील, ब्लूमनस्टॉकने मशीन शिक्षणात दोन-टप्प्यावरील प्रक्रियेचा उपयोग केला: वैशिष्ट्य अभियांत्रिकी नंतर पर्यवेक्षी शिक्षण प्रथम, वैशिष्ट्य इंजिनियरिंग चरणात, मुलाखत घेणार्या प्रत्येकासाठी, ब्लुमेनस्टॉकने कॉल रेकॉर्ड्स प्रत्येक व्यक्तिबद्दल वैशिष्ठ्यपूर्ण संचामध्ये रूपांतरित केले; डेटा शास्त्रज्ञ या वैशिष्ट्यांना "वैशिष्ट्ये" म्हणू शकतात आणि सामाजिक शास्त्रज्ञ त्यांना "वेरियेबल्स" म्हणतील. उदाहरणार्थ, प्रत्येक व्यक्तीसाठी, ब्लुमेंस्तॉकने क्रियाकलापांसह एकूण दिवसांची गणना केली, एका व्यक्तीच्या संपर्कात असलेल्या भिन्न व्यक्तींची संख्या एअरटाईमवर खर्च केलेले पैसे, इत्यादी. क्रिटिकली, चांगल्या सुविधा अभियांत्रिकीला संशोधन सेटिंगची आवश्यकता आहे. उदाहरणार्थ, जर घरगुती आणि आंतरराष्ट्रीय कॉल दरम्यान फरक करणे महत्वाचे आहे (आम्ही आंतरराष्ट्रीय पातळीवर धनवान म्हणून कॉल करणाऱ्यांची अपेक्षा करू शकू), तर हे वैशिष्ट्य अभियांत्रिकी चरणात केले पाहिजे. रवांडाची फारच कमी समज असणारा संशोधक हे वैशिष्ट्य समाविष्ट करू शकणार नाही, आणि नंतर मॉडेलचे पूर्वानुमानित कार्यप्रदर्शन प्रभावित होईल.

नंतर, पर्यवेक्षी शिकण्याच्या चरणात, ब्लुमेनस्तॉकने त्यांच्या वैशिष्ट्यांवर आधारीत प्रत्येक व्यक्तीसाठी सर्वेक्षणाचा अंदाज सांगण्यासाठी एक मॉडेल तयार केला. या प्रकरणात, ब्लुमेनस्टॉकने तर्कशुद्ध प्रतिगमन वापरले, परंतु तो इतर अनेक संख्याशास्त्रीय किंवा मशीन शिकण्याची पध्दती वापरली असती.

तर हे किती चांगले काम करते? ब्ल्यूमेंस्तॉक "रेडिओची मालकी आहे का?" आणि "आपल्याजवळ सायकल आहे का?" प्रश्नांच्या प्रश्नांची उत्तरे देण्यास सक्षम होते का? त्याच्या अंदाजशील मॉडेलच्या कामगिरीचे मूल्यमापन करण्यासाठी ब्लुमेंस्टॉकने क्रॉस-व्हॅलिडिशनचा वापर केला, सामान्यत: डेटा विज्ञान मध्ये वापरली जाणारी एक तंत्रिका पण क्वचितच सामाजिक विज्ञान मध्ये. क्रॉस-व्हॅलिडिशनचे लक्ष्य म्हणजे प्रशिक्षण देऊन आणि डेटाच्या विविध उपसंपत्तींवर परीक्षण करून मॉडेलचे पूर्वानुमानित कार्यक्षमतेचे योग्य मूल्यांकन करणे. विशेषतः, ब्लुमेनस्टॉकने आपला डेटा प्रत्येकी 100 लोकांच्या दहा भागांत विभागला. मग, त्यांनी आपल्या मॉडेलला प्रशिक्षण देण्यासाठी नऊ भागांचा वापर केला आणि उर्वरित चक्रावर प्रशिक्षित मॉडेलचे भविष्यसूचक प्रदर्शन केले गेले. त्यांनी ही पद्धत 10 वेळा पुनरावृत्ती केली - डेटाच्या प्रत्येक विभागात एका वळणाचा वैधता डेटा म्हणून-आणि परिणामांपेक्षा सरासरी.

काही गुणांकरिता अंदाजांची अचूकता अधिक होती (आकृती 3.14); उदाहरणार्थ, एखाद्या व्यक्तीची रेडिओ असल्यास त्याच्या ब्ल्यूमेनस्टॉकची 97.6% अचूकता सांगता येईल. हे प्रभावी ठरु शकते, परंतु सरळ पर्यायाने जटिल भाषणाची पद्धत तुलना करणे नेहमीच महत्त्वाचे असते. या प्रकरणात, एक साधी पर्याय असा अंदाज लावला जातो की प्रत्येकजण सर्वात सामान्य उत्तर देईल. उदाहरणार्थ 97.3% सर्वेक्षणात रेडिओचा मालक असल्याचा अहवाल दिला असता ब्लूमस्टॉकने असा अंदाज दिला होता की प्रत्येकजण रेडिओ धारक असल्याचा अहवाल त्याच्याजवळ 97.3% इतका अचूकता असेल, जो त्याच्या अधिक जटिल प्रक्रियेच्या (9 7,6% शुद्धता) कामगिरीच्या तुलनेत आश्चर्यकारक आहे. . दुसऱ्या शब्दांत, सर्व फॅन्सी डेटा आणि मॉडेलिंगमुळे भविष्यवाणीची अचूकता 97.3% वरुन 97.6% पर्यंत वाढली. तथापि, इतर प्रश्नांसाठी, जसे की "आपल्याजवळ सायकल आहे?", अंदाज 54.4% वरुन 67.6% वर सुधारले. अधिक सामान्यतः, 3.15 चे उदाहरण असे दर्शविते की काही गुणधर्म ब्लुमेनस्टॉकने फक्त साध्या आधाररेषेवर भविष्य वर्तविण्याव्यतिरिक्त बरेच काही केले नाही, परंतु इतर गुणधर्मांकरता काही सुधारणा होते. या परिणामांकडे पाहून, आपण कदाचित असा विचार करणार नाही की हा दृष्टिकोन विशेषतः आश्वासन देत आहे

आकृती 3.14: कॉल रेकॉर्डसह प्रशिक्षित केलेल्या स्टॅटिस्टिस्टिकल मॉडेलसाठी अंदाज अचूकता. ब्लूमनस्टॉक (2014), टेबल 2 मधील रुपांतर

आकृती 3.14: कॉल रेकॉर्डसह प्रशिक्षित केलेल्या स्टॅटिस्टिस्टिकल मॉडेलसाठी अंदाज अचूकता. Blumenstock (2014) , टेबल 2 मधील रुपांतर

आकृती 3.15: साध्या आधाररेषेत पूर्वानुमानानुसार कॉल रेकॉर्डसह प्रशिक्षित केलेल्या स्टॅटिस्टिकल मॉडेलसाठी अपेक्षित अचूकतेची तुलना. ओव्हरलॅप टाळण्यासाठी काही बिंदू थोडक्यात भरलेले असतात. ब्लूमनस्टॉक (2014), टेबल 2 मधील रुपांतर

आकृती 3.15: साध्या आधाररेषेत पूर्वानुमानानुसार कॉल रेकॉर्डसह प्रशिक्षित केलेल्या स्टॅटिस्टिकल मॉडेलसाठी अपेक्षित अचूकतेची तुलना. ओव्हरलॅप टाळण्यासाठी काही बिंदू थोडक्यात भरलेले असतात. Blumenstock (2014) , टेबल 2 मधील रुपांतर

तथापि, फक्त एक वर्षानंतर, ब्लुमेनस्टॉक आणि दोन सहकारी-गॅब्रियल कडामोरो आणि रॉबर्ट ऑन-यांनी विज्ञानाने कागदावर चांगले परिणाम (Blumenstock, Cadamuro, and On 2015) . या सुधारणेचे दोन मुख्य तांत्रिक कारण होते: (1) त्यांनी अधिक सुप्रसिद्ध पध्दती वापरल्या (म्हणजे, वैशिष्ट्यांसाठी अभिप्राय दर्शविण्याकरिता अभियांत्रिकीसाठी एक नवीन दृष्टीकोन आणि अधिक अत्याधुनिक मॉडेल) आणि (2) ऐवजी व्यक्तीला प्रतिसाद देण्यासाठी अनुमान लावण्याऐवजी सर्वेक्षणाचा प्रश्न (उदा., "आपल्याजवळ रेडिओ आहे का?"), त्यांनी संमिश्र संपत्ती निर्देशांकाची अनुमान काढण्याचा प्रयत्न केला. या तांत्रिक सुधारणांचा अर्थ असा होता की ते त्यांच्या नमुन्यामधील लोकांसाठी संपत्ती सांगण्याची कॉल रेकॉर्ड वापरण्याची उचित कारवाई करू शकतात.

नमुन्यातील लोकांमधील संपत्तीचा अंदाज लावण्यामागे संशोधनाचा अंतिम ध्येय नाही. लक्षात ठेवा की विकसनशील देशांमध्ये अचूक, उच्च-रिझोल्यूशनच्या गरीबीचे अनुमान निर्माण करण्यासाठी अंतिम लक्ष्य नमूना सर्वेक्षण आणि सेन्ससच्या काही सर्वोत्कृष्ट वैशिष्ट्यांना एकत्रित करणे होते. हे लक्ष्य साध्य करण्याच्या त्यांच्या क्षमतेचे मूल्यांकन करण्यासाठी, ब्लूमनस्टॉक आणि त्यांच्या सहकाऱ्यांनी आपल्या 15 लाख लोकांकडील संपत्तीचा अंदाज लावण्यासाठी त्यांचे मॉडेल आणि त्यांचे डेटा वापरला आहे. आणि त्यांनी प्रत्येक व्यक्तीच्या निवासस्थानाच्या अंदाजे जागेचा (आकृती 3.17) अंदाज लावण्यासाठी कॉल रेकॉर्डमध्ये एम्बेड केलेल्या भौगोलिक माहितीचा उपयोग केला (लक्षात ठेवा डेटामध्ये प्रत्येक कॉलकरिता जवळच्या सेल टॉवरचे स्थान समाविष्ट आहे). हे दोन अंदाज एकत्र ठेवून, ब्लूमनस्टॉक आणि त्यांच्या सहकाऱ्यांनी ग्राहकांच्या संपत्तीचे भौगोलिक वितरण अत्यंत दंड स्थानिक ग्रॅन्युलॅरिटीवर अंदाज लावले. उदाहरणार्थ, ते रवांडाच्या 2,148 सेल्समध्ये (देशातील सर्वात लहान प्रशासकीय एकक) सरासरी संपत्तीचा अंदाज लावू शकतात.

या अंदाजांनुसार या क्षेत्रातील गरिबीच्या वास्तविक पातळीवर किती चांगले जुळले? मी या प्रश्नाचे उत्तर देण्यापूर्वी, मी या गोष्टीवर जोर देऊ इच्छितो की संशयवादी होण्याचे अनेक कारणे आहेत. उदाहरणार्थ, वैयक्तिक पातळीवर अंदाज तयार करण्याची क्षमता खूपच गोंगाट करणारा होती (आकृती 3.17). आणि, कदाचित अधिक महत्त्वाचे म्हणजे, मोबाईल फोन असलेले लोक मोबाईल फोन शिवाय लोकांपासून पद्धतशीररित्या भिन्न असू शकतात. अशाप्रकारे, ब्ल्यूमनस्टॉक आणि त्यांच्या सहकर्म्यांना 1 9 36 साहित्यिक डाइजेस्ट सर्वेक्षणाचा पक्षपाती करणाऱ्या कव्हरेज त्रुटींच्या प्रकारामुळे त्रास होऊ शकतो जे मी आधी वर्णन केले होते.

त्यांच्या अनुमानांची गुणवत्ता जाणून घेण्यासाठी, ब्लूमनस्टॉक आणि सहकाऱ्यांनी त्यांच्याशी तुलना करणे आवश्यक आहे. सुदैवाने, त्यांच्या अभ्यासानुसार एकाच वेळी सुमारे, संशोधकांचा एक गट रवांडामध्ये अधिक पारंपारिक सामाजिक सर्वेक्षण चालवत होता. हे दुसरे सर्वेक्षण जे मोठ्या प्रमाणावर आदरणीय जनसांख्यिकीय आणि आरोग्य सर्वेक्षण कार्यक्रमाचा एक भाग होते-एक मोठे बजेट होते आणि उच्च दर्जाचे, पारंपारिक पद्धती वापरत होते. त्यामुळे जनसांख्यिकीय आणि आरोग्य सर्वेक्षणाचे अनुमान हे गोल्ड-स्टँडर्ड अंदाजे मानले जाऊ शकते. जेव्हा दोन अनुमानांची तुलना केली गेली, तेव्हा ते तशीच (आकृती 3.17) होते. दुसऱ्या शब्दांत, कॉल रेकॉर्डसह थोड्या प्रमाणात सर्वेक्षण डेटा एकत्र करून, ब्लूमनस्टॉक आणि सहकाऱ्यांनी सोने-मानक पध्दतींपेक्षा त्यांचे तुलना करणे अपेक्षित होते.

एक संशयवादी निराशा म्हणून हे परिणाम पाहू शकते अखेर, त्यांना पाहण्याचा एक मार्ग म्हणजे मोठ्या डेटा आणि मशीन शिकण्यांचा उपयोग करून, ब्लुमेंस्टॉक आणि त्यांचे सहकारी आधीपासून अस्तित्वात असलेल्या पद्धतींनी अधिक विश्वासार्ह बनवण्यासाठी अंदाज लावू शकले. परंतु मला असे वाटत नाही की हा अभ्यास दोन कारणांसाठी विचारण्याचा योग्य मार्ग आहे. प्रथम, ब्लुमेन्स्टॉक आणि त्यांच्या सहकाऱ्यांतील अंदाज सुमारे 10 पट वेगवान आणि 50 पट स्वस्त होते (जेव्हा खर्चाची चल परिवर्तनीय खर्चाच्या दृष्टीने मोजली जाते). मी या प्रकरणात पूर्वी तर्क केला म्हणून, संशोधक त्यांच्या संकटाचा खर्च दुर्लक्ष. या प्रकरणात, उदाहरणार्थ, खर्चातील नाट्यमय घडीचा अर्थ दर काही वर्ष चालविण्याऐवजी- डेमोग्राफिक आणि आरोग्य सर्वेक्षणासाठी मानक म्हणून-याचा अर्थ असा होतो - अशा प्रकारचा सर्वेक्षण प्रत्येक महिन्यात चालवला जाऊ शकतो, जे संशोधक आणि धोरणांकरिता असंख्य फायदे प्रदान करेल निर्मात्यांना. संशयास्पद विचार न घेण्याचा दुसरा पर्याय हा आहे की या अभ्यासात मूलभूत कृती आहे जी विविध संशोधन परिस्थितींमध्ये तयार केली जाऊ शकते. या कृतीमध्ये केवळ दोन घटक आणि दोन चरण आहेत. हे साहित्य (1) एक मोठा डेटा स्रोत आहे जो रुंद पण पातळ आहे (म्हणजे, त्यामध्ये अनेक लोक आहेत परंतु प्रत्येक व्यक्तीबद्दल आपल्याला आवश्यक ती माहिती नाही) आणि (2) एक सर्वेक्षण जे अरुंद परंतु जाड आहे (म्हणजेच, ते केवळ काही लोक, परंतु त्या लोकांविषयी माहिती असणे आवश्यक आहे). हे साहित्य नंतर दोन चरणांमध्ये एकत्र केले जाते. प्रथम, डेटा स्त्रोतांमधील लोकांसाठी, मशीन शिकण्याचे मॉडेल तयार करा जे सर्वेक्षणाचे उत्तर सांगण्यासाठी मोठे डेटा स्रोत वापरते पुढे, त्या मॉडेलचा वापर मोठ्या डेटा स्रोतातील प्रत्येकाच्या सर्वेक्षणाच्या उत्तरांवर करणे. अशा प्रकारे जर काही प्रश्न आपण पुष्कळ लोकांना विचारू इच्छित असाल, तर त्या लोकांचे अनुमान काढण्यासाठी वापरल्या जाऊ शकणार्या अशा लोकांकडून मोठा डेटा स्त्रोत शोधा, जरी आपण मोठ्या डेटा स्रोताची पर्वा करीत नाही तरीही . म्हणजेच, ब्लूमनस्टॉक आणि सहकाऱ्यांनी कॉल रेकॉर्डची प्रज्वलित काळजी घेतली नाही; ते फक्त कॉल रेकॉर्डबद्दलच काळजी घेत होते कारण त्यांच्यावरील सर्वेक्षणाचा अंदाज लावण्यासाठी ते वापरता येऊ शकतील. मोठ्या डेटा स्रोतामधील हा वैशिष्ट्यपूर्ण अप्रत्यक्ष रूची-बनवून एम्बेडेड विचारण्यापेक्षा वेगळे विचारणा करते, जे मी पूर्वी वर्णन केले होते.

आकृती 3.16: ब्लुमेन्स्टॉक, कॅडॅमुरो, आणि ऑन (2015) द्वारे अभ्यास अभ्यास. फोन कंपनीकडून कॉल रेकॉर्ड मॅट्रिक्समध्ये प्रत्येक व्यक्तीसाठी एक पंक्ति आणि प्रत्येक वैशिष्ट्यासाठी एक स्तंभ (अर्थात, व्हेरिएबल) रूपांतरित करण्यात आला. नंतर, संशोधकांनी व्यक्ति-दर-वैशिष्ट्य मॅट्रिक्सच्या सर्वेक्षण अभिप्रायांची अंदाज देण्यासाठी एक पर्यवेक्षी शिक्षण मॉडेल तयार केला. त्यानंतर 1.5 दशलक्ष ग्राहकांकडून सर्वेक्षण अभिप्रायावर नियंत्रण ठेवण्यासाठी पर्यवेक्षी शिक्षण मॉडेलचा वापर करण्यात आला. तसेच, संशोधकांनी त्यांच्या कॉलच्या स्थानांवर आधारित सर्व 15 लाख ग्राहकांसाठी निवासस्थानांची अंदाजे जागा असल्याचा अंदाज लावला. जेव्हा या दोन अंदाज-अंदाजे संपत्ती आणि निवासाची अंदाजे जागा एकत्रित केली गेली, तेव्हा परिणाम लोकसांख्यिकी आणि आरोग्य सर्वेक्षणातून प्राप्त झालेल्या अंदाजांप्रमाणेच होता, एक सुवर्ण मानक पारंपारिक सर्वेक्षण (आकृती 3.17).

आकृती 3.16: Blumenstock, Cadamuro, and On (2015) द्वारे अभ्यास अभ्यास. फोन कंपनीकडून कॉल रेकॉर्ड मॅट्रिक्समध्ये प्रत्येक व्यक्तीसाठी एक पंक्ति आणि प्रत्येक वैशिष्ट्यासाठी एक कॉलम म्हणून बदलले गेले (म्हणजे, चलन). नंतर, संशोधकांनी व्यक्ति-दर-वैशिष्ट्य मॅट्रिक्सच्या सर्वेक्षण अभिप्रायांची अंदाज देण्यासाठी एक पर्यवेक्षी शिक्षण मॉडेल तयार केला. त्यानंतर 1.5 दशलक्ष ग्राहकांकडून सर्वेक्षण अभिप्रायावर नियंत्रण ठेवण्यासाठी पर्यवेक्षी शिक्षण मॉडेलचा वापर करण्यात आला. तसेच, संशोधकांनी त्यांच्या कॉलच्या स्थानांवर आधारित सर्व 15 लाख ग्राहकांसाठी निवासस्थानांची अंदाजे जागा असल्याचा अंदाज लावला. जेव्हा या दोन अंदाज-अंदाजे संपत्ती आणि निवासाची अंदाजे जागा एकत्रित केली गेली, तेव्हा परिणाम लोकसांख्यिकी आणि आरोग्य सर्वेक्षणातून प्राप्त झालेल्या अंदाजांप्रमाणेच होता, एक सुवर्ण मानक पारंपारिक सर्वेक्षण (आकृती 3.17).

आकृती 3.17: ब्लूमनस्टॉक, कॅडॅमुरो, आणि ऑन (2015) मधील परिणाम. व्यक्तिगत पातळीवर, संशोधक एखाद्या व्यक्तीच्या संपत्तीचा त्यांच्या कॉल रेकॉर्डवरून अंदाज लावण्यामध्ये वाजवी काम करण्यास सक्षम होते. रवांडाच्या 30 जिल्ह्यांच्या जिल्हे-पातळीवरील संपत्तीचे अंदाज-संपत्ती आणि निवासाच्या जागी वैयक्तिक पातळीवर आधारित होते- हे डेमोग्राफिक आणि आरोग्य सर्वेक्षणाचे निष्कर्ष होते, एक सुवर्ण मानक पारंपारिक सर्वेक्षण. ब्लूमनस्टॉक, कॅडॅरो, आणि ऑन (2015), 1 ए आणि 3 सी चे आकडे

आकृती 3.17: Blumenstock, Cadamuro, and On (2015) . व्यक्तिगत पातळीवर, संशोधक एखाद्या व्यक्तीच्या संपत्तीचा त्यांच्या कॉल रेकॉर्डवरून अंदाज लावण्यामध्ये वाजवी काम करण्यास सक्षम होते. रवांडाच्या 30 जिल्ह्यांच्या जिल्हे-पातळीवरील संपत्तीचे अंदाज-संपत्ती आणि निवासाच्या जागी वैयक्तिक पातळीवर आधारित होते- हे डेमोग्राफिक आणि आरोग्य सर्वेक्षणाचे निष्कर्ष होते, एक सुवर्ण मानक पारंपारिक सर्वेक्षण. Blumenstock, Cadamuro, and On (2015) , 1 ए आणि 3 सी चे आकडे

शेवटी, ब्लूमनस्टॉकच्या सुविधेसाठी विचारले जाणारे एक मोठे डेटा स्त्रोत असलेल्या एकत्रित सर्वेक्षणाचा डेटा सुवर्ण-मानक सर्वेक्षणांमधील तज्ञांशी तुलना करून अंदाज तयार करणे. हे विशिष्ट उदाहरण देखील विस्तारपूर्वक विचारणे आणि पारंपारिक सर्वेक्षण पद्धतींमधील काही ट्रेड-ऑफ स्पष्ट करते. विस्तृत विचाराधीन अंदाज वेळेवर, अधिक स्वस्त, आणि अधिक बारीक होते. पण, दुसरीकडे, अशा प्रकारचे विस्तृत विचारण्यासाठी अद्याप एक मजबूत सैद्धांतिक आधार नाही. हे एकमेव उदाहरण जेव्हा हे दृष्टिकोन कार्य करेल आणि त्यास कधी येणार नाही तेव्हा दिसत नाही, आणि या दृष्टिकोनाचा वापर करणा-या संशोधकांना विशेषत: कोणाचा समावेश आहे - आणि जे त्यांच्या मोठ्या डेटा स्त्रोतामध्ये समाविष्ट नसलेल्या संभाव्य परीणामांबद्दल विशेषतः चिंतित असणे आवश्यक आहे. आणखी, विस्तृत विचारांच्या पध्दतीमध्ये अद्याप त्याच्या अंदाजाभोवती अनिश्चिततेचे मोजमाप करण्यासाठी चांगले मार्ग नाहीत. सुदैवाने विचारण्यात आले की आकडेवारीमध्ये लहान क्षेत्रीय अंदाज (Rao and Molina 2015) , दोष (Rubin 2004) , आणि मॉडेल-आधारित पोस्ट-स्टेराटिफिकेशन (जे स्वतः श्री. पी. मी यापूर्वी या प्रकरणात वर्णन केलेले पद्धत) (Little 1993) . या खोल कनेक्शनमुळे, मी अपेक्षा करतो की प्रगत भाषेच्या अनेक पध्दतीविषयक पाया लवकरच लवकरच सुधारीत होतील.

अखेरीस, ब्लुमेनस्टॉकची पहिली आणि दुसरी प्रयत्न तुलना करणे देखील डिजिटल-वय सामाजिक संशोधनाबद्दल एक महत्त्वपूर्ण धडा शिकवते: सुरुवातीस अंत नाही म्हणजेच बर्याचदा प्रथम दृष्टिकोन सर्वोत्तम होणार नाही, परंतु जर संशोधक काम करत असतील तर गोष्टी अधिक चांगले होऊ शकतात. सामान्यतः, डिजिटल युगात सामाजिक संशोधनास नवीन पध्दतींचे मूल्यांकन करताना, दोन वेगळे मूल्यांकन करणे महत्त्वाचे आहे: (1) हे कसे चांगले काम करते? आणि (2) डेटा लँडस्केप बदलते म्हणून भविष्यात हे कार्य कसे बदलते आणि संशोधक समस्या अधिक लक्ष समर्पित म्हणून? संशोधकांना प्रथम प्रकारचे मूल्यमापन करण्याचे प्रशिक्षण देण्यात आले असले तरी दुसरी गोष्ट बहुधा अधिक महत्वाची असते.