3.6.2 पूछना

कई लोगों से बड़े डेटा स्रोत वाले कुछ लोगों से सर्वेक्षण डेटा को गठबंधन करने के लिए पूर्वानुमानित मॉडल का उपयोग करने के लिए प्रवर्धित किया गया।

सर्वेक्षण और बड़े डेटा स्रोतों को गठबंधन करने का एक अलग तरीका एक ऐसी प्रक्रिया है जिसे मैं एम्पलीफाइड पूछता हूं। बढ़ी हुई पूछताछ में, एक शोधकर्ता एक बड़े पैमाने पर डेटा स्रोत के साथ सर्वेक्षण डेटा की एक छोटी राशि को गठबंधन करने के लिए एक अनुमानित मॉडल का उपयोग करता है ताकि एक पैमाने या ग्रैन्युलरिटी पर अनुमान उत्पन्न हो सके जो व्यक्तिगत रूप से डेटा स्रोत के साथ संभव नहीं होगा। एम्पलीफाइड पूछताछ का एक महत्वपूर्ण उदाहरण यहोशू ब्लूमेंस्टॉक के काम से आता है, जो आंकड़ों को इकट्ठा करना चाहता था जो गरीब देशों में विकास में मदद कर सके। अतीत में, इस तरह के डेटा एकत्र करने वाले शोधकर्ताओं को आम तौर पर दो दृष्टिकोणों में से एक लेना पड़ता था: नमूना सर्वेक्षण या सेंसस। नमूना सर्वेक्षण, जहां शोधकर्ता एक छोटी संख्या में लोगों से मुलाकात करते हैं, लचीला, समय पर और अपेक्षाकृत सस्ते हो सकते हैं। हालांकि, इन सर्वेक्षणों, क्योंकि वे नमूना पर आधारित हैं, अक्सर उनके संकल्प में सीमित होते हैं। नमूना सर्वेक्षण के साथ, विशिष्ट भौगोलिक क्षेत्रों या विशिष्ट जनसांख्यिकीय समूहों के लिए अनुमान बनाना मुश्किल होता है। दूसरी ओर, सेंसस, सभी को साक्षात्कार करने का प्रयास करते हैं, और इसलिए उनका उपयोग छोटे भौगोलिक क्षेत्रों या जनसांख्यिकीय समूहों के अनुमानों के उत्पादन के लिए किया जा सकता है। लेकिन सेंसस आम तौर पर महंगा होते हैं, फोकस में संकीर्ण होते हैं (उनमें केवल कुछ ही प्रश्न शामिल होते हैं), और समय पर नहीं (वे एक निश्चित शेड्यूल पर होते हैं, जैसे हर 10 साल) (Kish 1979) । नमूना सर्वेक्षण या सेंसस के साथ फंसने की बजाय, कल्पना करें कि क्या शोधकर्ता दोनों की सर्वोत्तम विशेषताओं को जोड़ सकते हैं। कल्पना करें कि क्या शोधकर्ता हर दिन हर व्यक्ति को हर सवाल पूछ सकते हैं। जाहिर है, यह सर्वव्यापी, हमेशा सर्वेक्षण पर एक तरह का सामाजिक विज्ञान काल्पनिक है। लेकिन ऐसा लगता है कि हम कई लोगों से डिजिटल निशान वाले लोगों की एक छोटी संख्या से सर्वेक्षण प्रश्नों के संयोजन से इसका अनुमान लगाना शुरू कर सकते हैं।

ब्लूमेंस्टॉक का शोध तब शुरू हुआ जब उन्होंने रवांडा में सबसे बड़े मोबाइल फोन प्रदाता के साथ साझेदारी की, और कंपनी ने 2005 और 200 9 के बीच लगभग 1.5 मिलियन ग्राहकों से अनामित लेनदेन रिकॉर्ड प्रदान किए। इन अभिलेखों में प्रत्येक कॉल और टेक्स्ट संदेश, जैसे प्रारंभ समय, अवधि के बारे में जानकारी शामिल थी , और कॉलर और रिसीवर का अनुमानित भौगोलिक स्थान। सांख्यिकीय मुद्दों के बारे में बात करने से पहले, यह इंगित करने लायक है कि यह पहला कदम कई शोधकर्ताओं के लिए सबसे कठिन हो सकता है। जैसा कि मैंने अध्याय 2 में वर्णित किया है, अधिकांश बड़े डेटा स्रोत शोधकर्ताओं के लिए पहुंच योग्य नहीं हैं। विशेष रूप से टेलीफोन मेटा-डेटा, विशेष रूप से पहुंच योग्य नहीं है क्योंकि यह मूल रूप से अनामिक रूप से असंभव है और इसमें लगभग निश्चित रूप से जानकारी होती है जो प्रतिभागी संवेदनशील (Mayer, Mutchler, and Mitchell 2016; Landau 2016) । इस विशेष मामले में, शोधकर्ता डेटा की रक्षा करने के लिए सावधान थे और उनके काम की निगरानी किसी तीसरे पक्ष (यानी, उनके आईआरबी) द्वारा की गई थी। मैं अध्याय 6 में इन नैतिक मुद्दों पर अधिक विस्तार से वापस आऊंगा।

ब्लूमेंस्टॉक धन और कल्याण को मापने में रूचि रखता था। लेकिन ये लक्षण सीधे कॉल रिकॉर्ड में नहीं हैं। दूसरे शब्दों में, ये कॉल रिकॉर्ड इस शोध के लिए अधूरे हैं- बड़े डेटा स्रोतों की एक आम विशेषता जिसे 2 अध्याय 2 में विस्तार से चर्चा की गई थी। हालांकि, ऐसा लगता है कि कॉल रिकॉर्ड में शायद कुछ जानकारी है जो अप्रत्यक्ष रूप से धन के बारे में जानकारी प्रदान कर सकती है और हाल चाल। इस संभावना को देखते हुए, ब्लूमेंस्टॉक ने पूछा कि क्या मशीन सीखने के मॉडल को प्रशिक्षित करना संभव था कि कोई व्यक्ति अपने कॉल रिकॉर्ड के आधार पर सर्वेक्षण का जवाब कैसे देगा। यदि यह संभव था, तो ब्लूमेंस्टॉक इस मॉडल का उपयोग सभी 1.5 मिलियन ग्राहकों के सर्वेक्षण प्रतिक्रियाओं की भविष्यवाणी करने के लिए कर सकता था।

ऐसे मॉडल बनाने और प्रशिक्षित करने के लिए, किगाली इंस्टीट्यूट ऑफ साइंस एंड टेक्नोलॉजी के ब्लूमेंस्टॉक और शोध सहायकों ने लगभग एक हजार ग्राहकों का यादृच्छिक नमूना कहा। शोधकर्ताओं ने प्रतिभागियों को परियोजना के लक्ष्यों की व्याख्या की, कॉल रिकॉर्ड में सर्वेक्षण प्रतिक्रियाओं को जोड़ने के लिए उनकी सहमति मांगी, और फिर उन्हें अपनी संपत्ति और कल्याण को मापने के लिए कई प्रश्न पूछे, जैसे कि "क्या आपके पास रेडियो? "और" क्या आपके पास साइकिल है? "(आंशिक सूची के लिए आकृति 3.14 देखें)। सर्वेक्षण में सभी प्रतिभागियों को आर्थिक रूप से मुआवजा दिया गया था।

इसके बाद, ब्लूमेंस्टॉक ने मशीन लर्निंग में दो-चरणीय प्रक्रिया का उपयोग किया: फीचर इंजीनियरिंग पर्यवेक्षित शिक्षा के बाद। सबसे पहले, फीचर इंजीनियरिंग चरण में, साक्षात्कार वाले सभी लोगों के लिए, ब्लूमेंस्टॉक ने कॉल रिकॉर्ड को प्रत्येक व्यक्ति के बारे में विशेषताओं के एक सेट में परिवर्तित कर दिया; डेटा वैज्ञानिक इन विशेषताओं को "विशेषताओं" कह सकते हैं और सामाजिक वैज्ञानिक उन्हें "चर" कहते हैं। उदाहरण के लिए, प्रत्येक व्यक्ति के लिए, ब्लूमेंस्टॉक ने गतिविधि के साथ दिनों की कुल संख्या की गणना की, एक व्यक्ति के संपर्क में रहने वाले विशिष्ट लोगों की संख्या, एयरटाइम पर खर्च की गई राशि, और इसी तरह। गंभीरता से, अच्छी सुविधा इंजीनियरिंग को शोध सेटिंग के ज्ञान की आवश्यकता होती है। उदाहरण के लिए, यदि घरेलू और अंतरराष्ट्रीय कॉल के बीच अंतर करना महत्वपूर्ण है (हम उन लोगों की अपेक्षा कर सकते हैं जो अंतरराष्ट्रीय स्तर पर अमीर होने के लिए कहते हैं), तो यह सुविधा इंजीनियरिंग चरण में किया जाना चाहिए। रवांडा की थोड़ी समझ के साथ एक शोधकर्ता में इस सुविधा को शामिल नहीं किया जा सकता है, और उसके बाद मॉडल का अनुमानित प्रदर्शन भुगतना होगा।

इसके बाद, पर्यवेक्षित सीखने के चरण में, ब्लूमेंस्टॉक ने प्रत्येक व्यक्ति के लिए अपनी प्रतिक्रिया के आधार पर सर्वेक्षण प्रतिक्रिया की भविष्यवाणी करने के लिए एक मॉडल बनाया। इस मामले में, ब्लूमेंस्टॉक ने लॉजिस्टिक रिग्रेशन का इस्तेमाल किया, लेकिन वह कई अन्य सांख्यिकीय या मशीन सीखने के दृष्टिकोण का इस्तेमाल कर सकता था।

तो यह कितनी अच्छी तरह से काम किया? क्या ब्लूमेंस्टॉक कॉल रिकॉर्ड से व्युत्पन्न सुविधाओं का उपयोग करते हुए "क्या आपके पास रेडियो है?" और "क्या आपके पास साइकिल है?" सर्वेक्षण प्रश्नों के उत्तर की भविष्यवाणी करने में सक्षम था? अपने भविष्यवाणी मॉडल के प्रदर्शन का मूल्यांकन करने के लिए, ब्लूमेंस्टॉक ने क्रॉस-सत्यापन का उपयोग किया, आमतौर पर डेटा विज्ञान में उपयोग की जाने वाली तकनीक लेकिन शायद ही कभी सामाजिक विज्ञान में। क्रॉस-सत्यापन का लक्ष्य इसे प्रशिक्षण के द्वारा मॉडल के पूर्वानुमानित प्रदर्शन का उचित मूल्यांकन प्रदान करना और डेटा के विभिन्न सबसेट पर इसका परीक्षण करना है। विशेष रूप से, ब्लूमेंस्टॉक ने अपने डेटा को 100 लोगों के 10 हिस्सों में विभाजित किया। फिर, उन्होंने अपने मॉडल को प्रशिक्षित करने के लिए नौ हिस्सों का उपयोग किया, और प्रशिक्षित मॉडल के पूर्वानुमानित प्रदर्शन का मूल्यांकन शेष खंड पर किया गया। उन्होंने 10 बार इस प्रक्रिया को दोहराया- डेटा के प्रत्येक हिस्से को सत्यापन डेटा के रूप में एक मोड़ मिल रहा है - और परिणाम औसत।

भविष्यवाणियों की सटीकता कुछ लक्षणों (आंकड़ा 3.14) के लिए उच्च थी; उदाहरण के लिए, अगर किसी के पास रेडियो है तो ब्लूमेंस्टॉक 97.6% सटीकता के साथ भविष्यवाणी कर सकता है। यह प्रभावशाली लग सकता है, लेकिन एक साधारण विकल्प के खिलाफ जटिल भविष्यवाणी विधि की तुलना करना हमेशा महत्वपूर्ण होता है। इस मामले में, एक साधारण विकल्प यह अनुमान लगाने के लिए है कि हर कोई सबसे आम जवाब देगा। उदाहरण के लिए, 9 7.3% उत्तरदाताओं ने एक रेडियो का मालिकाना बताया ताकि ब्लूमेंस्टॉक ने भविष्यवाणी की थी कि हर कोई एक रेडियो के मालिक की रिपोर्ट करेगा, तो उसे 97.3% की सटीकता होगी, जो आश्चर्यजनक रूप से उसकी जटिल प्रक्रिया (97.6% सटीकता) के प्रदर्शन के समान ही है। । दूसरे शब्दों में, सभी फैंसी डेटा और मॉडलिंग ने पूर्वानुमान की सटीकता को 97.3% से 97.6% तक बढ़ा दिया। हालांकि, अन्य प्रश्नों के लिए, जैसे "क्या आपके पास साइकिल है?", भविष्यवाणियां 54.4% से 67.6% तक बढ़ीं। आम तौर पर, आंकड़ा 3.15 दिखाता है कि कुछ लक्षणों के लिए ब्लूमेंस्टॉक ने सरल आधारभूत भविष्यवाणी करने से काफी सुधार नहीं किया है, लेकिन अन्य लक्षणों के लिए कुछ सुधार हुआ है। इन परिणामों को देखते हुए, हालांकि, आपको नहीं लगता कि यह दृष्टिकोण विशेष रूप से आशाजनक है।

चित्रा 3.14: कॉल रिकॉर्ड के साथ प्रशिक्षित एक सांख्यिकीय मॉडल के लिए पूर्वानुमानित सटीकता। ब्लूमेंस्टॉक (2014), तालिका 2 से अनुकूलित।

चित्रा 3.14: कॉल रिकॉर्ड के साथ प्रशिक्षित एक सांख्यिकीय मॉडल के लिए पूर्वानुमानित सटीकता। Blumenstock (2014) , तालिका 2 से अनुकूलित।

चित्रा 3.15: सरल आधारभूत भविष्यवाणी के लिए कॉल रिकॉर्ड के साथ प्रशिक्षित एक सांख्यिकीय मॉडल के लिए अनुमानित सटीकता की तुलना। ओवरलैप से बचने के लिए अंक थोड़ा परेशान हैं। ब्लूमेंस्टॉक (2014), तालिका 2 से अनुकूलित।

चित्रा 3.15: सरल आधारभूत भविष्यवाणी के लिए कॉल रिकॉर्ड के साथ प्रशिक्षित एक सांख्यिकीय मॉडल के लिए अनुमानित सटीकता की तुलना। ओवरलैप से बचने के लिए अंक थोड़ा परेशान हैं। Blumenstock (2014) , तालिका 2 से अनुकूलित।

हालांकि, सिर्फ एक साल बाद, ब्लूमेंस्टॉक और दो सहयोगियों-गैब्रियल कैडमुरो और रॉबर्ट ऑन ने विज्ञान में एक पेपर प्रकाशित किया जिसमें काफी बेहतर परिणाम (Blumenstock, Cadamuro, and On 2015) । इस सुधार के लिए दो मुख्य तकनीकी कारण थे: (1) उन्होंने अधिक परिष्कृत तरीकों का उपयोग किया (यानी, फीचर इंजीनियरिंग के लिए एक नया दृष्टिकोण और सुविधाओं से प्रतिक्रियाओं की भविष्यवाणी करने के लिए एक अधिक परिष्कृत मॉडल) और (2) व्यक्तिगत प्रतिक्रियाओं का अनुमान लगाने के बजाय सर्वेक्षण प्रश्न (उदाहरण के लिए, "क्या आपके पास रेडियो है?"), उन्होंने एक समग्र संपत्ति सूचकांक का अनुमान लगाने का प्रयास किया। इन तकनीकी सुधारों का मतलब है कि वे अपने नमूने में लोगों के लिए धन की भविष्यवाणी करने के लिए कॉल रिकॉर्ड का उपयोग करने का उचित काम कर सकते हैं।

नमूना में लोगों की संपत्ति की भविष्यवाणी करना, हालांकि, अनुसंधान का अंतिम लक्ष्य नहीं था। याद रखें कि अंतिम लक्ष्य विकासशील देशों में गरीबी के सटीक, उच्च-रिज़ॉल्यूशन अनुमानों का उत्पादन करने के लिए नमूना सर्वेक्षण और सेंसस की कुछ बेहतरीन सुविधाओं को गठबंधन करना था। इस लक्ष्य को प्राप्त करने की उनकी क्षमता का आकलन करने के लिए, ब्लूमेंस्टॉक और सहयोगियों ने कॉल मॉडल में सभी 1.5 मिलियन लोगों की संपत्ति की भविष्यवाणी करने के लिए अपने मॉडल और उनके डेटा का उपयोग किया। और उन्होंने कॉल रिकॉर्ड में एम्बेडेड भू-स्थानिक जानकारी का उपयोग किया (याद रखें कि प्रत्येक व्यक्ति के निवास स्थान के अनुमानित स्थान का अनुमान लगाने के लिए डेटा में प्रत्येक कॉल के लिए निकटतम सेल टावर का स्थान शामिल है) (आंकड़ा 3.17)। इन दो अनुमानों को एक साथ रखते हुए, ब्लूमेंस्टॉक और सहयोगियों ने बेहद बढ़िया स्थानिक ग्रैन्युलरिटी पर ग्राहक संपत्ति के भौगोलिक वितरण का अनुमान लगाया। उदाहरण के लिए, वे रवांडा की 2,148 कोशिकाओं (देश में सबसे छोटी प्रशासनिक इकाई) में औसत संपत्ति का अनुमान लगा सकते हैं।

इन क्षेत्रों में गरीबी के वास्तविक स्तर तक ये अनुमान कितने अच्छे से मेल खाते हैं? इस सवाल का जवाब देने से पहले, मैं इस तथ्य पर जोर देना चाहता हूं कि संदेह होने के कई कारण हैं। उदाहरण के लिए, व्यक्तिगत स्तर पर भविष्यवाणियां करने की क्षमता बहुत शोर थी (आंकड़ा 3.17)। और, शायद अधिक महत्वपूर्ण बात यह है कि मोबाइल फोन वाले लोग मोबाइल फोन के बिना लोगों से व्यवस्थित रूप से अलग हो सकते हैं। इस प्रकार, ब्लूमेंस्टॉक और सहयोगी कवरेज त्रुटियों के प्रकार से पीड़ित हो सकते हैं जो 1 9 36 साहित्यिक डाइजेस्ट सर्वेक्षण के पक्ष में थे जो मैंने पहले वर्णित किया था।

उनके अनुमानों की गुणवत्ता को समझने के लिए, ब्लूमेंस्टॉक और सहयोगियों को उनकी तुलना किसी अन्य चीज़ से करने की आवश्यकता है। सौभाग्य से, उनके अध्ययन के साथ-साथ, शोधकर्ताओं का एक और समूह रवांडा में एक और पारंपरिक सामाजिक सर्वेक्षण चला रहा था। यह अन्य सर्वेक्षण - जो व्यापक रूप से सम्मानित जनसांख्यिकीय और स्वास्थ्य सर्वेक्षण कार्यक्रम का हिस्सा था-का एक बड़ा बजट था और उच्च गुणवत्ता वाले, पारंपरिक तरीकों का उपयोग किया जाता था। इसलिए, जनसांख्यिकीय और स्वास्थ्य सर्वेक्षण के अनुमानों को उचित रूप से सोने के मानक अनुमान माना जा सकता है। जब दो अनुमानों की तुलना की गई, तो वे काफी समान थे (आंकड़ा 3.17)। दूसरे शब्दों में, कॉल रिकॉर्ड के साथ सर्वेक्षण डेटा की एक छोटी राशि को जोड़कर, ब्लूमेंस्टॉक और सहयोगी सोने के मानक दृष्टिकोण से तुलनात्मक अनुमानों का उत्पादन करने में सक्षम थे।

एक संदिग्ध इन परिणामों को निराशा के रूप में देख सकता है। आखिरकार, उन्हें देखने का एक तरीका यह कहना है कि बड़े डेटा और मशीन लर्निंग का उपयोग करके, ब्लूमेंस्टॉक और सहयोगी अनुमान उत्पन्न करने में सक्षम थे जिन्हें पहले से ही मौजूदा तरीकों से अधिक विश्वसनीय बनाया जा सकता है। लेकिन मुझे नहीं लगता कि इस अध्ययन के बारे में दो कारणों से सोचने का सही तरीका है। सबसे पहले, ब्लूमेंस्टॉक और सहकर्मियों के अनुमान लगभग 10 गुना तेज और 50 गुना सस्ता थे (जब लागत परिवर्तनीय लागत के मामले में मापा जाता है)। जैसा कि मैंने पहले इस अध्याय में तर्क दिया था, शोधकर्ता अपने जोखिम पर लागत को अनदेखा करते हैं। इस मामले में, उदाहरण के लिए, लागत में नाटकीय कमी का मतलब है कि हर कुछ वर्षों में चलाने के बजाए-जैसे जनसांख्यिकीय और स्वास्थ्य सर्वेक्षण के लिए मानक है- इस तरह का सर्वेक्षण हर महीने चलाया जा सकता है, जो शोधकर्ताओं और नीति के लिए कई फायदे प्रदान करेगा निर्माताओं। संदेह के विचार को न लेने का दूसरा कारण यह है कि यह अध्ययन एक मूल नुस्खा प्रदान करता है जिसे कई अलग-अलग शोध स्थितियों के अनुरूप बनाया जा सकता है। इस नुस्खा में केवल दो अवयव और दो कदम हैं। सामग्री (1) एक बड़ा डेटा स्रोत है जो व्यापक लेकिन पतला है (यानी, इसमें बहुत से लोग हैं लेकिन आपको प्रत्येक व्यक्ति के बारे में जानकारी नहीं है) और (2) एक सर्वेक्षण जो संकीर्ण लेकिन मोटा है (यानी, यह केवल कुछ लोग, लेकिन इसमें जानकारी है जो आपको उन लोगों के बारे में चाहिए)। इन सामग्रियों को फिर दो चरणों में जोड़ा जाता है। सबसे पहले, दोनों डेटा स्रोतों में लोगों के लिए, एक मशीन लर्निंग मॉडल बनाएं जो सर्वेक्षण उत्तरों की भविष्यवाणी करने के लिए बड़े डेटा स्रोत का उपयोग करता है। इसके बाद, बड़े डेटा स्रोत में सभी के सर्वेक्षण उत्तरों को लागू करने के लिए उस मॉडल का उपयोग करें। इस प्रकार, यदि कोई सवाल है कि आप बहुत से लोगों से पूछना चाहते हैं, तो उन लोगों के बड़े डेटा स्रोत की तलाश करें जिनका उपयोग उनके उत्तर की भविष्यवाणी करने के लिए किया जा सकता है, भले ही आपको बड़े डेटा स्रोत की परवाह न हो । यही है, ब्लूमेंस्टॉक और सहकर्मियों ने स्वाभाविक रूप से कॉल रिकॉर्ड की परवाह नहीं की थी; उन्होंने केवल कॉल रिकॉर्ड की परवाह की क्योंकि उन्हें सर्वेक्षण उत्तरों की भविष्यवाणी करने के लिए इस्तेमाल किया जा सकता था जिनकी उन्होंने परवाह की थी। बड़े डेटा स्रोत में यह विशेषता-केवल अप्रत्यक्ष रूचि-एम्बेडेड पूछताछ से अलग पूछती है, जिसे मैंने पहले वर्णित किया था।

चित्रा 3.16: ब्लूमेंस्टॉक, कैडमुरो, और ऑन (2015) द्वारा अध्ययन के योजनाबद्ध। फोन कंपनी से कॉल रिकॉर्ड प्रत्येक व्यक्ति के लिए एक पंक्ति के साथ एक मैट्रिक्स में परिवर्तित किया गया था और प्रत्येक सुविधा के लिए एक कॉलम (यानी, चर)। इसके बाद, शोधकर्ताओं ने व्यक्ति-द्वारा-सुविधा मैट्रिक्स से सर्वेक्षण प्रतिक्रियाओं की भविष्यवाणी करने के लिए एक पर्यवेक्षित शिक्षण मॉडल बनाया। फिर, पर्यवेक्षित शिक्षण मॉडल का उपयोग सभी 1.5 मिलियन ग्राहकों के लिए सर्वेक्षण प्रतिक्रियाओं को लागू करने के लिए किया गया था। इसके अलावा, शोधकर्ताओं ने अनुमान लगाया कि उनके कॉल के स्थानों के आधार पर सभी 1.5 मिलियन ग्राहकों के लिए निवास की अनुमानित जगह है। जब इन दो अनुमानों - अनुमानित संपत्ति और निवास की अनुमानित जगह संयुक्त थी, तो परिणाम जनसांख्यिकीय और स्वास्थ्य सर्वेक्षण, सोने के मानक पारंपरिक सर्वेक्षण (आंकड़े 3.17) के अनुमानों के समान थे।

चित्रा 3.16: Blumenstock, Cadamuro, and On (2015) द्वारा अध्ययन के योजनाबद्ध। फोन कंपनी से कॉल रिकॉर्ड प्रत्येक व्यक्ति के लिए एक पंक्ति के साथ एक मैट्रिक्स में परिवर्तित किया गया था और प्रत्येक सुविधा के लिए एक कॉलम (यानी चर)। इसके बाद, शोधकर्ताओं ने व्यक्ति-द्वारा-सुविधा मैट्रिक्स से सर्वेक्षण प्रतिक्रियाओं की भविष्यवाणी करने के लिए एक पर्यवेक्षित शिक्षण मॉडल बनाया। फिर, पर्यवेक्षित शिक्षण मॉडल का उपयोग सभी 1.5 मिलियन ग्राहकों के लिए सर्वेक्षण प्रतिक्रियाओं को लागू करने के लिए किया गया था। इसके अलावा, शोधकर्ताओं ने अनुमान लगाया कि उनके कॉल के स्थानों के आधार पर सभी 1.5 मिलियन ग्राहकों के लिए निवास की अनुमानित जगह है। जब इन दो अनुमानों - अनुमानित संपत्ति और निवास की अनुमानित जगह संयुक्त थी, तो परिणाम जनसांख्यिकीय और स्वास्थ्य सर्वेक्षण, सोने के मानक पारंपरिक सर्वेक्षण (आंकड़े 3.17) के अनुमानों के समान थे।

चित्रा 3.17: ब्लूमेंस्टॉक, कैडमुरो, और ऑन (2015) के परिणाम। व्यक्तिगत स्तर पर, शोधकर्ता अपने कॉल रिकॉर्ड से किसी की संपत्ति की भविष्यवाणी करने के लिए उचित काम करने में सक्षम थे। रवांडा के 30 जिलों के लिए जिला स्तरीय संपदा का अनुमान - जो धन और निवास के स्थान के व्यक्तिगत स्तर के अनुमानों पर आधारित थे-जनसांख्यिकीय और स्वास्थ्य सर्वेक्षण, सोने के मानक पारंपरिक सर्वेक्षण के परिणाम के समान थे। ब्लूमेंस्टॉक, कैडमोरो और ऑन (2015) से अनुकूलित, आंकड़े 1 ए और 3 सी।

चित्रा 3.17: Blumenstock, Cadamuro, and On (2015) । व्यक्तिगत स्तर पर, शोधकर्ता अपने कॉल रिकॉर्ड से किसी की संपत्ति की भविष्यवाणी करने के लिए उचित काम करने में सक्षम थे। रवांडा के 30 जिलों के लिए जिला स्तरीय संपदा का अनुमान - जो धन और निवास के स्थान के व्यक्तिगत स्तर के अनुमानों पर आधारित थे-जनसांख्यिकीय और स्वास्थ्य सर्वेक्षण, सोने के मानक पारंपरिक सर्वेक्षण के परिणाम के समान थे। Blumenstock, Cadamuro, and On (2015) से अनुकूलित, आंकड़े 1 ए और 3 सी।

अंत में, ब्लूमेंस्टॉक के बढ़ते पूछने के दृष्टिकोण एक बड़े डेटा स्रोत के साथ संयुक्त सर्वेक्षण डेटा के साथ सोने के मानक सर्वेक्षण से तुलनात्मक अनुमानों का अनुमान लगाने के लिए। यह विशेष उदाहरण एम्पलीफाइड पूछने और पारंपरिक सर्वेक्षण विधियों के बीच कुछ व्यापार-बंदों को भी स्पष्ट करता है। प्रवर्धित पूछताछ अनुमान अधिक समय पर, काफी सस्ता, और अधिक दानेदार थे। लेकिन, दूसरी तरफ, इस तरह के प्रवर्धित पूछने के लिए अभी तक एक मजबूत सैद्धांतिक आधार नहीं है। यह एकल उदाहरण तब प्रदर्शित नहीं होता है जब यह दृष्टिकोण काम करेगा और जब यह नहीं होगा, और इस दृष्टिकोण का उपयोग करने वाले शोधकर्ताओं को विशेष रूप से संभावित पूर्वाग्रहों के बारे में चिंतित होने की आवश्यकता है, जो शामिल हैं- और जो शामिल नहीं हैं- उनके बड़े डेटा स्रोत में। इसके अलावा, प्रवर्धित पूछने के दृष्टिकोण में अभी तक अपने अनुमानों के आस-पास अनिश्चितता को मापने के अच्छे तरीके नहीं हैं। सौभाग्य से, बढ़ते पूछने के आंकड़ों में छोटे-बड़े क्षेत्र के आकलन (Rao and Molina 2015) , प्रतिनियुक्ति (Rubin 2004) , और मॉडल आधारित पोस्ट-स्तरीकरण (जो स्वयं श्री पी से निकटता से संबंधित है, में तीन बड़े क्षेत्रों के गहरे संबंध हैं। अध्याय में मैंने जिस विधि का वर्णन किया था) (Little 1993) । इन गहरे कनेक्शनों के कारण, मुझे उम्मीद है कि बढ़ी हुई पूछताछ की कई पद्धतिगत नींव जल्द ही सुधार जाएगी।

अंत में, ब्लूमेंस्टॉक के पहले और दूसरे प्रयासों की तुलना में डिजिटल-आयु सामाजिक शोध के बारे में एक महत्वपूर्ण सबक भी दिखाता है: शुरुआत अंत नहीं है। यही है, कई बार, पहला दृष्टिकोण सबसे अच्छा नहीं होगा, लेकिन यदि शोधकर्ता काम करना जारी रखते हैं, तो चीजें बेहतर हो सकती हैं। अधिक आम तौर पर, डिजिटल युग में सामाजिक शोध के नए दृष्टिकोणों का मूल्यांकन करते समय, दो अलग-अलग मूल्यांकन करना महत्वपूर्ण है: (1) यह अब कितना अच्छा काम करता है? और (2) भविष्य में यह कैसे काम करेगा क्योंकि डेटा परिदृश्य बदलता है और शोधकर्ता समस्या पर अधिक ध्यान देते हैं? हालांकि शोधकर्ताओं को पहली तरह के मूल्यांकन करने के लिए प्रशिक्षित किया जाता है, दूसरा अक्सर अधिक महत्वपूर्ण होता है।