3.6.2 प्रश्न

धेरै ब्यक्तिहरु बाट ठूलो डेटा स्रोत संग केहि व्यक्तिहरु सर्वेक्षण डेटा को संयोजन गर्न एक अनुमानित मोडेल को उपयोग गरेर प्रयुक्त गरियो।

सर्वेक्षण संयोजन र ठूलो डेटा स्रोतहरु को एक अलग तरिका एक प्रक्रिया हो जुन म परम्परागत मांग मा कल गर्छु। परम्परागत प्रश्नमा, एक शोधकर्ताले अनुमानित मोडेल प्रयोग गर्दछ जुन सानो मात्रामा स्रोत स्रोतको साथ सानो मात्रामा सर्वेक्षण डाटा संयोजन गर्न को लागी अनुमान वा उत्पादनमा उत्पादन गर्न को लागी व्यक्तिगत डेटा स्रोतसँग सम्भव हुँदैन। परम्परागत प्रश्नको एक महत्त्वपूर्ण उदाहरण यहोशु ब्लुमेनस्टकको कामबाट आउँछ, जसले डेटा सङ्कलन गर्न चाहान्छ जुन गरीब देशहरूमा विकासको मार्गदर्शन गर्न मद्दत गर्दछ। विगतमा, यस प्रकारका डेटाहरू सङ्कलन गर्नेहरूले सामान्यतया दुईवटा उपायहरू लिनु पर्ने: शोध सर्वेक्षण वा सेन्सेन्स। नमूना सर्वेक्षण, जहां शोधकर्ताहरु लाई साना संख्या को मान्छे को साक्षात्कार, लचीला, समय मा, र अपेक्षाकृत सस्ते हुन सक्छ। तथापि, यी सर्वेक्षण, किनभने तिनीहरू एक नमूनामा आधारित हुन्छन्, प्राय: तिनीहरूका रिजोल्युसनमा सीमित हुन्छन्। नमूना सर्वेक्षणको साथ, यो विशिष्ट भौगोलिक क्षेत्रहरु वा विशिष्ट जनसांख्यिकीय समुहहरूको लागि अनुमान बनाउन कठिन हुन्छ। अर्कोतिर Censuses, सबैलाई अन्तरवार्ता गर्न प्रयास गर्दछ, र त्यसैले तिनीहरू साना भौगोलिक क्षेत्र वा जनसांख्यिकीय समूहहरूको अनुमान अनुमान गर्न प्रयोग गर्न सकिन्छ। तर सेन्सेन्स सामान्यतया महँगो हुन्छन्, ती फोकसहरूमा सीमित हुन्छन् (तिनीहरू केवल एक सानो संख्यामा प्रश्नहरू समावेश छन्), र समय समयमा होइन (तिनीहरू प्रत्येक निश्चित 10 वर्ष जस्तै) (Kish 1979) । नमूना सर्वेक्षणहरू वा सेन्सेससँग टाँस्नुको सट्टा कल्पना गर्नुहोस् कि यदि शोधकर्ताहरूले दुवैको राम्रो गुणहरू जोड्न सक्छन्। कल्पना गर्नुहोस् कि शोधकर्ताहरूले हरेक प्रश्न हरेक दिन हरेक व्यक्तिलाई सोध्न सक्दछन्। जाहिर छ, यो बाह्य, सचेतक सर्वेक्षण एक प्रकारको सामाजिक विज्ञान कल्पना हो। तर यो हामी धेरै मान्छे देखि डिजिटल निशान संग मान्छे को एक सानो संख्या सर्वेक्षण प्रश्नहरू संयोजन गरेर यो लगभग सुरु गर्न सक्नुहुन्छ देखापर्ने गर्छ।

ब्लमेनस्टकको अनुसन्धानले रुवांडामा सबैभन्दा ठूलो मोबाइल फोन प्रदायकको साथ साझेदारी गर्यो जब कम्पनीले 2005 र 200 9 को बीच 1.5 मिलियन ग्राहकहरुबाट गुमनाम लेनदेनको रेकर्ड प्रदान गर्यो। यो रेकर्ड प्रत्येक कल र पाठ सन्देशको बारेमा समावेश गरिएको जानकारी जस्तै सुरु समय, अवधि , र कलर र प्राप्तकर्ताको अनुमानित भौगोलिक स्थान। सांख्यिकीय समस्याहरूको बारेमा कुरा गर्नु अघि, यो बिन्दुको लायक छ कि यो पहिलो चरण धेरै शोधकर्ताहरूको लागि सबै भन्दा कठिन मध्ये एक हुन सक्छ। मैले 2 अध्यायमा वर्णन गरेपछि, ठूला डेटा स्रोतहरू शोधकर्ताहरूको लागि पहुँच योग्य छैनन्। टेलिफोन मेटा-डाटा विशेष गरी, अनुपयुक्त छ किनभने यो मूल रूपमा नामकरण गर्न असम्भव छ र यो लगभग निश्चित रूपमा जानकारी समावेश गर्दछ कि प्रतिभागिहरु संवेदनशील (Mayer, Mutchler, and Mitchell 2016; Landau 2016) विचार गर्नेछ। यस विशेष मामला मा, शोधकर्ताहरु को डेटा को रक्षा गर्न सावधान रहयो र उनको काम एक तृतीय पक्ष (यानी, आईआरबी) द्वारा पर्यवेक्षण गरियो। म यी नैतिक विषयहरूमा अध्याय 6 मा थप विवरणमा फर्कनेछु।

ब्लमेनस्टक धन र भलाइ को मापने मा रुचि राखयो। तर यो लक्षणहरू सिधै कल रेकर्डमा छैनन्। अर्को शब्दमा, यी कल रेकर्ड यो अनुसन्धानको लागि अधूरो छ - अध्यायमा विवरणमा छलफल गरिएका ठूला डेटा स्रोतहरूको एक सामान्य विशेषता। तथापि, यो सम्भव छ कि कल रेकर्ड सम्भवतः केहि जानकारी छ जुन अप्रत्यक्ष धनको बारेमा जानकारी प्रदान गर्न सक्छ र भइरहेको छ। यस सम्भावनालाई ब्लुमेनस्टकले सोध्थ्यो कि क्यासिनो सिकाउने मोडेललाई प्रशिक्षित गर्न सम्भव थियो कि उनीहरूको कल रेकर्डमा आधारित कुनै सर्वेक्षणमा कसरी प्रतिक्रिया दिनेछन्। यदि यो सम्भव भएमा, ब्लमेनस्कले यो मोडेललाई सबै 1.5 मिलियन ग्राहकहरूको सर्वेक्षण प्रतिक्रियाहरू भविष्यवाणी गर्न सक्दछ।

यस्तो मोडेलको निर्माण र प्रशिक्षित गर्न, ब्लुमेनस्टक र विज्ञान र टेक्नोलोजी के केगीली इन्स्टीट्यूटका अनुसन्धान सहायकहरूले लगभग हज़ार ग्राहकहरूको यादृच्छिक नमूना भनिन्। शोधकर्ताहरुले प्रतिभागिहरु लाई परियोजना को लक्ष्य को वर्णन गरे, कल रेकर्ड को सर्वेक्षण को प्रतिक्रियाहरु लाई लिंक गर्न को लागि उनको सहमति को लागि भन्यो, र त्यसपछि उनलाई उनको धन र भलाई को मापने को लागि एक श्रृंखला को प्रश्नहरु लाई पूछा " रेडियो? "र" के तपाईँले साइकल पाउनुभयो? "(आंशिक सूचीको लागि आकृति 3.14 हेर्नुहोस्)। सर्वेक्षणका सबै सहभागीहरूले आर्थिक रूपमा क्षतिपूर्ति गरे।

अर्को, ब्लुमेनस्टकले दुई-चरण प्रक्रिया प्रक्रियालाई मेशिन सिकाइमा प्रयोग गर्यो: विशेषता ईन्जिनियरिङ पछि निरीक्षण गरिएको शिक्षा द्वारा। पहिलो, फिचर ईन्जिनियरिङ चरणमा, सबैको लागि साक्षात्कार भएको बेला ब्लमेनस्लेकले प्रत्येक व्यक्तिको बारेमा सेट विशेषताहरूमा कल रेकर्ड परिवर्तन गर्यो; डेटा वैज्ञानिकहरूले यी विशेषताहरूलाई "विशेषताहरू" भन्न सक्छन् र सामाजिक वैज्ञानिकहरूलाई "चरम" भनिन्छ। उदाहरणका लागि, प्रत्येक व्यक्तिको लागि, ब्लुमेनस्कले गतिविधिको साथ दिनको कुल संख्या गणना गरी विभिन्न व्यक्तिहरूको संख्यामा एक व्यक्तिसँग सम्पर्क गरेको छ। एरिटिमेममा खर्च गरेको रकम, र यति मा। आलोचनात्मक, राम्रो सुविधा इन्जिनियरिङले अनुसन्धान सेटिङको ज्ञानलाई आवश्यक छ। उदाहरणको लागि, यदि यो घरेलू र अन्तर्राष्ट्रिय कलहरू बीच भेद गर्न महत्त्वपूर्ण छ (हामी अन्तर्राष्ट्रिय रूपमा धनी हुन सक्ने व्यक्तिहरूको आशा गर्न सक्छ), त्यसपछि यो सुविधा ईञ्जिनियर चरणमा हुनु पर्छ। एक अनुसन्धानकर्तासँग रुवान्डाको सानो समझ संग यो सुविधा समावेश हुन सक्छ, र त्यसपछि मोडेलको भविष्यसूचक प्रदर्शन पीडा हुनेछ।

अर्को, निरीक्षण गरिएको सिकाउने चरणमा, ब्लुमेनस्लेले उनीहरूको सुविधाहरूमा आधारित प्रत्येक व्यक्तिको सर्वेक्षणको उत्तर अनुमान गर्न एक मोडेल बनाउँथे। यस अवस्थामा, ब्लुमेनस्लेले तार्किक रिफ्रेस प्रयोग गर्यो, तर उनले विभिन्न सांख्यिकीय वा मेशिन सिकाउने दृष्टिकोण प्रयोग गर्न सक्थे।

त्यसोभए यसले कसरी राम्रो काम गर्यो? के ब्लुमस्लेकले सर्वेक्षण प्रश्नहरूको जवाफको जवाफ दिन सके जस्तै "के तपाइँ रेडियो छ?" र "के तपाईं साइकल गर्नुहुन्छ?" कल रेकर्डहरू बाट व्युत्पन्न सुविधाहरू प्रयोग गरेर? आफ्नो अनुमानित मोडेल को प्रदर्शन को मूल्यांकन गर्न को लागी Blumenstock को उपयोग को रूप मा डेटा विज्ञान मा क्रस - वैधीकरण , एक प्रविधी को उपयोग गरे तर शायद नै केहि सामाजिक विज्ञान मा। क्रस-प्रमाणको लक्ष्य यो प्रशिक्षण र मोडेलको विभिन्न सब्सटहरूमा यसलाई परीक्षण गरेर मोडेलको भविष्यसूचक प्रदर्शनको निष्पक्ष मूल्यांकन प्रदान गर्न हो। विशेषगरी, ब्लुमेनस्कले आफ्नो डेटा 100 व्यक्तिहरूको प्रत्येक 10 टुक्रामा विभाजन गर्दछ। त्यसपछि, उनले आफ्नो मोडेल को प्रशिक्षण दिन को 9 को प्रयोग गरे, र प्रशिक्षित मोडेल को भविष्यसूचक प्रदर्शन शेष भाग मा मूल्यांकन गरियो। उनले यो प्रक्रिया 10 पटक दोहोर्याए - डेटाको प्रत्येक भाग मान्य डेटाको रूपमा एक मोर्दै प्राप्त गर्न-र परिणामहरु लाई एकदमै परिणत गर्यो।

भविष्यवाणीहरूको शुद्धता केही विशेषताहरूको लागि उच्च थियो (चित्र 3.14); उदाहरणको लागी, यदि ब्लुमेन्स्कले 9 0% शुद्धताको साथ भविष्यवाणी गरेको थियो भने कसैले रेडियोलाई स्वामित्व दिएको छ। यो प्रभावशाली ध्वनि हुन सक्छ, तर यो सामान्य विकल्पको विरुद्ध जटिल भविष्यवाणी विधि तुलना गर्न सधैँ महत्वपूर्ण छ। यस अवस्थामा, एक सरल विकल्प अनुमान छ कि सबैले सबै भन्दा साधारण उत्तर दिनेछ भन्ने अनुमान छ। उदाहरणका लागि, उत्तरदायीमध्ये 97.3% जनाले रेडियोको स्वामित्व लिने गरी रिपोर्ट गरेका थिए भने ब्लमेनस्टकले भविष्यवाणी गरेको थियो कि सबैले रेडियोको मालिकलाई रिपोर्ट गर्दा 97.3% को सटीकता पाउनेछ, जुन उनको अधिक जटिल प्रक्रियाको प्रदर्शन (97.6% शुद्धता) । अन्य शब्दहरुमा, सबै फैंसी डेटा र मोडेलिंग भविष्यवाणी को सटीकता को 97.3% देखि 97.6% सम्म बढायो। तथापि, अन्य प्रश्नहरूको लागि, "के तपाईं साइकल गर्नुहुन्छ?", भविष्यवाणी 54.4% देखि 67.6% सम्म सुधारियो। अधिक सामान्यतया, आकृति 3.15ले केही विशेषताहरूको लागि ब्लुमेनस्कले साधारण आधारभूत भविष्यवाणी गर्नु भन्दा बढि सुधार गर्न सकेन, तर अन्य विशेषताहरूको लागि त्यहाँ केहि सुधार भएको थियो। तथापि यी नतीजाहरू हेर्दै, तपाईले सोच्न सक्नुहुन्न कि यो दृष्टिकोण विशेष गरी हो।

चित्रा 3.14: कल रेकर्ड सहित प्रशिक्षित सांख्यिकीय मोडेलको लागि भविष्यवाणी सटीकता। ब्लुमेनस्कबाट अनुकूलित (2014), तालिका 2।

चित्रा 3.14: कल रेकर्ड सहित प्रशिक्षित सांख्यिकीय मोडेलको लागि भविष्यवाणी सटीकता। Blumenstock (2014) अनुकूलित Blumenstock (2014) , तालिका 2।

चित्र 3.15: कल रेकर्डहरूसँग सरल सांख्यिक भविष्यमा प्रशिक्षित एक सांख्यिकीय मोडेलको लागि भविष्यवाणी सटीकताको तुलना। ओवरलैपबाट बच्नको लागि बिन्दूहरू थोडा झल्काउने हुन्छन्। ब्लुमेनस्कबाट अनुकूलित (2014), तालिका 2।

चित्र 3.15: कल रेकर्डहरूसँग सरल सांख्यिक भविष्यमा प्रशिक्षित एक सांख्यिकीय मोडेलको लागि भविष्यवाणी सटीकताको तुलना। ओवरलैपबाट बच्नको लागि बिन्दूहरू थोडा झल्काउने हुन्छन्। Blumenstock (2014) अनुकूलित Blumenstock (2014) , तालिका 2।

तथापि, एक वर्ष पछि, ब्लुमेनस्क र दुई सहयोगीहरू-गब्रिएल क्याडोमोरो र रबर्ट ओनले साइन्समा पेपर प्रकाशित गरेका थिए। (Blumenstock, Cadamuro, and On 2015) । यस सुधारको लागि दुई मुख्य प्राविधिक कारणहरू थिए: (1) तिनीहरूले अधिक परिष्कृत विधिहरू प्रयोग गरे (जस्तै, फिचर ईन्जिनियरिङ्को लागि नयाँ दृष्टिकोण र सुविधाका प्रतिक्रियाहरूको अनुमान गर्न एक परिष्कृत मोडेल) र (2) व्यक्तिगत व्यक्तिहरूको प्रतिक्रियाहरू रोक्न प्रयास गर्नुको सट्टा सर्वेक्षण प्रश्नहरू (उदाहरणका लागि, "के तपाई रेडियो हुनुहुन्छ?"), उनीहरूले समग्र धन सूचकांकलाई निस्क्रिय गर्न खोजे। यी प्राविधिक सुधारहरूले उनीहरूको नमूनाको लागि धनको अनुमान गर्न कल रेकर्ड प्रयोग गर्ने उचित काम गर्न सक्दछ।

नमूना मा मान्छे को धन को भविष्यवाणी, तथापि, अनुसन्धान को अंतिम लक्ष्य थिएन। सम्झनुहोस् कि अन्तिम लक्ष्य विकासशील देशहरूमा गरिबीको सही, उच्च-रिजोल्युसन अनुमानहरू उत्पादन गर्न नमूना सर्वेक्षण र सेन्सेसहरूको केहि उत्कृष्ट सुविधाहरू मिलाउन थियो। यस लक्ष्य को प्राप्त गर्न को लागी उनको क्षमता को मूल्यांकन गर्न को लागी Blumenstock र सहकर्मीहरु लाई उनको मोडेल र उनको डेटा को उपयोग को लागि कल रेकर्ड मा सबै 1.5 मिलियन मान्छे को सम्पत्ति को अनुमान लगाईयो। र तिनीहरूले कल रेकर्डमा एम्बेडेड भू-स्थानिय जानकारीको प्रयोग गरे (याद गर्नुहोस् कि प्रत्येक फोनको लागि नजिकको सेल टोलको स्थान समावेश गरिएको छ) प्रत्येक व्यक्तिको निवास स्थान अनुमान गरिएको अनुमान (3.17 अंक)। यी दुई अनुमानहरू सँगसँगै राख्नु, ब्लुमेनस्क र सहकर्मीहरूले ग्राहक सम्पत्तिको भौगोलिक वितरणको अनुमानलाई धेरै राम्रो स्थानिय granularity मा अनुमान लगाए। उदाहरणका लागि, तिनीहरू रुवान्डाका 2,148 कक्षहरू (देशमा सबैभन्दा सानो प्रशासनिक इकाई) मा औसत सम्पत्ति अनुमान गर्न सक्थे।

यी अनुमानहरूले यी क्षेत्रमा कस्तो गरीबीको वास्तविक स्तरसँग मेल खाए? त्यस प्रश्नको उत्तर गर्नु भन्दा पहिले म यस तथ्यलाई जोड दिन चाहन्छु कि धेरै कारणहरू शंकास्पद हुने कारणहरू छन्। उदाहरणका लागि, व्यक्तिगत तहमा भविष्यवाणी गर्ने क्षमता सुन्दर शोर थियो (चित्र 3.17)। अनि, सम्भवतः अधिक महत्त्वपूर्ण कुरा, मोबाइल फोन भएका व्यक्तिहरू मोबाइल फोन बिना प्रणालीबाट व्यवस्थित हुनसक्छ। यसैले, ब्लामेनस्कक र सहकर्मीहरूले कवरेज त्रुटिहरूको प्रकारबाट ग्रस्त हुन सक्दथे जुन 1 9 36 को साहित्यिक डाइजेस्ट सर्वेक्षणमा उल्लिखित मैले वर्णन गरेको थिएँ।

उनीहरूको अनुमानको गुणस्तर प्राप्त गर्न ब्लुमेनस्टक र सहकर्मीहरूले उनीहरूलाई अरू केही तुलना गर्न आवश्यक थियो। सौभाग्यवश, आफ्नो अध्ययनको रूपमा एकैचोटि, अनुसन्धानकर्ताहरूको अर्को समूह रुवान्डामा बढी पारंपरिक सामाजिक सर्वेक्षण चलाइरहेका थिए। यो अन्य सर्वेक्षण - जुन व्यापक रूपमा सम्मानित जनसांख्यिकीय र स्वास्थ्य सर्वेक्षण कार्यक्रमको भाग थियो - ठूलो बजेट थियो र उच्च गुणस्तर, परम्परागत विधिहरू प्रयोग गर्थे। यसकारण, जनसांख्यिकीय र स्वास्थ्य सर्वेक्षणको अनुमानले सुन-मानक अनुमानलाई उचित रूपमा मान्न सक्छ। जब दुई अनुमानहरू तुलना गरिन्थ्यो, तिनीहरू धेरैजस्तै थिए (चित्र 3.17)। अर्को शब्दमा, कल रेकर्डको साथमा सानो मात्रामा सर्वेक्षण डेटा संयोजन गरी ब्लमेनस्कक र सहकर्मीहरूले सुनको मानकको दृष्टिकोणबाट तुलनात्मक अनुमानहरूको उत्पादन गर्न सक्षम थिए।

एक निराशाले यी नतिजाहरूलाई निराशाको रूपमा देख्न सक्छ। आखिर, उनीहरूलाई हेर्ने एक तरिका ठूलो डेटा र मेशिन सिकाइ, ब्लुमेनस्कक र सहकर्मीहरूले अनुमान लगाउन सक्थे कि पहिले देखि नै विद्यमान विधिहरु द्वारा अझ सुदृढ रुपमा सिर्जना गर्न सक्थे। तर मलाई यो सोच्दैन कि यो अध्ययनको बारेमा सोच्ने दुई तरिकाको कारण सोच्ने तरिका हो। पहिलो, ब्लुमेनस्टक र सहकर्मीहरूको अनुमान लगभग 10 गुणा तेज थियो र 50 पटक सस्ता (जब लागत मूल्य चर लागतको शर्तमा मापन गरिएको छ)। मैले यस अध्यायमा पहिले तर्क गरेको रूपमा, शोधकर्ताहरूले आफ्नो खतरामा लागत बेवास्ता गरे। यस अवस्थामा, उदाहरणका लागि, लागतमा नाटकीय कमी भनेको यिनै केही वर्ष दौडनुको साथै - जनसांख्यिकीय र स्वास्थ्य सर्वेक्षणका लागि मानक हो - यो प्रकारको सर्वेक्षण हरेक महिना चलाउन सकिन्छ, जसले शोधकर्ताहरू र नीतिका लागि धेरै फाइदाहरू प्रदान गर्नेछ। निर्माताहरू शंकास्पदको दृष्टिकोण लिन नसक्ने दोस्रो कारण यो अध्ययनले आधारभूत नुस्खा प्रदान गर्दछ जुन धेरै फरक परिस्थितियोंसँग सम्बन्धित हुन सक्छ। यो नुस्खाको मात्र दुई अवयवहरू र दुई चरणहरू छन्। अवयवकर्ताहरू (1) एक ठूलो डेटा स्रोत हो कि व्यापक तर पतली हो (यानी, यो धेरै व्यक्ति छन् तर तपाईंले प्रत्येक व्यक्तिको बारेमा जानकारी आवश्यक छैन) र (2) एक सर्वेक्षण जुन सानो तर मोटो छ (यानि, यो मात्र छ केहि व्यक्तिहरू, तर यसमा उनीहरूको बारेमा जानकारी चाहिन्छ)। यी अवयवहरू दुई चरणहरूमा संयुक्त हुन्छन्। पहिलो, दुवै डेटा स्रोतहरूमा व्यक्तिहरूको लागि, एक मेशिन सिकाउने मोडेल बनाउनुहोस् जसले सर्वेक्षण उत्तरहरूको भविष्यवाणी गर्न ठूलो डेटा स्रोत प्रयोग गर्दछ। अर्को, त्यो मोडेलको ठूलो डेटा स्रोतमा सबै सर्वेक्षणहरूको जवाफलाई खारेज गर्न प्रयोग गर्नुहोस्। यसैले, यदि केहि प्रश्न हो कि तपाईं धेरै मान्छे सोध्न चाहानुहुन्छ भने ती व्यक्तिहरूको ठूलो डेटा स्रोतको खोजी गर्नुहोस् जुन उनीहरूको उत्तरको भविष्यवाणी गर्न प्रयोग गर्न सकिन्छ, भित्तामा यदि तपाई ठूलो डाटा स्रोतको बारे मा परवाह गर्दैनन् भने । त्यो हो, ब्लुमेनस्क र सहकर्मीहरूले कल रेकर्डको बारेमा हेरचाह गरेनन्; उनीहरूले केवल कल रेकर्डहरूको ख्याल राख्थे किनकी उनीहरूले सर्वेक्षणको उत्तर भविष्यवाणी गर्न प्रयोग गरे जुन उनीहरूको बारेमा हेरे। यो विशेषता - मात्र ठूलो डाटा स्रोतमा अप्रत्यक्ष रुचि-एम्बेडेड गरिएको एम्बेडेड प्रश्नबाट फरक सोध्छ, जुन मैले पहिले वर्णन गरेको छु।

चित्रा 3.16: ब्लमेनस्कक, क्याडमोरो, र ओन (2015) द्वारा अध्ययनका योजनाबद्ध योजनाबद्ध। फोन कम्पनीबाट कल रेकर्ड म्याट्रिक्समा प्रत्येक व्यक्तिको लागि एक पंक्ति र प्रत्येक सुविधाको लागि एक स्तम्भसँग परिवर्तन गरिएको थियो (उदाहरण ई, चर)। अर्को, शोधकर्ताहरुले व्यक्ति-द्वारा-फीचर म्याट्रिक्स बाट सर्वेक्षण प्रतिक्रियाहरूको भविष्यवाणी गर्न पर्यवेक्षित शिक्षा मोडेल निर्माण गरे। त्यसपछि, निरीक्षण गरिएको सिक्ने मोडेल सबै 1.5 मिलियन ग्राहकहरूको लागि सर्वेक्षण प्रतिक्रियाहरू आयात गर्न प्रयोग गरिएको थियो। साथै, शोधकर्ताहरुले अनुमानित स्थान निवासको अनुमान गरेको सबै 1.5 मिलियन ग्राहकहरु को लागि आफ्नो कलहरु को स्थान मा आधारित छ। जब यी दुई अनुमानहरू - अनुमानित सम्पत्ति र अनुमानित स्थानको अनुमानित स्थान संयुक्त थियो, परिणामहरू जनसांख्यिकीय र स्वास्थ्य सर्वेक्षण, एक सुन-मानक परम्परागत सर्वेक्षण (3.17 अंक) बाट अनुमान भएका थिए।

चित्रा 3.16: Blumenstock, Cadamuro, and On (2015) द्वारा अध्ययनका योजनाबद्ध योजनाबद्ध। फोन कम्पनीबाट कल रेकर्ड म्याट्रिक्समा प्रत्येक व्यक्तिको लागि एक पंक्ति र प्रत्येक सुविधाको लागि एक स्तम्भ (जस्तै, चर) मा रूपान्तरण गरिएको थियो। अर्को, शोधकर्ताहरुले व्यक्ति-द्वारा-फीचर म्याट्रिक्स बाट सर्वेक्षण प्रतिक्रियाहरूको भविष्यवाणी गर्न पर्यवेक्षित शिक्षा मोडेल निर्माण गरे। त्यसपछि, निरीक्षण गरिएको सिक्ने मोडेल सबै 1.5 मिलियन ग्राहकहरूको लागि सर्वेक्षण प्रतिक्रियाहरू आयात गर्न प्रयोग गरिएको थियो। साथै, शोधकर्ताहरुले अनुमानित स्थान निवासको अनुमान गरेको सबै 1.5 मिलियन ग्राहकहरु को लागि आफ्नो कलहरु को स्थान मा आधारित छ। जब यी दुई अनुमानहरू - अनुमानित सम्पत्ति र अनुमानित स्थानको अनुमानित स्थान संयुक्त थियो, परिणामहरू जनसांख्यिकीय र स्वास्थ्य सर्वेक्षण, एक सुन-मानक परम्परागत सर्वेक्षण (3.17 अंक) बाट अनुमान भएका थिए।

चितवन 3.17: ब्लुमेनस्क, क्याडमोरो, र ओभर (2015) बाट परिणामहरू। व्यक्तिगत स्तरमा, शोधकर्ताहरू उनीहरूको कल रेकर्डबाट कसैको धनको अनुमानमा उचित काम गर्न सक्षम थिए। रुवान्डाको 30 जिल्लाका लागि जिल्ला-स्तरको सम्पत्तिको अनुमान - जुन सम्पत्ति र आवासको व्यक्तिगत स्तरको अनुमानमा आधारित थियो - डेमोग्राफिक र स्वास्थ्य सर्वेक्षण, एक सुन-मानक परम्परागत सर्वेक्षणका परिणामहरू जस्तै थिए। ब्लुमेनस्कक, क्याडमोरो, र ओभर (2015) बाट अनुकूलित, 1 ए र 3 सेकेन्ड।

चितवन 3.17: Blumenstock, Cadamuro, and On (2015) बाट परिणामहरू। व्यक्तिगत स्तरमा, शोधकर्ताहरू उनीहरूको कल रेकर्डबाट कसैको धनको अनुमानमा उचित काम गर्न सक्षम थिए। रुवान्डाको 30 जिल्लाका लागि जिल्ला-स्तरको सम्पत्तिको अनुमान - जुन सम्पत्ति र आवासको व्यक्तिगत स्तरको अनुमानमा आधारित थियो - डेमोग्राफिक र स्वास्थ्य सर्वेक्षण, एक सुन-मानक परम्परागत सर्वेक्षणका परिणामहरू जस्तै थिए। Blumenstock, Cadamuro, and On (2015) बाट अनुकूलित, 1 ए र 3 सेकेन्ड।

अन्त्यमा, ब्लुमेनस्ककले मासिक रूपमा सर्वेक्षण डेटालाई ठूलो डेटा स्रोतको साथ सोध्नुको साथै सुनको मानक सर्वेक्षणको तुलनामा अनुमानहरू उत्पन्न गर्न। यो विशेष उदाहरणले परम्परागत प्रश्न र परम्परागत सर्वेक्षण विधिहरू बीचको केहि व्यापारिक विवरण पनि स्पष्ट गर्दछ। अनुमानित अनुमानित अनुमानहरू धेरै समयमै, पर्याप्त सस्ता, र थप दाँत हो। तर, अर्कोतर्फ, यस प्रकारको प्रवर्द्धन मागको लागि अझैसम्म एक सैद्धान्तिक सैद्धांतिक आधार छैन। यो एकल उदाहरणले यस दृष्टिकोणले काम गर्ने बेलामा देखाउँदैन र जब यो हुनेछैन, र यो दृष्टिकोण प्रयोग गर्ने शोधकर्ताहरूले विशेष गरी सम्भावित पूर्वाधारको बारेमा चिन्ता गर्नुपर्दछ जो समावेश गर्दछ र जो समावेश गर्दैनन - उनीहरूको ठूलो डाटा स्रोतमा। यसबाहेक, प्रत्याशित माग गरिएको दृष्टिकोणले यसको अनुमानको आसपास अनिश्चितता को मात्रा गर्न को लागी राम्रो तरिकाहरू छैन। सौभाग्य देखि, प्रवर्द्धन अनुरोध मा तथ्याङ्क-साना-क्षेत्र अनुमान (Rao and Molina 2015) , अभिनय (Rubin 2004) र मोडेल आधारित पोस्ट-स्तरीकरणमा तीन ठूला क्षेत्रहरूमा गहिरो सम्बन्ध छ (जसलाई आफैले श्री पी. मैले अघिल्लो अध्यायमा वर्णन गरेको विधि) (Little 1993) । यी गहिरो सम्बन्धहरूको कारण, म आशा गर्दछु कि परम्परागत अनुरोधको धेरै विधिगत आधारहरू चाँडै सुधार हुनेछ।

अन्तमा, ब्लामेनस्ककको पहिलो र दोस्रो प्रयासको तुलनाले डिजिटल-उमेर सामाजिक अनुसन्धानको बारेमा महत्त्वपूर्ण पाठलाई पनि वर्णन गर्दछ: सुरुको अन्त्य छैन। त्यो हो, धेरै पटक, पहिलो निकास सर्वोत्तम हुनेछैन, तर यदि शोधकर्ताहरूले काम जारी राख्छन्, चीजहरू अझ राम्रो हुन सक्छ। अधिक सामान्यतया, डिजिटल युगमा सोशल रिसर्चको नयाँ दृष्टिकोणको मूल्यांकन गर्दा, यो दुई फरक मूल्याङ्कन गर्न महत्त्वपूर्ण छ: (1) अहिले यो काम कति राम्रो हुन्छ? र (2) भविष्यमा यो काम भविष्यमा कतिपय डेटा परिदृश्य परिवर्तन गर्दछ र शोधकर्ताहरूले यस समस्यालाई अझ बढी ध्यान दिन्छन्? यद्यपि शोधकर्ताहरू पहिलो प्रकारको मूल्याङ्कन गर्न प्रशिक्षित गरिन्छ तापनि दोस्रो पटक धेरै महत्त्वपूर्ण हुन्छ।