3.6.1 अभाव विचारून

डिजिटल मागोवा आपल्या सर्वेक्षण दुवा साधून सर्व काही वेळा प्रत्येकजण आपल्या प्रश्न विचारून असू शकतात.

नमुना सर्वेक्षण आणि गणना: विचारत साधारणपणे दोन मुख्य वर्ग येतो. आपण लोक एक लहान संख्या प्रवेश जेथे नमुना सर्वेक्षण, लवचिक, वेळेवर, आणि तुलनेने स्वस्त असू शकते. तथापि, नमुना सर्वेक्षण, ते एक नमुना आधारित आहेत, कारण अनेकदा त्यांच्या ठराव मर्यादित आहेत; नमुना सर्वेक्षण, तो विशिष्ट भौगोलिक मांडून किंवा विशिष्ट डेमोग्राफिक गट अंदाजपत्रकास करण्यासाठी अनेकदा कठीण आहे. गणना, इतर, लोकसंख्येतील प्रत्येकजण मुलाखत प्रयत्न. ते महान ठराव आहे, पण ते सहसा महाग लक्ष अरुंद आहेत (त्यांना फक्त प्रश्न एक लहान संख्या समाविष्ट), आणि नाही वेळेवर (ते अशा प्रत्येक 10 वर्षे निश्चित वेळापत्रकानुसार घडू) (Kish 1979) . संशोधक नमुना सर्वेक्षण आणि गणना उत्तम वैशिष्ट्ये एकत्र नाही तर आता कल्पना; संशोधक दररोज प्रत्येकाला प्रत्येक प्रश्न विचारू शकतो तर कल्पना.

अर्थात, हे सतत, सर्वव्यापी, नेहमी या सर्वेक्षणात सामाजिक विज्ञान रम्य एक प्रकारचा आहे. पण, आम्ही अनेक लोक डिजिटल मागोवा लोकांना एक लहान संख्या पासून सर्वेक्षण प्रश्न एकत्र करून या अंदाज करणे सुरू करू शकता असे दिसते. मी कॉल संयोजन हा प्रकार विचारून अभाव. चांगले केले असेल, तर ते आम्हाला (लहान भौगोलिक भागात) अधिक स्थानिक अंदाज, (विशिष्ट डेमोग्राफिक गट) अधिक रवाळ, आणि अधिक वेळेवर उपलब्ध आहे मदत करू शकते.

अभाव विचारून एक उदाहरण म्हणजे यहोशवा Blumenstock, गरीब देशांतील मार्गदर्शक विकास मदत होईल, असे माहिती गोळा होते कोण काम येते. अधिक विशेषतः, Blumenstock एक सर्वेक्षण लवचिकता आणि वारंवारता एक च्या जनगणनेनुसार परिपूर्ती एकत्र संपत्तीमुळे आणि कल्याण मोजण्यासाठी एक प्रणाली तयार करायची होती (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . खरं तर, मी आधीच Blumenstock काम थोडक्यात Chapter 1 वर्णन केले आहे.

प्रारंभ करण्यासाठी, Blumenstock रवांडा मध्ये सर्वात मोठी मोबाईल प्रदाता भागीदारी केली. कंपनी त्याला अशा प्रारंभ वेळ, कालावधी आणि कॉलर आणि प्राप्तकर्ता च्या भौगोलिक स्थान 2005 आणि 2009 नोंदी प्रत्येक कॉल आणि मजकूर संदेश बद्दल माहिती पासून 1.5 दशलक्ष ग्राहक वर्तन पांघरूण पासून निनावी व्यवहार रेकॉर्ड प्रदान. आम्ही संख्याशास्त्रीय समस्या बोलत सुरू करण्यापूर्वी, तो यासाठी की, हे पहिले पाऊल कठीण एक बाहेर दिशेला वाचतो आहे. Chapter 2 मध्ये वर्णन केल्याप्रमाणे, सर्वात डिजिटल ट्रेस डेटा संशोधक प्रवेश आहे. आणि, अनेक कंपन्या खाजगी असल्यामुळे त्यांच्या डेटा सामायिक करणे justifiably संकोच वाटतो; की त्यांच्या ग्राहकांना कदाचित त्यांचे रेकॉर्ड सामायिक-इन केले जाईल, संशोधक मोठ्या प्रमाणावर-अपेक्षा नाही आहे. या प्रकरणात, संशोधक डेटा निनावी काळजीपूर्वक पावले घेतला आणि त्यांच्या काम तृतीय-पक्ष (म्हणजे, त्यांच्या आयआरबी) द्वारे पहिला होते. पण या प्रयत्नांना न जुमानता, या डेटा कदाचित अजूनही ओळखले आहेत आणि ते शक्यता संवेदनशील माहिती असू (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . मी Chapter 6 या नैतिक प्रश्न परत जाल.

आठवण्याचा Blumenstock संपत्ती आणि कल्याण मोजण्यासाठी रस होता. पण, या अद्वितीय वैशिष्ट्य कॉल रेकॉर्ड थेट नाहीत. दुसऱ्या शब्दांत, या कॉल रेकॉर्ड या संशोधन, डिजिटल मागोवा एक सामान्य वैशिष्ट्य धडा 2. तपशील चर्चा करण्यात आली की, अपूर्ण आहेत, पण ती कॉल रेकॉर्ड कदाचित संपत्ती आणि कल्याण बद्दल काही माहिती आहे की शक्यता दिसते. त्यामुळे, विचारून Blumenstock प्रश्न असू शकते एक मार्ग: त्यांच्या डिजिटल ट्रेस डेटा आधारित कोणीतरी एक सर्वेक्षण प्रतिसाद दिला जाईल कसे भाकित करणे शक्य आहे? असे असल्यास, नंतर काही लोक विचारून आम्ही इतर प्रत्येकासाठी उत्तरे अंदाज करू शकता.

empirically या मुल्यांकन करण्याची, विज्ञान किगाली संस्था आणि तंत्रज्ञान पासून Blumenstock आणि संशोधन सहाय्यकांना एक हजार मोबाइल फोन ग्राहकांना एक नमुना म्हणतात. संशोधक, सहभागी प्रकल्प गोल स्पष्ट कॉल रेकॉर्ड सर्वेक्षण प्रतिसादांचा दुवा त्यांच्या संमती विचारले, आणि नंतर त्यांना आपण एक अशा "म्हणून आपल्या मालकीची आहे, त्यांची संपत्ती आणि कल्याण मोजण्यासाठी प्रश्नांची मालिका विचारले रेडिओ? "आणि" आपण एक सायकल मालक झालात? "(आंशिक यादी आकृती 3.11 पहा). सर्वेक्षण सर्व सहभागी आर्थिक भरपाई होते.

वैशिष्ट्य अभियांत्रिकी पर्यवेक्षण शिक्षण त्यानंतर: पुढील, Blumenstock डेटा विज्ञान सामान्य दोन-ट प्रक्रिया वापरले. प्रथम, वैशिष्ट्य अभियांत्रिकी चरणात, मुलाखत प्रत्येकासाठी, Blumenstock कॉल रेकॉर्ड प्रत्येक व्यक्ती बद्दल वैशिष्ट्ये एक संच मध्ये रुपांतर; डेटा शास्त्रज्ञ या वैशिष्ट्ये म्हणू शकते "वैशिष्ट्ये" आणि सामाजिक शास्त्रज्ञ त्यांना कॉल होईल "चल." उदाहरणार्थ, प्रत्येक व्यक्ती, Blumenstock क्रियाकलाप दिवस एकूण संख्या गणना, व्यक्तीच्या संपर्कात आहे सुस्पष्ट लोकांची संख्या, रक्कम एअरटाईम खर्च, आणि त्यामुळे पैसा. बारकाईने, चांगला वैशिष्ट्य अभियांत्रिकी संशोधन सेटिंग ज्ञान असणे आवश्यक आहे. उदाहरणार्थ, देशांतर्गत आणि आंतरराष्ट्रीय कॉल फरक (आम्ही आंतरराष्ट्रीय कॉल लोक श्रीमंत अपेक्षा शकते) महत्वाचे आहे, तर हे वैशिष्ट्य अभियांत्रिकी टप्प्यावर पूर्ण करणे आवश्यक आहे. रवांडा थोडे समजून संशोधक हे वैशिष्ट्य समाविष्ट करू शकते, आणि नंतर मॉडेल सूचक कामगिरी दु: ख होईल.

पुढे, पर्यवेक्षण शिक्षण चरणात, Blumenstock एक संख्याशास्त्रीय मॉडेल त्यांची वैशिष्ट्ये आधारावर प्रत्येक व्यक्ती सर्वेक्षण प्रतिसाद अंदाज बांधले. या प्रकरणात, Blumenstock 10 पट क्रॉस तपासणी सह गृह पुन्ह वापरले, पण त्याला इतर संख्याशास्त्रीय किंवा मशीन शिक्षण पध्दती विविध उपयोग करू शकला.

हे कसे चांगले नाही? Blumenstock प्रश्नांना सर्वेक्षण उत्तरे अंदाज सक्षम होते "आपण रेडियो आपल्या मालकीची आहे?" आणि "आपण एक सायकल मालकीची आहे?" कॉल रेकॉर्ड साधित केलेली वैशिष्ट्ये वापरून? क्रमवारी. अंदाजाची अचूकता काही अद्वितीय वैशिष्ट्य (आकृती 3.11) उच्च होते. पण, तो एक साधा पर्याय विरुद्ध एक जटिल अंदाज पद्धत तुलना नेहमीच महत्त्वाचा असतो. या प्रकरणात, एक साधा पर्याय अंदाज प्रत्येकाला सर्वात सामान्य उत्तर देईल आहे. उदाहरणार्थ, 97.3% Blumenstock असे भाकीत केले होते तर, जेणेकरून प्रत्येक 97.3%, त्याच्या अधिक जटिल प्रक्रिया (97.6% अचूकता) कामगिरी आश्चर्याची गोष्ट समान आहे, जे अचूकता मिळाली असती एक रेडिओ शहरी अहवाल होईल एक रेडिओ शहरी अहवाल. दुसऱ्या शब्दांत, सर्व फॅन्सी डेटा आणि मॉडेलिंग 97,6% पर्यंत 97.3% वाढली अंदाज अचूकता. तथापि, इतर प्रश्न, जसे साठी "तुम्ही सायकल मालक झालात", अंदाज 54.4% वरून 67.6% पर्यंत सुधारणा झाली. अधिक सामान्यतः, आकृती 3.12 शो काही अद्वितीय वैशिष्ट्य साठी Blumenstock फक्त साधे मूलभूत अंदाज करत पलीकडे जास्त सुधारण्यासाठी नाही, पण त्या इतर अद्वितीय वैशिष्ट्य काही सुधारणा होते.

आकृती 3.11: कॉल रेकॉर्ड प्रशिक्षण संख्याशास्त्रीय मॉडेल सूचक अचूकता. Blumenstock (2014) च्या तक्ता 2 परिणाम.

आकृती 3.11: कॉल रेकॉर्ड प्रशिक्षण संख्याशास्त्रीय मॉडेल सूचक अचूकता. सारणी 2 परिणाम Blumenstock (2014) .

आकृती 3.12: साधा मूलभूत अंदाज कॉल रेकॉर्ड प्रशिक्षण संख्याशास्त्रीय मॉडेल सूचक अचूकता तुलना. गुण किंचित आच्छादन टाळण्यासाठी jittered आहेत; अचूक मूल्य Blumenstock (2014) च्या तक्ता 2 पहा.

आकृती 3.12: साधा मूलभूत अंदाज कॉल रेकॉर्ड प्रशिक्षण संख्याशास्त्रीय मॉडेल सूचक अचूकता तुलना. गुण किंचित आच्छादन टाळण्यासाठी jittered आहेत; सारणी 2 पाहू Blumenstock (2014) अचूक मूल्य.

या टप्प्यावर तुम्ही हे परिणाम थोडा निराशाजनक आहेत, पण फक्त एक वर्ष नंतर, Blumenstock आणि दोन सहकार्यांसह-गब्रीएल Cadamuro आणि रॉबर्ट रोजी प्रकाशित विज्ञान कागद सेवनाने चांगले परिणाम विचार जाऊ शकते (Blumenstock, Cadamuro, and On 2015) . ते अधिक अत्याधुनिक पद्धती वापरली 1) (म्हणजे, अभियांत्रिकी आणि अधिक अत्याधुनिक मशीन लर्निंग मॉडेल वैशिष्ट्य एक नवीन दृष्टीकोन) आणि 2) ऐवजी वैयक्तिक सर्वेक्षण प्रश्न प्रतिसाद अनुमान काढण्यासाठी प्रयत्न (उदा पेक्षा तेथे सुधारणा दोन मुख्य तांत्रिक कारणांमुळे होते "आपण एक रेडिओ आपल्या मालकीची आहे?"), ते संयुक्त संपत्ती निर्देशांक अनुमान काढण्यासाठी प्रयत्न केला.

Blumenstock आणि सहकारी दोन प्रकारे त्यांच्या दृष्टिकोन कामगिरी दाखवून दिले. प्रथम, ते त्यांच्या नमुना लोकांना, ते कॉल रेकॉर्ड (आकृती 3.14) पासून त्यांची संपत्ती भविष्यवाणी एक तेही चांगली नोकरी करू शकतो असे आढळले. दुसरी गोष्ट, कधीही अधिक महत्त्वाचे, Blumenstock आणि सहकारी त्यांच्या प्रक्रिया रवांडा मध्ये संपत्ती भौगोलिक वितरण उच्च दर्जाचे अंदाज उत्पादन करू शकतात की झाली. अधिक विशेषतः, ते कॉल रेकॉर्ड मध्ये 1.5 दशलक्ष लोक संपत्ती अंदाज सुमारे 1000 लोक त्यांच्या नमुना प्रशिक्षण होते जे त्यांच्या मशीन लर्निंग मॉडेल, वापरले. पुढे, कॉल डेटा एम्बेड जियोसॅप्टीअल डेटा (आठवण्याचा कॉल डेटा प्रत्येक कॉल जवळच्या सेल टॉवर स्थान समावेश होतो), संशोधक प्रत्येक व्यक्तीच्या राहण्याचा अंदाजे ठिकाणी अंदाज करणे शक्य झाले. एकत्र या दोन अंदाज टाकल्यावर, संशोधन अत्यंत दंड अवकाशीय ग्रॅन्युलॅरिटिच्या येथे ग्राहक संपत्ती भौगोलिक वितरण अंदाज निर्मिती केली. उदाहरणार्थ, ते रवांडा च्या 2148 पेशी (देशात लहान प्रशासकीय एकक) प्रत्येक सरासरी संपत्ती अंदाज नाही. या अंदाज संपत्ती मूल्ये ते तपासण्यासाठी कठीण होते त्यामुळे रवाळ होते. त्यामुळे, संशोधक रवांडा 30 जिल्ह्यांत सरासरी संपत्ती अंदाज निर्मिती निकाल एकत्रित. या जिल्हास्तरीय अंदाज जोरदार सुवर्ण मानक पारंपारिक सर्वेक्षण पासून अंदाज संबंधित, रवांडा डेमोग्राफिक आणि आरोग्य सर्वेक्षण (आकृती 3.14). दोन स्रोत पासून अंदाज समान झाले असले तरी, Blumenstock आणि सहकाऱ्यांकडील अंदाज 50 वेळा स्वस्त आणि 10 पट वेगाने (खर्च वेरियेबल खर्च दृष्टीने मोजली तेव्हा) होते. खर्च या नाट्यमय कमी दर काही वर्षे म्हणून चालविण्यात येत ऐवजी की लोकसंख्याशास्त्रीय आणि आरोग्य मानक आहे सर्वेक्षण मोठा डिजिटल ट्रेस डेटा एकत्र लहान सर्वेक्षण संकरीत दर महिन्याला चालवा करू शकतो.

आकृती 3.13: Blumenstock, Cadamuro योजनेच्या स्वरुपाचा, आणि (2015). फोन कंपनी पासून कॉल डेटा प्रत्येक व्यक्ती एका ओळीत आणि प्रत्येक वैशिष्ट्य (अर्थात, चल) एक स्तंभ मॅट्रिक्स मध्ये रुपांतरीत झाले. पुढे, संशोधक वैशिष्ट्य मॅट्रिक्स व्यक्तीला पासून सर्वेक्षण प्रतिसादांचा अंदाज पर्यवेक्षी लर्निंग मॉडेल बांधले. मग, पर्यवेक्षण लर्निंग मॉडेल प्रत्येकासाठी सर्वेक्षण प्रतिसादांचा दोषारोप वापरला होता. थोडक्यात, संशोधक सुमारे एक लाख लोक संपत्ती दोषारोप करण्यासाठी सुमारे एक हजार लोक प्रतिसाद वापरले. तसेच, संशोधक त्यांच्या कॉल स्थाने वर आधारित सर्व 1.5 दशलक्ष लोक राहण्याचा अंदाजे स्थान अंदाज आहे. या दोन अंदाज एकत्र-आले, तेव्हा अंदाज संपत्ती आणि राहत्या-परिणाम अंदाजे स्थान डेमोग्राफिक आणि आरोग्य सर्वेक्षण, एक सोने-मानक पारंपारिक सर्वेक्षण (आकृती 3.14) पासून अंदाज पटत होते.

आकृती 3.13: योजनेच्या स्वरुपाचा Blumenstock, Cadamuro, and On (2015) . फोन कंपनी पासून कॉल डेटा प्रत्येक वैशिष्ट्य (म्हणजेच, चल) प्रत्येक व्यक्ती एक पंक्ती आणि एक स्तंभ एक मॅट्रिक्स मध्ये रुपांतरीत झाले. पुढे, संशोधक वैशिष्ट्य मॅट्रिक्स व्यक्तीला पासून सर्वेक्षण प्रतिसादांचा अंदाज पर्यवेक्षी लर्निंग मॉडेल बांधले. मग, पर्यवेक्षण लर्निंग मॉडेल प्रत्येकासाठी सर्वेक्षण प्रतिसादांचा दोषारोप वापरला होता. थोडक्यात, संशोधक सुमारे एक लाख लोक संपत्ती दोषारोप करण्यासाठी सुमारे एक हजार लोक प्रतिसाद वापरले. तसेच, संशोधक त्यांच्या कॉल स्थाने वर आधारित सर्व 1.5 दशलक्ष लोक राहण्याचा अंदाजे स्थान अंदाज आहे. या दोन अंदाज एकत्र-आले, तेव्हा अंदाज संपत्ती आणि राहत्या-परिणाम अंदाजे स्थान डेमोग्राफिक आणि आरोग्य सर्वेक्षण, एक सोने-मानक पारंपारिक सर्वेक्षण (आकृती 3.14) पासून अंदाज पटत होते.

आकृती 3.14: Blumenstock, Cadamuro, आणि (2015) परिणाम. वैयक्तिक स्तरावर, संशोधक त्यांच्या कॉल रेकॉर्ड कोणी संपत्ती भाकीत येथे वाजवी काम करणे शक्य झाले. जिल्हास्तरीय संपत्ती-जे संपत्ती आणि राहत्या-परिणाम स्थान वैयक्तिक स्तरीय अंदाज आधारित होते अंदाज डेमोग्राफिक आणि आरोग्य सर्वेक्षण, एक सोने-मानक पारंपारिक सर्वेक्षण परिणाम पटत होते.

आकृती 3.14 कडून परिणाम: Blumenstock, Cadamuro, and On (2015) . वैयक्तिक स्तरावर, संशोधक त्यांच्या कॉल रेकॉर्ड कोणी संपत्ती भाकीत येथे वाजवी काम करणे शक्य झाले. जिल्हास्तरीय संपत्ती-जे संपत्ती आणि राहत्या-परिणाम स्थान वैयक्तिक स्तरीय अंदाज आधारित होते अंदाज डेमोग्राफिक आणि आरोग्य सर्वेक्षण, एक सोने-मानक पारंपारिक सर्वेक्षण परिणाम पटत होते.

शेवटी, Blumenstock सोने-मानक सर्वेक्षण अंदाज तुलना अंदाज निर्मिती डिजिटल शोध काढूण डेटा दृष्टिकोन एकत्र सर्वेक्षण डेटा विचारत अभाव. या विशिष्ट उदाहरण देखील अभाव विचारून आणि पारंपारिक सर्वेक्षण पद्धती दरम्यान ट्रेड-ऑफ काही स्पष्ट. प्रथम, अभाव विचारून अंदाज अधिक वेळेवर, सेवनाने स्वस्त, आणि अधिक रवाळ होते. पण, दुसरीकडे, या वेळी, नाही अभाव विचारून या प्रकारची एक मजबूत सैद्धांतिक आधार आहे. आहे, हे काम आणि जेव्हा तो नाही कराल, तेव्हा हा एक उदाहरण दाखवू शकत नाही. शिवाय, अभाव विचारत दृष्टिकोन अद्याप त्याच्या अंदाज अनिश्चितता मापन करण्याची चांगला मार्ग नाही. तथापि, अभाव विचारत आकडेवारी मॉडेल आधारित पोस्ट साहित्य बियाणे तीन मोठ्या भागात खोल कनेक्शन आहे (Little 1993) , दूषण (Rubin 2004) , आणि लहान क्षेत्र अंदाज (Rao and Molina 2015) -आणि म्हणून मी प्रगती होईल, अशी अपेक्षा जलद होईल.

अभाव विचारून आपल्या विशिष्ट परिस्थिती आखणी करता येते की एक मूलभूत कृती खालीलप्रमाणे. दोन साहित्य आणि दोन पायऱ्या आहेत. दोन साहित्य 1) ​​रुंद पण पातळ (म्हणजे आहे की डिजिटल शोध काढूण डेटासेटच्या आहेत, अनेक लोक पण नाही माहिती आपण प्रत्येक व्यक्तींची गरज आहे) आणि अरुंद पण जाड (म्हणजे आहे 2) एक सर्वेक्षण आहे, तो फक्त काही लोक, पण आपण त्या लोक आवश्यक आहे की माहिती) आहे. नंतर, दोन पावले आहेत. प्रथम, डेटा स्रोत दोन्ही लोक, सर्वेक्षण उत्तरे अंदाज डिजिटल ट्रेस डेटा वापरते हे एक यंत्र आहे लर्निंग मॉडेल तयार. पुढे, डिजिटल ट्रेस डेटा प्रत्येकजण सर्वेक्षण उत्तरे दोषारोप की मशीन लर्निंग मॉडेल वापरा. त्यामुळे, आपण, लोक बरेच विचारू त्यांच्या उत्तर अंदाज वापरले जाऊ शकते त्या लोकांची डिजिटल ट्रेस डेटा शोधणे इच्छिता की काही प्रश्न असेल.

तुलना समस्या Blumenstock च्या पहिल्या आणि दुसर्या प्रयत्न देखील संशोधन सर्वेक्षण आणि तिसर्या कालखंडात पध्दती दुसऱ्या कालखंडात बदलाबद्दल एक महत्त्वाचा धडा स्पष्ट करते: सुरुवातीला शेवट नाही. आहे, अनेक वेळा, प्रथम पध्दत होणार नाही, पण संशोधक काम चालू असेल, तर गोष्टी चांगल्या मिळवू शकता. अधिक सामान्यतः, डिजिटल युगात सामाजिक संशोधन नवीन पध्दती मूल्यांकन करताना, हे महत्त्वाचे आहे, दोन भिन्न मोजमापन करणे आहे: 1) आता हे कसे काम करते कसे चांगले आणि 2) आपण हा डेटा परिदृश्यात भविष्यात कार्य करू शकतील विचार कसे चांगले बदल आणि संशोधक समस्या म्हणून अधिक लक्ष अर्पण. तरी, संशोधक (कसे चांगले संशोधन या विशिष्ट तुकडा आहे) मूल्यमापनासाठी पहिल्या प्रकारची करण्यासाठी प्रशिक्षित आहेत, दुसऱ्या अनेकदा अधिक महत्त्वाचे आहे.