3.6.1 प्रश्न

समृद्ध अनुरोधमा, सर्वेक्षण डेटाले ठूलो डाटा स्रोतको सन्दर्भमा सन्दर्भ बनाउँछ जुन केही महत्त्वपूर्ण माप समावेश गर्दछ तर अरूको कमी छ।

सर्वेक्षण डेटा र ठूला डेटा स्रोतहरू संयोजन गर्ने एक तरिका एउटा प्रक्रिया हो जुन म समृद्ध प्रश्नलाई कल गर्नेछु। समृद्ध अनुरोधमा, एक ठूलो डाटा स्रोतले केहि महत्त्वपूर्ण माप समावेश गर्दछ तर अन्य मापको कमी छ त्यसैले शोधकर्ताहरूले सर्वेक्षणमा यी हराएको माप एकत्र गर्दछ र त्यसपछि दुई डेटा स्रोतहरू सँगै जोड्दछन्। सम्वन्धित प्रश्नको एक उदाहरण Burke and Kraut (2014) ले अध्ययन गरेको छ कि फेसबुकमा अन्तरक्रिया गर्दा मित्रता बल बढ्छ कि मैले खण्ड 3.2 मा वर्णन गरेको छु)। त्यस अवस्थामा, बर्र्क र क्र्राटले फेस लग लग डेटासँग संयुक्त सर्वेक्षण डेटा।

बर्क र क्र्राटको सेटिङले काम गरिरहेको थियो, तथापि, उनीहरूले दुई ठूला समस्याहरू समाधान गर्ने गर्दथे कि शोधकर्ताहरू प्रायः सोध्न चाहन्थे। पहिलो, वास्तवमा व्यक्तिगत-स्तर डाटा सेटहरूसँग एकसाथ जोड्दै, रेकर्ड लिङ्क भनिन्छ एक प्रक्रिया, यदि हुन सक्छ कि डेटा डेटा स्रोतहरूमा कुनै पनि अद्वितीय पहिचानकर्ता छैन भनेर डेटाबेसमा सही रेकर्ड एक डेटासेटमा सही रेकर्डसँग मेल खाएको छ। अन्य डेटासेटमा। समृद्ध अनुरोध संग दोस्रो मुख्य समस्या यो हो कि ठूलो डेटा स्रोत को गुणवत्ता अक्सर शोधकर्ताओं को मूल्यांकन गर्न को लागि मुश्किल हुनेछ किनकी प्रक्रिया को माध्यम ले डेटा बनाइयो स्वामित्व हुन सक्छ र अध्याय 2 मा वर्णित धेरै समस्याहरु को लागि संवेदनशील हुन सक्छ। अन्य शब्दहरुमा, समृद्ध अनुरोध अक्सर अज्ञात गुणको ब्ल्याक-बक्स डेटा स्रोतहरूमा सर्वेक्षणहरूको त्रुटि-प्रलोभनको लिङ्क समावेश हुनेछ। यी समस्याहरूको बावजूद, संयुक्त राज्य अमेरिकामा मतदानको ढाँचामा उनीहरूको अनुसन्धानमा स्टीफन अन्जुलोबाहेरी र इटन हर्स (2012) द्वारा प्रदर्शन गरिएको महत्त्वपूर्ण अनुसन्धान सञ्चालन गर्न समृद्ध प्रश्न प्रयोग गर्न सकिन्छ।

मतदाता टर्नआउट राजनैतिक विज्ञान मा व्यापक अनुसन्धान को विषय हो, र अतीत मा, किस किसानहरु को शोधकर्ताओं को समझ र सामान्यतया सर्वेक्षण को डेटा को विश्लेषण मा आधारित छ। तथापि, संयुक्त राज्यमा मतदान, एक असामान्य व्यवहार हो कि सरकार रेकर्ड गर्दछ कि प्रत्येक नागरिकले मतदान गरेको छ (निस्सन्देह, सरकारले प्रत्येक नागरिकको लागि मतदान गर्ने रेकर्ड गरेको छैन)। धेरै वर्षसम्म, यी सरकारी मतदान रेकर्डहरू पेपर रूपहरूमा उपलब्ध थिए, देशभरका विभिन्न स्थानीय सरकारी कार्यालयहरूमा बिग्रिएका थिए। यसले राजनीतिक वैज्ञानिकहरूको लागि मतदानको पूर्ण चित्र (Ansolabehere and Hersh 2012) यसको वास्तविक मतदान व्यवहार (Ansolabehere and Hersh 2012) संग मतदानको बारेमा सर्वेक्षणहरूमा के भन्नुको तुलना गर्न असम्भव छ, तर असम्भव छैन।

तर यी मतदान रेकर्डहरू अब डिबाइज गरिएको छ, र धेरै निजी कम्पनीहरूले व्यवस्थित रूपमा सम्पूर्ण मालिकहरूलाई मतदान गर्ने फाइलहरू उत्पादन गर्ने र मिलाएको छ जुन सबै अमेरिकीहरूको मतदान व्यवहार समावेश गर्दछ। Ansolabehere र Hersh यी एक कम्पनी-Catalyst LCC-को लागि आफ्नो मतदान को लागी एक बेहतर तस्वीर को विकास मा मदद को लागि फाइल को उपयोग गर्न को लागि भागीदारी संग। यसबाहेक, किनभने उनीहरूको अध्ययनले डेटा संग्रह र सम्मोहनमा पर्याप्त स्रोतहरू लगानी गरेको कम्पनीले एकत्रित र क्युरेट गरिएको डिजिटल रेकर्डमा निर्भर रह्यो, यसले अघिल्लो प्रयासहरूमा धेरै फाइदाहरू प्रदान गर्यो जुन कम्पनीको सहायता बिना र एनालग रेकर्ड प्रयोग गरेर।

अध्याय 2 मा धेरै ठूलो डाटा स्रोतहरू जस्तै, क्यास्टस्टिस्ट मास्टर फाईलले अंजुलोभेयर र हर्सहलाई आवश्यक पर्ने जनसांख्यिकीय, व्यावहारिक र व्यवहारिक जानकारी समावेश गर्दैन। वास्तव मा, उनि सर्वेक्षण मा रिपोर्टिंग को मतदान व्यवहार को तुलना मा अधिकृत व्यवहार वाला वैध व्यवहार (यानी, कैटलिस्ट डाटाबेस मा जानकारी) संग रुचि राखयो। त्यसैले Ansolabehere र Hersh डेटा एकत्रित कि तिनीहरूले एक ठूलो सामाजिक सर्वेक्षणको रूपमा, यस अध्यायमा उल्लेख गरिएको CCES, जुन चाहन्थे। त्यसपछि तिनीहरूले आफ्नो डेटा कोस्टस्टस्टमा दिए, र क्यालिस्टिस्टले उनीहरूलाई एक विलय डाटा फाइल फिर्ता दिए जसमा मतदान गर्ने व्यवहार (Catalist बाट) समावेश गरियो, आत्म-रिपोर्टिङ मतदान व्यवहार (CCES बाट) र उत्तरदाताहरूको जनसांख्यिकी र व्यवहार (CCES बाट) 3.13)। अन्य शब्दहरुमा, Ansolabehere र Hersh सर्वेक्षण डेटा संग मतदान रेकर्ड डेटा संयुक्त क्रम मा अनुसन्धान गर्न को लागी डेटा स्रोत व्यक्तिगत रूप देखि सम्भव थिएन।

चित्रा 3.13: अंजुलोभरे र हर्सह (2012) द्वारा अध्ययन योजनाबद्ध। मास्टर डेटासेट सिर्जना गर्न, क्यास्टस्टिस्टले जोड दिन्छ र धेरै स्रोतहरूबाट जानकारीलाई सम्मुख गर्दछ। मर्ज गर्ने यो प्रक्रिया, कुनै पनि सावधानले, मूल डेटा स्रोतहरूमा त्रुटिहरू प्रचार गर्नेछ र नयाँ त्रुटिहरू परिचय गर्नेछ। त्रुटिको दोस्रो स्रोत सर्वेक्षण डेटा र मास्टर डेटासेट बीच रेकर्ड लिङ्क हो। यदि प्रत्येक व्यक्तिको डेटा डेटा स्रोतहरूमा स्थिर, अद्वितीय पहिचानकर्ता थियो, त्यसपछि लिङ्केज सानो हुनेछ। तर, यस क्यासिन नाम, लिङ्ग, जन्म वर्ष, र घरको ठेगानामा, कटिस्टिस्टले असम्भव पहिचानकर्ताहरूको प्रयोग गरी लिङ्क गर्न थालेको थियो। दुर्भाग्यवश, धेरै मामलाहरु को लागि अपूर्ण वा गलत जानकारी हुन सक्छ; होमर सिम्पसन नामक एक मतदाता होमर जे सिम्पसन, होम जे जे सिम्पसन, वा होमर सैंम्पिन पनि देखा पर्न सक्छ। क्यास्ट्रिस्ट मास्टर डेटासेटमा त्रुटि र सम्भावनाको बावजूद रेकर्ड लिङ्कमा त्रुटिहरू, Ansolabehere र Hersh धेरै अनुमानित चेक मार्फत उनीहरूको अनुमानमा विश्वास निर्माण गर्न सक्षम थिए।

चित्रा 3.13: Ansolabehere and Hersh (2012) द्वारा अध्ययन योजनाबद्ध। मास्टर डेटासेट सिर्जना गर्न, क्यास्टस्टिस्टले जोड दिन्छ र धेरै स्रोतहरूबाट जानकारीलाई सम्मुख गर्दछ। मर्ज गर्ने यो प्रक्रिया, कुनै पनि सावधानले, मूल डेटा स्रोतहरूमा त्रुटिहरू प्रचार गर्नेछ र नयाँ त्रुटिहरू परिचय गर्नेछ। त्रुटिको दोस्रो स्रोत सर्वेक्षण डेटा र मास्टर डेटासेट बीच रेकर्ड लिङ्क हो। यदि प्रत्येक व्यक्तिको डेटा डेटा स्रोतहरूमा स्थिर, अद्वितीय पहिचानकर्ता थियो, त्यसपछि लिङ्केज सानो हुनेछ। तर, यस क्यासिन नाम, लिङ्ग, जन्म वर्ष, र घरको ठेगानामा, कटिस्टिस्टले असम्भव पहिचानकर्ताहरूको प्रयोग गरी लिङ्क गर्न थालेको थियो। दुर्भाग्यवश, धेरै मामलाहरु को लागि अपूर्ण वा गलत जानकारी हुन सक्छ; होमर सिम्पसन नामक एक मतदाता होमर जे सिम्पसन, होम जे जे सिम्पसन, वा होमर सैंम्पिन पनि देखा पर्न सक्छ। क्यास्ट्रिस्ट मास्टर डेटासेटमा त्रुटि र सम्भावनाको बावजूद रेकर्ड लिङ्कमा त्रुटिहरू, Ansolabehere र Hersh धेरै अनुमानित चेक मार्फत उनीहरूको अनुमानमा विश्वास निर्माण गर्न सक्षम थिए।

आफ्नो संयुक्त डाटा फाइलको साथ, Ansolabehere र Hersh तीन महत्वपूर्ण निष्कर्षमा आयो। पहिलो, मतदानको बारे मा अधिक रिपोर्टिंग बेहद छ: लगभग गैर आवासीयहरु मतदान को रिपोर्ट गरे, र यदि कसैले मतदान को रिपोर्ट गरे, केवल एक 80% मौका छ कि उनि वास्तव मा वोट दिए। दोस्रो, अधिक रिपोर्टिंग अनियमित छैन: अधिक-रिपोर्टिङ उच्च आय, राम्रो-शिक्षित, विभाजनहरू जुन सार्वजनिक मामिलामा व्यस्त छन् को बीचमा सामान्य छ। अन्य शब्दहरूमा, प्रायः मतदान गर्ने व्यक्तिहरू पनि मतदानको बारेमा झूटो सम्भावना पनि छन्। तेस्रो, र अधिक आलोचनात्मक रूपमा, अधिक रिपोर्टिङको व्यवस्थित प्रकृतिको कारण, मतदाता र गैरभोटकर्ताहरू बीचको वास्तविक मतभेदहरू सर्वेक्षणबाट मात्र देखिन्छन्। उदाहरणको लागि, जो स्नातकको डिग्रीले ती मतहरू रिपोर्ट गर्नका लागि 22 प्रतिशत अंकहरू अधिक छन्, तर वास्तवमा मात्र 10 प्रतिशत बिन्दुहरू वास्तवमा मतदान गर्ने सम्भावना छन्। त्यसो भए पनि यो कुरा थाहा पाईन कि शायद आश्चर्यजनक कुरा हो कि मतदानको अवस्थित संसाधन आधारित सिद्धान्तहरु भविष्यवाणी गर्ने बारे अनुमान गर्दछन जसले भविष्यमा मतदान गर्ने अनुमान लगाईएको छ (कुन शोधकर्ताहरूले अतीतमा प्रयोग गरेका डाटाहरु) को रिपोर्ट गर्नेछ। यसैले, Ansolabehere and Hersh (2012) को अनुभविक खोज नयाँ सिद्धान्तहरूको लागि बुझ्न र भविष्यवाणी गर्न भविष्यवाणी को लागि कल।

तर हामी यी नतिजालाई कत्तिको भरोसा राख्नुपर्छ? सम्झनुहोस्, यी नतिजाहरूले अज्ञात मात्रा त्रुटिको साथ ब्ल्याक बक्स डेटासँग लिङ्क त्रुटि-प्रोनमा निर्भर गर्दछ। विशेष गरी, परिणामहरू दुई प्रमुख चरणहरूमा छान्न सकिन्छ: (1) क्याटलिस्टको क्षमतामा धेरै फरक डेटा स्रोतहरू एक सटीक मास्टर डेटासेट सिर्जना गर्न को लागी गठित गर्न र (2) क्याटलिस्ट को सर्वेक्षण डेटा लाई यसको मास्टर डाटासेटमा लिङ्क गर्ने। यी चरणहरू मध्ये प्रत्येक गाह्रो छ, र कुनै पनि चरणमा त्रुटिहरूले शोधकर्ताहरूलाई गलत निष्कर्षमा लैजान सक्छ। तथापि, डेटा प्रोसेसिंग र लिङ्किंग दुवै एक कम्पनी को रूप मा कैटलिस्ट को निरंतर अस्तित्व को लागि महत्वपूर्ण छ, यसैले यो यिनी समस्याहरु लाई सुलझाने को लागि संसाधनों को निवेश गर्न सक्छन्, अक्सर एक स्तर मा कि शैक्षणिक शोधकर्ता संग मेल खा सकते हो। आफ्नो कागजमा Ansolabehere र Hersh यी दुई चरणहरूको परिणाम जाँच गर्न केही कदमहरू मार्फत जानुहोस्- यद्यपि उनीहरूको केही स्वामित्व हो- र यी जाँचहरू अन्य शोधकर्ताहरूको लागि सर्भर डाटा ठूलो ब्ल्याक बक्समा ठूलो डाटा लिंक गर्न चाहने उपयोगी हुन सक्छ। स्रोतहरू।

यस अध्ययनबाट सामान्य पाठकहरू कस्ता आकर्षित हुन सक्छन्? पहिलो, सर्वेक्षण डेटा संग ठूलो डेटा स्रोतहरु लाई समृद्ध बनाउन र ठूला डेटा स्रोतहरु संग सर्वेक्षण डेटा को समृद्धि गर्न को लागी एकदम महत्वपूर्ण मूल्य (तपाईं यो अध्ययन पनि तरिका देख्न सक्नुहुन्छ)। यी दुई डेटा स्रोतहरू संयोजन गरेर, शोधकर्ताहरूले व्यक्तिगत रूपमा व्यक्तिगत रूपमा असम्भव थियो कि केहि गर्न सक्षम थिए। दोस्रो सामान्य पाठ भनेको समग्र, व्यावसायिक डाटा स्रोतहरू जस्तै कि क्याटलिस्टको डेटा जस्तै "केही हालतमा" ग्लोबल सत्य "विचार गर्न सकिँदैन, तिनीहरू उपयोगी हुन सक्छन्। स्किप्टिक्स कहिलेकाहिँ यी संगत, व्यावसायिक डेटा स्रोत को तुलना पूर्ण सत्य संग तुलना गर्नुहोस र यो बताइन्छ कि यी डेटा स्रोतहरु कम हुन्छ। यद्यपि, यस अवस्थामा, शंकास्पदहरूले गलत तुलना गर्दैछ: सबै डेटा जो शोधकर्ताहरूले प्रयोग गर्दछन् पूर्ण सत्य पूर्ण। यसको सट्टा, यो राम्रो छ कि तुलनात्मक, व्यावसायिक डेटा स्रोतहरू अन्य उपलब्ध डेटा स्रोतहरूसँग तुलना गर्नुहोस् (उदाहरणार्थ, आत्म-रिपोर्टिङ मतदान व्यवहार), जुन गलत रूपमा पनि त्रुटि छन्। अन्ततः, अन्जुलोभरेयर र हर्सहको अध्ययनको तेस्रो सामान्य पाठ भनेको हो कि केहि परिस्थितिहरूमा, शोधकर्ताले ठूलो लगानीबाट लाभ उठाउन सक्छन् कि धेरै निजी कम्पनीहरू जटिल सामाजिक डेटा सेटहरू सङ्कलन गर्न र अनुमोदन गर्दै छन्।