3.6.1 विचारण्यात समृद्ध

संवर्धित विचारात, सर्वेक्षणाचा डेटा काही महत्त्वाच्या मापांसह मोठ्या डेटा स्रोताचा संदर्भ तयार करतो परंतु इतरांपेक्षा कमी आहे.

सर्वेक्षण डेटा आणि मोठे डेटा स्त्रोत एकत्रित करण्याचा एक मार्ग म्हणजे मी समृद्ध लोक संवर्धनाने विचारण्यात, एका मोठ्या डेटा स्रोतामध्ये काही महत्वाचे मोजमाप असतात परंतु इतर मापांची कमतरता असते ज्यामुळे संशोधक या गहाळ मोजमापांना एका सर्वेक्षणात गोळा करतो आणि नंतर एकत्रितपणे दोन डेटा स्त्रोतांना लिंक करतो. Burke and Kraut (2014) एक उदाहरण म्हणजे Burke and Kraut (2014) द्वारे अभ्यास करणे की फेसबुकवर परस्पर संवाद साधणे मित्रत्वाची शक्ती वाढविते, जे मी विभाग 3.2 मध्ये वर्णन केले आहे). त्या बाबतीत, बुके आणि करौत यांनी फेसबुक लॉग डेटासह एकत्रित सर्वेक्षण डेटा.

ज्या संस्थेत बर्की आणि क्रॉट काम करीत होते, त्याचा अर्थ असा होता की त्यांना दोन मोठ्या समस्यांना सामोरे जाण्याची गरज नाही जे संशोधकांना समृद्ध करतात जेणेकरुन सामान्यत: सहसा चेहरा शोधता येत असे. सर्वप्रथम, प्रत्यक्षात वैयक्तिक-स्तर डेटा सेट एकत्र जोडणे , रेकॉर्ड लिंक्ड नावाची प्रक्रिया करणे कठीण होऊ शकते जर डेटा स्रोत दोन्हीमध्ये एकमेव ओळखकर्त्याचे नसेल तर एका डेटासेटमधील योग्य रेकॉर्ड योग्य रेकॉर्डशी जुळल्यास सुनिश्चित केले जाऊ शकते अन्य डेटासेटमध्ये समृद्ध विचारांबरोबर दुसरी मोठी समस्या अशी आहे की मोठ्या डेटा स्त्रोताची गुणवत्ता संशोधनासाठी अवघड असणे आवश्यक आहे कारण ज्याप्रकारे डेटा तयार केला जातो तो स्वामित्व असू शकतो आणि अध्याद्याच्या 2 मध्ये दिलेल्या अनेक समस्यांशी संवेदनाक्षम असू शकते. दुस-या शब्दात, समृद्ध विचारांमध्ये बर्याचदा अज्ञात गुणवत्तेच्या ब्लॅक-बॉक्स डेटा स्त्रोतांकडे सर्वेक्षणांच्या त्रुटी-प्रवण जोडण्यांचा समावेश असेल. या समस्या असूनही, समृद्ध विचारांमुळे अमेरिकेतील मतप्रणालींवर संशोधन करण्यासाठी स्टीफन अंसॉलेबयेर आणि इयान हर्ष (2012) यांचे महत्त्वपूर्ण संशोधन केले जाऊ शकते.

राजकीय मतदानात मतदाता मतदानाचे व्यापक संशोधन केले गेले आहे, आणि, भूतकाळात, कोण मतदान करतो आणि सामान्यत: सवेक्षण डेटाच्या विश्लेषणावर आधारित आहे का संशोधकांचा समज. अमेरिकेत मतदान करणे हे एक असामान्य वागणूक आहे की, प्रत्येक नागरिकाने मतदान केले आहे किंवा नाही हे सरकारी रेकॉर्ड आहे (अर्थात, सरकार प्रत्येक नागरिकाचे मत नोंदवू शकत नाही). अनेक वर्षांपासून, या सरकारी मतदान रेकॉर्ड पेपर फॉर्म वर उपलब्ध होते, देशातील सुमारे विविध स्थानिक सरकारी कार्यालये मध्ये पसरलेले. यामुळे राजकीय शास्त्रज्ञांकडे मतदानाचे संपूर्ण चित्र असणे आणि अशाप्रकारे मत व्यक्त करणे अशक्य नाही परंतु लोक त्यांच्या वास्तविक मतदानाच्या वर्तणुकीशी (Ansolabehere and Hersh 2012) सर्वेक्षणात काय म्हणतात.

पण हे मतदान रेकॉर्ड आता डिजिटायझ केले गेले आहेत आणि अनेक खाजगी कंपन्या एकत्रितपणे एकत्रित केल्या आहेत आणि त्यांना सर्व अमेरिकन्सच्या मतदान वर्तनासह सर्वसमावेशक मास्टर मतदान फायली तयार करण्यासाठी विलीन केले गेले आहेत. अॉझोलाबयेर आणि हर्ष यांनी यापैकी एक कंपनी-कॅटालिस्ट एलसीसी-ने भाग घेतला ज्यामुळे मतदाराची उत्तम चित्र विकसित करण्यात मदत करण्यासाठी त्यांचा मास्टर व्होटिंग फाईल वापरला गेला. पुढे, त्यांचा अभ्यास डेटा संग्रह आणि सुसंगतपणा मध्ये पुरेसे संसाधने गुंतवलेल्या एका कंपनीद्वारे गोळा केलेल्या आणि तयार केलेल्या डिजिटल रेकॉर्ड्सवर आधारित असल्यामुळे, कंपनीच्या मदतीविना आणि एनालॉग रेकॉर्म्स वापरून केलेल्या पूर्वीच्या प्रयत्नांवर तो अनेक फायदे सादर केला.

अध्याय 2 मधील बर्याच मोठ्या डेटा स्त्रोतांप्रमाणे, केटलिस्ट मास्टर फाईलमध्ये जनसांख्यिकीय, वर्तणुकीची आणि वर्तनविषयक माहितीचा समावेश नव्हता ज्याने Ansolabehere आणि Hersh ची आवश्यकता होती. खरं तर, ते विशेषत: मतदान केलेल्या वागणुकीसह सर्वेक्षणात नोंदविलेले मतदान वर्तनाचे तुलना करण्यास स्वारस्य दर्शवत होते (म्हणजेच, उत्पत्तिवादी डेटाबेसमधील माहिती). त्यामुळे Ansolabehere आणि Hersh ते मोठ्या अधिकाधिक सामाजिक सर्वेक्षण, CCES, या अध्यायातील आधी नमूद म्हणून करायचे होते की डेटा गोळा. मग त्यांनी कॅटलिस्टला आपला डेटा दिला आणि कॅटलिस्टने त्यांना विलीन केलेला डेटा फाईल परत दिली ज्यामध्ये व्हॅटिगટેડ व्होटिंग वर्तन (सेटलिस्ट), स्वयं-अहवाल मतदान वर्तणूक (सीसीईएस) आणि उत्तरप्रेषकांची जनसांख्यिकी आणि दृष्टिकोन (सीसीईएस) (आकृती 3.13) दुसऱ्या शब्दांत, ऍसोलोबेयरे आणि हर्श यांनी मतदानाचे रेकॉर्ड डेटा एकत्रित करून सर्वेक्षण केले ज्यामुळे डेटा स्त्रोताशी वैयक्तिकरित्या शक्य नव्हते.

आकृती 3.13: अजनोलाबीहेअर आणि हर्ष (2012) द्वारे अभ्यासाची योजनाबद्ध. मास्टर डेटाफाइल तयार करण्यासाठी, वेगवान स्त्रोतांवरून कॅटॅलिस्टची माहिती मिळते आणि जुळवून घेते. विलीन होण्याची ही प्रक्रिया काळजीपूर्वक कशीही असली तरीही मूळ डेटा स्त्रोतांमध्ये त्रुटींचा प्रसार करेल आणि नवीन त्रुट्यांचा परिचय करेल. त्रुटींचे दुसरे स्त्रोत सर्वेक्षण डेटा आणि मास्टर डेटाफाइल दरम्यान रेकॉर्ड लिंकेज आहे. प्रत्येक व्यक्तीकडे डेटा स्त्रोतामध्ये एक स्थिर, एकमेव ओळखकर्ते असल्यास, दुवा साधणे क्षुल्लक होईल. परंतु कॅटलिस्टला अपरिपक्व अभिज्ञापकांचा वापर करून या प्रकरणात नाव, लिंग, जन्मतारीख, आणि घरचा पत्ता वापरणे आवश्यक होते. दुर्दैवाने, बर्याच प्रकरणांमध्ये अपूर्ण किंवा चुकीची माहिती असू शकते; होमर सिम्पसन नावाचा एक मतदार होमर जय सिम्पसन, होमी जे सिम्पसन किंवा होमर सिंपिसन यांच्यासारखे दिसू शकतो. कॅटलिस्ट मास्टर डेटाफाइलमधील त्रुटी आणि रेकॉर्ड लिंकेजमधील त्रुटींसाठीदेखील, ऍसोसोबेयहेर आणि हर्ष यांना त्यांच्या वेगवेगळ्या प्रकारच्या तपासणीतून आत्मविश्वास निर्माण करण्यास सक्षम होते.

आकृती 3.13: Ansolabehere and Hersh (2012) द्वारे अभ्यासाची योजनाबद्ध. मास्टर डेटाफाइल तयार करण्यासाठी, वेगवान स्त्रोतांवरून कॅटॅलिस्टची माहिती मिळते आणि जुळवून घेते. विलीन होण्याची ही प्रक्रिया काळजीपूर्वक कशीही असली तरीही मूळ डेटा स्त्रोतांमध्ये त्रुटींचा प्रसार करेल आणि नवीन त्रुट्यांचा परिचय करेल. त्रुटींचे दुसरे स्त्रोत सर्वेक्षण डेटा आणि मास्टर डेटाफाइल दरम्यान रेकॉर्ड लिंकेज आहे. प्रत्येक व्यक्तीकडे डेटा स्त्रोतामध्ये एक स्थिर, एकमेव ओळखकर्ते असल्यास, दुवा साधणे क्षुल्लक होईल. परंतु कॅटलिस्टला अपरिपक्व अभिज्ञापकांचा वापर करून या प्रकरणात नाव, लिंग, जन्मतारीख, आणि घरचा पत्ता वापरणे आवश्यक होते. दुर्दैवाने, बर्याच प्रकरणांमध्ये अपूर्ण किंवा चुकीची माहिती असू शकते; होमर सिम्पसन नावाचा एक मतदार होमर जय सिम्पसन, होमी जे सिम्पसन किंवा होमर सिंपिसन यांच्यासारखे दिसू शकतो. कॅटलिस्ट मास्टर डेटाफाइलमधील त्रुटी आणि रेकॉर्ड लिंकेजमधील त्रुटींसाठीदेखील, ऍसोसोबेयहेर आणि हर्ष यांना त्यांच्या वेगवेगळ्या प्रकारच्या तपासणीतून आत्मविश्वास निर्माण करण्यास सक्षम होते.

त्यांच्या एकत्रित डेटा फाईलसह, ऍसोसोबेयरे आणि हर्ष तीन महत्त्वाच्या निष्कर्षांमध्ये पोहोचले पहिले कारण, मतदानाचा अतिरीक्त अहवाल प्रचलीत आहेः नॉनव्हॉटर सदस्यांपैकी निम्म्या व्यक्तींनी मतदानाची नोंद केली आणि जर कोणी मतदानाची नोंद केली तर प्रत्यक्षात त्यांना मत दिले की फक्त 80% शक्यता आहे. सेकंद, ओव्हर-रिप्रिंग यादृच्छिक नाही: सार्वजनिक-कार्यात गुंतलेले उच्च उत्पन्न, सुशिक्षित, कट्टर यांच्यामध्ये अति-अहवाल अधिक सामान्य आहे. दुसऱ्या शब्दांत, बहुसंख्य मत देणारे लोक देखील मतदानाबद्दल खोटे बोलू शकतात. थर्ड आणि सर्वात जास्त बारकाईने, अति-अहवालाच्या पद्धतशीर स्वरूपामुळे मतदार व गैर-व्होटर्समधील वास्तविक मतभेद हे सर्वेक्षणांपेक्षा लहान दिसतात. उदाहरणार्थ, ज्यांना बॅचलर पदवी आहे त्यांना मतदानाची माहिती देण्याची शक्यता सुमारे 22 टक्के जास्त आहे, परंतु प्रत्यक्षात मत देण्यासाठी केवळ 10 टक्के गुण जास्त आहेत. हे आश्चर्याची गोष्ट नाही, की मतदानाच्या सध्याच्या स्त्रोत आधारित सिद्धांतांनी मतदान करणार्यांना अंदाज देण्यावर बरेच चांगले आहे (जे डेटा पूर्वी संशोधकांनी वापरले आहे) त्यांच्या अंदाजानुसार ते प्रत्यक्षात मतदान कसे करतील? अशाप्रकारे, Ansolabehere and Hersh (2012) च्या अनुभवजन्य शोध नवीन सिद्धांत समजण्यासाठी आणि मतदानाचा अंदाज Ansolabehere and Hersh (2012) .

परंतु आपण या परिणामांवर किती विश्वास ठेवला पाहिजे? लक्षात ठेवा, हे परिणाम अज्ञात प्रमाणात त्रुटी असलेल्या ब्लॅक-बॉक्स डेटामध्ये त्रुटी-प्रवण दुवा साधत असतात. अधिक विशेषत: दोन मुख्य पायर्यांवर परिणाम बिजागर होतो: (1) योग्य मास्टर डेटाफाइल तयार करण्यासाठी असंख्य डेटा स्त्रोत एकत्र करण्यासाठी कॅटलिस्टची क्षमता आणि (2) सर्जन डेटाला त्याच्या मास्टर डेटाफाइलशी जोडण्यासाठी कॅटलिस्टची क्षमता. यापैकी प्रत्येक पायरी अवघड आहे, आणि एकतर पायरीमुळे संशोधकांना चुकीचे निष्कर्ष काढता येतात. तथापि, डेटा प्रोसेसिंग आणि दुवा साधणे दोघांनाही कंपनी म्हणून केटलिस्ट च्या अस्तित्वाच्या अस्तित्वापुढे कठीण आहे, त्यामुळे ते या समस्यांचे निराकरण करण्यासाठी संसाधने गुंतवणूक करू शकतात, अनेकदा त्या पातळीवर जो कोणतेही शैक्षणिक शोधक जुळत नाहीत. त्यांच्या पेपरमध्ये, अोनोलाबयेर आणि हर्श या दोन टप्प्यांचे परिणाम तपासण्यासाठी अनेक पावले जातात-जरी त्यापैकी काही मालकीचे आहेत आणि हे तपास इतर संशोधकांना उपयुक्त ठरू शकतात जे सर्वेक्षण डेटाचा काळा बॉक्समधील मोठ्या डेटाशी जोडण्याचा प्रयत्न करतील. स्त्रोत

या अभ्यासातून कोणते सामान्य धडे संशोधित करू शकतात? प्रथम, मोठ्या डेटा स्रोतांसह सर्वेक्षण डेटासह समृद्ध डेटा आणि मोठ्या डेटा स्त्रोतांसह (आपण हा अभ्यास एकतर मार्ग पाहू शकता) मोठ्या डेटा स्त्रोत समृद्ध करण्याद्वारे प्रचंड मूल्य आहे. या दोन डेटा स्रोत एकत्र करून, संशोधक वैयक्तिकरीत्या एकतर अशक्य होते की काहीतरी करण्यास सक्षम होते. दुसरा सामान्य धडा म्हणजे एकत्रित, व्यावसायिक डेटा स्त्रोत, जसे की सेटलिस्टकडून डेटा, काही बाबतीत "जमिनीवर सत्य" समजले जाऊ नये, तरी ते उपयोगी होऊ शकतात. संशयवादी कधीकधी या एकत्रित केलेल्या, तुलनात्मक सत्यतेसह व्यावसायिक डेटा स्त्रोतांची तुलना करतात आणि दर्शवितात की हे डेटा स्त्रोत कमी पडतात. तथापि, या प्रकरणात, संशयित चुकीची तुलना करत आहेत: संशोधक वापर परिपूर्ण सत्य कमी पडणे सर्व डेटा. त्याऐवजी, इतर उपलब्ध डेटा स्त्रोतांसह एकत्रीकृत, व्यावसायिक डेटा स्त्रोतांची तुलना करणे चांगले आहे (उदा., स्वयं-अहवाल मतदान वर्तनासह), ज्यात नेहमीच त्रुटी तसेच आहेत अखेरीस, अदोलबेहेरील आणि हर्शच्या अभ्यासाचे तिसरे सामान्य धडा म्हणजे काही परिस्थितिंमध्ये, संशोधकांना मोठ्या प्रमाणावर गुंतवणुकीचा फायदा होऊ शकतो जे अनेक खाजगी कंपन्या जटिल सामाजिक डेटा संच एकत्रित आणि सुसंगत करते.