2.2 बिग डेटा

हे भाषांतर संगणक तयार केले होते. ×

2.2 बिग डेटा

संशोधन वगळता कंपन्यांच्या व सरकारांद्वारे मोठ्या डेटा तयार आणि संकलित केला जातो. संशोधनासाठी या डेटाचा वापर केल्यामुळे, पुनर्मुद्रण करण्याची आवश्यकता आहे.

ज्या अनेकांना डिजिटल युगात सामाजिक संशोधनाची ओळख मिळते ते प्रथम मार्ग आहे जे बर्याच मोठ्या डेटाला म्हणतात. या संज्ञा व्यापक वापर असूनही, मोठा डेटा अगदी काय आहे याबद्दल एकमत नाही आहे तथापि, मोठ्या डेटाच्या सर्वात सामान्य परिभाषांपैकी एक "3 बनाम" वर केंद्रित आहे: व्हॉल्यूम, विविधता आणि वेग. साधारणपणे, बर्याच स्वरूपाच्या स्वरूपात पुष्कळ डेटा आहे आणि ते सतत तयार केले जात आहे. मोठ्या डेटाचे काही चाहते व्हेरिटी आणि व्हॅल्यूसारख्या इतर "व्हीस्" देखील जोडू शकतात, तर काही समीक्षक विवे आणि रिक्त सारख्या Vs जोडतात. सामाजिक संशोधनाच्या हेतूने 3 "Vs" (किंवा 5 "Vs" किंवा 7 "Vs") ऐवजी, मला वाटते की प्रारंभ करण्यासाठी एक चांगले ठिकाण आहे 5 "डब्ल्यू": कोण, काय, कोठे, केव्हा , आणि का. खरं तर, मला वाटते की मोठ्या डेटा स्त्रोतांद्वारे तयार करण्यात आलेल्या अनेक आव्हाने आणि संधी फक्त एका "डब्ल्यू" वरून अनुसरण करतात: का

एनालॉग युगात, संशोधनासाठी वापरल्या जाणाऱ्या बहुतेक डेटा सामाजिक संशोधनासाठी वापरण्यात आले होते. डिजिटल युगात, तथापि, कंपन्यांना आणि सरकारंद्वारे शोधांव्यतिरिक्त इतर उद्देशांसाठी प्रचंड प्रमाणात डेटा तयार केला जात आहे, जसे सेवा प्रदान करणे, नफा मिळवणे आणि कायद्यांचे व्यवस्थापन करणे. क्रिएटिव्ह लोकांना, तथापि, हे लक्षात आले आहे की आपण संशोधनासाठी या कार्पोरेट आणि सरकारी डेटाची पुनर्निर्मिती करू शकता. अध्याद्याच्या 1 व्या अध्यायात पुन्हा विचार करत असतानाच, डचॅम्पने कला तयार करण्यासाठी सापडलेल्या वस्तुला पुनरुत्पादित केले तसेच शास्त्रज्ञ आता शोध तयार करण्यासाठी डेटा शोधू शकतात.

पुनर्विचारासाठी निःसंशयपणे मोठ्या संधी उपलब्ध आहेत, परंतु संशोधनाच्या हेतीसाठी तयार न केलेले डेटा वापरून नवीन आव्हाने देखील प्रस्तुत केली जातात. उदाहरणार्थ, सामान्य सामाजिक सर्वेक्षण सारख्या पारंपरिक जनमत सर्वेक्षणाप्रमाणे, ट्विटर सारख्या सोशल मीडिया सेवाची तुलना करा. Twitter च्या मुख्य ध्येय आपल्या वापरकर्त्यांना एक सेवा प्रदान करणे आणि नफा करणे आहे दुसरीकडे, सामान्य सामाजिक सर्वेक्षणाचा, सामाजिक संशोधनासाठी सामान्य उद्देशाचा डेटा तयार करण्यावर लक्ष केंद्रित केले आहे, विशेषतः सार्वजनिक मत संशोधनासाठी. यातील फरकाचा अर्थ असा होतो की सामान्य सामाजिक सर्वेक्षणाद्वारे बनविलेले ट्विटर आणि त्याद्वारे बनवले गेलेले डेटा वेगवेगळे आहेत, जरी दोन्ही लोकमान्य मतांचा अभ्यास करण्यासाठी वापरला जाऊ शकतो सामान्य सामाजिक सर्वेक्षणाशी जुळत नसलेल्या स्केल आणि गतीने ट्विटर कार्यरत आहे, परंतु जनरल सोशल सव्हेर्च्या तुलनेत, ट्विटर काळजीपूर्वक वापरकर्त्यांची नमुद करत नाही आणि वेळेनुसार तुलनात्मकतेची देखरेख करण्यासाठी कठोर परिश्रम करत नाही. कारण या दोन डेटा स्रोत खूप भिन्न आहेत, सामान्य सामाजिक सर्वेक्षण ही ट्विटरपेक्षा किंवा त्याउलटपेक्षा चांगले आहे असे म्हणता येणार नाही. आपण जागतिक मनाची िस्थती (उदा. Golder and Macy (2011) ) च्या तासाभराच्या उपाययोजनांसाठी इच्छित असल्यास, ट्विटर सर्वोत्तम आहे दुसरीकडे, जर आपण युनायटेड स्टेट्समधील दृष्टिकोन (उदा. DiMaggio, Evans, and Bryson (1996) ) मध्ये दीर्घकालीन बदल समजून घेऊ इच्छित असाल तर सामान्य सामाजिक सर्वेक्षण हा सर्वोत्तम पर्याय आहे साधारणपणे, मोठे डेटा स्त्रोत अन्य प्रकारच्या डेटापेक्षा चांगले किंवा वाईट आहेत असा युक्तिवाद करण्यापेक्षा, हा अध्याय आपल्याला कोणत्या प्रकारचे संशोधन प्रश्नांचे मोठे डेटा स्रोत आकर्षक गुणधर्म आहेत आणि कोणत्या प्रकारचे प्रश्न असू शकत नाहीत हे स्पष्ट करण्याचा प्रयत्न करेल आदर्श.

मोठ्या डेटा स्त्रोतांचा विचार करताना, अनेक संशोधक लगेचच शोध इंजिन लॉग आणि सोशल मीडिया पोस्ट सारख्या कंपन्यांद्वारे तयार केलेले आणि संकलित केलेल्या ऑनलाइन डेटावर लक्ष केंद्रित करतात. तथापि, या संकोषित लक्ष्यामुळे मोठ्या प्रमाणावरील अन्य दोन महत्त्वाच्या स्त्रोतांची माहिती मिळते. प्रथम, वाढत्या महाग मोठे डेटा स्रोत भौतिक विश्वात डिजिटल उपकरणांमधून येतात. उदाहरणार्थ, या अध्यायात, मी तुम्हाला एका अभ्यासानुसार सांगेन जो त्याच्या पालकांच्या उत्पादकतेत (Mas and Moretti 2009) कार्यशीलतेवर परिणाम कसा होतो यावर अभ्यास करण्यासाठी सुपरमार्केट चेक-आउट डेटा पुनर्स्थापित करते. नंतर, नंतरच्या अध्यायांमध्ये, मी तुम्हाला संशोधकांबद्दल सांगणार आहे ज्यांनी मोबाईल फोन्स (Blumenstock, Cadamuro, and On 2015) आणि विद्युत उपयोगितांद्वारे बनविलेल्या बिलिंग डेटावरून कॉल रेकॉर्डचा वापर केला (Allcott 2015) . हे उदाहरणांवरून स्पष्ट होते की कॉर्पोरेट मोठे डेटा स्त्रोत केवळ ऑनलाइन वर्तनापेक्षा बरेच काही आहेत.

ऑनलाइन वर्तनावर लक्ष केंद्रित केलेल्या मोठ्या प्रमाणावरील डेटाचा दुसरा महत्वाचा स्रोत म्हणजे सरकारद्वारे तयार केलेला डेटा. हे सरकारी डेटा, जे संशोधक सरकारी प्रशासकीय रेकॉर्ड कॉल करतात, जसे की कर अभिलेख, शाळा रेकॉर्ड आणि महत्वाच्या आकडेवारीचे रेकॉर्ड (उदा. जन्म आणि मृत्युचे रजिस्ट्रेशन) यासह गोष्टी समाविष्ट करतात. सरकार या प्रकारची माहिती तयार करीत आहे, काही बाबतीत, शेकडो वर्षांपासून आणि सामाजिक शास्त्रज्ञ त्यांच्यापर्यंत शोषण करत आहेत, जोपर्यंत तेथे सामाजिक शास्त्रज्ञ आहेत. तथापि, काय बदलले आहे, डिजिटलीकरण आहे, ज्यामुळे सरकारने एकत्रित करणे, प्रसारित करणे, संचयित करणे आणि डेटाचे विश्लेषण करणे नाटकीयपणे सुलभ केले आहे. उदाहरणार्थ, या प्रकरणात, मी तुम्हाला श्रम अर्थशास्त्र (Farber 2015) मध्ये मूलभूत वादविवाद संबंधात न्यू यॉर्क सिटी सरकारच्या डिजिटल टॅक्सी मीटरमधून डेटा पुनर्स्थापित करण्याच्या एका अभ्यासाबद्दल सांगतो. नंतर, नंतरच्या अध्यायांमधे, मी तुम्हाला सांगतो की (Ansolabehere and Hersh 2012) सर्वेक्षण (Ansolabehere and Hersh 2012) आणि एक प्रयोग (Bond et al. 2012) सरकार-एकत्रित मतदान रेकॉर्ड कसे वापरले गेले.

मोठे डेटा स्त्रोतांपासून (सेक्शन 2.3) गुणधर्मांबद्दल अधिक स्पष्टपणे बोलण्यापूर्वी आणि संशोधन (सेक्शन 2.4) मध्ये कसे वापरले जाऊ शकते याबद्दल अधिक स्पष्टपणे बोलण्यापूर्वी मी repurposing ची कल्पना मोठी डेटा स्त्रोतांपासून शिकण्यास मूलभूत आहे, मला आवडते. repurposing बद्दल सामान्य सल्ला दोन तुकडे ऑफर करणे. प्रथम, मी "आढळले" डेटा आणि "डिझाइन केलेले" डेटा दरम्यान स्थापित केलेल्या कॉन्ट्रास्टबद्दल विचार करण्याचा मोहक होऊ शकतो. ते बंद आहे, परंतु ते अगदी योग्य नाही. तरीही, संशोधकांच्या दृष्टीकोनातून, मोठे डेटा स्त्रोत "आढळले आहेत", ते फक्त आकाशातून पडत नाहीत. त्याऐवजी, संशोधकांचे "आढळले" असलेल्या डेटा स्त्रोत कोणीतरी काही हेतूंसाठी डिझाइन केले आहेत. कारण "आढळले" डेटा कोणीतरी तयार केला आहे, मी नेहमी शिफारस करतो की आपण आपला डेटा तयार केलेल्या लोकांबद्दल आणि प्रक्रियांविषयी जितका शक्य तितका समजून घेण्याचा प्रयत्न करा. सेकंद, जेव्हा आपण डेटाचा पुनर्मुद्रण करीत असाल, तेव्हा आपल्या समस्येसाठी आदर्श डेटासेटची कल्पना करणे आणि नंतर आपण वापरत असलेल्या एकासह त्या आदर्श डेटासेटची तुलना करणे नेहमीच उपयुक्त ठरते. आपण आपला डेटा स्वतःच संग्रहित न केल्यास, आपल्याला काय हवे आहे आणि आपल्याकडे काय आहे यातील महत्त्वाचे फरक आहे. या फरकांचे निरीक्षण केल्याने हे स्पष्ट होऊ शकेल की आपल्याजवळ असलेल्या डेटावरून आपण काय करू शकता आणि काय करू शकत नाही आणि हे आपण संकलित करावयाचे नवीन डेटा सुचवू शकता.

माझ्या अनुभवाप्रमाणे, सामाजिक शास्त्रज्ञ आणि डेटा शास्त्रज्ञ अतिशय वेगळ्या पद्धतीने बदलण्याचा विचार करतात. संशोधनासाठी डिझाइन केलेल्या डेटासह कार्य करण्यासाठी तयार केलेले सामाजिक शास्त्रज्ञ, विशेषत: द्रुतगतीने केलेल्या डेटासह अडचणी दर्शवितात. दुसरीकडे, डेटा शास्त्रज्ञ सामान्यत: द्रुतगतीने पुनर्जीवित डेटाचे फायदे दर्शवितात आणि त्याच्या कमकुवतपणाकडे दुर्लक्ष करतात. स्वाभाविकच, सर्वोत्तम पध्दत हा संकरीत आहे. म्हणजेच, संशोधकांनी मोठे डेटा स्रोत-चांगल्या आणि वाईट दोन्ही-यांची वैशिष्ट्ये समजून घेणे आवश्यक आहे-आणि मग त्यांच्याकडून कसे शिकायचे हे समजून घ्या. आणि, ही या उर्वरित प्रक्रियेची योजना आहे. पुढील विभागात मी मोठ्या डेटा स्त्रोतांच्या दहा सामान्य वैशिष्ट्यांचे वर्णन करेल. नंतर, खालील विभागात, मी तीन संशोधन दृष्टिकोनांचे वर्णन करेल जे अशा डेटासह चांगले कार्य करू शकतात.