2.2 बिग डेटा

अनुसंधान के अलावा अन्य उद्देश्यों के लिए कंपनियों और सरकारों द्वारा बड़े डेटा बनाए और एकत्र किए जाते हैं। शोध के लिए इस डेटा का उपयोग, इसलिए, repurposing की आवश्यकता है।

डिजिटल युग में कई लोगों को सामाजिक शोध का सामना करने का पहला तरीका अक्सर बड़े डेटा कहा जाता है। इस शब्द के व्यापक उपयोग के बावजूद, इस बात की कोई सहमति नहीं है कि यहां तक ​​कि बड़ा डेटा भी है। हालांकि, बड़े डेटा की सबसे आम परिभाषाओं में से एक "3 बनाम" पर केंद्रित है: वॉल्यूम, विविधता, और वेग। असल में, विभिन्न प्रारूपों में बहुत सारे डेटा हैं, और यह लगातार बनाया जा रहा है। बड़े डेटा के कुछ प्रशंसकों में वेरिएटी और वैल्यू जैसे अन्य "वीएस" भी शामिल होते हैं, जबकि कुछ आलोचकों ने वेग और वैक्यूस जैसे वी को जोड़ दिया है। सामाजिक शोध के प्रयोजनों के लिए 3 "बनाम" (या 5 "बनाम" या 7 "बनाम") की बजाय, मुझे लगता है कि शुरू करने के लिए एक बेहतर जगह 5 "डब्ल्यूएस" है: कौन, क्या, कहाँ, कब , और क्यों। वास्तव में, मुझे लगता है कि बड़े डेटा स्रोतों द्वारा बनाई गई कई चुनौतियों और अवसरों में से केवल एक "डब्ल्यू" का पालन किया जाता है: क्यों।

अनुरूप युग में, शोध करने के उद्देश्य से सामाजिक शोध के लिए उपयोग किए जाने वाले अधिकांश डेटा बनाए गए थे। डिजिटल युग में, हालांकि, अनुसंधान के अलावा अन्य उद्देश्यों के लिए कंपनियों और सरकारों द्वारा बड़ी मात्रा में डेटा बनाया जा रहा है, जैसे सेवाएं प्रदान करना, लाभ पैदा करना और कानूनों का प्रशासन करना। हालांकि, रचनात्मक लोगों ने महसूस किया है कि आप अनुसंधान के लिए इस कॉर्पोरेट और सरकारी डेटा का पुनरुत्थान कर सकते हैं। अध्याय 1 में कला सादृश्य के बारे में सोचकर, जैसे कि डचैम्प ने कला बनाने के लिए एक पाए गए वस्तु को दोहराया, वैज्ञानिक अब शोध बनाने के लिए डेटा प्राप्त कर सकते हैं।

हालांकि, निषेध के लिए निस्संदेह बड़े अवसर हैं, अनुसंधान के प्रयोजनों के लिए बनाए गए डेटा का उपयोग करके नई चुनौतियां भी प्रस्तुत की जाती हैं। उदाहरण के लिए, एक सामाजिक मीडिया सेवा, जैसे कि ट्विटर, पारंपरिक सार्वजनिक राय सर्वेक्षण, जैसे जनरल सोशल सर्वे के साथ तुलना करें। ट्विटर के मुख्य लक्ष्य अपने उपयोगकर्ताओं को एक सेवा प्रदान करना और लाभ बनाना है। दूसरी ओर, जनरल सोशल सर्वे, विशेष रूप से जनमत अनुसंधान के लिए, सामाजिक शोध के लिए सामान्य उद्देश्य डेटा बनाने पर केंद्रित है। लक्ष्यों में यह अंतर का अर्थ है कि ट्विटर द्वारा बनाए गए डेटा और सामान्य सामाजिक सर्वेक्षण द्वारा बनाए गए डेटा में अलग-अलग गुण होते हैं, भले ही दोनों का उपयोग जनता की राय के अध्ययन के लिए किया जा सके। ट्विटर एक पैमाने पर और गति से संचालित होता है कि सामान्य सामाजिक सर्वेक्षण मेल नहीं खा सकता है, लेकिन, सामान्य सामाजिक सर्वेक्षण के विपरीत, ट्विटर सावधानी से उपयोगकर्ताओं का नमूना नहीं लेता है और समय के साथ तुलनात्मकता बनाए रखने के लिए कड़ी मेहनत नहीं करता है। चूंकि ये दो डेटा स्रोत बहुत अलग हैं, इसलिए यह कहना समझ में नहीं आता कि सामान्य सामाजिक सर्वेक्षण ट्विटर से बेहतर है या इसके विपरीत। यदि आप वैश्विक मनोदशा के घंटे के उपाय चाहते हैं (उदाहरण के लिए, Golder and Macy (2011) ), ट्विटर सबसे अच्छा है। दूसरी तरफ, यदि आप संयुक्त राज्य अमेरिका में दृष्टिकोण के ध्रुवीकरण में दीर्घकालिक परिवर्तनों को समझना चाहते हैं (उदाहरण के लिए, DiMaggio, Evans, and Bryson (1996) ), तो जनरल सोशल सर्वे सबसे अच्छा विकल्प है। अधिक आम तौर पर, यह तर्क देने की कोशिश करने के बजाय कि बड़े डेटा स्रोत अन्य प्रकार के डेटा की तुलना में बेहतर या बदतर हैं, यह अध्याय स्पष्टीकरण देने का प्रयास करेगा कि किस प्रकार के शोध प्रश्नों में बड़े डेटा स्रोतों में आकर्षक गुण होते हैं और किस प्रकार के प्रश्न हो सकते हैं आदर्श।

बड़े डेटा स्रोतों के बारे में सोचते समय, कई शोधकर्ता तुरंत खोज इंजन लॉग और सोशल मीडिया पोस्ट जैसे कंपनियों द्वारा बनाए और एकत्र किए गए ऑनलाइन डेटा पर ध्यान केंद्रित करते हैं। हालांकि, यह संकीर्ण फोकस बड़े डेटा के दो अन्य महत्वपूर्ण स्रोतों को छोड़ देता है। सबसे पहले, तेजी से कॉर्पोरेट बड़े डेटा स्रोत भौतिक दुनिया में डिजिटल उपकरणों से आते हैं। उदाहरण के लिए, इस अध्याय में, मैं आपको एक ऐसे अध्ययन के बारे में बताउंगा जो सुपरमार्केट चेक-आउट डेटा को पुन: संगठित करने के लिए बताता है कि कैसे एक कर्मचारी की उत्पादकता उसके साथियों की उत्पादकता (Mas and Moretti 2009) द्वारा प्रभावित होती है। फिर, बाद के अध्यायों में, मैं आपको उन शोधकर्ताओं के बारे में (Blumenstock, Cadamuro, and On 2015) जिन्होंने मोबाइल फोन (Blumenstock, Cadamuro, and On 2015) से कॉल रिकॉर्ड और इलेक्ट्रिक यूटिलिटीज (Allcott 2015) द्वारा बनाए गए बिलिंग डेटा का उपयोग किया था। जैसा कि इन उदाहरणों से पता चलता है, कॉर्पोरेट बड़े डेटा स्रोत केवल ऑनलाइन व्यवहार से अधिक हैं।

ऑनलाइन व्यवहार पर एक संकीर्ण ध्यान से चूक गए बड़े डेटा का दूसरा महत्वपूर्ण स्रोत सरकारों द्वारा बनाई गई डेटा है। ये सरकारी आंकड़े, जो शोधकर्ता सरकारी प्रशासनिक रिकॉर्ड कहते हैं , में कर रिकॉर्ड, स्कूल के रिकॉर्ड, और महत्वपूर्ण आंकड़े रिकॉर्ड (उदाहरण के लिए, जन्म और मृत्यु के पंजीकरण) जैसी चीजें शामिल हैं। सरकारें इस तरह के डेटा बना रही हैं, कुछ मामलों में, सैकड़ों वर्षों और सामाजिक वैज्ञानिकों ने उन्हें सामाजिक वैज्ञानिकों के रूप में तब तक शोषण कर रहे हैं। हालांकि, क्या बदल गया है डिजिटलीकरण, जिसने सरकारों को आंकड़ों को एकत्रित करने, प्रसारित करने, स्टोर करने और विश्लेषण करने के लिए नाटकीय रूप से आसान बना दिया है। उदाहरण के लिए, इस अध्याय में, मैं आपको एक ऐसे अध्ययन के बारे में बताउंगा जो श्रम अर्थशास्त्र (Farber 2015) में मौलिक बहस को संबोधित करने के लिए न्यूयॉर्क सिटी सरकार के डिजिटल टैक्सी मीटर से डेटा को (Farber 2015) । फिर, बाद के अध्यायों में, मैं आपको बताऊंगा कि सर्वेक्षण में एकत्रित मतदान रिकॉर्ड का उपयोग कैसे किया गया था (Ansolabehere and Hersh 2012) और एक प्रयोग (Bond et al. 2012)

मुझे लगता है कि बड़े डेटा स्रोतों (सेक्शन 2.3) के गुणों के बारे में अधिक विशेष रूप से बात करने से पहले और पुनर्व्यवस्थित करने का विचार बड़े डेटा स्रोतों से सीखने के लिए मौलिक है, और इन्हें अनुसंधान (धारा 2.4) में कैसे उपयोग किया जा सकता है, मुझे पसंद है repurposing के बारे में सामान्य सलाह के दो टुकड़े पेश करने के लिए। सबसे पहले, यह "पाया" डेटा और "डिज़ाइन" डेटा के बीच होने वाले कंट्रास्ट के बारे में सोचने के लिए मोहक हो सकता है। यह करीब है, लेकिन यह बिल्कुल सही नहीं है। हालांकि, शोधकर्ताओं के परिप्रेक्ष्य से, बड़े डेटा स्रोत "पाए जाते हैं," वे सिर्फ आकाश से नहीं गिरते हैं। इसके बजाए, शोधकर्ताओं द्वारा "पाए गए" स्रोत स्रोत किसी उद्देश्य से किसी के लिए डिज़ाइन किए गए हैं। चूंकि "पाया" डेटा किसी के द्वारा डिज़ाइन किया गया है, इसलिए मैं हमेशा अनुशंसा करता हूं कि आप लोगों और प्रक्रियाओं के बारे में जितना संभव हो सके समझने की कोशिश करें। दूसरा, जब आप डेटा का पुनरुत्थान कर रहे हैं, तो अक्सर आपकी समस्या के लिए आदर्श डेटासेट की कल्पना करना बेहद सहायक होता है और उसके बाद उस आदर्श डेटासेट की तुलना करें जिसका आप उपयोग कर रहे हैं। यदि आपने अपना डेटा स्वयं नहीं एकत्र किया है, तो आप जो चाहते हैं और आपके पास क्या है, उसके बीच महत्वपूर्ण अंतर होने की संभावना है। इन मतभेदों को ध्यान में रखते हुए यह स्पष्ट करने में मदद मिलेगी कि आप क्या कर सकते हैं और आपके पास मौजूद डेटा से नहीं सीख सकते हैं, और यह आपको बताए गए नए डेटा का सुझाव दे सकता है।

मेरे अनुभव में, सामाजिक वैज्ञानिक और डेटा वैज्ञानिक बहुत अलग तरीके से पुनर्विचार करने के लिए जाते हैं। सामाजिक वैज्ञानिक, जो अनुसंधान के लिए डिज़ाइन किए गए डेटा के साथ काम करने के आदी हैं, आमतौर पर अपनी ताकत को अनदेखा करते समय पुनर्स्थापित डेटा के साथ समस्याओं को इंगित करने के लिए त्वरित होते हैं। दूसरी तरफ, डेटा वैज्ञानिक आमतौर पर अपनी कमजोरियों को अनदेखा करते समय पुनर्स्थापित डेटा के लाभों को इंगित करने के लिए त्वरित होते हैं। स्वाभाविक रूप से, सबसे अच्छा दृष्टिकोण एक संकर है। यही है, शोधकर्ताओं को बड़े डेटा स्रोतों की विशेषताओं को समझने की आवश्यकता होती है-दोनों अच्छे और बुरे-और फिर पता लगाएं कि उनसे कैसे सीखना है। और, यह इस अध्याय के शेष के लिए योजना है। अगले खंड में, मैं बड़े डेटा स्रोतों की दस सामान्य विशेषताओं का वर्णन करूंगा। फिर, निम्नलिखित खंड में, मैं तीन शोध दृष्टिकोणों का वर्णन करूंगा जो इस तरह के डेटा के साथ अच्छी तरह से काम कर सकते हैं।