2.2 ठूलो डाटा

बिग डाटाहरू र कम्पनी र सरकारहरू द्वारा अनुसन्धान भन्दा अन्य प्रयोजनका लागि सिर्जना र संकलन गरिन्छ। यस डेटाको अनुसन्धानको लागी, त्यसैले, पुनरावृत्ति गर्न आवश्यक छ।

डिजिटल युगमा धेरै सोशल सोशल रिसर्चको सामना गर्ने पहिलो तरिका हो जुन प्रायः ठूलो डाटा भनिन्छ। यस शब्दको व्यापक प्रयोगको बावजूद, त्यहाँ कुनै पनि सहमति छैन कि कुन डेटा पनि छ। तथापि, ठूलो डेटा को सबै भन्दा सामान्य परिभाषा "3 Vs" मा ध्यान केन्द्रित गर्दछ: भोल्यूम, विविधता, र वेग। प्रायः, त्यहाँ विभिन्न ढाँचाहरूमा धेरै डेटा छ, र यो निरन्तर रूपमा सिर्जना भइरहेको छ। ठूला डेटाका केही प्रशंसकहरूले अन्य "Vs" जस्तै वैधता र मान जस्ता पनि थप गर्दछ, तर केही आलोचकहरूले VG र Vacuous जस्तै Vs थप्छन्। सोशल रिसर्चको उद्देश्यका लागि 3 "बनाइ" (वा 5 "संस्करण" वा "7" संस्करण ") भन्दा बढी, मैले सोच्ने एउटा राम्रो ठाँउ 5" Ws "हो: को, के, कहां, कहिले , र किन। वास्तव मा, मलाई लाग्छ कि ठूलो डेटा स्रोतहरु द्वारा बनाई गई धेरै चुनौतिहरु र अवसर सिर्फ एक "डब्ल्यू" को पालन गर्नुहोस: किन।

एनालॉग युगमा, सोशल रिसर्चका लागि प्रयोग गरिएको अधिकांश डाटा अनुसन्धान गर्नका लागि सिर्जना गरिएको थियो। तथापि, डिजिटल युगमा कम्पनीहरू र सरकारहरू द्वारा अनुसन्धान भन्दा अन्य उद्देश्यका लागि धेरै मात्रामा डाटाहरू सिर्जना गरिँदैछ, जस्तै सेवाहरू, सृजनशील लाभ, र कानुनी व्यवस्थाहरू प्रदान गर्ने। तथापि, सृजनात्मक व्यक्तिले यो एहसास गरेको छ कि तपाई अनुसन्धान को लागी यो कर्पोरेट र सरकारी डाटा पुन: प्रतिस्थापन गर्न सक्नुहुन्छ। अध्याय 1 मा उल्लेखित कलामा सोच्दै सोच्नुहोस्, जस्तै डचम्पले कला सिर्जना गर्न खोज वस्तुलाई पुनरुत्थान गर्यो, वैज्ञानिकले अब डेटा पुनः अनुसन्धान गर्न अनुसन्धान गर्न सक्दछन्।

यद्यपि त्यहाँ निरुत्साहितको लागि ठूलो अवसरहरू छन्, अनुसन्धान प्रयोगका लागि सिर्जना गरिएको डेटा प्रयोग गर्दा नयाँ चुनौतीहरू पनि प्रस्तुत गर्दछ। तुलना गर्नुहोस्, उदाहरणका लागि, एक सामाजिक सञ्जाल सेवा, जस्तै चहचहाना, सामान्य सामाजिक सर्वेक्षण जस्ता पारंपरिक सार्वजनिक राय सर्वेक्षणको साथ। ट्विटरको मुख्य लक्ष्यहरू प्रयोगकर्ताहरूको सेवा र लाभ बनाउनको लागि हो। सामान्य सामाजिक सर्वेक्षण, अर्कोतर्फ, सार्वजनिक-अनुसन्धान डेटा सामाजिक अनुसन्धानको लागि, विशेष गरी सार्वजनिक राय अनुसन्धानका लागि सिर्जना गर्नमा ध्यान केन्द्रित गरिएको छ। लक्ष्यमा यो फरक अर्थ भनेको चहचहाना द्वारा बनाईएको डाटा र जुन सामान्य सामाजिक सर्वेक्षण द्वारा बनाईएको फरक गुणहरू हो भने भले पनि दुवै सार्वजनिक राय अध्ययन गर्न प्रयोग गर्न सकिन्छ। चहचहाना एक स्केल र गति मा संचालित छ कि सामान्य सामाजिक सर्वेक्षण मेल नहीं खा सकते हो, तर, सामान्य सोशल सर्वेक्षण को विपरीत, ट्विटर ले सावधानी देखि प्रयोगकर्ताहरु को नमूना नहीं राख्छ र समय संग तुलनात्मकता को बनाए रखने को लागि कडा मेहनत गर्दैन। किनभने यी दुई डेटा स्रोतहरू फरक छन्, यो सामान्य सामाजिक सर्वेक्षण चहचहाना वा यसको विपरीत भन्दा राम्रो छ भन्ने भन्न अर्थ छैन। यदि तपाईं ग्लोबल मूडको घडीको उपाय चाहानुहुन्छ (जस्तै, Golder and Macy (2011) ), ट्विटर उत्तम छ। अर्कोतर्फ, यदि तपाईं संयुक्त राज्य अमेरिका (जस्तै, DiMaggio, Evans, and Bryson (1996) मा व्यवहार को ध्रुवीकरण मा दीर्घकालीन परिवर्तनहरू बुझ्न चाहानुहुन्छ, सामान्य सामाजिक सर्वेक्षण सर्वोत्तम छनौट हो। अधिक सामान्यतया, कि ठूलो डाटा स्रोतहरू तर्क गर्ने प्रयास गर्नुको सट्टा अन्य प्रकारका डाटाहरू भन्दा राम्रो वा खराब छन्, यो अध्यायले कुन प्रकारको अनुसन्धानका प्रश्नहरूको लागि ठूलो डेटा स्रोतहरू आकर्षक गुणहरू छन् र कुन प्रकारका प्रश्नहरू हुन सक्दैन भनेर स्पष्ट गर्न प्रयास गर्नेछ। आदर्श।

जब ठूलो डेटा स्रोतहरूको बारे सोच्दै, धेरै शोधकर्ताहरूलाई तुरुन्तै अनलाइन इन्जिन लगहरू र सामाजिक मिडिया पोष्टहरू जस्ता कम्पनीहरूद्वारा सिर्जना र संकलन गरेको अनलाइन डेटामा ध्यान केन्द्रित गर्दछ। यद्यपि, यो संकीर्ण फोकसले ठूलो डाटाको दुई अन्य महत्वपूर्ण स्रोतहरू छोड्दछ। पहिलो, बढ्दो रूपमा कर्पोरेट ठूलो डेटा स्रोतहरू भौतिक संसारमा डिजिटल यन्त्रहरूबाट आउँछन्। उदाहरणको लागि, यस अध्यायमा, म तपाईंलाई एक अध्ययनको बारेमा बताउनेछु जसले सुपरकर्प चेक-आउट डेटालाई पुनरुत्थान गर्छ कि अध्ययन गर्नका लागि कसरी उनीहरूको सहकर्मी (Mas and Moretti 2009) को उत्पादकताले कसरी कामदारको उत्पादकता प्रभावित गर्दछ। त्यसपछि, पछि अध्यायहरूमा, म तपाईंलाई शोधकर्ताहरूको बारेमा बताउनेछु जसले मोबाइल फोनहरू (Blumenstock, Cadamuro, and On 2015)(Allcott 2015) सुविधाहरू (Allcott 2015) द्वारा बनाईएको बिलिङ डेटाबाट कल रेकर्डहरू प्रयोग (Blumenstock, Cadamuro, and On 2015) । यी उदाहरणहरू उदाहरणका रूपमा, कर्पोरेट ठूला डेटा स्रोतहरू मात्र अनलाइन व्यवहार भन्दा बढी छन्।

अनलाइन व्यवहारमा संकीर्ण फोकस द्वारा मिस गरिएको ठूलो डाटाको दोस्रो महत्त्वपूर्ण स्रोत सरकार द्वारा बनाईएको डाटा हो। यी सरकारी डेटा, जसले शोधकर्ताहरूले सरकारी प्रशासनिक रेकर्डिङलाई बुझेका छन्, कर रेकर्डहरू, स्कूल रेकर्डहरू, र अत्याधिक तथ्याङ्क रेकर्डहरू (उदाहरणका लागि, जन्म र मृत्युका रजिस्ट्रेशनहरू) समावेश गर्दछ। सरकारले यस्ता प्रकारका डेटाहरू सिर्जना गरेको छ, केही अवस्थामा, सयौं वर्ष, र सामाजिक वैज्ञानिकहरूले सामाजिक वैज्ञानिकहरू लगभग लामो समयसम्म उनीहरूको शोषण गर्दै छन्। तथापि, के परिवर्तन भएको छ, तथापि, डिजिटाइजेशन छ, जसले यसलाई सरकारहरू को लागि एकत्रित, प्रसारण, भण्डार र डेटा विश्लेषण गर्न नाटकीय रूपमा बनाएको छ। उदाहरणका लागि, यस अध्यायमा, म तपाईंलाई एक अध्ययनको बारेमा बताउनेछु जसले श्रम अर्थशास्त्र (Farber 2015) मौलिक बहसलाई सम्बोधन गर्न न्यूयर्क सिटी सरकारको डिजिटल टैक्सी मिटरबाट डेटा पुनःप्राप्त गर्दछ। त्यसपछि, पछि अध्यायहरूमा, म तपाईंलाई एक सर्वेक्षण (Ansolabehere and Hersh 2012) र एक प्रयोग (Bond et al. 2012) कसरी सरकार-एकत्रित मतदान रेकर्ड प्रयोग गरिएको बारेमा बारेमा (Ansolabehere and Hersh 2012)

मलाई लाग््छ कि ठूलो डेटा स्रोतहरु (खण्ड 2.3) को गुणहरु को बारे मा विशेष रूप देखि कुरा गर्न को लागी पुनरावृत्ति को बारे मा जानने को लागि मूलभूत छ, र यसैले यिनी कसरि शोध (खंड 2.4) मा प्रयोग गर्न सकिन्छ पुनरुत्थानको बारेमा सामान्य सल्लाहको दुई टुक्राहरू प्रस्ताव गर्न। पहिलो, यसले "मिलिएको" डेटा र "डिजाइन गरिएको" डेटा बीचको रूपमा स्थापित गरेको विगतको बारेमा सोच्न प्रलोभनमा हुन सक्छ। त्यो नजिक छ, तर यो एकदम सही छैन। यद्यपि, शोधकर्ताओं को दृष्टिकोण देखि, ठूलो डाटा स्रोत "भेटिन्छ" हो, उनि सिर्फ आकाश देखि नहीं गिरते। यसको सट्टा, शोधकर्ताहरूले "भेट" डाटा स्रोतहरू केही उद्देश्यका लागि कोहीद्वारा डिजाइन गरिएको हो। किनभने "भेटिएको" डेटा कसैले कसैलाई डिजाइन गरीएको छ, म सधैँ सिफारिस गर्छु कि तपाइँ तपाईको डेटा सिर्जना गर्ने व्यक्ति र प्रक्रियाहरूको बारेमा यथार्थ यथार्थ बुझ्न प्रयास गर्दछ। दोस्रो, तपाईं डेटा पुन: पुन: भइरहेका बेला, तपाईंको समस्याको लागि आदर्श डाटासेट को कल्पना गर्न को लागी अत्यन्त उपयोगी हुन्छ र त्यसपछि तपाइँले प्रयोग गरिरहनु भएको आदर्श डेटासेट तुलना गर्नुहोस्। यदि तपाईंले आफ्नो डेटा आफैलाई संकलन गरेन भने, त्यहाँ के तपाई चाहनुहुन्छ र बीचमा महत्वपूर्ण मतभेद हुन सम्भव छ। यी मतभेदलाई ध्यान दिँदै तपाईले के गरेको डेटाबाट सिक्न सक्नुहुन्छ र स्पष्ट गर्न मद्दत गर्नेछ, र यसले तपाईंलाई सङ्कलन गर्न नयाँ डेटा सुझाव दिन सक्छ।

मेरो अनुभवमा, सामाजिक वैज्ञानिकहरू र डेटा वैज्ञानिकहरू धेरै भिन्नरूपमा पुनरुत्पादन गर्ने सन्दर्भमा हुन्छन्। सोशल वैज्ञानिक, जसले अनुसन्धानका लागि डिजाइन गरिएका डाटाहरूसँग काम गर्ने आदी छन्, सामान्यतया तीव्र रूपमा सामान्यतया छिटो छ कि यसको शक्तिलाई बेवास्ता गर्दा दबाइएका डेटाको समस्याहरू। अर्कोतर्फ, डेटा वैज्ञानिकहरू सामान्यतया छिटो छन् कि यसको कमजोरीलाई बेवास्ता गर्दा repurposed डेटा को फाइदाहरू इंगित गर्दछ। स्वाभाविक रूप देखि, उत्तम दृष्टिकोण एक संकर छ। यही छ, शोधकर्ताहरूलाई ठूलो डाटा स्रोतहरूको विशेषताहरू बुझ्न आवश्यक छ - राम्रो र खराब दुवै - र तब कसरी थाहा पाउन कसरी सिक्न सकिन्छ। र, यो अध्यायको बाँकीको लागि योजना हो। अर्को खण्डमा, म ठूलो डेटा स्रोतहरूको दस सामान्य विशेषताहरू वर्णन गर्नेछु। त्यसपछि, निम्न खण्डमा, म तीन अनुसन्धान माध्यमहरू वर्णन गर्दछु जसले यस्तो डेटासँग राम्रो काम गर्न सक्छ।