2.3.1 बिग

ठूलो डेटासेट अन्त एक माध्यम हो; तिनीहरू अन्त छैन।

ठूला डेटा स्रोतहरूको सबै भन्दा ठूलो छलफल गरिएको विशेषता हो कि तिनीहरू बिग हुन्। उदाहरणका लागि, धेरै कागजातहरू छलफल गरेर सुरु गर्नुहोस्-कहिलेकाहीँ थोरै ब्रेकिंग - उनीहरूले कति डेटाले विश्लेषण गरे। उदाहरणको लागि, साइन्समा प्रकाशन गरिएको एउटा पेपरले Google Books कोर्क्समा शब्द-प्रयोग प्रवृत्तहरूको अध्ययन गर्नका लागी निम्न (Michel et al. 2011) :

"[हाम्रो] कोर्क्सले अंग्रेजी (361 बिलियन), फ्रांसीसी (45 अर्ब), स्पेनिस (45 अर्ब), जर्मन (37 बिलियन), चिनियाँ (13 अरब), रूसी (35 अरब) र हिब्रूमा 500 बिलियन शब्दहरू समावेश गर्दछ। (2 अर्ब)। सबैभन्दा पुरानो काम 1500 मा प्रकाशित गरियो। प्रारम्भिक दशकहरू प्रति वर्ष केवल केही पुस्तकहरू प्रतिनिधित्व गरिन्छ, जसमा धेरै सय हजार शब्दहरू समावेश छन्। 1800 सम्म, कोर्क्स प्रति वर्ष 98 मिलियन शब्द बढ्छ; 1 9 00 सम्म, 1.8 बिलियन; र 2000 सम्म, 11 अर्ब। कोर मानव द्वारा पढ्न सकिँदैन। यदि तपाईले केवल 2000 2000 बाट मात्र अंग्रेजी-भाषा प्रविष्टिहरू पढ्न खोज्नुभयो भने, 200 शब्द / मिनेटको उचित गतिमा, खाना वा निद्राको बाधा बिना, यो 80 वर्ष लाग्छ। पत्रको अनुक्रम मानव जीनोमभन्दा 1000 गुणा लामो छ: यदि तपाईंले यसलाई सिधा रेखामा लेख्नुभयो, यो चन्द्रमा पुग्छ र 10 चोटी पछि। "

यस डेटाको मापन निस्सन्देही प्रभावशाली छ, र हामी सबै भाग्यशाली छौं कि Google पुस्तक टोलीले यी डेटालाई सार्वजनिक गर्न (वास्तवमा, यस अध्यायको अन्त्यमा केही गतिविधिहरू यस डेटाको प्रयोग गर्न) लाई रिहा गरेको छ। तर, जब तपाईं यस्तो जस्तै केहि देख्नुहुन्छ तपाईंले सोध्नुपर्छ: के कि सबै डेटा साँच्चै केहि गर्दैछ? के हुन सक्दथे भने त्यहि अनुसन्धान यदि डेटा चन्द्रमा पुग्न सक्छ र पछि मात्र एक चोटि? के भने यदि डेटा मात्र माउन्ट एवरेस्ट वा एफिल टवरको माथि पुग्न सक्थ्यो भने?

यस अवस्थामा, उनीहरूको अनुसन्धानले वास्तवमा केही निष्कर्षहरू छन् जुन लामो समयको अवधिमा शब्दहरूको ठूलो कोर्क्स आवश्यक पर्छ। उदाहरणका लागि, उनीहरूले पत्ता लगाउँदा एक चीज व्याकरणको विकास हो, विशेष गरी अनियमित क्रिया विच्छेदको दरमा परिवर्तन। चूंकि केहि अनियमित क्रियाकलाप एकदम दुर्लभ हो, एक ठूलो मात्रा मा डेटा को समय संग परिवर्तन को ठेगाना लगाउन को आवश्यकता हो। तथापि, तथापि, शोधकर्ताहरूको अन्त्यको रूपमा ठूलो डेटा स्रोतको आकारको लागी जस्तो देखिन्छ - "केहि कति महत्त्वपूर्ण वैज्ञानिक उद्देश्यको अर्थ भन्दा बढी डेटा मन्त्रालयले देख्न सक्छ"।

मेरो अनुभवमा, दुर्लभ कार्यक्रमहरूको अध्ययन तीन तीनवटा वैज्ञानिक समापनहरू मध्ये एक हो जुन ठूलो डेटासेटहरू सक्षम हुन्छन्। दोस्रो, हिटरोजिनिटीको अध्ययन हो, जुन संयुक्त राज्य अमेरिकामा सामाजिक गतिशीलतामा राज चेता र सहकर्मीहरू (2014) द्वारा अध्ययन गरेर वर्णन गर्न सकिन्छ। विगतमा धेरै शोधकर्ताहरूले आमाबाबु र बच्चाहरूको जीवनको परिणाम तुलना गरेर सामाजिक गतिशीलताको अध्ययन गरेका छन्। यस साहित्यबाट एक निरन्तर खोज यो हो कि फाइदा भएका आमाबाबुहरूले फाइदा बच्चाहरू पाउँछन्, तर यस सम्बन्धको बल समय र सबै देशहरूमा (Hout and DiPrete 2006) भिन्न हुन्छ। तथापि, तथापि, चेईटी र साथीहरूले संयुक्त राज्य अमेरिका (चित्रा 2.1) मा अन्तरक्रियात्मक गतिशीलतामा विभेदिकता अनुमान गर्न 40 मिलियन मान्छे गरेर कर रेकर्ड प्रयोग गर्न सक्षम थिए। उदाहरणका लागि तिनीहरूले पत्ता लगाएकी थिइन् कि बच्चाको निचला क्विनिलेटमा परिवारबाट सुरु हुने राष्ट्रीय आय वितरणको शीर्ष क्लिन्टाइल पुग्छ जुन सैन जोस, क्यलिलिफोर्नियामा लगभग 13% हुन्छ, तर उत्तरी क्यारोलिना, चार्लोटमा मात्र लगभग 4% हो। यदि तपाईं एक क्षणको लागि 2.1 अंक देख्नुहुन्छ भने, तपाईं आश्चर्य गर्न सुरु हुन सक्नुहुनेछ किन अरू भन्दा बढी ठाउँहरूमा अन्तरगणनात्मक गतिशीलता अधिक छ। चेटी र सहकर्मीहरू वास्तवमा एउटै प्रश्न थियो, र उनीहरुले पत्ता लगाए कि उच्च गतिशीलता क्षेत्रहरु लाई कम आवासीय अलगाव, कम आय असमानता, प्राथमिक प्राथमिक विद्यालयहरु, अधिक सामाजिक पूंजी, र पारिवारिक स्थिरीकरणको अधिक महत्व छ। यद्यपि, यस सम्बन्धमा यी सम्बन्धहरू मात्र देखाउन सकिँदैन कि यी कारकहरू उच्च गतिशीलताको कारण हुन्, तर तिनीहरू सम्भावित तवरमा सम्बोधन गर्न सक्छन् जुन अझ बढी काममा अन्वेषण गर्न सकिन्छ, जुन वास्तवमा के हो चीट र सहयोगीहरूले पछिल्ला काममा गरेका छन्। यो परियोजनामा ​​कसरी डेटाको आकार महत्त्वपूर्ण थियो याद गर्नुहोस्। यदि चेईटी र साथीहरूले 40 मिलियन भन्दा बढी 40 हजार भन्दा बढी करको रेकर्ड प्रयोग गर्दथे भने, उनीहरूले क्षेत्रीय विरूपणता अनुमान गर्न सकेनन् र उनीहरूले पछिल्ला अनुसन्धान गर्न सकेनन भने यो भिन्नता सिर्जना गर्ने मेकिनोजिम पहिचान गर्न खोजे।

चित्रा 2.1: आय 20 9% (चेइट एट अल 2014) मा आमाबाबु दिएका वितरणको शीर्ष 20% सम्म पुग्नको बच्चाको संभावनाको अनुमान। क्षेत्रीय स्तरको अनुमान, जो हिटरोगेनेसता देखाउँछ, स्वाभाविक रूपले रोचक र महत्त्वपूर्ण प्रश्नहरूको नेतृत्व गर्दछ जुन एक राष्ट्रिय स्तरको अनुमानित अनुमानबाट उत्पन्न हुँदैन। यी क्षेत्रीय-स्तर अनुमानहरू भागमा सम्भव भएका कारण शोधकर्ताहरूले ठूलो ठूलो स्रोत स्रोत प्रयोग गर्दै थिए: 40 मिलियन व्यक्तिको कर रेकर्ड। Http://www.equality-of-opportunity.org/ मा उपलब्ध डेटा बाट सिर्जना गरियो।

चित्रा 2.1: आय 20 9% (Chetty et al. 2014) आमाबाबु दिएका वितरणको शीर्ष 20% सम्म पुग्नको बच्चाको संभावनाको अनुमान। क्षेत्रीय स्तरको अनुमान, जो हिटरोगेनेसता देखाउँछ, स्वाभाविक रूपले रोचक र महत्त्वपूर्ण प्रश्नहरूको नेतृत्व गर्दछ जुन एक राष्ट्रिय स्तरको अनुमानित अनुमानबाट उत्पन्न हुँदैन। यी क्षेत्रीय-स्तर अनुमानहरू भागमा सम्भव भएका कारण शोधकर्ताहरूले ठूलो ठूलो स्रोत स्रोत प्रयोग गर्दै थिए: 40 मिलियन व्यक्तिको कर रेकर्ड। Http://www.equality-of-opportunity.org/ मा उपलब्ध डेटा बाट सिर्जना गरियो।

अन्तमा, दुर्लभ कार्यक्रमहरू अध्ययन गर्न र हिटरोजाइजिटीको अध्ययन गर्न ठूलो मात्रामा डाटासेटहरूले शोधकर्ताहरुलाई सानो मतभेद पत्ता लगाउन सक्षम पारे। वास्तवमा, उद्योगमा ठूलो डेटामा धेरै फोकसहरू यी सानो भिन्नताहरू छन्: 1% र 1.1% बीचको भिन्नता पत्ता लगाउँदा विज्ञापनमा क्लिक-मार्फत दरहरू थप राजस्वमा लाखौं डलरमा अनुवाद गर्न सक्छन्। तथापि, केही वैज्ञानिक सेटिङहरूमा, यस्तो सानो मतभेदहरू विशेष महत्त्वपूर्ण नहुन सक्छ, भले तिनीहरू तिनीहरूका सांख्यिकीय महत्त्वपूर्ण हुन्छन् (Prentice and Miller 1992) । तर, केही नीति सेटिङहरूमा, तिनीहरू समग्रमा देखिन सक्दछन् जब समग्रमा देखियो। उदाहरणका लागि, यदि दुई सार्वजनिक स्वास्थ्य हस्तक्षेपहरू छन् भने अर्को भन्दा कम प्रभावकारी हुन्छ, त्यसपछि थप प्रभावकारी हस्तक्षेपले हजारौं अतिरिक्त जीवन बचत गर्न सक्दछ।

यद्यपि Bigness सामान्य रूपमा प्रयोग गरिन्छ जब राम्रो तरिकाले प्रयोग गरिन्छ, मैले देखेको छु कि यसले कहिलेकाहीँ एक अवधारणात्मक त्रुटिको नेतृत्व गर्न सक्छ। केही कारणको लागि, ईमानदारीले शोधकर्ताहरूको नेतृत्व गर्न खोजेको जस्तो देखिन्छ कि उनीहरूको डेटा कसरी उत्पन्न भयो। बाइनेसिले यादृच्छिक त्रुटिको बारेमा चिन्ताको आवश्यकतालाई कम गर्दछ, यसले वास्तवमा प्रणालीगत त्रुटिहरूको बारेमा चिन्ता बढाउँछ । यस प्रकारका त्रुटिहरू जुन म तल वर्णन गर्दछु जुन कसरी डेटा सिर्जना गर्ने पूर्वाधारबाट उत्पन्न हुन्छ। उदाहरणको लागि, मैले यो अध्यायमा पछिको वर्णन गर्यौं, शोधकर्ताहरू 11 सेप्टेम्बर, 2001 मा सन्देशहरू उत्पन्न गर्नका लागि आतंकवादी हमला (Back, Küfner, and Egloff 2010) को प्रतिक्रियाको उच्च-रिजोलुशन भावनात्मक टाइमलाइन सिर्जना गर्न प्रयोग गर्थे। किनभने शोधकर्ताहरूको सन्देशहरूको ठूलो संख्या थियो, तिनीहरूले वास्तवमा चिन्ता गर्नुपर्दैन कि तिनीहरूले तिनीहरूले देखाएका पैटर्नहरू दिनको समयमा रिस उठ्छन् - यादृच्छिक भिन्नता द्वारा व्याख्या गर्न सकिन्छ। त्यहाँ धेरै डेटा थियो र ढाँचा यति स्पष्ट थियो कि सबै सांख्यिकीय सांख्यिकीय परीक्षणहरूले यो एक वास्तविक ढाँचा थियो भनेर सुझाव दिए। तर, यी तथ्याङ्क परीक्षणहरू कसरी डेटा सिर्जना गरिएकोबाट अनजान थियो। वास्तवमा, यो बाहिर फर्काइएको छ कि धेरै ढाँचा एक बोटमा संलग्न छन् जुन दिनभरि धेरै अधिक अर्थहीन सन्देशहरू उत्पन्न गरियो। यो एक बोट हटाउँदै कागजमा केही कुञ्जी निष्कर्षहरू पूर्ण रूपमा नष्ट गर्यो (Pury 2011; Back, Küfner, and Egloff 2011) । अहिल्यै मात्र, शोधकर्ताहरूले व्यवस्थित त्रुटिको बारेमा सोच्न नसक्ने एक असाधारण मात्राको सटीक अनुमान पाउनका लागि तिनीहरूको ठूलो डेटासेट प्रयोग गर्ने जोखिमको सामना गर्छ, जस्तै स्वचालित बट द्वारा उत्पादित अर्थहीन सन्देशहरूको भावनात्मक विषयवस्तु।

अन्त्यमा, ठूलो डेटासेट आफैमा समाप्त हुँदैन, तर तिनीहरू दुर्लभ घटनाहरूको अध्ययन, हिटरोजेनिटीको अनुमान, र साना मतभेदहरूको पत्ता लगाउने सहित केहि प्रकारको अनुसन्धान सक्षम गर्न सक्छन्। बिग डाटासेटले केही अनुसन्धानकर्ताहरूलाई पनि नेतृत्व गर्न खोज्दा उनीहरूको डेटा कसरी सिर्जना भयो भनेर बेवास्ता गर्न सक्छन्, जसले उनीहरूको अनावश्यक मात्राको सटीक अनुमान प्राप्त गर्न सक्छ।