2.3.1 बिग

मोठ्या डेटाबेस शेवट साधन आहे; ते स्वत: च शेवट नाही.

मोठे डेटा स्त्रोतांचे सर्वात जास्त प्रमाणात चर्चा केलेले वैशिष्ट्य म्हणजे ते मोठे आहेत. बर्याच पेपर्स, उदाहरणार्थ, चर्चेने-आणि कधीकधी बढाई मारणे-यातून त्यांनी किती डेटाचे विश्लेषण केले त्यानुसार सुरू केले. उदाहरणार्थ, गुगल बुक्स कॉरपस मधील शब्द-वापर ट्रेंडचा अभ्यास करणार्या सायन्समध्ये प्रकाशित झालेल्या पेपरमध्ये खालील प्रमाणे (Michel et al. 2011) :

"[आमच्या] कॉर्पसमध्ये 500 अब्ज शब्दांचा समावेश आहे, इंग्रजीत (361 अब्ज), फ्रेंच (45 अब्ज), स्पॅनिश (45 अब्ज), जर्मन (37 अब्ज), चिनी (13 बिलियन), रशियन (35 अब्ज), आणि हिब्रू (2 बिलियन). सर्वात जुने कामे 1500s मध्ये प्रकाशित झाले प्रारंभिक दशकांमध्ये प्रति वर्ष केवळ काही पुस्तकेच प्रस्तुत केली जातात, ज्यात बर्याच हजार शब्दांचा समावेश आहे. 1800 पर्यंत, कॉर्पस प्रति वर्ष 9 8 दशलक्ष शब्दांची वाढते; 1 9 00 पर्यंत 1.8 अब्ज; आणि 2000 मध्ये, 11 अब्ज कॉर्पस मानवी द्वारे वाचता येणार नाही. जर आपण फक्त 2000 वर्षाच्या इंग्रजीतील इंग्रजीतील नोंदी वाचण्याचा प्रयत्न केल्यास, 200 शब्द / मिनिटांच्या वाजवी पगारावर, अन्न किंवा झोप न घेता व्यत्यय न होता 80 वर्षे होतील. अक्षरे अनुक्रम मानवी जीनोम पेक्षा 1000 पट जास्त आहे: आपण एका सरळ ओळीत ते लिहिले असेल, तर ते 10 वेळा परत चंद्र आणि पोहोचू होईल. "

या डेटाचा दर्जा निःसंशयपणे प्रभावी आहे, आणि आम्ही सर्व भाग्यवान आहोत की Google Books कार्यसंघाने हा डेटा सार्वजनिक लोकांकडे सोपविला आहे (खरं तर, या प्रकरणाच्या अखेरच्या काही क्रियाकलाप या डेटाचा वापर करतात). परंतु, जेव्हा आपण असे काहीतरी बघता तेव्हा आपण विचारू शकतो की तो सर्व डेटा खरोखरच काही करत आहे? जर डेटा चंद्रापर्यंत पोहोचला आणि केवळ एकदाच परत आला तरच ते त्याच संशोधनाने करू शकले असते का? माउंट एव्हरेस्ट किंवा आयफेल टॉवरच्या शीर्षावर पोहोचू शकला तर काय?

या प्रकरणात, त्यांच्या संशोधनामध्ये खरच काही निष्कर्ष आहेत ज्यांची दीर्घ काळातील शब्दांची मोठी संकल्पना आवश्यक आहे. उदाहरणार्थ, ते एक्सप्लोर करणारे एक गोष्ट म्हणजे व्याकरण उत्क्रांती, विशेषत: अनियमित क्रियापद संलिधन दराने बदल. काही अनियमित क्रियापद फार दुर्मिळ असल्याने, वेळेनुसार बदल शोधण्याकरता मोठ्या प्रमाणात डेटाची गरज आहे. बर्याचवेळा, तथापि, संशोधकांना मोठ्या डेटा स्रोताच्या आकाराप्रमाणे- "अधिक कर्कश माहीती दिसू शकते" असे दिसते, तर काही महत्वपूर्ण वैज्ञानिक उद्दिष्ट

माझ्या अनुभवानुसार, दुर्मिळ घटनांचा अभ्यास हा तीन विशिष्ट वैज्ञानिक खुणांपैकी एक आहे जो मोठ्या डेटासेट सक्षम करतात. दुसरे वैविध्यताचा अभ्यास आहे, जसे की राज चेट्टी आणि सहकाऱ्यांनी (2014) अमेरिकेतील सामाजिक गतिशीलतेवर केलेल्या अभ्यासाद्वारे हे स्पष्ट करता येते. भूतकाळात, अनेक संशोधकांनी पालक आणि मुलांच्या जीवनाच्या परिणामांची तुलना करून सामाजिक गतिशीलतांचा अभ्यास केला आहे. या साहित्यामधून सातत्याने शोध म्हणजे फायदेशीर पालकांना मुले लाभली आहेत, परंतु या संबंधांची ताकद वेळोवेळी आणि देशांमध्ये (Hout and DiPrete 2006) वेगवेगळी असते. अलीकडे मात्र, चेष्टेने आणि सहकाऱ्यांनी 40 मिलियन लोकांच्या कर अभिलेखांचा वापर अमेरिकेतील (2.1 क्रमांकाच्या) क्षेत्रातील परस्परव्यापी हालचालींच्या विविधतेचा अंदाज घेण्यासाठी केला. उदाहरणार्थ, कॅलिफोर्नियाच्या सॅन जोसमध्ये सुमारे 13% बालकांच्या राष्ट्रीय उत्पन्नाच्या शिखरावर पोहोचणारी संभाव्यता तब्बल 13% इतकी आहे, परंतु चार्लोट, नॉर्थ कॅरोलिनामध्ये फक्त 4% आहे. जर आपण क्षणासाठी आकृती 2.1 पाहत असाल, तर आपल्याला आश्चर्य वाटू लागेल की काही ठिकाणी काही वेगळी गतिशीलता जास्त आहे कारण इतरांपेक्षा. चेट्टी आणि त्यांच्या सहकाऱ्यांचे तेच प्रश्न होते, आणि त्यांना असे आढळले की उच्च गतिशीलता भागात कमी आवासीय अलगाव, कमी उत्पन्न असमानता, चांगले प्राथमिक शाळा, मोठे सामाजिक भांडवल आणि मोठे कुटुंब स्थिरता आहे. अर्थात, हे परस्परसंबंध केवळ हे दाखवत नाहीत की या घटकांना उच्च गतिशीलता कारणीभूत आहे, परंतु ते पुढील कार्यांमधे शोधले जाऊ शकणारे संभाव्य यंत्रणा सूचित करतात, जे शेती आणि त्यांचे सहकाऱ्यांनी त्यानंतरच्या कामात काय केले आहे. या प्रकल्पात डेटाचा आकार खरोखर महत्वाचा होता हे लक्षात घ्या. जर चेट्टी आणि त्यांच्या सहकाऱ्यांनी 40 लाखांऐवजी 40 हजार लोकांच्या कर अभिलेखांचा वापर केला असता तर ते प्रादेशिक विविधतेचा अंदाज लावू शकले नसते आणि या फरक तयार करणाऱ्या यंत्रणेला ओळखण्यासाठी ते नंतरच्या संशोधन करू शकले नसते.

आकृती 2.1: पालकांनी 20% (चेट्टी एट अल. 2014) मध्ये दिलेली उत्पन्नाच्या वितरणाच्या शीर्ष 20% पर्यंत पोहोचण्याच्या मुलांच्या शक्यतांचे अंदाज. क्षेत्रीय पातळीवरील अंदाजानुसार, विविधता दर्शवितात, नैसर्गिकरित्या मनोरंजक आणि महत्त्वपूर्ण प्रश्न उद्भवतात जे एका राष्ट्रीय स्तरावरील अंदाजापेक्षा उद्भवू नयेत. या प्रादेशिक-पातळीच्या अंदाजांमुळे भागांमधले शक्य झाले कारण संशोधक मोठ्या प्रमाणात डेटा स्रोत वापरत होते: 40 दशलक्ष लोकांच्या कर अभिलेख. Http://www.equality-of-opportunity.org/ वर उपलब्ध डेटावरून तयार.

आकृती 2.1: पालकांनी 20% (Chetty et al. 2014) मध्ये दिलेली उत्पन्नाच्या वितरणाच्या शीर्ष 20% पर्यंत पोहोचण्याच्या मुलांच्या शक्यतांचे अंदाज. क्षेत्रीय पातळीवरील अंदाजानुसार, विविधता दर्शवितात, नैसर्गिकरित्या मनोरंजक आणि महत्त्वपूर्ण प्रश्न उद्भवतात जे एका राष्ट्रीय स्तरावरील अंदाजापेक्षा उद्भवू नयेत. या प्रादेशिक-पातळीच्या अंदाजांमुळे भागांमधले शक्य झाले कारण संशोधक मोठ्या प्रमाणात डेटा स्रोत वापरत होते: 40 दशलक्ष लोकांच्या कर अभिलेख. Http://www.equality-of-opportunity.org/ वर उपलब्ध डेटावरून तयार.

शेवटी, दुर्मिळ घटनांचा अभ्यास आणि विविधतांचा अभ्यास करण्याव्यतिरिक्त, मोठे डेटासेट देखील शोधकांना लहान फरक ओळखू शकतात. किंबहुना, उद्योगांमधील मोठया डेटावर जास्त लक्ष केंद्रित करणे ह्या छोट्या फरकांविषयी आहे: एखाद्या जाहिरातीवर 1% आणि 1.1% क्लिक-थ्रू दरांमधील फरक शोधणे हे अतिरिक्त महसूलात लाखो डॉलर्स मध्ये अनुवादित करते. काही वैज्ञानिक संरचनांमध्ये, तथापि, अशा लहान फरक विशिष्ट महत्त्वाचे नसतील, जरी ते सांख्यिकीय (Prentice and Miller 1992) लक्षणीय असले तरीही (Prentice and Miller 1992) . परंतु, काही धोरणात्मक सेटिंग्जमध्ये, जेव्हा ते एकत्रित केले जातात तेव्हा ते महत्वाचे ठरू शकतात. उदाहरणार्थ, जर दोन सार्वजनिक आरोग्य हस्तक्षेप आहेत आणि एक इतरांपेक्षा थोडा अधिक प्रभावी आहे, तर अधिक प्रभावी हस्तक्षेप निवडल्याने हजारो अतिरिक्त जीवन वाचवणे शक्य होईल.

जरी योग्यतेने वापरली जाणे सामान्यतः चांगली संपत्ती असते, तरीही मी हे लक्षात घेतले आहे की ते कधीकधी एक संकल्पनात्मक त्रुटी घेऊन जाऊ शकते. काही कारणास्तव, bigness संशोधक त्यांच्या डेटा व्युत्पन्न होते कसे दुर्लक्ष अग्रगण्य दिसते. बेनिगेस यादृच्छिक चुकांबद्दल चिंता करण्याची आवश्यकता कमी करतेवेळी, प्रत्यक्षात ते व्यवस्थित त्रुटींबद्दल काळजी करण्याची गरज वाढवते , मी खालील गोष्टींचे वर्णन करणार्या चुकांसारख्या चुका ज्या डेटा तयार केल्या जातात त्यातील पूर्वाग्रहांपासून निर्माण होतात. उदाहरणार्थ, एका प्रोजेक्टमध्ये मी या प्रकरणात नंतर वर्णन केले आहे, संशोधकांनी सप्टेंबर 11, 2001 रोजी तयार केलेल्या संदेशांचा वापर दहशतवादी आक्रमण (Back, Küfner, and Egloff 2010) या प्रतिसादाची भावनात्मक वेळेत तयार करण्यासाठी केला. कारण संशोधकांकडे मोठ्या संख्येने संदेश होते, त्यामुळं त्यांच्या मनातील नमुन्यांची त्यांना काळजी करण्याची गरजच नव्हती - दिवसभरात क्रोध वाढत जाणे - यादृच्छिक फरकाने स्पष्ट केले जाऊ शकते. तिथे इतका डेटा होता आणि पॅटर्न इतके स्पष्ट होते की सर्व स्टॅटिस्टिकल स्टॅटिस्टिकल चाचण्यांनी हेच एक वास्तविक स्वरूप आहे असे सुचवले. परंतु, ही संख्याशास्त्रीय चाचण्या म्हणजे माहिती कशी तयार झाली हे अज्ञान होते. खरं तर, हे सिद्ध झाले की बर्याच नमुन्यांद्वारे एकाच बॉटला श्रेय दिले गेले जे संपूर्ण दिवसांमध्ये अधिक आणि अधिक निरर्थक संदेश व्युत्पन्न करते. या एक बॉटने काढून (Pury 2011; Back, Küfner, and Egloff 2011) काही महत्त्वाच्या निष्कर्षांचा पूर्णपणे नाश झाला (Pury 2011; Back, Küfner, and Egloff 2011) बर्यापैकी सहजपणे, संशोधक ज्यांना व्यवस्थित चुकांबद्दल विचार करत नाहीत त्यांना त्यांच्या मोठ्या डेटासेटचा वापर एक बिनमहत्त्वाचा अचूक अंदाज मिळविण्यासाठी धोकादायक असतो, जसे की स्वयंचलित बोटद्वारे निर्बळ अर्थपूर्ण संदेशांची भावनिक सामग्री.

शेवटी, मोठे डेटासेट स्वत: मध्ये शेवट होत नाहीत परंतु ते काही प्रकारचे संशोधन सक्षम करू शकतात ज्यामध्ये दुर्मिळ घटनांचा अभ्यास, विविधतांचे अंदाज आणि छोट्या फरकांचा शोध यांचा समावेश आहे. बिग डेटासेट देखील काही संशोधकांना त्यांचे डेटा कसे तयार केले गेले हे दुर्लक्ष करण्यास प्रवृत्त असल्याचे दिसत आहे, ज्यामुळे ते बिनमहत्वाच्या संख्येचा अचूक अंदाज मिळवू शकतात.