2.3.1.1 बिग

बड़े डेटासेट का अंत करने के लिए एक साधन हैं; वे अपने आप में एक अंत नहीं कर रहे हैं।

बड़ा डेटा के तीन अच्छे विशेषताओं का पहला सबसे अधिक चर्चा की है: इन बड़े डेटा रहे हैं। कई लोगों को प्रति व्यक्ति के बारे में जानकारी के बहुत सारे, या समय के साथ कई टिप्पणियों: ये आंकड़े सूत्रों तीन अलग अलग तरीकों में बड़ा हो सकता है। एक बड़ा डाटासेट होने, दुर्लभ घटनाओं का अध्ययन छोटे मतभेदों का पता लगाने, और अवलोकन डेटा से कारण अनुमान कर रही है, अनुसंधान मापने विविधता के कुछ विशिष्ट प्रकार के लिए सक्षम बनाता है। यह भी sloppiness का एक विशिष्ट प्रकार के लिए नेतृत्व करने लगता है।

पहली बात यह है जिसके लिए आकार विशेष रूप से उपयोगी है विशिष्ट उपसमूहों के लिए अनुमान बनाने के लिए औसत से परे बढ़ रहा है। उदाहरण के लिए, गैरी राजा, जेनिफर पान, और मौली रॉबर्ट्स (2013) संभावना मापा चीन में सामाजिक मीडिया पदों सरकार द्वारा सेंसर किया जाएगा। वैसे विलोपन के इस औसत संभावना समझ क्यों सरकार कुछ पदों को नहीं बल्कि दूसरों सेंसर के लिए बहुत मददगार नहीं है। लेकिन, क्योंकि उनके डाटासेट 11 लाख पदों को शामिल किया, राजा और उनके सहयोगियों ने भी 85 अलग अलग श्रेणियों (जैसे, अश्लील साहित्य, तिब्बत, और बीजिंग में यातायात) पर पदों के लिए सेंसरशिप की संभावना के लिए अनुमान का उत्पादन किया। विभिन्न श्रेणियों में पदों के लिए सेंसरशिप की संभावना की तुलना करके, वे कैसे और क्यों सरकारी पदों के कुछ प्रकार के सेंसर के बारे में और अधिक समझने में सक्षम थे। 11 हजार पदों (बजाय 11 लाख पदों) के साथ, वे इन वर्ग विशेष के अनुमान का उत्पादन करने में सक्षम नहीं किया गया है।

दूसरा, आकार के लिए दुर्लभ घटनाओं का अध्ययन कर रहा है विशेष रूप से उपयोगी है। उदाहरण के लिए, गोयल और उनके सहयोगियों (2015) अलग अलग तरीके है कि ट्वीट्स वायरल जा सकते हैं अध्ययन करना चाहते थे। क्योंकि फिर से ट्वीट के बड़े झरने अत्यंत दुर्लभ-एक के बारे में एक में हैं 3,000 वे क्रम में उनके विश्लेषण के लिए काफी बड़े झरने लगता है एक अरब से अधिक ट्वीट का अध्ययन करने की जरूरत है।

तीसरा, बड़े डेटासेट छोटे मतभेदों का पता लगाने में सक्षम शोधकर्ताओं। वास्तव में, उद्योग में बड़े डेटा पर ध्यान केंद्रित करने की ज्यादा इन छोटे मतभेदों के बारे में है: मज़बूती से एक विज्ञापन पर 1% और 1.1% क्लिक के माध्यम से दरों के बीच अंतर का पता लगाने के लिए अतिरिक्त राजस्व में करोड़ों डॉलर में अनुवाद कर सकते हैं। कुछ वैज्ञानिक सेटिंग्स में, इस तरह के छोटे मतभेदों खास महत्वपूर्ण नहीं हो सकता है (भले ही वे सांख्यिकीय महत्वपूर्ण हैं)। लेकिन, कुछ नीति सेटिंग्स में, इस तरह के छोटे मतभेदों से महत्वपूर्ण है जब कुल में देखी बन सकता है। उदाहरण के लिए, अगर वहाँ दो सार्वजनिक स्वास्थ्य उपायों और एक है थोड़ा अन्य की तुलना में अधिक प्रभावी है, तो और अधिक प्रभावी हस्तक्षेप अतिरिक्त जीवन के हजारों की बचत खत्म हो सकता करने जा रहे हैं।

अंत में, बड़े डेटा सेट बहुत अवलोकन डेटा से कारण अनुमान बनाने के लिए हमारी क्षमता को बढ़ा सकते हैं। बड़े डेटासेट मौलिक, अवलोकन डेटा से कारण अनुमान बनाने मिलान और प्राकृतिक प्रयोगों-दो तकनीकों है कि शोधकर्ताओं ने अवलोकन से कारण दावा करने के लिए विकसित किया है डेटा-दोनों बहुत बड़े डेटासेट से लाभ के साथ समस्याओं को बदल नहीं है यद्यपि। मैं समझा और इस अध्याय में बाद में अधिक से अधिक विस्तार में इस दावे को समझाना जब मैं अनुसंधान रणनीतियों का वर्णन करेंगे।

हालांकि bigness आम तौर पर एक अच्छा संपत्ति जब सही ढंग से इस्तेमाल किया है, मैंने देखा है कि bigness सामान्यतः एक वैचारिक त्रुटि के लिए होता है। किसी कारण के लिए, bigness अनदेखी करने के लिए अपने डेटा कैसे उत्पन्न किया गया शोधकर्ताओं का नेतृत्व करने के लिए लगता है। Bigness यादृच्छिक त्रुटि के बारे में चिंता करने की जरूरत को कम करता है, यह वास्तव में व्यवस्थित त्रुटियों के बारे में चिंता करने की ज़रूरत नहीं है, कैसे डेटा बनाया है और एकत्र कर रहे हैं में पूर्वाग्रहों से उठता है कि त्रुटियों मुझे लगता है कि नीचे और अधिक में वर्णन करेंगे के प्रकार बढ़ जाती है। एक छोटे से डाटासेट में, दोनों यादृच्छिक त्रुटि और व्यवस्थित त्रुटि महत्वपूर्ण हो सकता है, लेकिन एक बड़ी डाटासेट यादृच्छिक त्रुटि में दूर औसतन किया जा सकता और व्यवस्थित त्रुटि हावी है। शोधकर्ताओं ने व्यवस्थित त्रुटि गलत बात का एक सटीक अनुमान पाने के लिए उनके बड़े डेटासेट का उपयोग कर खत्म हो जाएगा के बारे में सोचना नहीं है; वे ठीक गलत हो जाएगा (McFarland and McFarland 2015)