2.3.2.2 दुर्गम

व्यवसायों और सरकारों द्वारा आयोजित डेटा शोधकर्ताओं का उपयोग करने के लिए मुश्किल हो जाता है।

मई 2014 में अमेरिका के राष्ट्रीय सुरक्षा एजेंडा एक अजीब नाम है, खुफिया समुदाय व्यापक राष्ट्रीय साइबर सुरक्षा पहल डाटा केंद्र ग्रामीण यूटा में एक डाटा सेंटर खोला। हालांकि, इस डेटा सेंटर है, जो यूटा डाटा केंद्र के रूप में जाना जा आ गया है, चौंकाने की क्षमता है की सूचना दी है। एक रिपोर्ट में आरोप लगाया गया है कि यूटा डाटा सेंटर की दुकान और "निजी ईमेल की पूर्ण सामग्री, सेल फोन, और गूगल खोजों सहित संचार के सभी रूपों, साथ ही व्यक्तिगत डेटा ट्रेल्स-पार्किंग प्राप्तियों, यात्रा मार्गों की सभी प्रकार की प्रक्रिया में सक्षम है , किताबों की दुकान खरीद, और अन्य डिजिटल `जेब कूड़े '' (Bamford 2012) । जानकारी है, और अधिक नीचे वर्णित किया जाएगा जो बड़े डेटा में कब्जा के बहुत से संवेदनशील प्रकृति के बारे में स्थापना चिंताओं के अलावा, यूटा डाटा केंद्र एक अमीर डेटा स्रोत है कि शोधकर्ताओं के लिए दुर्गम है का एक चरम उदाहरण है। आम तौर पर, बड़ा डेटा के कई स्रोत है कि उपयोगी होगा करने के लिए शोधकर्ताओं ने नियंत्रित और सरकारों (जैसे, टैक्स डेटा और शैक्षिक डेटा) और कंपनियों द्वारा प्रतिबंधित कर रहे हैं (उदाहरण के लिए, प्रश्नों खोज करने के लिए इंजन और फोन कॉल मेटा डेटा)। इसलिए, इन आंकड़ों तुरंत विश्वविद्यालयों में शोधकर्ताओं के लिए उपलब्ध नहीं होगा, और सबसे भी सरकारों या कंपनियों में शोधकर्ताओं के लिए उपलब्ध नहीं होगा।

मेरे अनुभव में, कई विश्वविद्यालयों में आधारित शोधकर्ताओं ने इस पहुंच का स्रोत गलत। इन आंकड़ों से दुर्गम क्योंकि कंपनियों और सरकारों पर लोगों को बेवकूफ आलसी, या बेपरवाह नहीं कर रहे हैं। बल्कि, वहाँ गंभीर कानूनी, तकनीकी, व्यापार, और नैतिक बाधाओं कि डेटा का उपयोग रोकने के हैं। उदाहरण के लिए, वेबसाइटों के लिए कुछ शर्तों का सेवा समझौतों केवल डेटा के कर्मचारियों द्वारा इस्तेमाल किया जा करने के लिए या सेवा में सुधार करने के लिए अनुमति देते हैं। तो डेटा साझा करने के कुछ रूपों ग्राहकों से वैध मुकदमों के लिए कंपनियों को बेनकाब सकता है। वहाँ भी डेटा साझा करने में शामिल कंपनियों के लिए पर्याप्त व्यापार जोखिम भी हैं। कल्पना करने के लिए अगर व्यक्तिगत खोज डेटा गलती से एक विश्वविद्यालय अनुसंधान परियोजना के हिस्से के रूप में गूगल से बाहर लीक कैसे जनता जवाब होगा की कोशिश करो। इस तरह के एक डेटा भंग, चरम है, तो भी कंपनी के लिए एक अस्तित्व खतरा हो सकता है। तो गूगल और सबसे बड़ी बहुत जोखिम से बचने वाले शोधकर्ताओं के साथ डेटा साझा करने के बारे कंपनियों रहे हैं।

वास्तव में, लगभग हर कोई है जो एक स्थिति में है बड़ी मात्रा में करने के लिए पहुँच प्रदान करने के डेटा अब्दुर चौधरी की कहानी को जानता है। 2006 में, जब वह एओएल अनुसंधान के प्रमुख थे, वह जानबूझकर जारी किया है कि वह क्या सोचा अनुसंधान समुदाय के लिए 650,000 एओएल उपयोगकर्ताओं से खोज प्रश्नों गुमनाम थे। जहाँ तक मैं बता सकता हूँ, चौधरी और एओएल में शोधकर्ताओं अच्छे इरादों था और उन्होंने सोचा कि वे डेटा गुमनाम था। लेकिन, वे गलत थे। यह जल्दी से पता चला था कि डेटा के रूप में गुमनाम रूप में शोधकर्ताओं ने सोचा नहीं थे, और न्यूयॉर्क टाइम्स से संवाददाताओं को आसानी के साथ डाटासेट में लोगों की पहचान करने में सक्षम थे (Barbaro and Zeller Jr 2006) । एक बार इन समस्याओं को खोज रहे थे, चौधरी एओएल की वेबसाइट से डेटा हटा दिया, लेकिन यह बहुत देर हो चुकी थी। डेटा अन्य वेबसाइटों पर पोस्ट किया गया था, और यह शायद अभी भी उपलब्ध है जब आप इस किताब पढ़ रहे हो जाएगा। अनुसंधान समुदाय के साथ डेटा साझा करने के लिए अपने प्रयास की वजह से, चौधरी निकाल दिया गया था, और एओएल के मुख्य प्रौद्योगिकी अधिकारी इस्तीफा दे दिया (Hafner 2006) । इस उदाहरण से पता चलता है के रूप में, कंपनियों के डेटा का उपयोग की सुविधा के लिए के अंदर विशिष्ट व्यक्तियों के लिए लाभ के बहुत छोटे हैं और सबसे खराब स्थिति भयानक है।

अनुसंधान, हालांकि, कि आम जनता के लिए दुर्गम है डेटा तक पहुँच प्राप्त कर सकते हैं। सरकारों प्रक्रियाओं है कि शोधकर्ताओं का उपयोग के लिए लागू करने के लिए अनुसरण कर सकते हैं, और उदाहरण बाद में इस अध्याय शो के रूप में, कभी कभी शोधकर्ताओं कॉर्पोरेट डेटा तक पहुँच प्राप्त कर सकते हैं। उदाहरण के लिए, Einav et al. (2015) ईबे पर एक शोधकर्ता ऑनलाइन नीलामी से डिजिटल निशान का अध्ययन करने के साथ भागीदारी की। मैं अनुसंधान कि बाद में अध्याय (धारा 2.4.3.2) में इस सहयोग से आया है के बारे में अधिक बात करेंगे, लेकिन क्योंकि यह सामग्री है कि मैं सफल भागीदारी में देखने के सभी चार था मैं अब यह उल्लेख: शोधकर्ता ब्याज, शोधकर्ता की क्षमता, कंपनी ब्याज, और कंपनी की क्षमता। दूसरे शब्दों में, Einav और सहयोगियों में रुचि रखते हैं और ऑनलाइन नीलामी का अध्ययन करने में सक्षम थे। और, ईबे भी था। हालांकि, मैंने देखा है कई संभव सहयोग क्योंकि या तो शोधकर्ता या कंपनी इन मुद्दों में से एक का अभाव असफल।

यहां तक ​​कि अगर आप एक व्यवसाय के साथ एक साझेदारी विकसित करने के लिए हालांकि, सक्षम हैं, वहाँ आप के लिए कुछ downsides रहे हैं। सबसे पहले, सवाल है कि आप के साथ होने की संभावना सीमित हो डेटा के साथ पूछ सकते हैं; कंपनियों के अनुसंधान कि उन्हें बुरा लग कर सकता अनुमति देने के लिए की संभावना नहीं है। दूसरा, आप शायद नहीं अन्य शोधकर्ताओं, जिसका मतलब है कि अन्य शोधकर्ताओं को सत्यापित करने और अपने परिणामों का विस्तार करने में सक्षम नहीं होगा के साथ अपने डेटा साझा करने के लिए सक्षम हो जाएगा। इसके अलावा, इन साझेदारियों के हित में है, जहां लोगों को लगता है कि हो सकता है अपने परिणामों को अपनी भागीदारी से प्रभावित थे की एक संघर्ष में कम से कम उपस्थिति बना सकते हैं। इन downsides की सभी संबोधित किया जा सकता है, लेकिन यह स्पष्ट है कि डेटा है कि हर किसी के लिए सुलभ नहीं है के साथ काम करने के लिए दोनों तेजी और downsides था महत्वपूर्ण है।

सारांश में, बड़ा डेटा के बहुत सारे शोधकर्ताओं के लिए दुर्गम है। वहाँ गंभीर कानूनी, तकनीकी, व्यापार कर रहे हैं, और नैतिक बाधाओं कि डेटा का उपयोग रोकने के लिए, और इन बाधाओं को दूर नहीं जाना होगा। राष्ट्रीय सरकारों को आम तौर पर डेटा उपयोग को सक्षम करने के लिए प्रक्रियाओं की स्थापना की है, लेकिन इस प्रक्रिया में और अधिक तदर्थ राज्य और स्थानीय स्तर पर हो सकता है। इसके अलावा, कुछ मामलों में, शोधकर्ताओं ने कंपनियों के साथ भागीदार डेटा का उपयोग प्राप्त करने के लिए कर सकते हैं, लेकिन यह शोधकर्ताओं के लिए समस्याओं की एक किस्म बना सकते हैं।