2.3.9 गंदा

बिग डेटा स्रोतों जंक और स्पैम के साथ लोड किया जा सकता है।

कुछ शोधकर्ता मानते हैं कि बड़े डेटा स्रोत, विशेष रूप से ऑनलाइन स्रोत, प्राचीन हैं क्योंकि वे स्वचालित रूप से एकत्र किए जाते हैं। वास्तव में, जिन लोगों ने बड़े डेटा स्रोतों के साथ काम किया है, वे जानते हैं कि वे अक्सर गंदे होते हैं । यही है, वे अक्सर उस डेटा को शामिल करते हैं जो शोधकर्ताओं के हित के वास्तविक कार्यों को प्रतिबिंबित नहीं करता है। अधिकांश सामाजिक वैज्ञानिक पहले से ही बड़े पैमाने पर सामाजिक सर्वेक्षण डेटा की सफाई की प्रक्रिया से परिचित हैं, लेकिन बड़े डेटा स्रोतों की सफाई करना अधिक कठिन लगता है। मुझे लगता है कि इस कठिनाई का अंतिम स्रोत यह है कि इनमें से कई बड़े डेटा स्रोतों का कभी भी अनुसंधान के लिए उपयोग नहीं किया गया था, और इसलिए वे डेटा की सफाई को सुविधाजनक बनाने के तरीके से एकत्रित, संग्रहित और दस्तावेज नहीं किए गए हैं।

गंदे डिजिटल ट्रेस डेटा के खतरों को 11 सितंबर, 2001 के हमलों के भावनात्मक प्रतिक्रिया के पीछे और सहयोगियों (2010) अध्ययन द्वारा चित्रित किया गया है, जिसे मैंने पहले अध्याय में संक्षेप में उल्लेख किया था। शोधकर्ता आमतौर पर महीनों या यहां तक ​​कि वर्षों में एकत्र किए गए पूर्वदर्शी डेटा का उपयोग करके दुखद घटनाओं के जवाब का अध्ययन करते हैं। लेकिन, बैक और सहकर्मियों को डिजिटल निशानों का हमेशा-हमेशा स्रोत मिला - टाइमस्टैम्प, 85,000 अमेरिकी पेजर्स से स्वचालित रूप से रिकॉर्ड किए गए संदेश - और इससे उन्हें बहुत ही बेहतर समय पर भावनात्मक प्रतिक्रिया का अध्ययन करने में सक्षम बनाया गया। उन्होंने (1) उदासी से संबंधित शब्दों (उदाहरण के लिए, "रोना" और "दु: ख") से संबंधित शब्दों के प्रतिशत द्वारा पेजर संदेशों की भावनात्मक सामग्री को कोड करके 11 सितंबर की एक मिनट-दर-मिनट भावनात्मक समयरेखा बनाई, (2) चिंता ( उदाहरण के लिए, "चिंतित" और "भयभीत"), और (3) क्रोध (उदाहरण के लिए, "नफरत" और "महत्वपूर्ण")। उन्होंने पाया कि पूरे दिन एक मजबूत पैटर्न के बिना उदासी और चिंता में उतार-चढ़ाव हुआ, लेकिन पूरे दिन क्रोध में भारी वृद्धि हुई। यह शोध हमेशा डेटा स्रोतों की शक्ति का एक अद्भुत उदाहरण प्रतीत होता है: यदि पारंपरिक डेटा स्रोतों का उपयोग किया गया था, तो अप्रत्याशित घटना के तत्काल प्रतिक्रिया की ऐसी उच्च-रिज़ॉल्यूशन टाइमलाइन प्राप्त करना असंभव होता।

सिर्फ एक साल बाद, हालांकि, सिंथिया पुरी (2011) ने डेटा को अधिक ध्यान से देखा। उसने पाया कि माना जाता है कि बड़ी संख्या में गुस्सा संदेश एक पेजर द्वारा उत्पन्न किए गए थे और वे सभी समान थे। यहां बताया गया है कि उन नाराज संदेशों ने क्या कहा:

"रिबूट NT मशीन में मंत्रिमंडल [नाम] [नाम] पर [स्थान]: महत्वपूर्ण: [दिनांक और समय]"

इन संदेशों को गुस्से में लेबल किया गया था क्योंकि उनमें "क्रिटिकल" शब्द शामिल था, जो आमतौर पर क्रोध को इंगित कर सकता है लेकिन इस मामले में नहीं। इस एकल स्वचालित पेजर द्वारा उत्पन्न संदेशों को हटाने से दिन के दौरान क्रोध में स्पष्ट वृद्धि पूरी हो जाती है (आंकड़ा 2.4)। दूसरे शब्दों में, Back, Küfner, and Egloff (2010) में मुख्य परिणाम एक पेजर का एक आर्टिफैक्ट था। जैसा कि इस उदाहरण से पता चलता है, अपेक्षाकृत जटिल और गन्दा डेटा के अपेक्षाकृत सरल विश्लेषण में गंभीरता से गलत होने की संभावना है।

चित्रा 2.4: 11,000, 2001 के दौरान 85,000 अमेरिकी पेजर्स (बैक, कुफनर, और एग्लॉफ़ 2010, 2011; प्यूरी 2011) के आधार पर क्रोध में अनुमानित रुझान। मूल रूप से, बैक, कुफनर और एग्लॉफ (2010) ने पूरे दिन क्रोध बढ़ने के एक पैटर्न की सूचना दी। हालांकि, इनमें से अधिकतर स्पष्ट रूप से क्रोधित संदेश एक पेजर द्वारा उत्पन्न किए गए थे जो बार-बार निम्नलिखित संदेश भेजते थे: कैबिनेट [नाम] में [स्थान]] [नाम] पर [एनटी मशीन] नाम: क्रिटिकल: [दिनांक और समय]। इस संदेश को हटाकर, क्रोध में स्पष्ट वृद्धि गायब हो जाती है (पुरी 2011; बैक, कुफनर और एग्लॉफ 2011)। पुरी (2011) से अनुकूलित, आंकड़ा 1 बी।

चित्रा 2.4: (Back, Küfner, and Egloff 2010, 2011; Pury 2011) 2001 के दौरान 85,000 अमेरिकी पेजर्स (Back, Küfner, and Egloff 2010, 2011; Pury 2011) आधार पर क्रोध में अनुमानित रुझान। मूल रूप से, Back, Küfner, and Egloff (2010) ने पूरे दिन क्रोध बढ़ने के एक पैटर्न की सूचना दी। हालांकि, इनमें से अधिकतर स्पष्ट रूप से क्रोधित संदेश एक पेजर द्वारा उत्पन्न किए गए थे जो बार-बार निम्नलिखित संदेश भेजते थे: "[स्थान] पर कैबिनेट [नाम] में एनटी मशीन [नाम] रीबूट करें: क्रिटिकल: [दिनांक और समय]"। इस संदेश को हटाकर, क्रोध में स्पष्ट वृद्धि गायब हो जाती है (Pury 2011; Back, Küfner, and Egloff 2011)Pury (2011) से अनुकूलित, आंकड़ा 1 बी।

जबकि गंदे डेटा को अनजाने में बनाया गया है- जैसे कि एक शोर पेजर से-एक उचित सावधानीपूर्वक शोधकर्ता द्वारा पता लगाया जा सकता है, कुछ ऑनलाइन सिस्टम भी हैं जो जानबूझकर स्पैमर को आकर्षित करते हैं। ये स्पैमर सक्रिय रूप से नकली डेटा उत्पन्न करते हैं, और अक्सर लाभ-कार्य से प्रेरित होते हैं ताकि उनकी स्पैमिंग छिपी जा सके। उदाहरण के लिए, ट्विटर पर राजनीतिक गतिविधि में कम से कम कुछ उचित परिष्कृत स्पैम शामिल होते हैं, जिससे कुछ राजनीतिक कारण जानबूझकर वास्तव में अधिक लोकप्रिय दिखने के लिए बनाए जाते हैं (Ratkiewicz et al. 2011) । दुर्भाग्य से, इस जानबूझकर स्पैम को हटाने में काफी मुश्किल हो सकती है।

निश्चित रूप से, गंदे डेटा के रूप में क्या माना जाता है, कुछ हद तक, अनुसंधान प्रश्न पर निर्भर करता है। उदाहरण के लिए, विकिपीडिया में कई संपादन स्वचालित बॉट (Geiger 2014) द्वारा बनाए जाते हैं। यदि आप विकिपीडिया की पारिस्थितिकी में रुचि रखते हैं, तो इन बॉट-निर्मित संपादन महत्वपूर्ण हैं। लेकिन यदि आप रुचि रखते हैं कि मनुष्य विकिपीडिया में कैसे योगदान करते हैं, तो बॉट-निर्मित संपादन को बाहर रखा जाना चाहिए।

कोई भी सांख्यिकीय तकनीक या दृष्टिकोण नहीं है जो यह सुनिश्चित कर सके कि आपने अपने गंदे डेटा को पर्याप्त रूप से साफ कर लिया है। अंत में, मुझे लगता है कि गंदे डेटा द्वारा बेवकूफ होने से बचने का सबसे अच्छा तरीका यह समझना है कि आपका डेटा कैसा बनाया गया था।