2.3.9 गंदा

ठूलो डाटा स्रोतहरु जंक र स्पैम संग लोड गर्न सकिँदैन।

केही शोधकर्ताहरूले विश्वास गर्छन् कि ठूला डेटा स्रोतहरू, विशेषतया अनलाइन स्रोतहरू, पूर्वनिर्धारित हुन्छन् किनभने तिनीहरू स्वचालित रूपमा एकत्रित हुन्छन्। वास्तवमा, जसले धेरै ठूला डेटा स्रोतहरूसँग काम गरेका छन् भनेर जान्दछन् कि उनी प्रायः गन्दा हुन्छन् । त्यो हो, तिनीहरू प्रायः डेटा समावेश गर्दछ जुन शोधकर्ताहरूको रुचिको वास्तविक कार्यहरू प्रतिबिम्बित गर्दैनन्। प्रायः सामाजिक वैज्ञानिकहरूले ठूलो मात्रामा सामाजिक सर्वेक्षण डेटा सफा गर्ने प्रक्रियासँग परिचित छन्, तर ठूला डेटा स्रोतहरू सफा गर्न गाह्रो देखिन्छ। मलाई लाग्छ यो कठिनाईको अन्तिम स्रोत यो हो कि यी ठूला डेटा स्रोतहरू अनुसन्धानको लागि कहिल्यै प्रयोग गर्न को लागी थिएनन्, र त्यसैले तिनीहरू संग्रह, भण्डारण, र डेटा सफाईको सुविधा प्रदान गर्ने तरिकामा दस्तावेज गरिएको छैन।

गंदे डिजिटल ट्रेस डेटा को खतरनाकहरु पिछला र सहयोगिहरु ' (2010) द्वारा 11 सेप्टेम्बर, 2001 को हमलाहरु को भावनात्मक प्रतिक्रिया को अध्ययन द्वारा चित्रित गर्दछ, जुन मैले अध्याय मा पहिले संक्षिप्त उल्लेख गरे। शोधकर्ताहरु सामान्यतया महीना वा साढे वर्षहरु मा एकत्रित पर्यवेक्षक डेटा को उपयोग गरेर दुखद घटनाहरु को प्रतिक्रिया को अध्ययन गर्छन। तर, पछाडि र साथीहरूले डिजिटल निशानहरूको सधैंभरि स्रोत पाए - टाइमस्टैम्प, स्वचालित रूपमा रेकर्ड गरिएको सन्देशहरू 85,000 अमेरिकन प्यानरबाट- र यसले उनीहरूलाई धेरै फाइनल टाइमसेलमा भावनात्मक प्रतिक्रिया अध्ययन गर्न सक्षम बनायो। तिनीहरूले 11 सेप्टेम्बरको एक मिनेट-मिनेटको भावनात्मक समयरेखा सिर्जना गरे जुन पेजर सन्देशहरूको भावनात्मक सामग्री कोडिंग (1) उदासी (जस्तै, "रोइरहेको" र "दु: ख"), (2) चिन्ता ( उदाहरणार्थ, "चिन्तित" र "डरलाग्दो"), र (3) क्रोध (जस्तै, "नफरत" र "महत्त्वपूर्ण")। तिनीहरूले पत्ता लगाए कि उदासी र चिन्ता भरिएको दिन बिना बलियो ढाँचा बिना उचाल्दै, तर त्यो दिनभरि क्रोधमा ठूलो वृद्धि भएको थियो। यो अनुसन्धान सधैं डेटा डेटा स्रोतहरूको शक्तिको अद्भुत दृष्टान्त जस्तो देखिन्छ: यदि पारंपरिक डेटा स्रोतहरू प्रयोग गरिएमा, यो अप्रत्याशित घटनाको तुरुन्त प्रतिक्रियाको यस्तो उच्च-रिजोल्युसन टाइमलाइन प्राप्त गर्न असम्भव थियो।

एक वर्ष पछि, तथ्याङ्क, सिन्थिया परी (2011) ले अझ सावधानीपूर्वक डेटालाई हेरे। उनले पत्ता लगाए कि धेरै गुस्सा सन्देशहरू एकजना पिसाब द्वारा उत्पन्न भएका थिए र तिनीहरू सबै समान थिए। यहाँका अनुचित क्रोधित सन्देशहरूले के भन्छ:

"पुन: बुट NT मिसिन कैबिनेट [नाम] मा [नाम] मा [स्थान]: गंभीर [मिति र समय]"

यी सन्देशहरू गुस्सा लगाइएका थिए किनभने तिनीहरू "मौलिक" शब्द समावेश भएका थिए जुन सामान्यतया रिसलाई संकेत गर्दछ तर यो अवस्थामा होइन। यस स्वचालित स्वचालित पृष्ठबाट उत्पन्न गरिएको सन्देशहरू हटाउँदै पूर्णतया दिनको समयमा क्रोधमा स्पष्ट वृद्धि समाप्त (चित्रा 2.4)। अन्य शब्दहरूमा, Back, Küfner, and Egloff (2010) मा मुख्य परिणाम एक पेजरको कलाकृति थियो। यस उदाहरणको रूपमा उदाहरणका लागि, अपेक्षाकृत जटिल र गन्दा डेटाको अपेक्षाकृत सरल विश्लेषणसँग गम्भीर गल्ती गर्ने क्षमता छ।

चित्रा 2.4: सेप्टेम्बर 11, 2001 को अवधिमा 85,000 अमेरिकन प्यानर्स (ब्याक, कफ्नर, एग्लोफ 2010, 2011; 2011 पारी) को आधारमा क्रोधितमा अनुमानित प्रवृत्ति। मूलतः, फिर्ता, कफनर, र इग्लोफ (2010) दिनभरि रिस उठाउने प्रतिवेदन थियो। तथापि, यी स्पष्ट रूपमा गुस्सा सन्देशहरू एकल पङ्क्तिद्वारा उत्पन्न भएको थियो जुन बारम्बार निम्न सन्देश पठाइयो: कैबिनेट [नाम] मा [स्थान] [स्थान] मा: NT मिसिन [नाम] पुनःबुट गर्नुहोस्: क्रिटिकल: [मिति र समय]। यस सन्देशलाई हटाइयो, क्रोधमा स्पष्ट वृद्धि गायब हुन्छ (पुरी 2011; ब्याक, कफ्नर, एग्लोफ 2011)। परी (2011) बाट 1 9।

चित्रा 2.4: सेप्टेम्बर 11, 2001 को अवधिमा 85,000 अमेरिकन प्यानर्स (Back, Küfner, and Egloff 2010, 2011; Pury 2011) आधारमा क्रोधितमा अनुमानित प्रवृत्ति। मूलतः, Back, Küfner, and Egloff (2010) दिनभरि रिस Back, Küfner, and Egloff (2010) प्रतिवेदन थियो। तथापि, यी स्पष्ट रूपमा गुस्सा सन्देशहरू एकल पङ्क्तिद्वारा उत्पन्न भएको थियो जुन बारम्बार निम्न सन्देश पठाइयो: "[स्थान] मा कैबिनेट [नाम] मा एनटी मेशिन [नाम] पुनःबुट गर्नुहोस्: क्रिटिकल: [मिति र समय]"। यस सन्देशलाई हटाइयो, क्रोधमा स्पष्ट वृद्धि गायब हुन्छ (Pury 2011; Back, Küfner, and Egloff 2011)Pury (2011) बाट 1 9।

गहिरो डेटा जुन अनियमित रूपमा सिर्जना गरिएको छ - जस्तै कि एक शोर पेजर बाट पत्ता लगाउन सकिन्छ - एक सावधानीपूर्वक सावधान शोधकर्ता द्वारा पत्ता लगाउन सकिन्छ, त्यहाँ केहि अनलाइन प्रणालीहरू पनि छन् जुन जान्दछ वा स्प्यामरहरू आकर्षित गर्छन्। यी स्प्यामरहरू सक्रिय रूपमा नकली डेटा उत्पन्न गर्छन्, र प्रायः लाभद्वारा उत्प्रेरित हुन्छन् - स्प्यामिंग लुकाउन धेरै कठिन काम गर्छन्। उदाहरणका लागि, चहचहानामा राजनीतिक गतिविधि कम्तिमा केही व्यावहारिक परिष्कृत स्प्याम समावेश भएको देखिन्छ, जसको कारण केही राजनीतिक कारणहरू जान्थे र अधिक लोकप्रिय हेर्नका लागि उनीहरूले वास्तवमा (Ratkiewicz et al. 2011) हुन् भन्दा बढी बनाइएका छन्। दुर्भाग्यवश, यो जानबूझो स्प्याम हटाउन निकै गाह्रो हुन सक्छ।

निस्सन्देह कुन प्रश्न गम्भीर डेटा मानिन्छ, अनुसन्धान प्रश्न मा निर्भर गर्दछ। उदाहरणको लागि, विकिपीडियामा धेरै सम्पादनहरू स्वचालित बिट्स (Geiger 2014) द्वारा सिर्जना गरिन्छ। यदि तपाई विकिपीडियाको पारिस्थितिकीमा रुचि राख्नुहुन्छ भने, यी बट-सिर्जनाहरू सम्पादनहरू महत्त्वपूर्ण छन्। तर यदि तपाईं कसरी विकिपीडियामा योगदान गर्दछ भन्ने चासो राख्नुहुन्छ, त्यसपछि बट-सिर्जना गरिएको सम्पादनहरू हटाउन सकिन्छ।

त्यहाँ कुनै पनि सांख्यिकीय प्रविधि वा दृष्टिकोण छ जुन तपाइँले तपाइँको गंदे डेटा सफा गरी सफा गर्न सक्नु भएको छ। अन्त मा, म गन्दा डेटा को द्वारा मूर्ख देखि बचने को सर्वश्रेष्ठ तरीका हो कि तपाईंको डाटा बनाइयो को बारे मा यथासंभव बुझ जान्छ।