2.3.9 डर्टी

बिग डेटा स्रोत जंक आणि स्पॅम लोड केले जाऊ शकते.

काही संशोधकांचा विश्वास आहे की मोठ्या डेटा स्त्रोत, विशेषत: ऑनलाइन स्त्रोत मूळ आहेत, कारण ते आपोआप जमा होतात. खरं तर, जे लोक मोठ्या डेटा स्त्रोतांसह कार्य केले आहेत ते ज्ञात आहेत की ते वारंवार गलिच्छ असतात . म्हणजेच, त्यामध्ये डेटा समाविष्ट असतो ज्या संशोधकांना व्याजांची वास्तविक कृती प्रतिबिंबित करत नाहीत. बहुसंख्य सामाजिक शास्त्रज्ञ मोठ्या प्रमाणात सामाजिक सर्वेक्षणाचे डेटा साफ करण्याच्या प्रक्रियेपासून परिचित आहेत, परंतु मोठ्या डेटा स्रोतांना साफ करणे अधिक कठीण वाटत आहे. मला वाटते की या अडचणचा अंतिम स्त्रोत हे आहे की यापैकी बरेच डेटा स्त्रोतांचा शोध प्रयोगांसाठी वापरण्याचा उद्देश नव्हता, आणि म्हणून त्यास संकलित, संग्रहित केलेले आणि दस्तऐवजीकरण अशा प्रकारे केले जात नाही जे डेटा सफाईस मदत करतात.

गलिच्छ डिजिटल ट्रेस डेटाचे धोके बॅक आणि सहकर्मींनी (2010) सप्टेंबर 11, 2001 च्या हल्ल्यांना भावनात्मक प्रतिसादांचा अभ्यास केला आहे, ज्याचा मी थोडक्यात या प्रकरणात आधी उल्लेख केला आहे. संशोधक विशेषत: महिन्यांपर्यंत किंवा वर्षांनी गोळा केलेला पूर्वगामी डेटा वापरून शोकांतिक प्रसंगांच्या प्रतिसादाचा अभ्यास करतात. पण, मागे आणि सहकर्मींना डिजिटल ट्रेसचे नेहमीचे स्त्रोत आढळले- टाइमस्टेप केलेले, 85,000 अमेरिकन पेजर्सकडून आपोआप रेकॉर्ड केलेले संदेश - आणि हे त्यांना अधिक सुरेख वेळाच्या वेळी भावनिक प्रतिसादांचा अभ्यास करण्यास सक्षम करते. त्यांनी (1) दु: ख (उदा. "रडणे" आणि "दु: ख"), (2) चिंता ("चिंता") यांच्याशी संबंधित शब्दांची टक्केवारित द्वारे पेजर संदेशांची भावनिक सामग्री कोडे करून एक मिनिट-द-मिनिट भावनिक टाइमलाइन तयार केली ( उदा., "काळजी" आणि "भयभीत") आणि (3) क्रोध (उदा., "द्वेष" आणि "गंभीर"). त्यांना असे आढळले की संपूर्ण दिवसांमध्ये उदासीनता आणि चिंता दिवसभर बदलत असतात, परंतु दिवसभर रागाने एकदम वाढ होते. हे संशोधन नेहमीच्या डेटा स्त्रोतांच्या शक्तीचे एक अद्भुत उदाहरण आहे असे दिसते: जर पारंपारिक डेटा स्त्रोत वापरला गेला असेल तर अनपेक्षित प्रसंगी तत्काळ प्रतिसादाची अशी उच्च-रिझोल्यूशन वेळेची अट मिळणे अशक्य आहे.

फक्त एका वर्षानंतर, सिन्थिया प्युरी (2011) ही आकडेवारी अधिक काळजीपूर्वक पाहिली. तिला असे आढळले की क्वचितच एक पेजरद्वारे मोठ्या प्रमाणावर कथित संदेश तयार झाले आणि ते सर्व एकसारखे होते. येथे त्या supposedly रागाच्या संदेश आहेत काय आहे:

"एनटी रीबूट करा मशीन [स्थान] येथे कॅबिनेट [नाव] मध्ये [नाव]: गंभीर: [तारीख आणि वेळ]"

या संदेशांवर राग आले कारण त्यांनी "गंभीर" शब्दाचा समावेश केला आहे जे सहसा राग दर्शवितात परंतु या बाबतीत नाही. या एकमेव स्वयंचलित पेजरद्वारे व्युत्पन्न केलेले संदेश काढून टाकून संपूर्णपणे राग (दिवस 2.4) वरून राग वाढतो. दुसऱ्या शब्दांत, Back, Küfner, and Egloff (2010) मधील मुख्य परिणाम एक Back, Küfner, and Egloff (2010) एक वस्तू होता. हे उदाहरण स्पष्ट करते, तुलनेने जटिल आणि अव्यवहात्मक डेटाचे तुलनेने सोपे विश्लेषणमध्ये गंभीरपणे चुकीच्या गोष्टी करण्याची क्षमता आहे

आकृती 2.4: 9 11 सप्टेंबर 2001 रोजी 85,000 अमेरिकन पेजर्स (बॅक, क्यूपरर, आणि एग्लॉफ 2010, 2011; पेरी 2011) च्या आधारावर गुन्हेगारीचा अंदाजे कल. मूलतः, बॅक, कुफर, आणि एग्लॉफ (2010) संपूर्ण दिवसभर क्रोध वाढविण्याचा एक प्रकार दाखवतात. तथापि, त्यापैकी बहुतांश राक्षसी संदेश एकाच पेजरद्वारे व्युत्पन्न करण्यात आले ज्याने वारंवार खालील संदेश पाठविला: रिबूट एनटी मशीन [नाव] कॅबिनेटमध्ये [नाव] [स्थान] येथे: गंभीर: [तारीख आणि वेळ]. हा संदेश काढून टाकल्यावर, क्रोध मध्ये स्पष्ट वाढ अदृश्य होते (Pury 2011; Back, Küfner, आणि Egloff 2011). परी (2011), आकृती -1 बी

आकृती 2.4: 9 11 सप्टेंबर 2001 रोजी 85,000 अमेरिकन पेजर्स (Back, Küfner, and Egloff 2010, 2011; Pury 2011) च्या आधारावर गुन्हेगारीचा अंदाजे कल. मूलतः, Back, Küfner, and Egloff (2010) संपूर्ण दिवसभर क्रोध वाढविण्याचा एक प्रकार दाखवतात. तथापि, त्यातील बहुतांश राक्षस संदेश एकाच पेजरद्वारे व्युत्पन्न करण्यात आले ज्याने वारंवार खालील संदेश पाठविला: "रिबिूट एनटी मशीन [नाव] कॅबिनेटमध्ये [नाव] [स्थानावर] येथे: गंभीर: [तारीख आणि वेळ]". हा संदेश काढून टाकल्यावर, क्रोध मध्ये स्पष्ट वाढ अदृश्य होते (Pury 2011; Back, Küfner, and Egloff 2011) . Pury (2011) , आकृती -1 बी

गलिच्छ डेटा जे अनावधानाने तयार केले जाते- जसे की एक गोंगाटयुक्त पेजरवरून - शोधपूर्वक शोधकार्यर्याद्वारे शोधले जाऊ शकते, काही ऑनलाईन सिस्टम देखील आहेत जे इव्हेंटल स्पॅमरना आकर्षित करतात हे स्पॅमर सक्रियपणे बनावट डेटा तयार करतात आणि -साधारणपणे त्यांचे स्पॅमिंग लपवून ठेवण्यासाठी नफा-कामाने प्रेरित असतात. उदाहरणार्थ, ट्विटरवरील राजकीय कृतीमध्ये कमीतकमी काही तरी अत्याधुनिक स्पॅम समाविष्ट आहे, ज्यायोगे काही राजकीय कारणे जाणूनबुजून अधिक लोकप्रिय दिसत आहेत जे प्रत्यक्षात आहेत (Ratkiewicz et al. 2011) . दुर्दैवाने, हे जाणून घेणे स्पॅम हटवणे फार कठीण असू शकते.

अर्थातच गलिच्छ डेटा कशास मानले जाऊ शकते याचा विचार केला जाऊ शकतो, थोडक्यात, संशोधन प्रश्नावर. उदाहरणार्थ, विकिपीडियावर बर्याच संपादने स्वयंचलित बॉट्स (Geiger 2014) द्वारा तयार केली आहेत. आपण विकिपीडियाच्या पर्यावरणास मध्ये स्वारस्य असल्यास, नंतर या बॉट-तयार संपादने महत्वाचे आहेत. परंतु आपल्याला विकिपीडियावर मानव कसे योगदान द्यायचे याबद्दल आपल्याला स्वारस्य असेल तर बॉट-निर्मित संपादनांमध्ये वगळण्यात यावा.

आपण आपल्या गलिच्छ डेटास पर्याप्तपणे साफ केल्याची खात्री करू शकणारे एकच एकल सांख्यिकीय तंत्र किंवा दृष्टिकोण नाही अखेरीस, मला असे वाटते की आपला डेटा कसे तयार झाले याबद्दल जितके शक्य असेल तितके समजून घेणे गलिच्छ डेटाने फसवले जाणे टाळण्याचा सर्वोत्तम मार्ग आहे.