2.3.9 டர்ட்டி

பெரிய தரவு மூலங்கள் குப்பை மற்றும் ஸ்பேம் ஏற்ற முடியும்.

சில ஆராய்ச்சியாளர்கள் பெரிய தரவு ஆதாரங்கள், குறிப்பாக ஆன்லைன் ஆதாரங்கள், அவர்கள் தானாகவே சேகரிக்கப்படுவதால் பிரசித்தி பெற்றவை என்று நம்புகின்றனர். உண்மையில், பெரிய தரவு ஆதாரங்களுடன் பணிபுரிந்தவர்கள் அவர்கள் அடிக்கடி அழுக்காக இருப்பதை அறிவார்கள். அதாவது, ஆராய்ச்சியாளர்களுக்கான ஆர்வத்தின் உண்மையான செயல்களைப் பிரதிபலிக்காத தரவுகளை அவை அடிக்கடி உள்ளடக்குகின்றன. பெரும்பாலான சமூக அறிவியலாளர்கள் ஏற்கனவே பெரிய அளவிலான சமூக கணக்கெடுப்புத் தரவுகளை சுத்தம் செய்வதற்கான செயல்முறைகளை நன்கு அறிந்திருக்கிறார்கள், ஆனால் பெரிய தரவு ஆதாரங்களை தூய்மைப்படுத்துவது கடினமாக உள்ளது. இந்த சிரமத்தின் இறுதி ஆதாரமானது இந்த பெரிய தரவு ஆதாரங்களில் பல ஆராய்ச்சிக்காக பயன்படுத்தப்படவேயில்லை என்பதால், அவை சேகரிக்கப்பட்டு, சேமித்து வைக்கப்படவில்லை, தரவு துப்புரவு வசதிகளை எளிதாக்கும் வகையில் ஆவணப்படுத்தப்பட்டுள்ளன.

செப்டம்பர் 11, 2001 தாக்குதல்களுக்கு உணர்ச்சி ரீதியான பதிலைக் குறித்து பேக் மற்றும் சகோ (2010) ஆய்வு மூலம் அழுக்கான டிஜிட்டல் தரவின் தரவு ஆபத்துகள் விவரிக்கப்பட்டுள்ளன. மாதங்களில் அல்லது வருடங்களில் சேகரிக்கப்பட்ட பின்னோக்குத் தரவுகளைப் பயன்படுத்தி சோக நிகழ்வுகள் குறித்து ஆராய்ச்சியாளர்கள் பொதுவாக ஆய்வு செய்கின்றனர். ஆனால் 85,000 அமெரிக்க பேஜர்களிடமிருந்து டைம்ஸ்டாம்ப்ட், தானாக பதிவு செய்யப்பட்ட செய்திகளை டிஜிட்டல் தடயங்களின் ஆதாரமாகக் கண்டுபிடித்து, மீண்டும் மற்றும் சக ஊழியர்கள் கண்டுபிடித்தனர், மேலும் இது அவர்களுக்கு மிகச் சிறந்த நேரத்தின் மீது உணர்ச்சி ரீதியான பதிலைப் படிக்க உதவியது. (1) சோகம் (எ.கா., "அழுவதை" மற்றும் "துக்கம்"), (2) கவலை (2) கவலைகள் (2) எ.கா., "கவலை" மற்றும் "பயம்"), மற்றும் (3) கோபம் (எ.கா., "வெறுப்பு" மற்றும் "விமர்சன"). சோகம் மற்றும் பதட்டம் ஒரு வலுவான முறை இல்லாமல் நாள் முழுவதும் ஏற்ற இறக்கத்தைக் கண்டது, ஆனால் நாள் முழுவதிலும் கோபத்தில் ஒரு வியத்தகு அதிகரிப்பு இருந்தது. இந்த ஆராய்ச்சி தரவுகளின் ஆதாரங்களில் எப்பொழுதும் சக்தி வாய்ந்த ஒரு அற்புதமான எடுத்துக்காட்டு ஆகும்: பாரம்பரிய தரவு மூலங்கள் பயன்படுத்தப்பட்டிருந்தால், இது எதிர்பாராத நிகழ்விற்கு உடனடி பதிலுக்கான உயர் தீர்மானம் நேரத்தை பெற முடியாததாக இருந்திருக்கும்.

ஒரு வருடம் கழித்து, சிந்தியா ப்யூரி (2011) தரவு மிகவும் கவனமாகப் பார்த்தது. ஏராளமான கூறப்படும் கோபமான செய்திகளை ஒரே பேஜரால் உருவாக்கப்பட்டு, அவர்கள் அனைவரும் ஒத்ததாக இருந்ததைக் கண்டறிந்தார். இங்கே கூறப்படும் கோபமான செய்திகளைக் கூறியது என்னவென்றால்:

"மீண்டும் துவக்கவும் டி இயந்திரம் [பெயர்] அமைச்சரவை [] இல் [இடம்] உள்ள CRITICAL: [தேதி மற்றும் நேரம்]"

இந்த செய்திகளை கோபமாக பெயரிடப்பட்டதால், அவை "கடுமையானவை" என்ற வார்த்தையை உள்ளடக்கியிருந்தன, இது பொதுவாக கோபத்தை குறிக்கும், ஆனால் இந்த விஷயத்தில் இல்லை. இந்த ஒற்றை தானியங்கு பேஜரால் உருவாக்கப்பட்ட செய்திகளை அகற்றுதல், நாள் முழுவதும் கோபத்தின் வெளிப்பாடு அதிகரிக்கிறது (எண்ணிக்கை 2.4). வேறு வார்த்தைகளில் சொன்னால், Back, Küfner, and Egloff (2010) ஆகியவற்றின் முக்கிய முடிவு ஒரு Back, Küfner, and Egloff (2010) கலைப்படைப்பாக இருந்தது. இந்த உதாரணம் விவரிக்கையில், ஒப்பீட்டளவில் சிக்கலான மற்றும் குழப்பமான தரவு ஒப்பீட்டளவில் எளிமையான பகுப்பாய்வு தீவிரமாக தவறான சாத்தியம் உள்ளது.

படம் 2.4: 85,000 அமெரிக்க பேஜர்கள் (Back, Küfner, மற்றும் Egloff 2010, 2011, 2011 Pury 2011) அடிப்படையில் செப்டம்பர் 11, 2001 காலப்பகுதியில் கோபத்தில் மதிப்பிடப்பட்ட போக்குகள். ஆரம்பத்தில், மீண்டும், குஃப்னர், மற்றும் எக்லோஃப் (2010) ஆகியோர் நாள் முழுவதிலும் அதிகரித்துவரும் சீற்றத்தை ஒரு முறை தெரிவித்தனர். இருப்பினும், பெரும்பாலான வெளிப்படையான கோபமான செய்திகளை ஒரே பேஜரால் உருவாக்கினேன், தொடர்ந்து பின்வரும் செய்தியை அனுப்பியுள்ளன: மறுபார்வை என்.டி. இயந்திரம் [இடம்] உள்ள இடத்தில் [இடம்]: இட ஒதுக்கீடு: [தேதி மற்றும் நேரம்]. இந்தச் செய்தியை நீக்கிவிட்டால், கோபத்தின் வெளிப்பாடு அதிகரிக்கிறது (புரி 2011; மீண்டும், குஃப்னர் மற்றும் ஈக்ளோஃப் 2011). ப்யூரிலிருந்து (2011) உருவானது, figure 1b.

படம் 2.4: 85,000 அமெரிக்க பேஜர்கள் (Back, Küfner, and Egloff 2010, 2011; Pury 2011) அடிப்படையில் செப்டம்பர் 11, 2001 காலப்பகுதியில் கோபத்தில் மதிப்பிடப்பட்ட போக்குகள். ஆரம்பத்தில், Back, Küfner, and Egloff (2010) ஆகியோர் நாள் முழுவதிலும் அதிகரித்துவரும் சீற்றத்தை ஒரு முறை தெரிவித்தனர். இருப்பினும், பெரும்பாலான வெளிப்படையான கோபமான செய்திகள் ஒரே பேஜரால் உருவாக்கப்பட்டன, தொடர்ந்து பின்வரும் செய்தியை அனுப்பியுள்ளன: "[இடம்] என்ற இடத்தில் கேபினட் [பெயர்] ஐ மறுபெயரிடுவது: குற்றவியல்: [தேதி மற்றும் நேரம்]". இந்தச் செய்தியை நீக்கிவிட்டால், கோபத்தின் வெளிப்பாடு அதிகரிக்கிறது (Pury 2011; Back, Küfner, and Egloff 2011) . Pury (2011) உருவானது, figure 1b.

வேண்டுமென்றே கவனிக்காத ஆராய்ச்சியாளரால் கண்டுபிடிக்க முடியாத ஒரு சத்தமில்லாத பேஜரில் இருந்து விரும்பாத தீங்கான தரவு உருவாக்கப்பட்டாலும், வேண்டுமென்றே ஸ்பேமர்களை கவர்ந்திழுக்கும் சில ஆன்லைன் அமைப்புகள் உள்ளன. இந்த ஸ்பேமர்கள் துல்லியமான தரவுகளைத் தீவிரமாக உருவாக்கி, தங்கள் ஸ்பேமை மறைத்து வைப்பதற்காக இலாப நோக்கற்ற வேலைகளால் உந்தப்பட்டனர். உதாரணமாக, ட்விட்டரில் அரசியல் நடவடிக்கை குறைந்தபட்சம் சில நியாயமான அதிநவீன ஸ்பேம்களைக் கொண்டிருப்பதாகத் தோன்றுகிறது, இதன்மூலம் சில அரசியல் காரணங்கள் வேண்டுமென்றே மிகவும் பிரபலமானவை என்பதைக் காட்டிலும் மிகவும் பிரபலமானவை. (Ratkiewicz et al. 2011) . துரதிருஷ்டவசமாக, இந்த வேண்டுமென்றே ஸ்பேமை அகற்றுவது மிகவும் கடினம்.

நிச்சயமாக அழுக்கு தரவு கருதப்படுகிறது பகுதியாக, ஆய்வு கேள்வி சார்ந்தது. உதாரணமாக, விக்கிப்பீடியாவில் பல திருத்தங்கள் தானியங்கு போட்களால் உருவாக்கப்பட்டது (Geiger 2014) . நீங்கள் விக்கிபீடியாவின் சுற்றுச்சூழலில் ஆர்வம் கொண்டிருந்தால், இந்த போட்-உருவாக்கிய திருத்தங்கள் முக்கியம். ஆனால் மனிதர்கள் எவ்வாறு விக்கிபீடியாக்கு பங்களிப்பு செய்தாலும், போட்-உருவாக்கிய திருத்தங்கள் விலக்கப்பட வேண்டும்.

ஒற்றை புள்ளிவிவர நுட்பம் அல்லது அணுகுமுறை நீங்கள் உங்கள் அழுக்கு தரவை போதிய அளவு சுத்தம் செய்திருப்பதை உறுதி செய்ய முடியும். இறுதியில், மோசமான தரவு மூலம் முட்டாளாக தவிர்க்க சிறந்த வழி உங்கள் தரவு உருவாக்கப்பட்ட எப்படி பற்றி எவ்வளவு புரிந்து கொள்ள வேண்டும் என்று நினைக்கிறேன்.