2.3.9 মলিন

বিগ তথ্য সূত্র আবর্জনা এবং স্প্যাম সঙ্গে লোড করা যাবে.

কিছু গবেষকরা বিশ্বাস করেন যে বড় তথ্য উত্স, বিশেষ করে অনলাইন উত্সগুলি প্রাচীনতম কারণ তারা স্বয়ংক্রিয়ভাবে সংগৃহীত হয়। বস্তুত, যারা বড় তথ্য উৎসের সাথে কাজ করে তারা জানে যে তারা প্রায়শই নোংরা । অর্থাৎ, তারা ঘন ঘন তথ্য অন্তর্ভুক্ত করে যা গবেষকদের প্রতি আগ্রহের প্রকৃত কার্যকলাপ প্রতিফলিত করে না। বেশিরভাগ সামাজিক বিজ্ঞানী বড় আকারের সোশ্যাল জরিপ ডেটা পরিষ্কার করার প্রক্রিয়ার সাথে ইতিমধ্যেই পরিচিত আছেন, তবে বড় ডাটা উৎসগুলি পরিষ্কার করা আরও কঠিন বলে মনে হচ্ছে। আমি মনে করি এই অসুবিধাটির চূড়ান্ত উৎসটি হল যে এইসব বড় বড় তথ্য উৎসগুলি গবেষণা করার জন্য ব্যবহার করা হয়নি, এবং তাই তারা সংগৃহীত, সংরক্ষণ করা এবং নথিভুক্ত করা হয় না এমন একটি উপায়ে যা ডেটা পরিস্কার করার সুবিধা দেয়।

নোংরা ডিজিটাল ট্রেস ডেটার বিপদগুলি ব্যাক এবং সহকর্মীদের দ্বারা চিত্রিত করা হয় ' (2010) 11 সেপ্টেম্বর, 2001 সালের হামলার জন্য মানসিক প্রতিক্রিয়া সম্পর্কে অধ্যয়ন করা, যা আমি সংক্ষিপ্তভাবে অধ্যায়ের আগে উল্লেখ করেছি। গবেষকরা সাধারণত মাসিক বা এমনকি বছর ধরে প্রাপ্ত পূর্নিত তথ্য ব্যবহার করে দুঃখজনক ঘটনাগুলির প্রতিক্রিয়াটি অধ্যয়ন করে। কিন্তু, পিছনে এবং সহকর্মীরা একটি সর্বদা ডিজিটাল ট্রেস-এর উত্স খুঁজে পেয়েছে- টাইমস্ট্যাম্পড, 85,000 আমেরিকান প্যাজারের স্বয়ংক্রিয়ভাবে রেকর্ড করা বার্তাগুলি-এবং এইগুলি তাদের অনেক বেশি সময়সীমার সময় মানসিক প্রতিক্রিয়া পড়তে সক্ষম করে। তারা (1) বিষণ্ণতা (যেমন, "কান্নাকাটি" এবং "বিষণ্ণ"), (2) উদ্বেগ (1) উদ্বিগ্নতা সম্পর্কিত শব্দের শতকরা শতাংশ দ্বারা প্যাজার বার্তাগুলির মানসিক কন্টেন্ট কোডিং দ্বারা 11 সেপ্টেম্বর একটি মিনিট মিনিটের মানসিক সময়রেখা তৈরি করেছে ( উদাহরণস্বরূপ, "চিন্তিত" এবং "ভয়ঙ্কর"), এবং (3) রাগ (যেমন, "ঘৃণা" এবং "সমালোচনামূলক")। তারা দেখে যে বিষণ্ণতা এবং উদ্বিগ্নতা একটি দৃঢ় প্যাটার্ন ছাড়া সারা দিন ক্রমবর্ধমান, কিন্তু যে দিন দিন রাগ মধ্যে একটি আকর্ষণীয় বৃদ্ধি ছিল। এই গবেষণা সবসময় সর্বদা উপর তথ্য উৎস শক্তি একটি চমৎকার দৃষ্টান্ত বলে মনে হয়: ঐতিহ্যগত তথ্য সূত্র ব্যবহার করা হয়, তাহলে, একটি অপ্রত্যাশিত ইভেন্টের অবিলম্বে প্রতিক্রিয়া যেমন একটি উচ্চ রিসোলিউশনের সময়রেখা প্রাপ্ত করা অসম্ভব হয়েছে।

শুধু এক বছর পর, তবে সিন্থিয়া পুরি (2011) তথ্যগুলি আরও সাবধানে দেখেছিলেন। তিনি আবিষ্কার করেন যে, একাধিক প্যাজার দ্বারা প্রচলিত ক্রন্দিত বার্তাগুলি উৎপন্ন হয়েছিল এবং তারা সবাই একই রকম ছিল। এখানে যারা কল্পনাপ্রসূত ক্রুদ্ধ বার্তা বলেন:

"রিবুট এনটি মেশিনের মধ্যে মন্ত্রিসভা [নাম] [নাম] এ [অবস্থান]: গুরুতর: [তারিখ এবং সময়]"

এই বার্তাগুলিকে রাগ করা হয়েছিল কারণ তারা "CRITICAL" শব্দটি অন্তর্ভুক্ত করেছিল, যা সাধারণত রাগের কথা বলে কিন্তু এই ক্ষেত্রে না। এই একক স্বয়ংক্রিয় প্যাজার দ্বারা উত্পন্ন বার্তাগুলি মুছে ফেলার ফলে সম্পূর্ণভাবে রাগের ক্রমবর্ধমান বর্ধিতকরণ (দিনের ২4)। অন্য কথায়, Back, Küfner, and Egloff (2010) এর প্রধান ফলাফল ছিল এক Back, Küfner, and Egloff (2010) একটি চিত্র। এই উদাহরণটি দেখায়, অপেক্ষাকৃত জটিল এবং নোংরা ডেটাগুলির অপেক্ষাকৃত সহজ বিশ্লেষণে গুরুতর ভুলের সম্ভাবনা রয়েছে।

চিত্র ২4: আমেরিকার আমেরিকার 85,000 পৃষ্ঠার উপর ভিত্তি করে 11 শে সেপ্টেম্বর, 2001 এর উপর রাশির আনুমানিক প্রবণতা (পিঠ, কুফার এবং ইগলফ ২010, ২011; পুরি ২011)। মূলত, পিছনে, ক্যুনার, এবং ইগলফ (২010) সারা দিন ক্রুদ্ধ ক্রমবর্ধমান একটি প্যাটার্ন রিপোর্ট। যাইহোক, বেশিরভাগ দৃশ্যত ক্রুদ্ধ বার্তা একক পৃষ্ঠা দ্বারা উত্পন্ন হয় যা বারবার নিম্নলিখিত বার্তাটি পাঠিয়েছে: রিবুট এনটি মেশিন [নাম] ক্যাবিনেটে [নাম] এ [অবস্থান]: [CRTICALAL]: [তারিখ এবং সময়] এই বার্তা সরানো সঙ্গে, রাগ মধ্যে আপাত বৃদ্ধি অদৃশ্য (Pury 2011; পিঠ, ক্যুনার, এবং Egloff 2011)। Pury থেকে অভিযোজিত (2011), চিত্র 1b

চিত্র ২4: আমেরিকার আমেরিকার 85,000 (Back, Küfner, and Egloff 2010, 2011; Pury 2011) উপর ভিত্তি করে 11 শে সেপ্টেম্বর, 2001 এর উপর (Back, Küfner, and Egloff 2010, 2011; Pury 2011) আনুমানিক প্রবণতা (Back, Küfner, and Egloff 2010, 2011; Pury 2011) । মূলত, Back, Küfner, and Egloff (2010) সারা দিন ক্রুদ্ধ ক্রমবর্ধমান একটি প্যাটার্ন রিপোর্ট। যাইহোক, বেশিরভাগ দৃশ্যত ক্রুদ্ধ বার্তাগুলি একক পৃষ্ঠার দ্বারা উত্পন্ন হয় যা বার বার নিম্নলিখিত বার্তাটি পাঠিয়েছে: "রিবুট এনটি মেশিন [নাম] মন্ত্রিসভা [নাম] এ [অবস্থান] এ: ক্রিটিকাল: [তারিখ এবং সময়]"। এই বার্তা সরানো সঙ্গে, রাগ মধ্যে আপাত বৃদ্ধি অদৃশ্য (Pury 2011; Back, Küfner, and Egloff 2011) । Pury থেকে অভিযোজিত Pury (2011) , চিত্র 1b

যদিও নোংরা ডেটা যে অনিচ্ছাকৃতভাবে তৈরি হয়-যেমন একটি শব্দ প্যাজার থেকে - একটি যুক্তিসঙ্গত সতর্ককারী গবেষক দ্বারা সনাক্ত করা যায়, এমন কিছু অনলাইন সিস্টেম রয়েছে যা ইচ্ছাকৃত স্প্যামারগুলিকে আকর্ষণ করে। এই স্প্যামাররা সক্রিয়ভাবে জাল তথ্য তৈরি করে এবং প্রায়ই মুনাফার কাজ দ্বারা অনুপ্রাণিত হয় তাদের স্প্যামিং গোপন রাখা খুব কঠিন। উদাহরণস্বরূপ, Twitter- এ রাজনৈতিক কার্যকলাপ অন্তত কিছু যুক্তিসঙ্গত পরিপাটিত স্প্যাম অন্তর্ভুক্ত বলে মনে হয়, যার মধ্যে কিছু রাজনৈতিক কারণ ইচ্ছাকৃতভাবে আরো জনপ্রিয় হওয়ার চেয়ে তাদের তুলনায় আরো বেশি জনপ্রিয় (Ratkiewicz et al. 2011) । দুর্ভাগ্যবশত, এই ইচ্ছাকৃত স্প্যাম অপসারণ খুব কঠিন হতে পারে।

অবশ্যই কি বিবেচনা করা হয় নোংরা তথ্য নির্ভর করতে পারে, অংশে, গবেষণা প্রশ্ন। উদাহরণস্বরূপ, উইকিপিডিয়াতে অনেকগুলি সম্পাদনা স্বয়ংক্রিয় বট দ্বারা তৈরি (Geiger 2014) । আপনি উইকিপিডিয়া এর বাস্তুসংস্থান আগ্রহী হলে, তারপর এই বট তৈরি সম্পাদিত গুরুত্বপূর্ণ। কিন্তু যদি আপনি উইকিপিডিয়াতে মানুষকে কীভাবে অবদান রাখতে আগ্রহী হন তবে বট তৈরির সম্পাদনাগুলি বাদ দেওয়া উচিত।

কোনও একক পরিসংখ্যান কৌশল বা পদ্ধতি নেই যা নিশ্চিত করে যে আপনি আপনার নোংরা ডেটাগুলিকে যথেষ্টভাবে পরিষ্কার করেছেন। শেষ পর্যন্ত, আমি মনে করি নোংরা ডেটা দ্বারা বোকা বোকা বানাতে সবচেয়ে ভাল উপায় হল আপনার ডেটা কিভাবে তৈরি করা হয়েছিল সে সম্পর্কে যতটা সম্ভব বুঝতে পারেন।