3.6.1 সমৃদ্ধ জিজ্ঞাসা

সমৃদ্ধ জিজ্ঞাসা মধ্যে, জরিপ তথ্য কিছু গুরুত্বপূর্ণ পরিমাপ রয়েছে, কিন্তু অন্যদের অভাব রয়েছে, যা একটি বড় তথ্য উৎসের কাছাকাছি প্রসঙ্গ তৈরি করে।

জরিপ ডেটা এবং বড় ডেটা উৎসগুলি একত্রিত করার একটি উপায় হচ্ছে একটি প্রক্রিয়া যা আমি সমৃদ্ধ জিজ্ঞাসা করবো সমৃদ্ধ জিজ্ঞাসা, একটি বড় তথ্য উৎসের কিছু গুরুত্বপূর্ণ পরিমাপ রয়েছে কিন্তু অন্যান্য পরিমাপের অভাব রয়েছে তাই গবেষক এই জরিপের পরিমাপ একটি জরিপ সংগ্রহ করে এবং তারপর দুটি তথ্য উত্সগুলি একত্রিত করেন। সমৃদ্ধ জিজ্ঞাসা একটি উদাহরণ Burke and Kraut (2014) দ্বারা গবেষণা Burke and Kraut (2014) ফেসবুক উপর মিথস্ক্রিয়া বন্ধুত্ব শক্তি বৃদ্ধি, কিনা আমি বিভাগ 3.2 এ বর্ণিত) সম্পর্কে। সেই ক্ষেত্রে, বুর্ক এবং ক্রাউট যৌথ জরিপের তথ্য ফেসবুক লগ ডেটার সাথে।

বার্ক এবং কাত্তুত যেসব স্থাপনার কাজ করছিলেন তা অবশ্য বোঝা যায় যে, গবেষকরা দুইটি বড় সমস্যার মোকাবেলা করতে পারছেন না যা গবেষকরা সমৃদ্ধভাবে সাধারণত জিজ্ঞাসা করে। প্রথমত, পৃথক-স্তরের ডেটা সেটগুলি একসাথে সংযুক্ত করা, রেকর্ড লিংক নামক একটি প্রক্রিয়া, যদি ডাটা ডেটা উৎসের মধ্যে কোনও স্বতন্ত্র শনাক্তকারী না থাকে তবে এক ডেটা সেটের সঠিক রেকর্ডটি সঠিক রেকর্ডের সাথে মিলে যায় কিনা তা নিশ্চিত করা কঠিন হতে পারে অন্যান্য ডেটাসেটে সমৃদ্ধ জিজ্ঞাসা সঙ্গে দ্বিতীয় প্রধান সমস্যা হল যে তথ্য দ্বারা তৈরি করা হয়, যার মাধ্যমে প্রক্রিয়াটি মালিকানাধীন হতে পারে এবং অধ্যায়ে বর্ণিত সমস্যা অনেক সন্দেহজনক হতে পারে, কারণ গবেষকদের মূল্যায়ন করতে বড় ডেটা উৎস মানের ঘন ঘন কঠিন হবে 2 অন্য কথায়, সমৃদ্ধ জিজ্ঞাসাগুলি প্রায়ই অজানা মানের ব্ল্যাক-বক্স ডেটা উত্সগুলিতে জরিপের সাথে জড়িত ত্রুটির প্রবণতা অন্তর্ভুক্ত করবে। এই সমস্যা সত্ত্বেও, সমৃদ্ধ জিজ্ঞাসা গুরুত্বপূর্ণ গবেষণায় ব্যবহার করা যেতে পারে, যেমন স্টিফেন Ansolabehere এবং Eitan Hersh (2012) দ্বারা প্রদর্শিত মার্কিন যুক্তরাষ্ট্রে ভোটিং নিদর্শন তাদের গবেষণা।

ভোটকেন্দ্রে রাজনৈতিক বিজ্ঞানের ব্যাপক গবেষণার বিষয় ছিল, এবং অতীতে, জরিপের তথ্য বিশ্লেষণের উপর ভিত্তি করে কেন ভোটের অনুসন্ধান করা হয়েছে এবং কেন তা নিয়ে গবেষণা করা হয়েছে? মার্কিন যুক্তরাষ্ট্রে ভোটদান, তবে, একটি অসাধারণ আচরণ যে সরকার প্রতিটি নাগরিক ভোট দিয়েছে কিনা তা অবশ্যই রেকর্ড (অবশ্যই, সরকার প্রত্যেক নাগরিক ভোটের রেকর্ড করে না)। অনেক বছর ধরে, এই সরকারি ভোটের রেকর্ড কাগজ ফর্মে পাওয়া যায়, যা দেশের বিভিন্ন স্থানীয় সরকারি অফিসগুলিতে ছড়িয়ে পড়ে। এটা খুব কঠিন করে তোলে, কিন্তু অসম্ভব নয়, রাজনৈতিক বিজ্ঞানীদের জন্য ভোটারের একটি সম্পূর্ণ ছবি রয়েছে এবং তাদের প্রকৃত ভোটিং আচরণের (Ansolabehere and Hersh 2012) ভোটের মাধ্যমে জনগণের জরিপে অংশগ্রহণকারীরা তুলনা করে (Ansolabehere and Hersh 2012)

কিন্তু এই ভোটিং রেকর্ড এখন ডিজিটাল করা হয়েছে, এবং বেশ কয়েকটি বেসরকারি কোম্পানি নিয়মিতভাবে সংগৃহীত এবং তাদেরকে ব্যাপক মাস্টার ভোটদান ফাইল তৈরির জন্য মার্জ করে যা সকল আমেরিকানদের ভোটিং আচরণের অন্তর্ভুক্ত। আনোলাবিলির এবং হেরশ এইসব কোম্পানীর একজনের সাথে অংশীদারিত্ব করেছিলেন- ক্যাটালিস্ট এলসিসি-যাতে ভোটারের একটি ভাল ছবি বিকাশের জন্য তাদের মাস্টার ভোটিং ফাইলে ব্যবহার করতে পারেন। উপরন্তু, কারণ তাদের গবেষণা ডিজিটাল রেকর্ড সংগ্রহ এবং একটি তথ্য সংগ্রহ এবং সুসংগতিতে সারগর্ভ সম্পদ বিনিয়োগ করেছে এমন একটি কোম্পানীর উপর নির্ভরশীল, এটি কোম্পানি সাহায্য ছাড়াই হয়েছে এবং এনালগ রেকর্ড ব্যবহার করে পূর্বের প্রচেষ্টার উপর অনেক সুবিধা দেওয়া।

দ্বিতীয় অধ্যায়ে বড় তথ্য উত্সের মতো, ক্যাটালস্ট মাস্টার ফাইলের মধ্যে ডাম্বোলিক, অকপট, এবং আচরণগত তথ্য অন্তর্ভুক্ত হয়নি যা আনসেলবেয়ার এবং হেরশের প্রয়োজন। প্রকৃতপক্ষে, তারা নির্দিষ্ট ভোটিং আচরণের (যেমন, ক্যাটালটিক ডেটাবেসে তথ্য) সহ জরিপের মাধ্যমে রিপোর্ট করা ভোটিং আচরণের তুলনায় বিশেষভাবে আগ্রহী ছিল। সুতরাং Ansolabehere এবং Hersh তারা একটি বড় সামাজিক জরিপ হিসাবে চেয়েছিলেন যে তথ্য সংগৃহীত, CCES, এই অধ্যায়ে পূর্বে উল্লিখিত। তারপর তারা Catalist তাদের তথ্য দিয়েছেন, এবং Catalist তাদের একটি মার্জড তথ্য ফাইল যে বৈধ ভোটার আচরণ (ক্যাটালিস্ট থেকে), স্ব-রিপোর্ট ভোটাধিকার আচরণ (CCES থেকে) এবং উত্তরপ্রদর্শক জনসংখ্যার এবং মনোভাব (CCES থেকে) (চিত্র 3.13)। অন্য কথায়, অ্যানোসিয়েবেল ও হেরশ জরিপের তথ্য সহ ভোটিং রেকর্ড ডেটা সংকলন করে যাতে গবেষণা সম্পন্ন না হয় তবে তথ্য উৎসের সাথে পৃথকভাবে সম্ভব হয় না।

চিত্র 3.13: আনসোলেবেইয়ার এবং হেরশ (২01২) দ্বারা গবেষণার পরিকল্পিত। মাস্টার ডেটাফাইল তৈরি করতে, ক্যাটালিস্ট বিভিন্ন উৎস থেকে তথ্য সংমিশ্রণ করে এবং সমন্বয় করে। মার্জ করার এই প্রক্রিয়া, যে কোনও বিষয়ে সতর্কতা অবলম্বন করা, মূল ডেটার উত্সগুলির ত্রুটিগুলিকে প্রচার করবে এবং নতুন ত্রুটিগুলি পেশ করবে। ত্রুটিগুলির একটি দ্বিতীয় উৎস হল জরিপ তথ্য এবং মাস্টার ডেটাফাইলের মধ্যে রেকর্ড সংযোগ। যদি প্রত্যেক ব্যক্তি একটি স্ট্যাটিক, অনন্য তথ্য সরবরাহকারী উভয় তথ্য উত্স ছিল, তারপর লেনদেন তুচ্ছ হবে। কিন্তু, ক্যাটালিস্টকে এই নামটির নাম, লিঙ্গ, জন্ম বছর এবং বাড়ির ঠিকানাতে অকার্যকর শনাক্তকারী ব্যবহার করে সংযোগ স্থাপন করতে হয়েছিল। দুর্ভাগ্যবশত, অনেক ক্ষেত্রে অসম্পূর্ণ বা ভুল তথ্য থাকতে পারে; হোমার সিম্পসন নামে একটি ভোটার হোমার জেম সিম্পসন, হোমি জে সিম্পসন বা এমনকি হোমার সেপ্পিনের মতো হতে পারে। ক্যাটালস্ট মাস্টার ডেটাফাইলের ত্রুটিগুলির রেকর্ড এবং রেকর্ড লিঙ্কে ত্রুটি থাকলেও, আনসেলবেইয়ার এবং হেরশ তাদের বিভিন্ন ধরনের চেকগুলির মাধ্যমে আস্থা গড়ে তুলতে সমর্থ ছিলেন।

চিত্র 3.13: Ansolabehere and Hersh (2012) দ্বারা গবেষণার Ansolabehere and Hersh (2012) । মাস্টার ডেটাফাইল তৈরি করতে, ক্যাটালিস্ট বিভিন্ন উৎস থেকে তথ্য সংমিশ্রণ করে এবং সমন্বয় করে। মার্জ করার এই প্রক্রিয়া, যে কোনও বিষয়ে সতর্কতা অবলম্বন করা, মূল ডেটার উত্সগুলির ত্রুটিগুলিকে প্রচার করবে এবং নতুন ত্রুটিগুলি পেশ করবে। ত্রুটিগুলির একটি দ্বিতীয় উৎস হল জরিপ তথ্য এবং মাস্টার ডেটাফাইলের মধ্যে রেকর্ড সংযোগ। যদি প্রত্যেক ব্যক্তি একটি স্ট্যাটিক, অনন্য তথ্য সরবরাহকারী উভয় তথ্য উত্স ছিল, তারপর লেনদেন তুচ্ছ হবে। কিন্তু, ক্যাটালিস্টকে এই নামটির নাম, লিঙ্গ, জন্ম বছর এবং বাড়ির ঠিকানাতে অকার্যকর শনাক্তকারী ব্যবহার করে সংযোগ স্থাপন করতে হয়েছিল। দুর্ভাগ্যবশত, অনেক ক্ষেত্রে অসম্পূর্ণ বা ভুল তথ্য থাকতে পারে; হোমার সিম্পসন নামে একটি ভোটার হোমার জেম সিম্পসন, হোমি জে সিম্পসন বা এমনকি হোমার সেপ্পিনের মতো হতে পারে। ক্যাটালস্ট মাস্টার ডেটাফাইলের ত্রুটিগুলির রেকর্ড এবং রেকর্ড লিঙ্কে ত্রুটি থাকলেও, আনসেলবেইয়ার এবং হেরশ তাদের বিভিন্ন ধরনের চেকগুলির মাধ্যমে আস্থা গড়ে তুলতে সমর্থ ছিলেন।

তাদের সম্মিলিত ডাটা ফাইলের সাথে, এন্ডোলেবিয়ার এবং হেরশ তিনটি গুরুত্বপূর্ণ সিদ্ধান্তে আসেন। প্রথমত, ভোটের উপর অধিকতর প্রতিবেদন করা হয়: নন-ভোটাররা প্রায় অর্ধেক ভোট দিচ্ছে, এবং যদি কাউকে ভোট দেওয়ার কথা বলে, তবে তাদের ভোটের মাত্র 80% সুযোগ রয়েছে। দ্বিতীয়, ওভার-রিপোর্টিং র্যান্ডম নয়: উচ্চ-আয়, সুশিক্ষিত, পার্টিসেনস যারা পাবলিক বিষয়ে জড়িত থাকে তাদের মধ্যে ওভার-রিপোর্টিং বেশি সাধারণ। অন্য কথায়, যেসব লোক ভোট দিতে পারে তাদের বেশিরভাগই ভোট দেওয়ার কথা বলতে পারে। তৃতীয়, এবং অতি সমালোচনামূলকভাবে, অতি-প্রতিবেদন করার পদ্ধতিগত প্রকৃতির কারণে, ভোটার ও অরভোটারদের মধ্যে প্রকৃত পার্থক্যগুলি কেবল জরিপের মাধ্যমে প্রদর্শিত হয়। উদাহরণস্বরূপ, একজন ব্যাচেলর ডিগ্রিধারী যারা ভোটদাতাদের রিপোর্ট করতে পারেন তাদের প্রায় 22 শতাংশ বেশি, তবে প্রকৃতপক্ষে ভোট দেওয়ার সম্ভাবনা মাত্র 10 শতাংশ বেশি। এটি সক্রিয়ভাবে অবাক হওয়ার কিছু নেই যে সম্ভবত ভোটের বর্তমান সম্পদ-ভিত্তিক তত্ত্বগুলি আসলে ভোটের রিপোর্ট করা (যারা অতীতে ব্যবহৃত হয়েছে এমন তথ্য) এর ভবিষ্যদ্বাণীতে অনেক বেশি ভাল। আসলে তাদের ভোটের পূর্বাভাষের তুলনায় তারা বেশি ভোট দিচ্ছেন। এভাবে, Ansolabehere and Hersh (2012) এর অভিজ্ঞতাগত Ansolabehere and Hersh (2012) ভোট দেওয়ার Ansolabehere and Hersh (2012) বোঝার এবং ভবিষ্যদ্বাণী করার জন্য নতুন তত্ত্ব আহ্বান জানায়।

কিন্তু আমরা এই ফলাফল বিশ্বাস করা উচিত কত? মনে রাখবেন, এই ফলাফল অজানা পরিমাণে ত্রুটির সঙ্গে ব্ল্যাক বক্স ডেটাতে ত্রুটির প্রবণ সংযোগের উপর নির্ভর করে। আরো বিশেষভাবে, ফলাফলগুলি দুটি কী পদক্ষেপের উপর প্রভাব ফেলবে: (1) ক্যাটালিস্টের ক্ষমতা অনেক বিশিষ্ট ডাটা উত্সকে একটি নির্ভুল মাস্টার ডাটাফিল তৈরি করতে এবং (2) ক্যাটালিস্টের ক্ষমতা তার মাস্টার ডেটাফলে সার্ভার ডেটার সাথে যুক্ত করতে সক্ষম। এই প্রতিটি ধাপগুলি কঠিন, এবং উভয় ধাপে ত্রুটিগুলি গবেষকদের ভুল সিদ্ধান্তে নেতৃত্ব দিতে পারে যাইহোক, উভয় তথ্য প্রক্রিয়াকরণ এবং লিঙ্ক একটি কোম্পানির হিসাবে Catalist এর অব্যাহত অস্তিত্বের জন্য সমালোচনামূলক, তাই এটি এই সমস্যা সমাধানের ক্ষেত্রে সম্পদ বিনিয়োগ করতে পারেন, প্রায়ই একটি স্কেল যে কোন একাডেমিক গবেষক মেলে করতে পারেন। তাদের কাগজে, এন্ডোলেবিয়ার এবং হেরশ এই দুইটি ধাপের ফলাফল পরীক্ষা করার জন্য বেশ কয়েকটি ধাপের মধ্য দিয়ে যেতে পারেন- যদিও তাদের মধ্যে কিছু মালিকানাধীন রয়েছে এবং এই চেক অন্যান্য গবেষকদের জন্য সহায়ক হতে পারে যা সার্ভার ডেটা ব্ল্যাক বক্সের বৃহত ডেটাকে সংযুক্ত করতে চায়। সূত্র।

সাধারণ পাঠ গবেষক এই অধ্যয়নের থেকে আঁকতে পারেন কি? প্রথমত, জরিপের তথ্য এবং বড় ডেটার উত্সগুলির সঙ্গে সমীক্ষার তথ্য সমৃদ্ধ করার মাধ্যমে বড় তথ্য উত্সগুলি সমৃদ্ধ করার মাধ্যমে প্রচুর পরিমাণে মূল্য রয়েছে (আপনি এভাবেই এই গবেষণাটি দেখতে পারেন)। এই দুটি তথ্য সূত্র মিশ্রন করে, গবেষকরা পৃথকভাবে সঙ্গে অসম্ভব যে কিছু করতে সক্ষম ছিল। দ্বিতীয় সাধারণ পাঠ এই যে, সংক্ষেপিত, বাণিজ্যিক তথ্য উত্স, যেমন ক্যাটালিস্ট থেকে তথ্য যেমন, "স্থল সত্য" বিবেচনা করা উচিত নয়, সেগুলি কিছু ক্ষেত্রে কার্যকর হতে পারে। সংশয়বাদী কখনও কখনও এই সংহত, বাণিজ্যিক তথ্য উত্স পরম সত্যের সাথে তুলনা করে এবং এই তথ্য সূত্র স্বল্প শূন্য যে বাতলান। যাইহোক, এই ক্ষেত্রে, সন্দেহভাজনরা ভুল তুলনা করছেন: গবেষকরা নিখুঁত সত্যের পতন ঘটাতে যে সমস্ত তথ্য ব্যবহার করে পরিবর্তে, অন্যান্য উপলভ্য ডেটা উত্সগুলির (যেমন, স্ব-প্রতিবেদনকৃত ভোটিং আচরণ) সমষ্টিগত, বাণিজ্যিক তথ্য সূত্রগুলি তুলনা করা ভাল, যা অনিয়মিতভাবে ত্রুটিগুলিও রয়েছে। অবশেষে, এ্যান্ডোলেবিয়ার তৃতীয় তৃতীয় পাঠ এবং হেরশের গবেষণায় দেখা যায় যে কিছু পরিস্থিতিতে, গবেষকরা বিপুল বিনিয়োগের সুবিধা উপভোগ করতে পারেন যা অনেকগুলি ব্যক্তিগত কোম্পানি জটিল সামাজিক তথ্য সংকলন সংগ্রহ এবং সুসংগত করার জন্য তৈরি করছে।