3.3.1 প্রতিনিধিত্ব

এই অনুবাদ একটি কম্পিউটার দ্বারা তৈরি করা হয়েছে. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.3.1 প্রতিনিধিত্ব

উপস্থাপনা আপনার লক্ষ্য জনসংখ্যা আপনার উত্তরদাতা থেকে সারবস্তু তৈরীর সম্পর্কে.

অর্ডার ত্রুটির ফলে যখন বৃহত্তর জনগোষ্ঠীকে উত্তরদাতা থেকে inferring ঘটতে পারে ধরনের বোঝার জন্য, আসুন লিটারারি ডাইজেস্ট খড় জরিপে যে 1936 মার্কিন প্রেসিডেন্সিয়াল নির্বাচনের ফলাফল ভবিষ্যদ্বাণী করার চেষ্টা করা যাক. যদিও এটা বেশি 75 বছর আগে ছিল, এই ছত্রভঙ্গ এখনও একটি গুরুত্বপূর্ণ পাঠ আজ গবেষকরা শেখান হয়েছে.

লিটারারি ডাইজেস্ট একটি জনপ্রিয় সাধারণ সুদ পত্রিকা, এবং 1920 সালে শুরু তারা প্রেসিডেন্ট নির্বাচন ফলাফল ভবিষ্যদ্বাণী করার খড় নির্বাচনে চলছে. এই ভবিষ্যৎবাণী করতে তারা মানুষ প্রচুর ব্যালট পাঠাতে হবে, এবং তারপর কেবল ব্যালট যে ফিরিয়ে আনা হয়েছিল আপ মিল; লিটারারি ডাইজেস্ট সদম্ভে রিপোর্ট যে ব্যালট তারা গৃহীত হয়েছে তন্ন তন্ন ", পরিমেয় স্থায়ী, কিংবা ব্যাখ্যা." এই পদ্ধতি সঠিকভাবে বিজয়ী পূর্বাভাস 1920, 1924, 1928 এবং 1932. 1936 সালে নির্বাচনের, গ্রেট ডিপ্রেশন তন্মধ্যে লিটারারি ডাইজেস্ট বাইরে ব্যালট 10 মিলিয়ন মানুষ, যাদের নাম প্রাধান্য পায় টেলিফোন ডিরেক্টরি এবং অটোমোবাইল নিবন্ধন রেকর্ড থেকে এসেছিলেন পাঠানো. এখানে কিভাবে তারা তাদের পদ্ধতি বর্ণনা করেন:

"ত্রিশ বছর অভিজ্ঞতার দ্রুতগতি স্পষ্টতা সঙ্গে ডাইজেস্ট এর মসৃণ চলমান মেশিন প্যাচসমূহ হার্ড ঘটনা আন্দাজ কমাতে. . . .এই সপ্তাহে 500 কলম একটি মিলিয়ন ঠিকানাগুলি একটি ত্রৈমাসিক একটি দিনের চেয়ে আরো আউট চিরা. প্রতিটি দিন, একটি মহান উপরে মোটর-ফিতায় সাজান চতুর্থ এভিনিউ উচ্চ রুম, নিউ ইয়র্কের 400 শ্রমিক কুশলতাসহকারে ব্যাপার যথেষ্ট চল্লিশ শহর ব্লক-মধ্যে সুরাহা আচ্ছন্ন [সিক] সুগম প্রিন্ট একটি মিলিয়ন টুকরা স্লাইড. প্রতি ঘন্টায় হজম নিজস্ব পোস্ট অফিস সাবস্টেশন, তিনটি বক ডাকমাসুল মিটারিং মেশিন সিল এবং সাদা oblongs stamped; দক্ষ ডাক কর্মচারীরা তাদের mailsacks স্ফীত মধ্যে ফ্লিপ; দ্রুতগামী ডাইজেস্ট ট্রাক তাদের মেইল ট্রেন প্রকাশ করার sped. . . পরবর্তী সপ্তাহে, এই দশ মিলিয়ন থেকে প্রথম উত্তর, চিহ্নিত ব্যালট অন্তর্মুখী জোয়ার শুরু হবে ট্রিপল পরীক্ষিত, পাঁচ বার ক্রস-ক্লাসিফাইড যাচাই এবং গন্য হবে. যখন গত চিত্রে totted হয়েছে এবং পরীক্ষিত, যদি অতীতের অভিজ্ঞতার একটি নির্ণায়ক হয়, দেশের 1 শতাংশ চল্লিশ মিলিয়ন [ভোটারদের] প্রকৃত জনপ্রিয় ভোট একটি ভগ্নাংশ মধ্যে জানতে হবে. "(22 আগস্ট, 1936)

আকারের ডাইজেস্ট এর fetishization আজ কোন "বিগ ডাটা" গবেষক অবিলম্বে স্বীকৃত. 10 মিলিয়ন ব্যালট বিতরণ, একটি আশ্চর্যজনক 2.4 মিলিয়ন ব্যালট ফিরে-যে ছিল প্রায় 1,000 গুণ আধুনিক রাজনৈতিক নির্বাচনের চেয়ে বড় হয়. এই 2.4 মিলিয়ন উত্তরদাতা থেকে রায় স্পষ্ট ছিল: লিটারারি ডাইজেস্ট ভবিষ্যদ্বাণী করেছিল যে, চ্যালেঞ্জার আলফ ল্যাণ্ডনকে শায়িত্ব ফ্র্যাংকলিন রুজভেল্ট পরাজিত করার জন্য যাচ্ছিলেন. কিন্তু, আসলে, বিপরীত ঘটেছে. রুজভেল্ট একটি ভূমিধসে ল্যাণ্ডনকে পরাজিত. কিভাবে লিটারারি ডাইজেস্ট এত ডাটা সঙ্গে ভুল হয়ে যেতে পারে? আমাদের স্যাম্পলিং আধুনিক বোঝার লিটারারি ডাইজেস্ট এর ত্রুটি স্পষ্ট করে তোলে এবং আমাদের ভবিষ্যতে অনুরূপ ত্রুটি এড়াতে সাহায্য করে.

স্যাম্পলিং সম্পর্কে পরিষ্কারভাবে চিন্তা আমাদের (চিত্র 3.1) মানুষের চারটি ভিন্ন গ্রুপ বিবেচনা করা প্রয়োজন. মানুষ প্রথম দল লক্ষ্য জনসংখ্যা; এই দলের যে গবেষণা আগ্রহের জনসংখ্যার হিসেবে সংজ্ঞায়িত করে. লিটারারি ডাইজেস্ট ক্ষেত্রে লক্ষ্য জনসংখ্যা 1936 প্রেসিডেন্ট নির্বাচনে ভোটারদের ছিল. একটি লক্ষ্য জনসংখ্যা উপর সিদ্ধান্ত নেওয়ার পর, একটি গবেষক পরবর্তী মানুষ যে স্যাম্পলিং জন্য ব্যবহার করা যেতে পারে একটি তালিকা বিকাশ প্রয়োজন. এই তালিকা একটি নমুনা ফ্রেম বলা হয় এবং নমুনা ফ্রেম উপর জনসংখ্যার ফ্রেম জনসংখ্যা বলা হয়. লিটারারি ডাইজেস্ট ক্ষেত্রে ফ্রেম জনসংখ্যা 10 মিলিয়ন মানুষ, যাদের নাম টেলিফোন ডিরেক্টরি এবং অটোমোবাইল নিবন্ধন রেকর্ড থেকে প্রাধান্য পায় এসেছিলেন. মূলত লক্ষ্য জনসংখ্যা এবং ফ্রেম জনসংখ্যা ঠিক একই হবে, কিন্তু বাস্তবে এই প্রায়ই হয় না. লক্ষ্য জনসংখ্যা এবং ফ্রেম জনসংখ্যার মধ্যে পার্থক্য কভারেজ ত্রুটি বলা হয়. কভারেজ ত্রুটি না, নিজে সমস্যার নিশ্চয়তা দেয়. কিন্তু, যদি ফ্রেম জনসংখ্যায় মানুষ মানুষের কাছ থেকে ধারাক্রমে বিভিন্ন না ফ্রেম জনসংখ্যায় সেখানে কভারেজ পক্ষপাত থাকবে. কভারেজ ত্রুটি লিটারারি ডাইজেস্ট পোলের সঙ্গে প্রধান সংক্রান্ত ত্রুটিগুলি প্রথম. তারা ভোটারদের-যে ছিল সম্পর্কে জানতে চেয়েছিলেন তাদের লক্ষ্য জনসংখ্যা-কিন্তু যে ধনী ওভার প্রতিনিধিত্ব তারা টেলিফোন ডিরেক্টরি এবং অটোমোবাইল রেজিষ্ট্রিসমূহ, উত্স থেকে প্রাধান্য পায় একটি নমুনা ফ্রেম নির্মাণ আমেরিকানদের যারা এসব প্রযুক্তির উভয় যে আলফ ল্যাণ্ডনকে (রিকল সমর্থন করার সম্ভাবনা ছিল, যা প্রচলিত আছে আজ, সময়ে এবং যে মার্কিন গ্রেট ডিপ্রেশন তন্মধ্যে ছিল) তুলনামূলকভাবে নতুন.

প্রতিনিধিত্ব ত্রুটি: 3.1 চিত্র.

ফ্রেম জনসংখ্যা সংজ্ঞায়িত করার পর, পরবর্তী ধাপে একটি গবেষক নমুনা জনসংখ্যা নির্বাচন করার জন্য নয়; এসব লোক যে গবেষক সাক্ষাৎকার করার প্রচেষ্টা করা হবে হয়. নমুনা ফ্রেম জনসংখ্যার তুলনায় বিভিন্ন বৈশিষ্ট্য থাকে, তাহলে আমরা স্যাম্পলিং এরর পরিচয় করিয়ে দিতে পারেন. এই ত্রুটির মার্জিন যে সাধারণত অনুমান accompanies মধ্যে সংখ্যায় ত্রুটি ধরনের. লিটারারি ডাইজেস্ট ভরাডুবি ক্ষেত্রে, সেখানে আসলে কোন নমুনা ছিল; তারা ফ্রেম জনসংখ্যা প্রত্যেকের সাথে যোগাযোগ করার চেষ্টা করে. যদিও কোন স্যাম্পলিং ত্রুটি ছিল, সেখানে স্পষ্টত এখনও ত্রুটি ছিল. এই সুস্পষ্ট যে ত্রুটি মার্জিন যে সাধারণত সার্ভে থেকে অনুমান সঙ্গে রিপোর্ট করা হয় সাধারণত misleadingly ছোট হয়; অথচ গোমরাহীর সব সূত্র অন্তর্ভুক্ত করবেন না.

অবশেষে, একটি গবেষক নমুনা জনসংখ্যার মধ্যে সবাই সাক্ষাৎকার করার প্রচেষ্টা. সেই মানুষ যে সফলভাবে সাক্ষাত্কার হয় উত্তরদাতা বলা হয়. আদর্শভাবে, নমুনা জনসংখ্যা এবং উত্তরদাতাদের ঠিক একই হবে, কিন্তু বাস্তবে অ প্রতিক্রিয়া নেই. যে যারা নমুনা নির্বাচিত হয় অংশগ্রহণের অস্বীকার. মানুষ যারা সাড়া যারা সাড়া না থেকে আলাদা থাকে, তাহলে অ প্রতিক্রিয়া পক্ষপাত হতে পারে. অ প্রতিক্রিয়া পক্ষপাত লিটারারি ডাইজেস্ট পোলের সঙ্গে দ্বিতীয় প্রধান সমস্যা ছিল. মানুষ যারা একটি ব্যালট পেয়েছে মাত্র 24% প্রতিক্রিয়া, এবং এটি যে যারা ল্যাণ্ডনকে সমর্থিত আরো সাড়া সম্ভাবনা ছিল নিষ্কাশিত.

শুধু উপস্থাপনা ধারণার পরিচয় করিয়ে দিতে একটি উদাহরণ হচ্ছে বিয়ন্ড লিটারারি ডাইজেস্ট পোলের সতর্ক এলোমেলো স্যাম্পলিং বিপদ সম্পর্কে গবেষক, একটি পঠিতব্য দৃষ্টান্ত. দুর্ভাগ্যবশত, আমি মনে করি যে পাঠ করে অনেক মানুষ এই গল্প থেকে আঁকা ভুল নেই. গল্প সবচেয়ে সাধারণ নৈতিক যে গবেষক (অংশগ্রহণকারীদের নির্বাচন কঠোর সম্ভাব্যতা ভিত্তিক নিয়ম ছাড়া অর্থাৎ, নমুনা) অ সম্ভাব্যতা নমুনা থেকে কিছু শিখতে পারে না. কিন্তু, হিসাবে আমি পরে এই অধ্যায়ে দেখাব, যে না বেশ ঠিক আছে. পরিবর্তে, আমি মনে করি সত্যিই এই গল্প করার জন্য দুই সুনীতি হয়; সুনীতি যে যেমন সত্য আজ যেমন তারা 1936 প্রথম ছিল হয়, haphazardly সংগৃহীত তথ্য বৃহৎ পরিমাণ একটি ভাল অনুমান গ্যারান্টি করা হবে না. দ্বিতীয়ত, গবেষকরা কিভাবে তাদের তথ্য সংগ্রহ করা হয় যখন তারা এটা থেকে অনুমান তৈরি করছেন তার হিসাব করতে হবে. অন্য কথায়, কারণ লিটারারি ডাইজেস্ট পোলের তথ্য সংগ্রহ প্রক্রিয়া ধারাক্রমে কিছু উত্তরদাতা দিকে skewed হয়, গবেষকরা অন্যদের তুলনায় যে ওজন কিছু উত্তরদাতা আরো একটি জটিল প্রাক্কলন প্রক্রিয়া ব্যবহার করতে হবে. এই অধ্যায়ে পরে আমি আপনাকে এক ধরনের তৌল কার্যপ্রণালী-পোস্ট-স্তরবিন্যাস-অ-সম্ভাব্যতা নমুনার সাথে ভাল অনুমান করতে সক্ষম করতে পারেন দেখাব.