2.4.3 approximating পরীক্ষায়

আমরা প্রায় এমন পরীক্ষাগুলি করতে পারি যা আমাদের নেই বা করতে পারে না। দুইটি দৃষ্টিভঙ্গি যা বিশেষ করে বড় তথ্য উত্স থেকে উপকৃত হয় প্রাকৃতিক পরীক্ষা এবং মেলা।

কিছু গুরুত্বপূর্ণ বৈজ্ঞানিক ও নীতির প্রশ্নগুলি কার্যকরী। উদাহরণস্বরূপ, বেতনভিত্তিক একটি পেশা প্রশিক্ষণ প্রোগ্রামের প্রভাব কি? এই প্রশ্নের উত্তর দেওয়ার চেষ্টাকারী একজন গবেষক এমন ব্যক্তিদের উপার্জনের তুলনা করতে পারে, যারা তাদের জন্য প্রশিক্ষণের জন্য সাইন আপ করেন না। কিন্তু এই গ্রুপগুলির মধ্যে যে মজুরির কোন পার্থক্য কতটুকু প্রশিক্ষণ এবং জনসাধারণের মধ্যে পার্থক্যপূর্ণ পার্থক্যগুলির কারণে কতটা সাইন আপ করে এবং যারা না করেন? এটি একটি কঠিন প্রশ্ন, এবং এটা এমন একটি যা স্বয়ংক্রিয়ভাবে আরো ডেটার সাথে যায় না। অন্য কথায়, সম্ভাব্য পূর্ববর্তী পার্থক্যগুলির বিষয়ে উদ্বেগ কোনও বিষয়ই সৃষ্টি করে না যে আপনার ডেটা কত কর্মী।

অনেক পরিস্থিতিতে, কিছু চিকিত্সার কার্যকারিতা প্রভাব অনুধাবন করার সবচেয়ে শক্তিশালী উপায়, যেমন চাকরির প্রশিক্ষণ, একটি র্যান্ডমাইজড নিয়ন্ত্রিত পরীক্ষা চালানো, যেখানে একটি গবেষক অনিয়মিতভাবে কিছু লোকের চিকিত্সা বিতরণ করেন এবং অন্যদের না। আমি সব পরীক্ষা 4 অধ্যায় উত্সাহিত করব, তাই এখানে আমি অ কৌশলগত তথ্য সঙ্গে ব্যবহার করা যেতে পারে যে দুটি কৌশল উপর ফোকাস করতে যাচ্ছি। প্রথম কৌশলটি পৃথিবীতে এমন কিছু ঘটনার উপর নির্ভর করে, যা এলোমেলোভাবে (অথবা প্রায় অদ্ভুতভাবে) কিছু লোকের চিকিত্সা প্রদান করে এবং অন্যদের নয়। দ্বিতীয় কৌশলটি, যারা চিকিত্সা গ্রহণ করে না এবং তাদের মধ্যে পূর্ববর্তী পার্থক্যের জন্য অ্যাকাউন্টের অস্তিত্বের অভাবে অ-পরীক্ষামূলক ডেটা সংশোধন করে তা নির্ভর করে।

একটি সংশয়বাদী দাবি করতে পারে যে এই কৌশলগুলি উভয়ই এড়ানো উচিত কারণ তারা দৃঢ় ধারণাগুলি গ্রহণ করে, মূল্যায়নগুলি কঠিন বলে ধারণা করা হয় এবং অভ্যাসগতভাবে, প্রায়ই লঙ্ঘন করা হয়। যদিও আমি এই দাবিতে সহানুভূতিশীল, আমি মনে করি এটি খুব বেশি দূরে যায় না। এটা অবশ্যই সত্য যে অস্তিত্বহীন তথ্য থেকে নির্ভরযোগ্যভাবে কার্যকরী অনুমান করা কঠিন, কিন্তু আমি মনে করি না যে আমরা কখনো চেষ্টা করব না। বিশেষত, অ-পরীক্ষামূলক উপায়ে সহায়ক হতে পারে যদি লজিস্টিক সীমাবদ্ধতা আপনাকে একটি পরীক্ষা পরিচালনার থেকে বাধা দেয় অথবা যদি নৈতিক সীমাবদ্ধতাগুলি বোঝায় যে আপনি কোনও পরীক্ষা চালাতে চান না অধিকন্তু, অ-পরীক্ষামূলক উপায়ে সহায়ক হতে পারে যদি আপনি একটি র্যান্ডমাইজড নিয়ন্ত্রিত পরীক্ষা তৈরি করার জন্য বিদ্যমান তথ্যগুলির সুবিধা গ্রহণ করতে চান তবে

এগিয়ে যাওয়ার আগে, এটি লক্ষ্য করা যায় যে কার্যকরী অনুমান করা সামাজিক গবেষণার সবচেয়ে জটিল বিষয়গুলির মধ্যে একটি, এবং এমন একটি যা তীব্র এবং মানসিক বিতর্কে পরিণত হতে পারে। এভাবেই কি ঘটবে, তা সম্পর্কে স্বতঃস্ফূর্ততা গড়ে তুলতে প্রতিটি দৃষ্টিভঙ্গির একটি আশাবাদী বর্ণনা প্রদান করব, তারপর সেই পদ্ধতিটি ব্যবহার করার সময় আমি যে কয়েকটি চ্যালেঞ্জ উত্থাপন করব তা বর্ণনা করব। এই অধ্যায়ে শেষে প্রতিটি পদ্ধতি সম্পর্কে আরও বিস্তারিত উপকরণ পাওয়া যায়। যদি আপনি নিজের গবেষণাগুলির মধ্যে এই পদ্ধতিগুলির ব্যবহার করতে চান তবে আমি অত্যন্ত কার্যকরী (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) উপর অনেক চমৎকার বই পড়ার সুপারিশ করছি।

অ পরীক্ষামূলক উপাত্ত থেকে কার্যকরী অনুমান করা একটি পদ্ধতি হল এমন একটি ঘটনা অনুসন্ধান করা যা র্যান্ডমভাবে কিছু লোকের জন্য একটি চিকিত্সা নিয়োগ করে এবং অন্যদের না। এই পরিস্থিতিতে প্রাকৃতিক পরীক্ষা বলা হয়। একটি প্রাকৃতিক পরীক্ষার একটি পরিষ্কার উদাহরণ জোয়ান Angrist গবেষণা থেকে আসে (1990) উপার্জন নেভিগেশন সামরিক সেবা প্রভাব পরিমাপ। ভিয়েতনাম যুদ্ধের সময়, মার্কিন যুক্তরাষ্ট্র একটি খসড়া মাধ্যমে তার সশস্ত্র বাহিনী আকার বৃদ্ধি কোন নাগরিকদের পরিষেবাতে বলা হবে তা নির্ধারণ করার জন্য, মার্কিন সরকার একটি লটারি অনুষ্ঠিত। প্রত্যেক জন্ম তারিখ কাগজপত্রের উপর লেখা হয়েছিল, এবং চিত্র ২.7-এ দেখানো হয়েছে। এই তালিকার এক টুকরো এক সময়ে নির্বাচন করা হয়েছিল যাতে ক্রম অনুসারে যুবককে সেবা করতে বলা হতো। খসড়া)। ফলাফলের উপর ভিত্তি করে, 14 সেপ্টেম্বর জন্ম নেওয়া পুরুষদের প্রথম বলা হয়, 24 এপ্রিল জন্মগ্রহণকারী পুরুষ দ্বিতীয় বলা হয়, এবং তাই। পরিশেষে, এই লটারিটিতে, 195 টি ভিন্ন ভিন্ন জন্মদিনের পুরুষ খসড়া তৈরি করা হয়েছিল, যখন 171 দিন জন্মগ্রহণকারী পুরুষ ছিল না।

চিত্র 2.7: কংগ্রেসম্যান আলেকজান্ডার পিরনি (আর-এনওয়াই) 1 ডিসেম্বর, 1969 তারিখে সিলেক্টিভ সার্ভিস ড্রপটের জন্য প্রথম ক্যাপসুল অঙ্কন করে। জেসু এনগ্রিস্ট (1990) সামরিক নিরাপত্তা সংস্থার প্রভাব অনুধাবন করার জন্য সোশাল সিকিউরিটি অ্যাডমিনিস্ট্রেশন কর্তৃক আয়ের তথ্য দিয়ে খসড়া লটারি মিলিত করে। আয়ের উপর এটি একটি প্রাকৃতিক পরীক্ষা ব্যবহার করে গবেষণা একটি উদাহরণ। উত্স: ইউএস নির্বাচনী সার্ভিস সিস্টেম (1969) / উইকিমিডিয়া কমন্স।

চিত্র 2.7: কংগ্রেসম্যান আলেকজান্ডার পিরনি (আর-এনওয়াই) 1 ডিসেম্বর, 1969 তারিখে সিলেক্টিভ সার্ভিস ড্রপটের জন্য প্রথম ক্যাপসুল অঙ্কন করে। জেসু এনগ্রিস্ট (1990) সামরিক নিরাপত্তা সংস্থার প্রভাব অনুধাবন করার জন্য সোশাল সিকিউরিটি অ্যাডমিনিস্ট্রেশন কর্তৃক আয়ের তথ্য দিয়ে খসড়া লটারি মিলিত করে। আয়ের উপর এটি একটি প্রাকৃতিক পরীক্ষা ব্যবহার করে গবেষণা একটি উদাহরণ। উৎস: মার্কিন নির্বাচনী পরিষেবা সিস্টেম (1969) / উইকিমিডিয়া কমন্স

এটি তাত্ক্ষণিকভাবে নাও হতে পারে, যদিও একটি খসড়া লটারি একটি র্যান্ডমাইজড নিয়ন্ত্রিত পরীক্ষার জন্য সমালোচনামূলক সমলয় রয়েছে: উভয় অবস্থানে, অংশগ্রহণকারীদের র্যান্ডমভাবে একটি চিকিত্সা গ্রহণের জন্য বরাদ্দ করা হয়। এই এলোমেলো চিকিত্সা প্রভাব অধ্যয়ন করার জন্য, Angrist একটি সর্বদা উপর বড় তথ্য সিস্টেম সুবিধা গ্রহণ: মার্কিন সামাজিক নিরাপত্তা প্রশাসন, যা কর্মক্ষেত্রে কার্যত প্রতি আমেরিকান এর উপার্জন সম্পর্কে তথ্য সংগ্রহ করে। সরকারী প্রশাসনিক রেকর্ডে সংগ্রহ করা হয়েছে যে উপার্জন তথ্য সঙ্গে খসড়া লটারি মধ্যে এলোমেলোভাবে নির্বাচিত হয়েছিল সম্পর্কে তথ্য মিশ্রন দ্বারা, Angrist নিখুঁত যে veterans উপার্জন তুলনা 15% তুলনীয় তুলনাহীন অ প্রবীণদের উপার্জন চেয়ে ছিল।

এই উদাহরণটি দেখায় যে, কখনও কখনও সামাজিক, রাজনৈতিক বা প্রাকৃতিক বাহিনী এমন একটি পদ্ধতিতে চিকিত্সা করে যা গবেষকদের দ্বারা লিভারেজ করা যায় এবং কখনও কখনও এই চিকিত্সাগুলির প্রভাব সর্বদা সর্বদা বড় তথ্য উত্সগুলিতে ধরা হয়। এই গবেষণা কৌশলটি নিম্নরূপ সংক্ষিপ্ত করা যেতে পারে: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]

ডিজিটাল যুগে এই কৌশলটি তুলে ধরার জন্য, আলেকজান্ড্রে মাস এবং এনরিকো মোরেটি (2009) দ্বারা একটি গবেষণায় বিবেচনা করা যাক যা একজন কর্মীর উৎপাদনশীলতাতে উত্পাদনশীল সহকর্মীদের সাথে কাজ করার প্রভাব সম্পর্কে ধারণা করার চেষ্টা করে। ফলাফলগুলি দেখে আগে, এটা উল্লেখযোগ্য যে আপনি হয়ত অপ্রত্যাশিত প্রত্যাশাগুলি রয়েছে যা আপনার কাছে থাকতে পারে। একদিকে, আপনি আশা করতে পারেন যে সহকর্মী সহকর্মীদের সাথে কাজ করলে একজন কর্মী তার উৎপাদনশীলতা বৃদ্ধি করবে কারণ পিয়ার চাপের কারণে। অথবা, অন্যদিকে, আপনি আশা করতে পারেন যে কঠোর পরিশ্রমী সহকর্মী থাকা একজন কর্মীকে সতেজ করতে পারে কারণ তার সহকর্মীদের কাজটি যে কোনওভাবেই করা হবে। উত্পাদনের উপর পারের প্রভাবগুলি অধ্যয়ন করার সবচেয়ে পরিষ্কার উপায় একটি র্যান্ডমাইজড নিয়ন্ত্রিত পরীক্ষা হবে যেখানে শ্রমিকরা বিভিন্ন উত্পাদনের মাত্রা শ্রমসাধ্য কর্মীদের সাথে বদলি করা হবে এবং এর ফলে ফলপ্রসূ উত্পাদনের পরিমাপ প্রত্যেকের জন্য করা হবে গবেষকরা, যাইহোক, কোনো বাস্তব ব্যবসার কর্মীদের সময়সূচী নিয়ন্ত্রণ করেন না, এবং তাই মা এবং মোরেটি একটি সুপারমার্কেটে ক্যাশিয়ারদের সাথে জড়িত একটি প্রাকৃতিক পরীক্ষায় নির্ভর করতে হয়।

এই বিশেষ সুপার মার্কেটে, যে সময় নির্ধারণ করা হয়েছিল এবং যেভাবে উল্টাপাল্টা বদল হয়েছিল, প্রতিটি ক্যাশিয়ারের বিভিন্ন সময়ে বিভিন্ন সময় বিভিন্ন সহকর্মী ছিল। উপরন্তু, এই বিশেষ সুপারমার্কেট মধ্যে, ক্যাশিয়ার নিয়োগের তাদের সহকর্মীদের উত্পাদনশীলতার সাথে সম্পর্কিত ছিল না বা দোকান ছিল কিভাবে ব্যস্ত। অন্য কথায়, ক্যাশিয়ারের সময়সূচীটি লটারি দ্বারা নির্ধারিত না হলেও, যেমন শ্রমিকরা উচ্চতর (বা নিম্ন) উত্পাদনশীল সহকর্মীদের সঙ্গে কাজ করার জন্য এলোমেলোভাবে নির্দিষ্টভাবে নির্ধারিত হয়, সৌভাগ্যবশত, এই সুপারমার্কেটের একটি ডিজিটাল বয়স চেকআউট সিস্টেম ছিল যে প্রতিটি ক্যাশিয়ার সব সময় স্ক্যান ছিল যে আইটেম ট্র্যাক। এই চেকআউট লগ ডেটা থেকে, মাস এবং মোরেত্তি একটি সুনির্দিষ্ট, স্বতন্ত্র এবং সর্বদা উত্পাদনশীলতার পরিমাপ তৈরি করতে সক্ষম: প্রতি সেকেন্ডে স্ক্যানকৃত আইটেমের সংখ্যা। এই দুটি বিষয়গুলি - পিয়ার উৎপাদনশীলতার স্বাভাবিকভাবেই ক্রমবর্ধমান বৈচিত্র এবং উৎপাদনশীলতার সর্বদা-পরিমাপ - মাস এবং মোরেটি অনুমান করে যে যদি একজন ক্যাশিয়ারকে সমবয়সী কর্মী নিয়োগ করা হয়, যা গড়ের চেয়ে 10% বেশি উৎপাদনশীল ছিল, তবে তার উত্পাদনশীলতা 1.5% । উপরন্তু, তারা দুটি গুরুত্বপূর্ণ বিষয় সন্ধান করার জন্য তাদের ডেটা এবং আকারের সমৃদ্ধতা ব্যবহার করে: এই প্রভাবের বৈপরীত্য (যার ধরণের কর্মীদের জন্য বড় প্রভাব?) এবং প্রভাবের পিছনে প্রক্রিয়াগুলি (কেন উচ্চ-উত্পাদনের অংশীদাররা এগিয়ে আসে উচ্চতর উত্পাদনশীলতা?)। আমরা এই দুটি গুরুত্বপূর্ণ বিষয়গুলির দিকে ফিরে যাব- চিকিত্সা প্রভাব এবং প্রক্রিয়াগুলির বৈচিত্র্য- অধ্যায় 4-এ যখন আমরা আরো বিস্তারিতভাবে পরীক্ষাগুলি আলোচনা করি।

এই দুটি গবেষণা থেকে সাধারণীকরণ, টেবিল 2.3 অন্যান্য স্টাডিজের সমষ্টি দেয় যা এই একই কাঠামো: কিছু র্যান্ডম বৈচিত্রের প্রভাব পরিমাপ করার জন্য সর্বদা অন-ডেটা উত্স ব্যবহার করে। অনুশীলনে, গবেষকরা প্রাকৃতিক পরীক্ষার জন্য দুটি ভিন্ন কৌশল ব্যবহার করে, যা উভয়ই ফলপ্রসূ হতে পারে। কিছু গবেষক একটি সর্বদা উপর তথ্য উৎস সঙ্গে শুরু এবং বিশ্বের র্যান্ডম ঘটনা সন্ধান; অন্যদের বিশ্বের একটি র্যান্ডম ইভেন্ট শুরু এবং তার প্রভাব ক্যাপচার তথ্য উৎস সন্ধান

সারণি 2.3: বিগ ডাটা সোর্স ব্যবহার করে প্রাকৃতিক পরীক্ষার উদাহরণ
উপকারী ফোকাস প্রাকৃতিক পরীক্ষা উত্স সর্বদা-নেভিগেশন তথ্য উৎস উল্লেখ
উৎপাদনশীলতা উপর প্রভাব ফেলুন প্রভাব নির্ধারণ প্রক্রিয়া চেকআউট ডেটা Mas and Moretti (2009)
বন্ধুত্ব গঠন হারিকেন ফেসবুক Phan and Airoldi (2015)
আবেগ ছড়িয়ে বৃষ্টি ফেসবুক Lorenzo Coviello et al. (2014)
পিয়ার টু পিয়ার অর্থনৈতিক স্থানান্তর ভূমিকম্প মোবাইল অর্থের তথ্য Blumenstock, Fafchamps, and Eagle (2011)
ব্যক্তিগত খরচ আচরণ 2013 মার্কিন সরকার বন্ধ ব্যক্তিগত অর্থসংস্থান তথ্য Baker and Yannelis (2015)
সুপারিশকারী সিস্টেমের অর্থনৈতিক প্রভাব বিভিন্ন আমাজন এ ব্রাউজিং ডেটা Sharma, Hofman, and Watts (2015)
নবজাত শিশুর উপর চাপের প্রভাব 2006 ইসরায়েল-হিজবুল্লাহ যুদ্ধ জন্ম রেকর্ড Torche and Shwed (2015)
উইকিপিডিয়া নেভিগেশন আচরণ পড়া স্নোডেন উদ্ঘাটন উইকিপিডিয়া লগ Penney (2016)
ব্যায়াম নেভিগেশন পিয়ার প্রভাব আবহাওয়া ফিটনেস trackers Aral and Nicolaides (2017)

প্রাকৃতিক গবেষণার জন্য এতদূর আলোচনায় আমি একটি গুরুত্বপূর্ণ বিষয় রেখে চলেছি: আপনি যা চান তা প্রকৃতি থেকে কীভাবে পাওয়া যায় তা থেকে কখনও কখনও বেশ জটিল হতে পারে। ভিয়েতনাম ডটকমের উদাহরণ ফিরে আসুন। এই ক্ষেত্রে, অ্যানগ্রিস্ট আয়ের উপর সামরিক পরিষেবা প্রভাব অনুমান আগ্রহী ছিল। দুর্ভাগ্যবশত, সামরিক সেবা এলোমেলোভাবে বরাদ্দ করা হয়নি; বরং এটা নথিভুক্ত করা হয় যে এলোমেলোভাবে নিযুক্ত ছিল। যাইহোক, যারা খসড়া ছিল না পরিবেশন (যারা বিভিন্ন ছাড় ছিল) না, এবং পরিবেশন করা যারা সবাই খসড়া ছিল (মানুষ পরিবেশন করতে পারে স্বেচ্ছাসেবক)। কারণ খসড়া প্রস্তুত করা হয়েছে এলোমেলোভাবে নির্ধারিত, একটি গবেষক খসড়া মধ্যে সব পুরুষদের জন্য খসড়া হতে প্রভাব অনুমান করতে পারেন। কিন্তু Angrist খসড়া হচ্ছে প্রভাব জানতে চাই না; তিনি সেনাবাহিনীতে সেবা করার প্রভাব জানতে চেয়েছিলেন। এই অনুমান করতে, তবে অতিরিক্ত অনুমান এবং জটিলতাগুলি প্রয়োজন। প্রথমত, গবেষকরা মনে করতে পারেন যে, একমাত্র উপায় হচ্ছে যে অঙ্কিত মুদ্রা অর্জন করা হচ্ছে সেটি হচ্ছে সামরিক পরিষেবা, একটি ধারণা যা বর্জনের সীমাবদ্ধতা বলে । উদাহরণস্বরূপ, এই ধারণাটি ভুল হতে পারে, উদাহরণস্বরূপ, যারা খসড়া তৈরি করা হয়েছিল তাদের পরিচর্যা এড়ানোর জন্য স্কুলতে বেশি সময় লেগেছিল অথবা যদি নিয়োগকারীরা ড্রাফ্ট করা হয়েছে এমন পুরুষদেরকে ভাড়া করার সম্ভাবনা কম থাকে। সাধারণভাবে, বহিঃসংযোগ সীমাবদ্ধতা একটি গুরুত্বপূর্ণ ধারণা, এবং এটি যাচাই করা সাধারণত কঠিন। এমনকি বহিষ্কারের সীমাবদ্ধতাটি যদি সঠিক হয়, তবে এটি সর্বজন পুরুষের কর্মের প্রভাব অনুমান করতে এখনও অসম্ভব। পরিবর্তে, এটি সক্রিয় হয় যে গবেষকরা শুধুমাত্র পুরুষদের একটি নির্দিষ্ট উপসাগর উপর প্রভাব অনুমান করা যেতে পারে বলা হয় (পুরুষদের যারা খসড়া যখন পরিবেশন করা হবে, কিন্তু খসড়া না যখন পরিবেশন করা হবে) (Angrist, Imbens, and Rubin 1996) । অভিযোগকারীরা অবশ্য আগ্রহের মূল জনসংখ্যা নয়। লক্ষ্য করুন এই খসড়া লটারীর অপেক্ষাকৃত পরিষ্কার ক্ষেত্রে এমনকি এই সমস্যার সৃষ্টি হয়। একটি শারীরিক লটারি দ্বারা নির্ধারিত হয় না যখন জটিলতা আরও একটি সেট জন্মায়। উদাহরণস্বরূপ, Mas এবং Moretti এর ক্যাশিয়ারের গবেষণায়, অতিরিক্ত প্রশ্নগুলি এই ধারণার ওপর দাঁড়িয়েছে যে সহকর্মীদের নিয়োগ মূলত র্যান্ডম। এই ধারনা দৃঢ়ভাবে লঙ্ঘিত হলে, এটি তাদের অনুমান পক্ষপাতী পারে উপসংহারে, প্রাকৃতিক পরীক্ষাগুলি অ পরীক্ষামূলক উপাত্ত থেকে কার্যকরী অনুমানের জন্য একটি শক্তিশালী কৌশল হতে পারে, এবং যখন বড় হয় তখন প্রাকৃতিক তথ্যগুলিতে বড় বড় উৎসগুলি উতপাদন করার ক্ষমতা আমাদের বৃদ্ধি করে। যাইহোক, এটি সম্ভবত মহান যত্ন প্রয়োজন হবে- এবং কখনও কখনও শক্তিশালী অনুমান - আপনি কি চান অনুমান যে প্রকৃতি প্রদান করেনি থেকে যেতে।

দ্বিতীয় কৌশল যা আপনাকে অ-পরীক্ষামূলক ডেটা থেকে কার্যকরী অনুমানের জন্য বলার জন্য বলতে চাই, যেগুলি চিকিত্সা গ্রহণ করে না এবং তাদের মধ্যে পার্থক্যপূর্ণ পার্থক্যগুলির জন্য অ্যাকাউন্টের প্রচলিত অ-পরীক্ষামূলক তথ্যগুলির পরিসংখ্যানগতভাবে সমন্বয় করে। যেমন অনেক সমন্বয় পন্থা আছে, কিন্তু আমি এক বলা মেলানো উপর ফোকাস করব মিলনে, গবেষক অ-পরীক্ষামূলক ডেটার মাধ্যমে দেখেন যেগুলি এমন এক জোড়া তৈরির জন্য তৈরি করা হয় যেগুলি একই রকমের হয় এবং সেটি ছাড়াও চিকিত্সা গ্রহণ করা হয় এবং অন্য কোনোটি নয়। মিলের প্রক্রিয়াতে, গবেষকরা আসলেই ছাপানো হয় ; যে, কোন স্পষ্ট ম্যাচ আছে যেখানে মামলা বাতিল। সুতরাং, এই পদ্ধতি আরো সঠিকভাবে মিলিত এবং- pruning বলা হবে, কিন্তু আমি ঐতিহ্যগত শব্দ সঙ্গে লাঠি করব: মিলিত।

বৃহত্তর অ-পরীক্ষামূলক তথ্য উত্সগুলির সাথে মিলিত কৌশলগুলির একটি উদাহরণ লিরেন ইনাভ এবং সহকর্মীদের (2015) গ্রাহক আচরণের উপর গবেষণা থেকে আসে। তারা ইবেতে সঞ্চালিত নিলামে আগ্রহী ছিল, এবং তাদের কাজ বর্ণনা করার সময়, নিলামের ফলাফলের দাম নিলামের প্রভাব, যেমন বিক্রয় মূল্য বা বিক্রয়ের সম্ভাব্যতা ইত্যাদির উপর আমি মনোনিবেশ করবো।

বিক্রিত মূল্যের মূল্যের দামের প্রভাব অনুমান করার সবচেয়ে সহজ উপায় কেবলমাত্র ভিন্ন দামের সঙ্গে নিলামের জন্য চূড়ান্ত মূল্য হিসাব করতে হবে। এই প্রবণতাটি জরিমানা হবে যদি আপনি শুরুমূল মূল্যের বিক্রয়মূল্যের ভবিষ্যদ্বাণী করতে চান। কিন্তু যদি আপনার প্রশ্ন শুরু মূল্যের প্রভাবকে প্রভাবিত করে, তাহলে এই পদ্ধতিটি কাজ করবে না কারণ এটি যথাযথ তুলনার উপর নির্ভর করে না; নিম্ন দামের সঙ্গে নিলামগুলি উচ্চতর দামের (যেমন, তারা বিভিন্ন ধরণের পণ্য হতে পারে বা বিভিন্ন ধরণের বিক্রেতাদের অন্তর্ভুক্ত হতে পারে) থেকে তাদের কাছ থেকে ভিন্ন হতে পারে।

যদি আপনি ইতিমধ্যে অ-পরীক্ষামূলক ডেটা থেকে কার্যকরী অনুমান তৈরি করার সময় উৎপন্ন সমস্যাগুলি সম্পর্কে সচেতন হন, তাহলে আপনি সহজ পদ্ধতিটি এড়িয়ে যেতে পারেন এবং একটি ক্ষেত্রের পরীক্ষা চালানোর কথা বিবেচনা করুন যেখানে আপনি একটি নির্দিষ্ট আইটেম বিক্রি করবেন- একটি গলফ ক্লাব-যা নির্দিষ্ট নিলামের প্যারামিটারগুলি সেট - বলুন, ফ্রি শিপিং ও নিলাম দুই সপ্তাহের জন্য উন্মুক্ত - কিন্তু এলোমেলোভাবে নির্ধারিত দামের সাথে। ফলস্বরূপ বাজারের ফলাফলগুলির তুলনা করে, এই ক্ষেত্রের পরীক্ষা বিক্রয় মূল্যের দামের দামের প্রভাবের খুব স্পষ্ট পরিমাপ দেবে। কিন্তু এই পরিমাপ শুধুমাত্র একটি বিশেষ পণ্য এবং নিলাম পরামিতি সেট করতে প্রযোজ্য হবে। ফলাফলগুলি ভিন্ন হতে পারে, উদাহরণস্বরূপ, বিভিন্ন ধরণের পণ্যগুলির জন্য একটি শক্তিশালী তত্ত্ব ছাড়া, এই একক পরীক্ষা থেকে চালানো সম্ভব সম্ভাব্য সম্ভাব্য পূর্ণ পরিসরে এক্সপ্রোল্লাই করা কঠিন। উপরন্তু, ক্ষেত্রের পরীক্ষা যথেষ্ট ব্যয়বহুল যে আপনি চেষ্টা করতে চান হতে পারে যে প্রতিটি প্রকরণ চালানো অসম্ভব হবে।

সহজ এবং পরীক্ষামূলক পন্থাগুলির বিপরীতে, ইনাভ এবং সহকর্মীরা একটি তৃতীয় পদ্ধতি গ্রহণ করেছেন: মেলানো তাদের কৌশল প্রধান কৌশল ইবরাহে ইতিমধ্যে ঘটেছে যে ক্ষেত্রের পরীক্ষা অনুরূপ জিনিষ আবিষ্কার করতে হয়। উদাহরণস্বরূপ, 2.8 চিত্রটি ঠিক একই গল্ফ ক্লাবের জন্য তালিকাভুক্ত 31 টি দেখায়- একটি টেলেমমেড বার্নার 09 ড্রাইভারটি একই বিক্রেতার দ্বারা বিক্রি হচ্ছে- "বাজেটগোলার।" তবে, এই 31 তালিকাগুলিতে সামান্য ভিন্ন বৈশিষ্ট্য রয়েছে, যেমন বিভিন্ন শুরু মূল্য, শেষ তারিখ, এবং শিপিং ফি। অন্য কথায়, এটি "বাজেটগোলার" গবেষকদের গবেষণার জন্য চলছে।

"বাজেটগোলার" দ্বারা বিক্রি করা টেলেমমেড বার্নার 09 ড্রাইভারের এই তালিকাগুলি তালিকাগুলির একটি মিলিত সেটের একটি উদাহরণ, যেখানে একই একই আইটেমটি একই বিক্রেতার দ্বারা বিক্রি করা হয়, তবে প্রতিটি সময় সামান্য ভিন্ন বৈশিষ্ট্যগুলির সাথে। ইবে এর ব্যাপক লগগুলি আক্ষরিক লক্ষ লক্ষ মিলিয়ন মিলিয়ন মিলিয়ন মিলিয়ন মিলিয়ন মিলিয়ন মিলিয়ন মিলিয়ন ডলার সুতরাং, একটি প্রদত্ত মূল্যের সমস্ত নিলামের জন্য চূড়ান্ত মূল্য তুলনা করার পরিবর্তে, ইনাভ এবং সহকর্মীরা মিলিত সেটগুলির মধ্যে তুলনা করে। মিলিয়ন মিলিয়ন মিলিয়ন মিলিয়ন মিলিয়ন মিলিয়ন মিলিয়ন মিলিয়ন মিলিয়ন মিলিয়ন মিলিয়ন মিলিয়ন মিলিয়ন মিলিয়ন মিলিয়ন ডলার উদাহরণস্বরূপ, যদি টেলেমমেড বার্নার 09 ড্রাইভারটির রেফারেন্স মান $ 100 (তার বিক্রয়ের উপর ভিত্তি করে) থাকে, তাহলে $ 10 এর দামের মূল্য 0.1 হিসাবে প্রকাশ করা হবে এবং 120 ডলারের একটি চূড়ান্ত মূল্য 1.2 ​​হিসাবে প্রকাশ করা হবে।

চিত্র 2.8: একটি মিলিত সেটের একটি উদাহরণ। এটি একই একই গল্ফ ক্লাব (একটি টায়লর্মড বার্নার 09 ড্রাইভার) একই একই ব্যক্তি (বাজেটগোলার) দ্বারা বিক্রি হচ্ছে, তবে এই বিক্রয়গুলির কয়েকটি বিভিন্ন শর্ত (যেমন, বিভিন্ন দামের দাম) অনুযায়ী সঞ্চালিত হয়েছে। ইনাভ এট থেকে অনুমতি দ্বারা পুনঃপ্রতিষ্ঠিত (2015), চিত্র 1b

চিত্র 2.8: একটি মিলিত সেটের একটি উদাহরণ। এই একই একই গল্ফ ক্লাব (একটি টায়লর্মড বার্নার 09 ড্রাইভার) একই একই ব্যক্তি ("বাজেটগোলার") দ্বারা বিক্রি হয়, তবে এই বিক্রয়গুলির কয়েকটি বিভিন্ন শর্তের অধীনে সম্পাদিত হয় (যেমন, বিভিন্ন দামের দাম)। Einav et al. (2015) থেকে অনুমতি দ্বারা Einav et al. (2015) , চিত্র 1b

প্রত্যাহার যে Einav এবং সহকর্মী নিলাম ফলাফলের শুরু দাম প্রভাব আগ্রহী ছিল। প্রথমত, তারা লিনিয়ার রিগ্রেশন ব্যবহার করে হিসাব করে যে উচ্চতর মূল্যের মূল্য বিক্রয়ের সম্ভাবনা হ্রাস করে এবং উচ্চতর দামের দাম চূড়ান্ত বিক্রয়মূল্য বৃদ্ধি করে (বিক্রয়ের ক্ষেত্রে শর্তসাপেক্ষ)। নিজেদের দ্বারা, এই অনুমান - যা একটি রৈখিক সম্পর্ক বর্ণনা করে এবং সমস্ত পণ্য উপর গড় হয়-সব যে আকর্ষণীয় নয় তারপর, ইনাভ এবং সহকর্মীরা বিভিন্ন উপাদানের বিভিন্ন উপায়ে তাদের ডেটাগুলির ব্যাপক আকার ব্যবহার করে। উদাহরণস্বরূপ, বিভিন্ন দামের দামের জন্য আলাদা আলাদাভাবে প্রভাব অনুধাবন করে, তারা দেখে যে মূল্য এবং বিক্রয় মূল্যের মধ্যে সম্পর্ক অরৈখিক (চিত্র 2.9)। বিশেষত, 0.05 এবং 0.85 এর মধ্যে দাম শুরু করার জন্য, বিক্রয় মূল্যের মূল্যের উপর খুব কম প্রভাব পড়ে, একটি অনুসন্ধান যা তাদের প্রথম বিশ্লেষণ দ্বারা সম্পূর্ণভাবে মিস করা হয়। অধিকন্তু, সকল আইটেমের তুলনায়, ইনাভ এবং সহকর্মীরা 23 টি বিভিন্ন শ্রেণীর (যেমন, পোষা প্রাণী সরবরাহ, ইলেকট্রনিক্স এবং ক্রীড়া স্মারক) (চিত্র 2.10) জন্য দামের দামের প্রভাব অনুমান করে। এই অনুমানগুলি দেখায় যে আরো স্বাতন্ত্র্যসূচক আইটেমগুলির জন্য- যেমন স্মারকবিহীনতা-শুরুমূলের মূল্য বিক্রয়ের সম্ভাব্যতার উপর ছোট প্রভাব ফেলে এবং চূড়ান্ত বিক্রির মূল্যের উপর বড় প্রভাব রয়েছে। অধিকতর, আরও সংশোধিত আইটেমের জন্য-যেমন ডিভিডি -সম্প্রতিমূল্যের চূড়ান্ত মূল্যের প্রায় কোন প্রভাব নেই। অন্য কথায়, ২3 টি বিভিন্ন শ্রেণির বস্তু থেকে প্রাপ্ত ফলাফলগুলি এই আইটেমগুলির মধ্যে গুরুত্বপূর্ণ পার্থক্য লুকিয়ে রাখে।

চিত্র 2.9: নিলাম শুরু মূল্য এবং একটি বিক্রয় (একটি) এবং বিক্রয় মূল্যের সম্ভাবনা সঙ্গে সম্পর্ক (খ)। বিক্রয় মূল্য এবং সম্ভাব্যতা মধ্যে প্রায় একটি রৈখিক সম্পর্ক আছে, কিন্তু দাম এবং বিক্রয় মূল্যের মধ্যে একটি nonlinear সম্পর্ক; 0.05 এবং 0.85 এর মধ্যে দাম শুরু করার জন্য, দামের দাম বিক্রয় মূল্যের উপর খুব কম প্রভাব ফেলে। উভয় ক্ষেত্রেই, সম্পর্ক বস্তুর মান থেকে মূলত স্বাধীন। ইনাভ এট থেকে অভিযোজিত (2015), পরিসংখ্যান 4a এবং 4b

চিত্র 2.9: নিলাম শুরু মূল্য এবং একটি বিক্রয় (একটি) এবং বিক্রয় মূল্যের সম্ভাবনা সঙ্গে সম্পর্ক (খ)। বিক্রয় মূল্য এবং সম্ভাব্যতা মধ্যে প্রায় একটি রৈখিক সম্পর্ক আছে, কিন্তু দাম এবং বিক্রয় মূল্যের মধ্যে একটি nonlinear সম্পর্ক; 0.05 এবং 0.85 এর মধ্যে দাম শুরু করার জন্য, দামের দাম বিক্রয় মূল্যের উপর খুব কম প্রভাব ফেলে। উভয় ক্ষেত্রেই, সম্পর্ক বস্তুর মান থেকে মূলত স্বাধীন। Einav et al. (2015) থেকে অভিযোজিত Einav et al. (2015) , পরিসংখ্যান 4a এবং 4b

চিত্র 2.10: আইটেম প্রতিটি বিভাগ থেকে অনুমান; কঠিন বিন্দু একসঙ্গে পুল্ড সমস্ত বিভাগের জন্য অনুমান (Einav এট আল 2015)। এই হিসেবগুলি দেখায় যে আরও সুনির্দিষ্ট আইটেমের জন্য- যেমন স্মারকবিজ্ঞান - শুরুমূলের মূল্য বিক্রয় (এক্স-অক্ষ) এবং চূড়ান্ত বিক্রির মূল্য (y- অক্ষ) এর উপর বড় প্রভাবের একটি ছোট প্রভাব রয়েছে। ইনাভ এট থেকে অভিযোজিত (2015), চিত্র 8

চিত্র 2.10: আইটেম প্রতিটি বিভাগ থেকে অনুমান; কঠিন বিন্দু একসঙ্গে পুল্ড সমস্ত বিভাগের জন্য অনুমান (Einav et al. 2015) । এই অনুমানগুলি দেখায় যে আরও বিশিষ্ট আইটেমের জন্য - যেমন স্মারকবিজ্ঞান - শুরুমূলের বিক্রয় ( \(x\) -Xis) এর সম্ভাব্যতার উপর একটি ছোট প্রভাব রয়েছে এবং চূড়ান্ত বিক্রয় মূল্য ( \(y\) -axis)। Einav et al. (2015) থেকে অভিযোজিত Einav et al. (2015) , চিত্র 8

এমনকি যদি আপনি ইবেতে নিলামে আগ্রহী নন, তবে আপনাকে সেই চিত্র 2.9 এবং ২.8 নম্বরের পথের প্রশংসা করতে হবে। সহজ অনুমানের তুলনায় ই-বেরের একটি সমৃদ্ধ বোঝার প্রস্তাব করে যা একটি রৈখিক সম্পর্ককে বর্ণনা করে এবং অনেকগুলি বিভিন্ন বিভাগের একত্রিত করে। উপরন্তু, ক্ষেত্র গবেষণার সাথে এই আরও সূক্ষ্ম অনুমান উৎপন্ন করা বিজ্ঞানীগতভাবে সম্ভব হলেও, এই খরচগুলি মূলত অসম্ভব যেমন পরীক্ষা করা হবে।

প্রাকৃতিক গবেষণার সাথে সাথে, এমন কয়েকটি উপায় রয়েছে যা মিলিয়ে খারাপ অনুমান হতে পারে। আমি মনে করি মিলে যাওয়া অনুমানের সাথে সবচেয়ে বড় উদ্বেগ হল যে তারা এমন জিনিসগুলির দ্বারা পক্ষপাতদুষ্ট হতে পারে যেগুলি মেলানোতে ব্যবহার করা হয়নি। উদাহরণস্বরূপ, তাদের প্রধান ফলাফলগুলিতে, Einav এবং সহকর্মীরা চারটি বৈশিষ্ট্যের উপর সঠিক পরিমাপ করেছেন: বিক্রেতা আইডি নম্বর, আইটেম বিভাগ, আইটেম শিরোনাম এবং সাবটাইটেল। যদি আইটেমগুলি বিভিন্ন ভাবে ব্যবহার করা হয় না তবে এটি একটি অসাধারন তুলনা তৈরি করতে পারে উদাহরণস্বরূপ, যদি "বাজেটগোলার" শীতকালীন টেলেমমেড বার্নার 09 ড্রাইভারের মূল্য হ্রাস করে (যখন গল্ফ ক্লাবগুলি কম জনপ্রিয় হয়), তখন এটি দেখাতে পারে যে কম দামের দামগুলি চূড়ান্ত দাম কমিয়ে আনতে পারে, যখন আসলে এটি একটি হস্তনির্মিত বস্তু হবে চাহিদা মধ্যে ঋতু বৈচিত্র। এই উদ্বেগ মোকাবেলার একটি পদ্ধতি বিভিন্ন ধরনের মেলানোর জন্য চেষ্টা করছে উদাহরণস্বরূপ, ইনাভ এবং সহকর্মীরা তাদের বিশ্লেষণটি পুনরাবৃত্তি করে যখন মেলানোর জন্য ব্যবহার করা সময় উইন্ডোটি পরিবর্তন করে (মিলিত সেটগুলি এক বছরের মধ্যে, এক মাসের মধ্যে, এবং সমকালীনভাবে বিক্রয়ের ক্ষেত্রে অন্তর্ভুক্ত)। সৌভাগ্যবশত, তারা সব সময় জানালা জন্য একই ফলাফল পাওয়া। মেলা সঙ্গে একটি আরও উদ্বেগ ব্যাখ্যা থেকে উদ্ভূত। মিলিত থেকে অনুমান শুধুমাত্র মিলিত ডেটাতে প্রয়োগ; তারা মিলিত হতে পারে না যে ক্ষেত্রে ক্ষেত্রে প্রযোজ্য নয় উদাহরণস্বরূপ, একাধিক তালিকাভুক্ত আইটেমের জন্য তাদের গবেষণা সীমিত করে, Einav এবং সহকর্মীরা পেশাদার এবং আধা-পেশাদার বিক্রেতাদের উপর মনোযোগ নিবদ্ধ করা হয়। সুতরাং, এই তুলনা ব্যাখ্যা যখন আমরা মনে রাখতে হবে যে তারা শুধুমাত্র ইবে এই উপসেট প্রযোজ্য।

অ-পরীক্ষামূলক ডেটাতে নিখুঁত তুলনা সন্ধানের জন্য একটি শক্তিশালী কৌশল। অনেক সামাজিক বিজ্ঞানীকে, মেলামেশা পরীক্ষায় দ্বিতীয় সেরা বলে মনে হয়, কিন্তু এটি এমন একটি বিশ্বাস যা সংশোধিত হতে পারে, সামান্য। ব্যাপক ডেটাতে মেলিংয়ের ক্ষেত্রে কয়েকটি ক্ষেত্রের পরীক্ষার তুলনায় ভাল হতে পারে, যখন (1) প্রভাবগুলির মধ্যে বৈপরীত্য গুরুত্বপূর্ণ এবং (2) মেলানোর জন্য প্রয়োজনীয় গুরুত্বপূর্ণ ভেরিয়েবলগুলি পরিমাপ করা হয়েছে। টেবিল ২4 কিছু অন্যান্য উদাহরণ প্রদান করে যে কিভাবে বড় ডেটা উত্সগুলির সঙ্গে মিলিত হতে পারে।

সারণি 2.4: বড় ডেটা সোর্সগুলির সাথে মেলানোর জন্য স্টাডিজের উদাহরণ
উপকারী ফোকাস বড় তথ্য উৎস উল্লেখ
পুলিশ সহিংসতার উপর গুলি করার প্রভাব বন্ধ এবং ঝাঁকি রেকর্ড Legewie (2016)
11 সেপ্টেম্বর, 2001 এর পরিবারের এবং প্রতিবেশীদের উপর প্রভাব ভোটিং রেকর্ড এবং অনুদান রেকর্ড Hersh (2013)
সামাজিক সংশ্লেষণ যোগাযোগ এবং পণ্য গ্রহণ তথ্য Aral, Muchnik, and Sundararajan (2009)

উপসংহারে, অ-পরীক্ষামূলক তথ্য থেকে কার্যকারিতার প্রভাব অনুমান করা কঠিন, তবে প্রাকৃতিক গবেষণাগার এবং পরিসংখ্যানগত সমন্বয় (যেমন, মেলানো) হিসাবে ব্যবহার করা যেতে পারে। কিছু পরিস্থিতিতে, এই পন্থাগুলি খারাপভাবে যেতে পারে, কিন্তু সাবধানে স্থাপন করা গেলে, এই পদ্ধতিগুলি 4 অধ্যায়ে বর্ণিত পরীক্ষামূলক পদ্ধতির উপযোগী সহায়ক হতে পারে। এছাড়াও, এই দুটি পদ্ধতিগুলি সর্বদা সর্বদা প্রবৃদ্ধির থেকে উপকৃত হতে পারে বলে মনে হয়। উপর, বড় তথ্য সিস্টেম