3.6.2 জিজ্ঞাসা করা 3.6.2

অনেক মানুষের কাছ থেকে একটি বড় তথ্য উত্স নিয়ে কয়েকজনের কাছ থেকে সার্ভে ডেটা মিলিয়ে একটি ভবিষ্যদ্বাণীপূর্ণ মডেল ব্যবহার করে জিজ্ঞাসা করে।

জরিপ এবং বড় তথ্য উত্স একত্রিত করার একটি ভিন্ন উপায় একটি প্রক্রিয়া যা আমি প্রশস্ত জিজ্ঞাসা কল করবো। বিবর্ধিত জিজ্ঞাসা করে, একটি গবেষক স্নাতক বা granularity যে তথ্য উৎস স্বতন্ত্রভাবে সঙ্গে সম্ভব হবে না যে একটি অনুমান উৎপাদনের জন্য একটি বড় তথ্য উৎস সঙ্গে একটি ছোট পরিমাণ জরিপ ডাটা একত্রিত একটি ভবিষ্যদ্বাণীপূর্ণ মডেল ব্যবহার করে। উন্নত বিশদ জিজ্ঞাসা একটি গুরুত্বপূর্ণ উদাহরণ জোশুয়া Blumenstock কাজ থেকে আসে, যারা তথ্য সংগ্রহ করতে চেয়েছিলেন যে দরিদ্র দেশে গাইড উন্নয়ন সাহায্য করতে পারে অতীতে, এই ধরনের তথ্য সংগ্রহকারী গবেষকরা সাধারণত দুইটি পদ্ধতির মধ্যে একটিকে গ্রহণ করে: নমুনা জরিপ বা গণমাধ্যম। নমুনা জরিপ, যেখানে গবেষকরা অল্প সংখ্যক লোকের সাক্ষাৎকার গ্রহণ করেন, নমনীয়, সময়মত এবং অপেক্ষাকৃত সস্তা হতে পারে। যাইহোক, এই জরিপ, কারণ তারা একটি নমুনা উপর ভিত্তি করে, প্রায়ই তাদের রেজল্যুশন সীমাবদ্ধ। একটি নমুনা জরিপের মাধ্যমে, নির্দিষ্ট ভূগোল অঞ্চলের বা নির্দিষ্ট জনসংখ্যাতাত্ত্বিক গোষ্ঠীর জন্য অনুমান করা প্রায়ই কঠিন হয়। অন্যদিকে, প্রত্যেকের সাক্ষাৎকারের চেষ্টা করে, এবং তাই তারা ছোট ভৌগলিক অঞ্চল বা ডেমোগ্রাফিক গ্রুপের অনুমান করতে ব্যবহার করা যায়। কিন্তু গণমাধ্যম সাধারণত ব্যয়বহুল হয়, ফোকাস সঙ্কুচিত (তারা শুধুমাত্র একটি সংক্ষিপ্ত সংখ্যা অন্তর্ভুক্ত), এবং সময়মত না (তারা একটি নির্দিষ্ট সময়সূচী, যেমন প্রতি 10 বছর হিসাবে) (Kish 1979) । নমুনা জরিপ বা গণমাধ্যমের সাথে আটকে থাকার পরিবর্তে, কল্পনা করুন যদি গবেষকরা উভয়ের সেরা বৈশিষ্ট্যগুলিকে একত্রিত করতে পারেন। কল্পনা করুন যদি গবেষকরা প্রতিটি ব্যক্তির প্রতি প্রশ্ন করে প্রতিদিন প্রতিটা প্রশ্ন করতে পারে। স্পষ্টতই, এই সর্বব্যাপী, সর্বদা উপর জরিপ সামাজিক বিজ্ঞান ফ্যান্টাসি একটি ধরনের। কিন্তু এটি দেখায় যে আমরা অনেক লোকের ডিজিটাল ট্রেস সহ অল্প সংখ্যক লোকের কাছ থেকে জরিপের প্রশ্নগুলি মিশ্রন করে আনুমানিক শুরু করতে পারি।

ব্লুমেনস্টক এর গবেষণাটি শুরু হয় যখন তিনি রুয়ান্ডার বৃহত্তম মোবাইল ফোন সরবরাহকারীর সাথে অংশ নেন এবং ২005 থেকে ২009 সাল পর্যন্ত প্রায় 1.5 মিলিয়ন গ্রাহক থেকে নামকরণ করা লেনদেনের রেকর্ড সরবরাহ করে কোম্পানি। এই রেকর্ডগুলি প্রতিটি কল এবং টেক্সট বার্তা সম্পর্কে তথ্য যেমন শুরু সময়, সময়কাল , এবং কলার এবং রিসিভারের আনুমানিক ভৌগলিক অবস্থান। পরিসংখ্যানগত বিষয়গুলির কথা বলার আগে, এটি উল্লেখযোগ্য যে, এই প্রথম পদক্ষেপটি অনেক গবেষকদের জন্য সবচেয়ে কঠিন একটি হতে পারে। আমি দ্বিতীয় অধ্যায়ে বর্ণিত হিসাবে, সবচেয়ে বড় তথ্য উত্স গবেষকদের জন্য অ্যাক্সেসযোগ্য হয়। বিশেষত টেলিফোন মেটা-ডেটা বিশেষ করে অ্যাক্সেসেবল, কারণ এটি মূলত অ্যানোমাইজ করা অসম্ভব এবং এটি প্রায় নিশ্চিতভাবেই তথ্য রয়েছে যে অংশগ্রহণকারীরা সংবেদনশীল (Mayer, Mutchler, and Mitchell 2016; Landau 2016) । এই বিশেষ ক্ষেত্রে, গবেষকরা তথ্য রক্ষা করার জন্য সতর্ক ছিলেন এবং তাদের কাজটি তৃতীয় পক্ষের (যেমন তাদের আইআরবি) তত্ত্বাবধানে ছিল। আমি 6 নং অধ্যায় আরও বিশদভাবে এই নৈতিক বিষয়গুলিতে ফিরে আসব

Blumenstock সম্পদ এবং মঙ্গল পরিমাপ আগ্রহী ছিল। কিন্তু এই বৈশিষ্ট্যগুলো সরাসরি কল রেকর্ডে নেই। অন্য কথায়, এই গবেষণার জন্য এই কল রেকর্ডগুলি অসম্পূর্ণ - প্রধান তথ্য উৎসগুলির একটি সাধারণ বৈশিষ্ট্য যা অধ্যায়ের ২ তে বিস্তারিতভাবে আলোচনা করা হয়েছে। তবে, সম্ভবত এটির কল রেকর্ড সম্ভবত এমন কিছু তথ্য রয়েছে যা পরোক্ষভাবে সম্পদ এবং মঙ্গল। এই সম্ভাবনা দেওয়া, ব্লুমেনস্টক কি একটি মেশিন শেখার মডেল প্রশিক্ষণের সম্ভব হবে ভবিষ্যদ্বাণী কিভাবে কেউ তাদের কল রেকর্ড উপর ভিত্তি করে একটি জরিপ সাড়া হবে সম্ভব। যদি এটি সম্ভব হয়, তাহলে ব্লুমেনস্টক এই মডেলটি ব্যবহার করতে পারে যাতে ভবিষ্যতে 1.5 মিলিয়নেরও বেশি গ্রাহক জরিপের প্রতিক্রিয়া জানায়।

এই ধরনের একটি মডেল নির্মাণ এবং প্রশিক্ষণ করার জন্য, ব্লুমেনস্টক এবং কেজিলি ইনস্টিটিউট অব সাইন্স অ্যান্ড টেকনোলজি থেকে প্রায় হাজার হাজার গ্রাহক একটি র্যান্ডম নমুনা হিসাবে পরিচিত। গবেষকরা অংশগ্রহণকারীদের উদ্দেশে প্রকল্পটির লক্ষ্য ব্যাখ্যা করেছেন, কল রেকর্ডে জরিপের প্রতিক্রিয়া লিঙ্ক করার জন্য তাদের সম্মতির জন্য জিজ্ঞাসা করেছেন, এবং তারপর তাদের সম্পদ এবং কল্যাণের পরিমাপের জন্য তাদের কয়েকটি প্রশ্ন জিজ্ঞাসা করেছেন, যেমন "আপনি কি নিজের রেডিও? "এবং" আপনি কি একটি সাইকেল মালিক? "(আংশিক তালিকার জন্য চিত্র 3.14 দেখুন)। জরিপের সমস্ত অংশগ্রহণকারী আর্থিকভাবে ক্ষতিপূরণ ছিল।

পরবর্তী, ব্লুমেনস্টক মেশিন লার্নিংয়ের মধ্যে একটি দ্বি-ধাপ পদ্ধতি ব্যবহার করে: বৈশিষ্ট্য প্রকৌশল অনুসরণ করে তত্ত্বাবধানীয় শিক্ষণ প্রথমত, বৈশিষ্ট্য প্রকৌশল ধাপে, যে সকলের সাক্ষাৎকার নেওয়া হয়েছিল, ব্লুমেনস্টক প্রত্যেক ব্যক্তির সম্পর্কে বৈশিষ্ট্যগুলির একটি সেটের মধ্যে কল রেকর্ড রূপান্তরিত করেছেন; ডেটা বিজ্ঞানী এই বৈশিষ্ট্যগুলির "বৈশিষ্ট্য" এবং সামাজিক বিজ্ঞানীগণকে "ভেরিয়েবল" বলে ডাকতে পারেন। উদাহরণস্বরূপ, প্রত্যেক ব্যক্তির জন্য ব্লুমেনস্টক কার্যকলাপের মোট সংখ্যা গণনা করে, স্বতন্ত্র ব্যক্তিদের সংখ্যা যার সাথে ব্যক্তির যোগাযোগ হয়, এয়ারটাইম এ ব্যয় করা অর্থের পরিমাণ, ইত্যাদি। সমালোচনামূলক, ভাল বৈশিষ্ট্য প্রকৌশল গবেষণা সেটিং জ্ঞান প্রয়োজন। উদাহরণস্বরূপ, যদি ঘরোয়া এবং আন্তর্জাতিক কলগুলির মধ্যে পার্থক্য করা জরুরী (আমরা এমন ব্যক্তিদের আশা করতে পারি যারা আন্তর্জাতিকভাবে ধনবান বলে ডাকে), তাহলে এটি বৈশিষ্ট্য প্রকৌশল ধাপে অবশ্যই করা উচিত। রুয়ান্ডার খুব সামান্য বোঝার সঙ্গে একটি গবেষক এই বৈশিষ্ট্য অন্তর্ভুক্ত না হতে পারে, এবং তারপর মডেল এর পূর্বাভাসের কর্মক্ষমতা ক্ষতিগ্রস্ত হতে পারে

পরবর্তীতে, তত্ত্বাবধানে শিক্ষার ধাপে, ব্লুমেনস্টক তাদের বৈশিষ্ট্যগুলির উপর ভিত্তি করে প্রতিটি ব্যক্তির জন্য জরিপের প্রতিক্রিয়ার পূর্বাভাসের জন্য একটি মডেল তৈরি করে। এই ক্ষেত্রে, ব্লুমেনস্টক লজিস্টিক রিগ্রেশন ব্যবহার করেছেন, কিন্তু তিনি অন্যান্য পরিসংখ্যানগত বা মেশিন লার্নিং পন্থা ব্যবহার করতে পারতেন।

সুতরাং কিভাবে এটি কাজ করে? ব্লুমেনস্টক এমন প্রশ্নের জবাব দিতে সক্ষম হয়েছিল যে "আপনি কি রেডিওর মালিক?" এবং "আপনি কি সাইকেল চালাচ্ছেন?" কল রেকর্ডগুলি থেকে প্রাপ্ত বৈশিষ্ট্যগুলি ব্যবহার করে? তার ভবিষ্যদ্বাণীমূলক মডেলের কর্মক্ষমতা মূল্যায়ন করার জন্য, ব্লুমেনস্টক ক্রস-বৈধীকরণ ব্যবহার করতেন, যা একটি তথ্য যা সাধারণত ডাটা বিজ্ঞানে ব্যবহৃত হয় কিন্তু খুব কমই সামাজিক বিজ্ঞানের ক্ষেত্রে। ক্রস-বৈধকরণের লক্ষ্যটি এটি প্রশিক্ষণ এবং তথ্য বিভিন্ন উপসাগরে এটি পরীক্ষা করে একটি মডেল এর পূর্বাভাসের কর্মক্ষমতা একটি ন্যায্য মূল্যায়ন প্রদান করা হয়। বিশেষ করে, ব্লুমেনস্টক তার ডেটা 100 টির মধ্যে 10 টির মধ্যে বিভক্ত করেছেন। তারপর, তিনি তার মডেল প্রশিক্ষণ নিখুঁত নন নয়, এবং প্রশিক্ষণ মডেলের পূর্বাভাসের কর্মক্ষমতা অবশিষ্ট অংশ উপর মূল্যায়ন করা হয়েছিল। তিনি 10 বার এই পদ্ধতিটি পুনরাবৃত্তি করেছিলেন- তথ্যটির প্রতিটি অংশ যাচাইকরণের তথ্য হিসাবে এক ঘন ঘন এবং ফলাফলের গড় গড়।

পূর্বাভাস সঠিকতা কিছু বৈশিষ্ট্য জন্য উচ্চ ছিল (চিত্র 3.14); উদাহরণস্বরূপ, ব্লুমেনস্টক 97.6% নির্ভুলতার সাথে ভবিষ্যদ্বাণী করতে পারে যদি কেউ একটি রেডিও মালিকানাধীন থাকে এই চিত্তাকর্ষক শব্দ করতে পারে, কিন্তু একটি সহজ বিকল্প বিরুদ্ধে একটি জটিল ভবিষ্যদ্বাণী পদ্ধতি তুলনা সবসময় গুরুত্বপূর্ণ। এই ক্ষেত্রে, একটি সহজ বিকল্পটি ভবিষ্যদ্বাণী করা হয় যে প্রত্যেকে সর্বাধিক সাধারণ উত্তর দেবে। উদাহরণস্বরূপ, 97.3% উত্তরদাতারা একটি রেডিও মালিকানাধীন রিপোর্ট করেছেন যাতে ব্লুমেনস্টকের পূর্বাভাস দেওয়া হয় যে প্রত্যেকে একটি রেডিও মালিকের কাছে রিপোর্ট করবে, তার 97.3% সঠিকতা থাকবে, যা তার আরো জটিল পদ্ধতির কার্যকারিতা (97.6% সঠিকতা) এর অনুরূপ। । অন্য কথায়, সব অভিনব তথ্য এবং মডেলিং ভবিষ্যদ্বাণী সঠিকতা বৃদ্ধি 97.3% থেকে 97.6%। যাইহোক, অন্য প্রশ্নগুলির জন্য, যেমন "আপনি কি একটি সাইকেল মালিক?", পূর্বাভাসগুলি 54.4% থেকে 67.6% -এ উন্নীত হয়েছে। আরো সাধারণভাবে, চিত্র 3.15 দেখায় যে ব্লুমেনস্টক কিছু বৈশিষ্ট্যের জন্য সহজ বেসলাইনের ভবিষ্যদ্বাণী তৈরির চেয়ে অনেক বেশি উন্নত হয়নি, তবে অন্যান্য বৈশিষ্ট্যের জন্য কিছু উন্নতি হয়েছে। এই ফলাফল এ শুধুমাত্র খুঁজছেন, তবে, আপনি এই পদ্ধতি বিশেষত প্রতিশ্রুতিবদ্ধ মনে হয় না হতে পারে।

চিত্র 3.14: কল রেকর্ড দ্বারা প্রশিক্ষণ প্রাপ্ত একটি পরিসংখ্যান মডেলের জন্য ভবিষ্যদ্বাণীপূর্ণ নির্ভুলতা। ব্লুমেনস্টক (2014), টেবিল ২ থেকে অভিযোজিত

চিত্র 3.14: কল রেকর্ড দ্বারা প্রশিক্ষণ প্রাপ্ত একটি পরিসংখ্যান মডেলের জন্য ভবিষ্যদ্বাণীপূর্ণ নির্ভুলতা। Blumenstock (2014) , টেবিল ২ থেকে অভিযোজিত

চিত্র 3.15: সাধারণ ভিত্তির ভবিষ্যৎবাণীতে কল রেকর্ডের সাথে প্রশিক্ষণ প্রাপ্ত পরিসংখ্যানগত মডেলের জন্য পূর্বাভাসের নির্ভুলতার তুলনা। ওভারল্যাপ এড়াতে পয়েন্টগুলি সামান্য জোড়। ব্লুমেনস্টক (2014), টেবিল ২ থেকে অভিযোজিত

চিত্র 3.15: সাধারণ ভিত্তির ভবিষ্যৎবাণীতে কল রেকর্ডের সাথে প্রশিক্ষণ প্রাপ্ত পরিসংখ্যানগত মডেলের জন্য পূর্বাভাসের নির্ভুলতার তুলনা। ওভারল্যাপ এড়াতে পয়েন্টগুলি সামান্য জোড়। Blumenstock (2014) , টেবিল ২ থেকে অভিযোজিত

যাইহোক, মাত্র এক বছর পর, ব্লুমেনস্টক এবং দুইজন সহকর্মী-গ্যাব্রিয়েল ক্যাডামুরো এবং রবার্ট অ্যান- বিজ্ঞানে একটি কাগজ প্রকাশ করেছেন যা উল্লেখযোগ্যভাবে ভাল ফলাফলের সাথে (Blumenstock, Cadamuro, and On 2015) । এই উন্নতির জন্য দুটি প্রধান কারিগরী কারণ ছিল: (1) তারা আরও উন্নত পদ্ধতি ব্যবহার করে (অর্থাত, প্রকৌশল এবং বৈশিষ্ট্যগুলি থেকে প্রতিক্রিয়া জানাতে আরও উন্নত মডেল) এবং (2) পরিবর্তে ব্যক্তিগত প্রতিক্রিয়া জানাতে জরিপের প্রশ্নগুলি (যেমন, "আপনি কি রেডিওর মালিক?"), তারা যৌথ সম্পদ সূচকের অনুমান করার চেষ্টা করেছিল। এই প্রযুক্তিগত উন্নতিগুলি বোঝায় যে তারা তাদের নমুনার মধ্যে মানুষের জন্য সম্পদ ভবিষ্যদ্বাণী করার জন্য কল রেকর্ড ব্যবহার করে একটি যুক্তিসঙ্গত কাজ করতে পারে।

নমুনা মানুষের সম্পদ ভবিষ্যদ্বাণী, তবে, গবেষণা এর চূড়ান্ত লক্ষ্য ছিল না। মনে রাখবেন যে উন্নয়নশীল দেশগুলিতে দারিদ্র্য সঠিক, উচ্চ-রেজোলিউশন অনুমানের জন্য নমুনা জরিপ এবং গণমাধ্যমের সেরা বৈশিষ্ট্যগুলিকে একত্রিত করার চূড়ান্ত লক্ষ্য ছিল। এই লক্ষ্য অর্জনের জন্য তাদের দক্ষতার পরিমাপ করতে, ব্লুমেনস্টক এবং সহকর্মীরা কল রেকর্ডে সমস্ত 1.5 মিলিয়ন মানুষের সম্পদ পূর্বাভাসের জন্য তাদের মডেল এবং তাদের ডেটা ব্যবহার করেন। এবং তারা ভূ-সম্পত্তির তথ্য কল রেকর্ডে আবদ্ধ (প্রত্যাহার করে যে প্রতিটি কল এর জন্য নিকটবর্তী সেল টাওয়ারের অবস্থানটি অন্তর্ভুক্ত ছিল) প্রতিটি ব্যক্তিকে (চিত্র 3.17) বসবাসের আনুমানিক স্থানটির হিসাব করার জন্য। একসাথে এই দুটি অনুমান করা, Blumenstock এবং সহকর্মীরা অত্যন্ত সূক্ষ্ম স্থানিক granularity গ্রাহক সম্পদ ভৌগলিক বিতরণ একটি অনুমান উত্পাদিত। উদাহরণস্বরূপ, তারা রুয়ান্ডার ২,148 টি কোষের প্রতিটি দেশে গড় সম্পদ অনুমান করতে পারে (দেশের সবচেয়ে ছোট প্রশাসনিক ইউনিট)।

এই অঞ্চলের দারিদ্র্যের প্রকৃত স্তরের তুলনায় এই অনুমান কতটা ভাল ছিল? আমি যে প্রশ্নের উত্তর আগে, আমি সন্দিহান হতে অনেক কারণ আছে যে সত্য জোর চাই। উদাহরণস্বরূপ, স্বতন্ত্র পর্যায়ে ভবিষ্যদ্বাণী করার ক্ষমতা ছিল প্রশংসনীয় নোবেল (চিত্র 3.17)। এবং, সম্ভবত আরও গুরুত্বপূর্ণ, মোবাইল ফোনে থাকা ব্যক্তিরা মোবাইল ফোনের জন্য কোনও ব্যক্তি থেকে নিয়মিত আলাদা হতে পারে। এইভাবে, ব্লুমেনস্টক এবং সহকর্মীরা কভারেজ ত্রুটিগুলি থেকে যেগুলি 1936 সালের সাহিত্য ডাইজেস্ট জরিপের পক্ষপাতিত্ব করে যেগুলি আমি আগেই বর্ণনা করেছি তা থেকে বিরত থাকতে পারে।

তাদের অনুমানের মানের একটি ধারনা পেতে, Blumenstock এবং সহকর্মীরা অন্য কিছু সঙ্গে তাদের তুলনা প্রয়োজন। সৌভাগ্যবশত, তাদের গবেষণার সময় একই সময়ে, গবেষকরা অন্য একটি গ্রুপ রুয়ান্ডা একটি আরো ঐতিহ্যগত সামাজিক জরিপ চলমান ছিল। এই অন্যান্য জরিপ- যা ব্যাপকভাবে সম্মানিত ডেমোগ্রাফিক এবং স্বাস্থ্য সার্ভে প্রোগ্রামের অংশ ছিল- একটি বড় বাজেট ছিল এবং উচ্চ মানের, ঐতিহ্যগত পদ্ধতি ব্যবহার করে। অতএব, ডেমোগ্রাফিক এবং স্বাস্থ্য জরিপ থেকে অনুমিতভাবে যুক্তিসঙ্গতভাবে স্বর্ণ-মান অনুমান বিবেচনা করা যেতে পারে। যখন দুটি অনুমান তুলনা করা হয়, তখন তারা বেশ অনুরূপ (চিত্র 3.17)। অন্য কথায়, কল রেকর্ডের সাথে একটি সামান্য পরিমাণ জরিপ তথ্য সংযোজনের মাধ্যমে, ব্লুমেনস্টক এবং সহকর্মীরা স্বর্ণ-মানক পদ্ধতির সাথে তুলনামূলকভাবে তুলনা করতে সক্ষম।

একটি সন্দেহভাজন একটি হতাশা হিসাবে এই ফলাফল দেখতে পারে। সব পরে, তাদের দেখার একটি উপায় বড় তথ্য এবং মেশিন লার্নিং ব্যবহার করে বলতে হয়, Blumenstock এবং সহকর্মী ইতিমধ্যে বিদ্যমান পদ্ধতি দ্বারা আরো নির্ভরযোগ্য করা যেতে পারে অনুমান তৈরি করতে সক্ষম ছিল। কিন্তু আমি মনে করি না দুটি কারণে এই গবেষণা সম্পর্কে চিন্তা করার সঠিক উপায়। প্রথমত, ব্লুমেনস্টক এবং সহকর্মীদের কাছ থেকে আনুমানিক 10 গুণ বেশি এবং 50 গুণ বেশি সস্তা ছিল (যখন খরচটি ভেরিয়েবলের ক্ষেত্রে পরিমাপ করা হয়)। আমি এই অধ্যায়ে আগে যুক্তি হিসাবে, গবেষকরা তাদের বিপদ এ খরচ উপেক্ষা। উদাহরণস্বরূপ, উদাহরণস্বরূপ, খরচের মধ্যে নাটকীয় হ্রাসের মানে হচ্ছে প্রতি কয়েক বছর ধরে চলার পরিবর্তে - ডেমোগ্রাফিক এবং স্বাস্থ্য জরিপের মান হিসাবে - এই ধরনের জরিপ প্রতি মাসে চলতে পারে, যা গবেষকরা এবং নীতির জন্য অনেকগুলি সুবিধা প্রদান করবে প্রস্তুতকারকদের। সন্দেহভাজনদের দৃষ্টিভঙ্গি না নিতে দ্বিতীয় কারণ হল এই গবেষণায় একটি মৌলিক রেসিপি প্রদান করে যা অনেকগুলি বিভিন্ন গবেষণা পরিস্থিতিতে তৈরি করা যায়। এই রেসিপি শুধুমাত্র দুটি উপাদান এবং দুটি ধাপ আছে। উপাদানের (1) একটি বড় তথ্য উৎস যে বিস্তৃত কিন্তু পাতলা (অর্থাৎ, এটি অনেক লোক আছে কিন্তু তথ্য যে আপনার প্রতিটি ব্যক্তির সম্পর্কে প্রয়োজন) এবং (2) একটি জরিপ যে সংকীর্ণ কিন্তু পুরু (অর্থাৎ, এটি শুধুমাত্র আছে কয়েকজন মানুষ, কিন্তু তাদের কাছে এমন তথ্য আছে যা আপনি সেইসব লোকেদের সম্পর্কে জানবেন)। এই উপাদানগুলি তারপর দুটি ধাপ মধ্যে মিলিত হয়। প্রথমত, উভয় তথ্য উত্সের লোকের জন্য, একটি মেশিন লার্নিং মডেল তৈরি করা যা জরিপের উত্তরগুলি পূর্বাভাসের জন্য বড় তথ্য উত্স ব্যবহার করে। পরবর্তী, বড় ডেটা উত্সের সবার জন্য জরিপের উত্তরগুলি জরিমানা করার জন্য এই মডেলটি ব্যবহার করুন। সুতরাং, যদি এমন কিছু প্রশ্ন থাকে যে আপনি অনেক লোককে জিজ্ঞাসা করতে চান, তাহলে তাদের কাছ থেকে একটি বড় তথ্য উত্স সন্ধান করুন যেগুলি তাদের উত্তর পূর্বাভাস দিতে ব্যবহার করা হতে পারে, এমনকি যদি আপনি বড় তথ্য উত্সের বিষয়ে চিন্তা করেন না । যে, Blumenstock এবং সহকর্মী স্বচ্ছন্দভাবে কল রেকর্ডের যত্ন ছিল না; তারা শুধুমাত্র কল রেকর্ডের ব্যাপারে যত্নবান ছিলেন কারণ তাদের জরিপের উত্তরগুলি ভবিষ্যদ্বাণী করার জন্য ব্যবহার করা যেতে পারে যে তারা তাদের যত্ন নেয়। বড় ডেটা উত্সের মধ্যে এই বৈশিষ্ট্যটি কেবল পরোক্ষ স্বার্থ-এম্বেডেড জিজ্ঞাসা থেকে ভিন্ন জিজ্ঞাসা করে, যা আমি আগেই বলেছি।

চিত্র 3.16: ব্লুমেনস্টক, ক্যাডামুরো এবং ওন (2015) এর গবেষণামূলক পরিকল্পনা। ফোন কোম্পানির কাছ থেকে কল রেকর্ড করা প্রতিটি মেটারের জন্য এক সারি এবং প্রতিটি বৈশিষ্ট্য (যেমন, পরিবর্তনশীল) জন্য এক কলামে রূপান্তরিত হয়। পরবর্তীতে, গবেষকরা ব্যক্তি-দ্বারা-বৈশিষ্ট্য ম্যাট্রিক্স থেকে জরিপ প্রতিক্রিয়া পূর্বাভাস একটি তত্ত্বাবধানে শেখার মডেল নির্মিত। তারপর, 1.5 মিলিয়ন গ্রাহকগণের জন্য জরিপের প্রতিক্রিয়া জরিমানা করার জন্য তত্ত্বাবধানে শিক্ষণ মডেল ব্যবহার করা হয়েছিল। এছাড়াও, গবেষকরা তাদের কল অবস্থার উপর ভিত্তি করে সব 1.5 মিলিয়ন গ্রাহকদের জন্য বসবাসের আনুমানিক জায়গা অনুমান। যখন এই দুটি অনুমান-আনুমানিক সম্পদ এবং আবাসনের আনুমানিক স্থান-মিলিত হয়, তখন ফলাফলগুলি জনসংখ্যাতাত্ত্বিক এবং স্বাস্থ্য জরিপের তুলনায় অনুরূপ ছিল, একটি সোনার প্রথাগত ঐতিহ্যবাহী জরিপ (চিত্র 3.17)।

চিত্র 3.16: Blumenstock, Cadamuro, and On (2015) । ফোন কোম্পানীর কাছ থেকে কল রেকর্ড করা প্রতিটি মেটারের জন্য প্রতিটি সারি এবং প্রতিটি বৈশিষ্ট্য (অর্থাৎ পরিবর্তনশীল) জন্য একটি কলামের সাথে একটি ম্যাট্রিক্স রূপান্তর করা হয়েছিল। পরবর্তীতে, গবেষকরা ব্যক্তি-দ্বারা-বৈশিষ্ট্য ম্যাট্রিক্স থেকে জরিপ প্রতিক্রিয়া পূর্বাভাস একটি তত্ত্বাবধানে শেখার মডেল নির্মিত। তারপর, 1.5 মিলিয়ন গ্রাহকগণের জন্য জরিপের প্রতিক্রিয়া জরিমানা করার জন্য তত্ত্বাবধানে শিক্ষণ মডেল ব্যবহার করা হয়েছিল। এছাড়াও, গবেষকরা তাদের কল অবস্থার উপর ভিত্তি করে সব 1.5 মিলিয়ন গ্রাহকদের জন্য বসবাসের আনুমানিক জায়গা অনুমান। যখন এই দুটি অনুমান-আনুমানিক সম্পদ এবং আবাসনের আনুমানিক স্থান-মিলিত হয়, তখন ফলাফলগুলি জনসংখ্যাতাত্ত্বিক এবং স্বাস্থ্য জরিপের তুলনায় অনুরূপ ছিল, একটি সোনার প্রথাগত ঐতিহ্যবাহী জরিপ (চিত্র 3.17)।

চিত্র 3.17: ব্লুমেনস্টক, ক্যাডামুরো এবং অন (2015) এর ফলাফল। ব্যক্তিগত পর্যায়ে, গবেষকরা তাদের কল রেকর্ড থেকে কেউ এর সম্পদ পূর্বাভাসায় একটি যুক্তিসঙ্গত কাজ করতে সক্ষম ছিল। রুয়ান্ডার 30 টি জেলাসমূহের জন্য জেলা স্তরের সম্পদের হিসেব - যা সম্পদ ও বাসস্থান-এর ব্যক্তিগত স্তরের অনুমানের উপর ভিত্তি করে-জনসংখ্যাতাত্ত্বিক এবং স্বাস্থ্য জরিপের ফলাফলের অনুরূপ, একটি স্বর্ণ-আদর্শ ঐতিহ্যবাহী জরিপ। Blumenstock, Cadamuro, এবং অন (2015) থেকে অভিযোজিত, পরিসংখ্যান 1a এবং 3c।

চিত্র 3.17: Blumenstock, Cadamuro, and On (2015) । ব্যক্তিগত পর্যায়ে, গবেষকরা তাদের কল রেকর্ড থেকে কেউ এর সম্পদ পূর্বাভাসায় একটি যুক্তিসঙ্গত কাজ করতে সক্ষম ছিল। রুয়ান্ডার 30 টি জেলাসমূহের জন্য জেলা স্তরের সম্পদের হিসেব - যা সম্পদ ও বাসস্থান-এর ব্যক্তিগত স্তরের অনুমানের উপর ভিত্তি করে-জনসংখ্যাতাত্ত্বিক এবং স্বাস্থ্য জরিপের ফলাফলের অনুরূপ, একটি স্বর্ণ-আদর্শ ঐতিহ্যবাহী জরিপ। Blumenstock, Cadamuro, and On (2015) থেকে অভিযোজিত, পরিসংখ্যান 1a এবং 3c।

উপসংহারে, ব্লুমেনস্টক এর একটি বিস্তৃত তথ্য উত্সের সাথে মিলিত জরিপের তথ্যগুলি একটি সুবর্ণ মানের সমীক্ষার তুলনায় আনুমানিক আনুমানিক উৎপাদনের জন্য জিজ্ঞাসা করে। এই বিশেষ উদাহরণ এছাড়াও প্রশস্ত জিজ্ঞাসা এবং ঐতিহ্যগত জরিপ পদ্ধতির মধ্যে বাণিজ্য-কিছু কিছু clarifies। বিবর্ধিত জিজ্ঞাসা অনুমান আরো সময়মত, উল্লেখযোগ্যভাবে সস্তা, এবং আরো নোনা। কিন্তু, অন্যদিকে, এই ধরনের বিবর্ধিত জিজ্ঞাসা করার জন্য এখনও একটি শক্তিশালী তাত্ত্বিক ভিত্তি নেই। এই পদ্ধতিটি যখন কাজ করবে এবং যখন এটি করবে না তখন এই একক উদাহরণটি দেখা যায় না এবং এই পদ্ধতিটি ব্যবহার করে গবেষকরা বিশেষভাবে তাদের সাথে জড়িত থাকার সম্ভাব্য প্রতিক্রিয়া সম্পর্কে উদ্বিগ্ন হওয়া প্রয়োজন- এবং যাদের অন্তর্ভুক্ত নেই- তাদের বড় তথ্য উত্সের মধ্যে উপরন্তু, প্রশস্ত জিজ্ঞাসা পদ্ধতি এখনও তার অনুমান প্রায় অনিশ্চয়তা পরিমাণে ভাল উপায় আছে না। সৌভাগ্যবশত, পরিসংখ্যান-ছোট-এলাকার মূল্যায়ন (Rao and Molina 2015) , অভিশাপ (Rubin 2004) , এবং মডেল ভিত্তিক পোস্ট স্তরবিন্যাস (যা নিজেই মিঃ পি। পদ্ধতিটি আমি অধ্যায়ের আগে বর্ণিত) (Little 1993) । এই গভীর সংযোগের কারণে, আমি আশা করি যে বর্ধিত অনুরোধের পদ্ধতিগত ভিত্তিগুলির অনেকগুলি শীঘ্রই উন্নত হবে।

অবশেষে, Blumenstock এর প্রথম এবং দ্বিতীয় প্রচেষ্টা তুলনা এছাড়াও ডিজিটাল বয়স সামাজিক গবেষণা সম্পর্কে একটি গুরুত্বপূর্ণ পাঠ ব্যাখ্যা করে: শুরু শেষ হয় না। যে, অনেকবার, প্রথম পদ্ধতিটি সর্বোত্তম হবে না, তবে যদি গবেষকরা কাজ চালিয়ে যান তবে জিনিসগুলি আরও ভাল হতে পারে। সাধারণত, যখন ডিজিটাল যুগে সামাজিক গবেষণার নতুন পন্থাগুলি মূল্যায়ন করা হয়, তখন এটি দুটি স্বতন্ত্র মূল্যায়ন করা গুরুত্বপূর্ণ: (1) এই কাজ এখন কতটা ভাল? এবং (২) ভবিষ্যতে এই কাজটি কতটা ভালো হবে, যেহেতু ডেটা আড়াআড়ি পরিবর্তিত হয় এবং গবেষকরা সমস্যাটিকে আরো মনোযোগ দিচ্ছে? যদিও গবেষকরা প্রথম ধরনের মূল্যায়ন করার জন্য প্রশিক্ষিত, দ্বিতীয়টি প্রায়ই আরো গুরুত্বপূর্ণ হয়।