2.4.1 কাউন্টিং কিছু

এই অনুবাদ একটি কম্পিউটার দ্বারা তৈরি করা হয়েছে. ×

2.4.1 কাউন্টিং কিছু

যদি আপনি ভাল তথ্য দিয়ে একটা ভাল প্রশ্ন একত্রিত সহজ কাউন্টিং আকর্ষণীয় হতে পারে.

যদিও তা অত্যাধুনিক-শব্দগুচ্ছের মধ্যে জোড় করা হয়েছে, অনেক সামাজিক গবেষণা সত্যিই কেবল বিষয়গুলি গণনা করছে। বড় তথ্য বয়সের মধ্যে, গবেষকরা আগের তুলনায় আরো গণনা করতে পারেন, কিন্তু এর মানে এই নয় যে তারা শুধু অজ্ঞাত কারণে গণনা শুরু করা উচিত পরিবর্তে, গবেষকরা জিজ্ঞাসা করা উচিত: কি জিনিস গণনা করা হয়? এটি একটি সম্পূর্ণ বিষয়ী ব্যাপার মত মনে হতে পারে, কিন্তু কিছু সাধারণ নিদর্শন আছে

প্রায়ই ছাত্ররা তাদের গণনা গবেষণাকে বলার দ্বারা অনুপ্রাণিত করে: আমি এমন কোন কিছু গণনা করতে যাচ্ছি যা আগে কখনোই গণনা করা হয়নি। উদাহরণস্বরূপ, একজন শিক্ষার্থী বলতে পারেন যে অনেক লোক অভিবাসীদের অধ্যয়ন করেছে এবং বহু লোক যুবতীদের পড়াশোনা করেছে, কিন্তু কেউ অভিবাসী যুবকদের পড়াশোনা করেনি। আমার অভিজ্ঞতা, এই কৌশল, যা আমি অনুপস্থিতি দ্বারা প্রেরণা কল, সাধারণত ভাল গবেষণা হতে না। অনুপস্থিতি দ্বারা অনুপ্রেরণা ধরনের সেখানে একটি গর্ত আছে বলে মত ধরনের, এবং আমি এটি পূরণ করতে খুব কঠিন কাজ করতে যাচ্ছি। কিন্তু প্রতিটি গর্ত পূরণ করা প্রয়োজন হবে না।

অনুপস্থিতির দ্বারা অনুপ্রাণিত করার পরিবর্তে, আমি মনে করি একটি ভাল কৌশল গুরুত্বপূর্ণ প্রশ্নগুলির সন্ধান করা উচিত যা আকর্ষণীয় বা আকর্ষণীয় (বা আদর্শভাবে উভয়)। এই পরিভাষাগুলি উভয়ই সংজ্ঞায়িত করা কঠিন, কিন্তু গুরুত্বপূর্ণ গবেষণার বিষয়ে চিন্তা করার একটি উপায় হলো নীতিনির্ধারকদের একটি গুরুত্বপূর্ণ সিদ্ধান্তে কিছু পরিমাপযোগ্য প্রভাব বা ফিড আছে। উদাহরণস্বরূপ, বেকারত্বের হার পরিমাপ করা গুরুত্বপূর্ণ কারণ এটি অর্থনীতির একটি নির্দেশক যা নীতিগত সিদ্ধান্তগুলি চালায়। সাধারণত, আমি মনে করি যে গবেষকরা কি গুরুত্বপূর্ণ তা সম্পর্কে খুব ভাল ধারণা আছে সুতরাং, এই বিভাগের বাকি অংশে আমি দুটি উদাহরণ প্রদান করছি যেখানে আমি মনে করি গণনা করা আকর্ষণীয়। প্রতিটি ক্ষেত্রে, গবেষকরা haphazardly গণনা করা হয় নি; বরং, তারা খুব নির্দিষ্ট সেটিংস গণনা করছে যা সামাজিক পদ্ধতির কাজ সম্পর্কে আরও সাধারণ ধারণাগুলির মধ্যে গুরুত্বপূর্ণ অন্তর্দৃষ্টি প্রকাশ করে। অন্য কথায়, যা এই বিশেষ কাউন্টিং ব্যায়াম আকর্ষণীয় একটি অনেক তথ্য নিজেই নয়, এটি এই আরো সাধারণ ধারনা থেকে আসে।

গণনা সহজ ক্ষমতা একটি উদাহরণ হেনরি Farber থেকে আসে (2015) নিউ ইয়র্ক সিটি ট্যাক্সি ড্রাইভার আচরণের। যদিও এই গ্রুপ স্বতঃস্ফূর্তভাবে আকর্ষণীয় নাও হতে পারে, তবে এটি শ্রম অর্থনীতিতে দুটি প্রতিদ্বন্দ্বিতার তত্ত্ব পরীক্ষা করার জন্য একটি কৌশলগত গবেষণা সাইট । ফারবারের গবেষণার উদ্দেশ্যে, ট্যাক্সি ড্রাইভারের কাজের পরিবেশ সম্পর্কে দুটি গুরুত্বপূর্ণ বৈশিষ্ট্য রয়েছে: (1) আবহাওয়ার মতো বিষয়গুলির উপর ভিত্তি করে, প্রতি ঘন্টায় তাদের ঘনঘন বেতন প্রতিস্থাপিত হয় এবং (২) ঘন্টাগুলির সংখ্যা কাজ তাদের সিদ্ধান্তের উপর ভিত্তি করে প্রতিটি দিন উষ্ণ হতে পারে। এই বৈশিষ্ট্য ঘন্টা কাজ এবং ঘন্টা কাজ মধ্যে সম্পর্ক সম্পর্কে একটি আকর্ষণীয় প্রশ্ন হতে পারে। অর্থনীতিতে নিকোলাসিক মডেলগুলি ভবিষ্যদ্বাণী করে যে ট্যাক্সি ড্রাইভার আরো বেশি দিন কাজ করবে যেখানে তাদের উচ্চতর ঘন্টা মজুরি আছে। বিকল্পভাবে, আচরণগত অর্থনীতির মডেলগুলি ঠিক বিপরীতটির পূর্বাভাস দেয়। যদি ড্রাইভারগুলি নির্দিষ্ট আয় লক্ষ্যমাত্রা নির্ধারণ করে- তাহলে প্রতি দিন $ 100- এবং লক্ষ্যমাত্রা পূরণ না হওয়া পর্যন্ত কাজ করে, তখন ড্রাইভারগুলি কম উপার্জনকারী দিনগুলি শেষ করে দিবে। উদাহরণস্বরূপ, যদি আপনি লক্ষ্যমাত্রা অর্জনকারী হন, তবে আপনি একটি ভাল দিন (ঘন্টা $ 25 প্রতি ঘন্টায়) এবং একটি খারাপ দিনে পাঁচ ঘন্টা ($ 20 প্রতি ঘন্টায়) চার ঘন্টার কাজ শেষ করতে পারেন। তাই, দিনের বেলায় উচ্চতর ঘন্টাব্যাপী মজুরি (নব্যসম্পর্কিত মডেল দ্বারা পূর্বাভাস দেওয়া হয়) বা কম ঘনঘন মজুরি (আচরণগত অর্থনৈতিক মডেল দ্বারা পূর্বাভাস দেওয়া হয়) সহ দিনগুলিতে আরও ঘন্টা কাজ করে?

এই প্রশ্নটি উত্তর করার জন্য ২009 থেকে ২013 সাল পর্যন্ত নিউ ইয়র্ক সিটি ক্যাব নিয়ে নেওয়া প্রতিটি ট্যাক্সি ট্রিটিয়ে Farber তথ্য প্রাপ্তি, এখন যে তথ্য প্রকাশ্যে উপলব্ধ আছে এই তথ্য-যা ইলেকট্রনিক মিটার দ্বারা সংগৃহীত হয়েছিল, যেটি শহরটি প্রয়োজনে ট্যাক্সি ব্যবহার করতে হবে- প্রতিটি ট্রিপের তথ্য অন্তর্ভুক্ত করুনঃ শুরু সময়, শুরু স্থান, শেষের সময়, শেষ অবস্থান, ভাড়া এবং টিপ (যদি টিপ একটি ক্রেডিট কার্ড দিয়ে দেওয়া হয়) । এই ট্যাক্সি মিটার তথ্য ব্যবহার করে, Farber খুঁজে পাওয়া যায় যে অধিকাংশ ড্রাইভার দিনের বেশী কাজ যখন মজুরি উচ্চ, neoclassical তত্ত্ব সঙ্গে সামঞ্জস্যপূর্ণ।

এই প্রধান আবিষ্কার ছাড়াও, Farber বৈচিত্র্য এবং গতিবিদ্যা একটি ভাল বোঝার জন্য তথ্য আকার ব্যবহার করতে সক্ষম ছিল। তিনি দেখেছেন যে, সময়ের সাথে সাথে নতুন ড্রাইভার ধীরে ধীরে উচ্চ মজুরি দিনগুলিতে আরো ঘন্টা কাজ শিখতে শিখতে (যেমন, তারা নব্যসম্পর্কিত মডেলের ভবিষ্যতবাণী হিসাবে আচরণ করতে শেখে)। এবং নতুন চালানো ড্রাইভারগুলি যারা লক্ষ্য অর্জনকারীর মতো আচরণ করে তারা ট্যাক্সি ড্রাইভার হতে চলেছেন। এই আরও সূক্ষ্ম আবিষ্কারের দুটি, যা বর্তমান ড্রাইভারগুলির পর্যবেক্ষণিত আচরণকে ব্যাখ্যা করতে সহায়তা করে, কেবল ডেটসেটের আকারের কারণে সম্ভব ছিল। তারা পূর্বের গবেষণায় সনাক্ত করা অসম্ভব ছিল যা অল্প সময়ের মধ্যে অল্প সংখ্যক ট্যাক্সি ড্রাইভারের কাছ থেকে কাগজের ট্রিপ শিট ব্যবহার করে (Camerer et al. 1997) ।

Farber এর গবেষণা একটি বড় তথ্য উৎস ব্যবহার করে একটি গবেষণা জন্য একটি ভাল ক্ষেত্রে দৃশ্যকল্প বন্ধ ছিল কারণ শহর দ্বারা সংগৃহীত তথ্য Farber তথ্য সংগ্রহ করা হবে যে কাছাকাছি ছিল (এক পার্থক্য Farber মোট মোট তথ্য চেয়েছিলেন যে মজুরী-ভাড়া প্লাস টিপস- কিন্তু শহরের ডেটা শুধুমাত্র ক্রেডিট কার্ড দ্বারা দেওয়া টিপস অন্তর্ভুক্ত)। যাইহোক, তথ্য শুধুমাত্র যথেষ্ট ছিল না। Farber এর অনুসন্ধানের মূল তথ্য একটি আকর্ষণীয় প্রশ্ন আনা হয়েছে, একটি প্রশ্ন যা বৃহত্তর প্রভাব শুধুমাত্র এই নির্দিষ্ট সেটিং অতিক্রম অতিক্রম করা হয়।

গণনা করা একটি দ্বিতীয় উদাহরণ চীনা সরকার দ্বারা অনলাইন সেন্সরশিপ নেভিগেশন গ্যারি রাজা, জেনিফার প্যান, এবং মলি রবার্টস (2013) দ্বারা গবেষণা থেকে আসে। এই ক্ষেত্রে, যাইহোক, গবেষকরা তাদের নিজস্ব বড় তথ্য সংগ্রহ করতে হয়েছিল এবং তাদের এই তথ্যটি অসম্পূর্ণ ছিল তার সাথে মোকাবিলা করতে হয়েছিল।

রাজা এবং সহকর্মীরা এই প্রচারের মাধ্যমে অনুপ্রাণিত হয়েছিলেন যে চীনে সোশ্যাল মিডিয়ায় পোস্টগুলি একটি বিরাট রাষ্ট্রীয় যন্ত্রপাতি দ্বারা সেন্সর করা হয় যা লক্ষ লক্ষ লোককে অন্তর্ভুক্ত করা হয়। গবেষকরা এবং নাগরিকদের, তবে, এই সেন্সরগুলি কীভাবে মুছে ফেলা হবে তা নির্ধারণ করে কিভাবে সামান্য অনুভূতি আছে। চীন এর পণ্ডিতদের আসলে কি ধরনের পোস্ট মুছে ফেলা সম্ভবত সবচেয়ে সম্পর্কে দ্বন্দ্ব প্রত্যাশা আছে কিছু মনে করেন যে সেন্সরগুলি রাষ্ট্রগুলির সমালোচনামূলক পোস্টগুলিতে ফোকাস করছে, অন্যরা মনে করে যে তারা বিক্ষোভের মতো সমষ্টিগত আচরণ উত্সাহিত করে এমন পোস্টগুলিতে ফোকাস করছে। এই প্রত্যাশাগুলির মধ্যে কোনটি সঠিক তা প্রমাণ করে গবেষকরা কীভাবে চীন ও অন্যান্য কর্তৃত্বশীল সরকারগুলি সেন্সরশিপের সাথে জড়িত তা বোঝে। অতএব, রাজা ও সহকর্মীরা এমন পোস্টগুলির তুলনা করতে চেয়েছিলেন যা প্রকাশিত হয়েছিল এবং পরবর্তীতে যে পোস্টগুলি প্রকাশিত হয়েছিল এবং মুছে ফেলা হয়নি সেগুলি মুছে ফেলা হয়েছিল।

এই পোস্টের সংগ্রহ জড়িত প্রাসঙ্গিক পোস্ট বিভিন্ন পৃষ্ঠা লেআউট-ফাইন্ডিং, এবং তারপর এই পোস্ট revisiting দেখতে যা পরবর্তীতে মোছা হয়েছে বেশি 1,000 চীনের সোশ্যাল মিডিয়া ওয়েবসাইট-প্রতিটি ক্রলিং এর আশ্চর্যজনক প্রকৌশল কৃতিত্ব. বৃহদায়ত ওয়েব ক্রলিং সঙ্গে যুক্ত স্বাভাবিক ইঞ্জিনিয়ারিং সমস্যার ছাড়াও, এই প্রকল্পের যোগ চ্যালেঞ্জ এটি অত্যন্ত দ্রুত করা, কারণ অনেক সেন্সর পোস্ট কম 24 ঘন্টার মধ্যে নিচে নেয়া হয় প্রয়োজন ছিল. অন্য কথায়, একটি ধীর ক্রলার পোস্ট যে সেন্সর ছিল প্রচুর মিস্ হবে. উপরন্তু, ক্রলার পাছে সামাজিক মিডিয়া ওয়েবসাইট অ্যাক্সেস অবরুদ্ধ বা অন্যথায় অধ্যয়ন প্রতিক্রিয়ায় তাদের নীতি পরিবর্তন যখন সনাক্তকরণ ফাঁকি এই সব তথ্য সংগ্রহ করতে হতো.

এই বিশাল প্রকৌশল টাস্কটি সম্পন্ন হওয়ার সময় থেকে, রাজা এবং সহকর্মীরা 85 টি বিভিন্ন প্রসিদ্ধ বিষয়গুলিতে প্রায় 11 মিলিয়ন পোস্ট সংগ্রহ করেছেন, প্রতিটি অনুভূতিশীল অনুভূতির সাথে। উদাহরণস্বরূপ, উচ্চ সংবেদনশীলতা একটি বিষয় এআই Weiwei, অসন্তুষ্ট শিল্পী; মধ্যম সংবেদনশীলতা বিষয় একটি চীনা মুদ্রার অনুগ্রহ এবং অবমূল্যায়ন, এবং কম সংবেদনশীলতা একটি বিষয় বিশ্বকাপ হয় এই 11 মিলিয়ন পোস্টে, প্রায় 2 মিলিয়ন সেন্সর করা হয়েছে। কিছুটা আশ্চর্যজনকভাবে, রাজা ও সহকর্মীরা দেখিয়েছেন যে অত্যন্ত সংবেদনশীল বিষয়গুলিতে পোস্টগুলি কেবলমাত্র মাঝামাঝি এবং নিম্ন-সংবেদনশীলতা বিষয়গুলিতে পোস্টগুলির তুলনায় সামান্য বেশি সেন্সর করা হয়েছিল। অন্য কথায়, চীনা সেন্সরগুলো এমন একটি পোস্টের সেন্সর করার সম্ভাবনা রয়েছে যা বিশ্বব্যাপী উল্লিখিত একটি পোস্ট হিসাবে এআই ওয়েইওয়েইকে উল্লেখ করে। এই ফলাফলটি এই ধারণাকে সমর্থন করে না যে, সংবেদনশীল বিষয়গুলিতে সরকার সকল পোস্টকে সেন্সর করে।

বিষয় দ্বারা সেন্সর হারের এই সহজ গণনা ভুল হতে পারে, তবে উদাহরণস্বরূপ, সরকার এআই ওয়েইইইয়ের সমর্থনকারীর পদগুলি সেন্সর করতে পারে, কিন্তু তার পদগুলো ছেড়ে দেওয়ায় তার সমালোচনা করা যায়। পোস্টগুলির মধ্যে পার্থক্য আরও সাবধানে করার জন্য, গবেষকরা প্রতিটি পোস্টের অনুভূতি পরিমাপের প্রয়োজন। দুর্ভাগ্যবশত, অনেক কাজ সত্ত্বেও, পূর্ববর্তী অভিধানগুলি ব্যবহার করে অনুভূতি সনাক্তকরণের সম্পূর্ণ স্বয়ংক্রিয় পদ্ধতি অনেক পরিস্থিতিতে খুব ভাল নয় (সেকেন্ড ২.3.9 এ বর্ণিত 11 সেপ্টেম্বর, 2001-র একটি মানসিক সময়রেখা তৈরি করে)। অতএব, রাজা ও সহকর্মীরা তাদের 11 মিলিয়ন সোশ্যাল মিডিয়ার পোস্টগুলিকে রাষ্ট্রের সমালোচনামূলক, (2) রাষ্ট্রের সমর্থক, অথবা (3) ঘটনা সম্পর্কে অপ্রাসঙ্গিক বা সত্যিকারের প্রতিবেদনগুলি কি না তা নিয়ে লক্ষণ করার প্রয়োজন ছিল। এটি একটি বিশাল কাজ মত শোনাচ্ছে, কিন্তু তারা এটি একটি শক্তিশালী কৌতুক যা তথ্য বিজ্ঞান মধ্যে সাধারণ কিন্তু সামাজিক বিজ্ঞান অপেক্ষাকৃত বিরল ব্যবহার করে এটি সমাধান: তত্ত্বাবধানে শিক্ষণ ; চিত্র 2.5 দেখুন।

প্রথমত, একটি প্রি প্রসেসিং নামক একটি পদক্ষেপে, গবেষকরা সোশাল মিডিয়ার পোস্টগুলিকে একটি ডকুমেন্ট-মেয়াদী ম্যাট্রিক্স রূপে রূপান্তরিত করেছিলেন, যেখানে প্রতিটি ডকুমেন্টের এক সারি এবং এক কলামটি রেকর্ড করে যে পোস্টটিতে একটি নির্দিষ্ট শব্দ রয়েছে (যেমন, প্রতিবাদ বা ট্র্যাফিক) । পরবর্তীতে, গবেষণা সহকারীর একটি দল পোস্টগুলির একটি নমুনা অনুভূতিতে হস্তাক্ষর করে। তারপর, তারা একটি মেশিন লার্নিং মডেল তৈরি করতে এই হাতের লেবেলযুক্ত ডেটা ব্যবহার করেছিল যা তার বৈশিষ্ট্যগুলির উপর ভিত্তি করে একটি পোস্টের অনুভূতি অনুধাবন করতে পারে। অবশেষে, তারা 11 মিলিয়ন পোস্টের সমস্ত অনুভূতি অনুমান করার জন্য এই মডেলটি ব্যবহার করেছে।

এইভাবে, 11 মিলিয়ন পোস্ট ম্যানুয়াল পড়া এবং লেবেল করার পরিবর্তে- যা logistically অসম্ভব হবে - রাজা এবং সহকর্মীরা নিজেই একটি ছোট সংখ্যা পোস্ট লেবেল এবং তারপর সব পোস্টের অনুভূতি অনুমান নিরীক্ষণ শিক্ষার ব্যবহৃত। এই বিশ্লেষণটি সম্পন্ন করার পর, তারা এই সিদ্ধান্তে উপনীত হন যে, কিছুটা আশ্চর্যজনকভাবে, মুছে ফেলা পোস্টের সম্ভাব্যতার সাথে সম্পর্কযুক্ত ছিল কিনা তা রাষ্ট্রের সমালোচনামূলক বা রাষ্ট্রীয় সমর্থক কিনা।

চিত্র 2.5: 11 মিলিয়ন চীনা সামাজিক মিডিয়া পোস্টের অনুভূতি অনুমান করার জন্য কিং, প্যান, এবং রবার্টস (2013) দ্বারা ব্যবহৃত পদ্ধতির সরল পরিকল্পনা। প্রথমত, একটি প্রি প্রসেসিং পদক্ষেপে, গবেষকরা সোশ্যাল মিডিয়ার পোস্টগুলিকে একটি ডকুমেন্ট-মেয়াদি ম্যাট্রিক্সে রূপান্তরিত করেন (আরও তথ্যের জন্য গ্রিমার এবং স্টুয়ার্ট (2013) দেখুন)। দ্বিতীয়ত, তারা পোস্টগুলির একটি ছোট নমুনার অনুভূতিগুলিকে হাতে-কোডেড করে। তৃতীয়ত, তারা পোস্টগুলির অনুভূতি শ্রেণীভুক্ত করার জন্য একটি তত্ত্বাবধানে শিক্ষণ মডেলকে প্রশিক্ষণ প্রদান করে। চতুর্থ, তারা সব পোস্টের অনুভূতি অনুধাবন করার জন্য তত্ত্বাবধানে শেখার মডেল ব্যবহার করে। আরও বিস্তারিত বিবরণের জন্য কিং, প্যান এবং রবার্টস (2013), পরিশিষ্ট B দেখুন।

চিত্র 2.5: 11 মিলিয়ন চীনা সামাজিক মিডিয়া পোস্টের অনুভূতি অনুমান করার জন্য King, Pan, and Roberts (2013) দ্বারা ব্যবহৃত পদ্ধতির সরল পরিকল্পনা। প্রথমত, একটি প্রি প্রসেসিং পদক্ষেপে, গবেষকরা সোশ্যাল মিডিয়ার পোস্টগুলিকে একটি ডকুমেন্ট-মেয়াদি ম্যাট্রিক্সে রূপান্তরিত করেন Grimmer and Stewart (2013) আরও তথ্যের জন্য Grimmer and Stewart (2013) দেখুন)। দ্বিতীয়ত, তারা পোস্টগুলির একটি ছোট নমুনার অনুভূতিগুলিকে হাতে-কোডেড করে। তৃতীয়ত, তারা পোস্টগুলির অনুভূতি শ্রেণীভুক্ত করার জন্য একটি তত্ত্বাবধানে শিক্ষণ মডেলকে প্রশিক্ষণ প্রদান করে। চতুর্থ, তারা সব পোস্টের অনুভূতি অনুধাবন করার জন্য তত্ত্বাবধানে শেখার মডেল ব্যবহার করে। আরও বিস্তারিত বিবরণের জন্য King, Pan, and Roberts (2013) , পরিশিষ্ট B দেখুন।

শেষ পর্যন্ত, রাজা এবং সহকর্মীরা আবিষ্কার করেছিলেন যে কেবল তিন ধরনের পোস্ট নিয়মিতভাবে সেন্সর করা হয়েছিল: পর্নোগ্রাফি, সেন্সরগুলির সমালোচনা, এবং যাদের যৌথ অ্যাকশন সম্ভাব্যতা ছিল (যথা, বড় আকারের বিক্ষোভের দিকে অগ্রসর হওয়ার সম্ভাবনা)। মুছে ফেলা হয়েছে এমন একটি পোস্ট এবং বিপুল সংখ্যক পোস্টগুলি মুছে ফেলা হলে, রাজা ও সহকর্মীরা জানতে পারবেন যে সেন্সরগুলি কীভাবে কাজ করে এবং গণনা করে কাজ করে। উপরন্তু, এই বই জুড়ে ঘটবে এমন একটি থিমকে অগ্রাহ্য করে, সেগুলি তত্ত্বাবধানে শেখার পদ্ধতি যা কিছু ফলাফল ব্যবহার করে এবং তারপর একটি মেশিন লার্নিং মডেল তৈরি করে যা লেবেলটিকে বিশ্লেষণ করে - ডিজিটাল যুগে সামাজিক গবেষণায় খুব সাধারণ হয়ে ওঠে । আপনি অধ্যায় 3 অধ্যায় (প্রশ্ন জিজ্ঞাসা) এবং 5 (ভর সহযোগিতা তৈরি) অনুরূপ ছবি দেখতে পাবেন; এই একাধিক অধ্যায়ে প্রদর্শিত কয়েকটি ধারনা এক।

এই উদাহরণ- নিউ ইয়র্কের ট্যাক্সি ড্রাইভারদের কাজ এবং চীনের সরকারের সোশ্যাল মিডিয়া সেন্সরশিপ আচরণ-প্রদর্শন করে যে, বড় তথ্য উত্সের অপেক্ষাকৃত সহজ কাউন্টিং, কিছু পরিস্থিতিতে, আকর্ষণীয় ও গুরুত্বপূর্ণ গবেষণা হতে পারে। যাইহোক, উভয় ক্ষেত্রে, গবেষকরা বড় তথ্য উত্স আকর্ষণীয় প্রশ্নের আনা ছিল; তথ্য নিজেই যথেষ্ট ছিল না