2.2 বিগ তথ্য

গবেষণার ব্যতীত সংস্থাগুলি ও সরকার কর্তৃক বড় তথ্য তৈরি এবং সংগ্রহ করা হয়। গবেষণার জন্য এই তথ্য ব্যবহার করে, অতএব, পুনর্ব্যবহার প্রয়োজন।

ডিজিটাল যুগে সামাজিক গবেষণার মুখোমুখি হওয়ার প্রথম উপায় হল প্রায়ই যা বড় ডেটাকে বলা হয়। এই শব্দটি ব্যাপকভাবে ব্যবহার করা সত্ত্বেও, কোনও বড় তথ্য এমনকি এটি সম্পর্কে কোনও সম্মতি নেই। যাইহোক, বড় তথ্যগুলির সর্বাধিক প্রচলিত সংজ্ঞাগুলির মধ্যে একটি "3 বনাম" উপর দৃষ্টি নিবদ্ধ করে: ভলিউম, বিভিন্নতা, এবং বেগ। মোটামুটিভাবে, বিভিন্ন ধরনের ফরম্যাটে প্রচুর তথ্য রয়েছে এবং এটি ক্রমাগতভাবে তৈরি করা হচ্ছে বড় তথ্য কিছু ভক্ত এছাড়াও ভ্যারিসিটি এবং মান হিসাবে অন্যান্য "ভি" যোগ, কিছু সমালোচক যেমন অস্পষ্ট এবং ভ্যাকুয়াস হিসাবে Vs যোগ করুন, যখন। সামাজিক অনুসন্ধানের উদ্দেশ্যে 3 "ভি" (অথবা 5 "ভি" বা 7 "ভি") এর পরিবর্তে, আমি মনে করি 5 "Ws" শুরু করার জন্য একটি ভাল জায়গা: কে, কি, কোথায়, কখন , এবং কেন. আসলে, আমি মনে করি যে বড় ডেটা উত্সের দ্বারা সৃষ্ট চ্যালেঞ্জ এবং সুযোগগুলির মধ্যে অনেকগুলিই কেবল "ওয়া" থেকে অনুসরণ করে: কেন?

এনালগ যুগে, গবেষণার উদ্দেশ্যে সামাজিক অনুসন্ধানের জন্য ব্যবহৃত বেশিরভাগ তথ্যই তৈরি করা হয়েছিল। ডিজিটাল যুগে, গবেষণার ব্যতীত সংস্থাগুলি ও সরকারগুলির জন্য বিপুল পরিমাণ তথ্য তৈরি করা হচ্ছে, যেমন পরিষেবা প্রদান করা, মুনাফা উৎপাদনের এবং আইনগুলি পরিচালনা করা। ক্রিয়েটিভ মানুষ, তবে, আপনি গবেষণা জন্য এই কর্পোরেট এবং সরকারী তথ্য repurpose করতে পারেন বুঝতে পেরেছি। অধ্যায় 1 এ শিল্প উপমা ফিরে আসছে, ঠিক যেমন Duchamp শিল্প তৈরি একটি পাওয়া বস্তুর repurposed, বিজ্ঞানীরা এখন গবেষণা তৈরি করতে পাওয়া তথ্য repurpose করতে পারেন।

পুনঃপ্রতিষ্ঠার জন্য নিঃসন্দেহে বিপুল সুযোগ রয়েছে, গবেষণাগুলির জন্য তৈরি করা হয়নি এমন ডেটা ব্যবহার করে নতুন চ্যালেঞ্জগুলি উপস্থাপন করা হয়েছে উদাহরণস্বরূপ, একটি সামাজিক মিডিয়া পরিষেবা, যেমন টুইটার, একটি ঐতিহ্যগত জনমত জরিপের মত তুলনা করুন, যেমন সাধারণ সামাজিক সার্ভে। টুইটারের প্রধান লক্ষ্যগুলি তার ব্যবহারকারীদের একটি পরিষেবা প্রদান এবং মুনাফা অর্জন করা। অন্যদিকে, সাধারণ সামাজিক জরিপ, সামাজিক গবেষণার জন্য সাধারণ উদ্দেশ্যপূর্ণ তথ্য তৈরির উপর দৃষ্টি নিবদ্ধ করা হয়েছে, বিশেষ করে জনমত গবেষণার জন্য। লক্ষ্যমাত্রায় এই পার্থক্যটি বোঝায় যে জেনারেল সোশ্যাল সার্ভে দ্বারা তৈরি টুইটার এবং যে সকল তথ্য তৈরি করা হয়েছে তা বিভিন্ন বৈশিষ্ট্য রয়েছে, যদিও উভয় জনসাধারণের মতামত পড়ার জন্য ব্যবহার করা যেতে পারে। টুইটারটি স্কেল এবং গতিতে পরিচালনা করে যে জেনারেল সোশ্যাল সার্ভে মেলে না, তবে জেনারেল সোস্যাল সার্ভের মতো, টুইটার সাবধানতার সাথে ব্যবহারকারীদের সাবধান করে না এবং সময়ের সাথে সামঞ্জস্য বজায় রাখার জন্য কঠোর পরিশ্রম করে না। যেহেতু এই দুটি তথ্য সূত্র তাই ভিন্ন, এটি সাধারণ সামাজিক সার্ভে টুইটারের তুলনায় ভাল বা তদ্বিপরীত বলে বলতে বোঝায় না। আপনি বিশ্বব্যাপী মেজাজের ঘনঘন পদক্ষেপ চান (যেমন, Golder and Macy (2011) ), Golder and Macy (2011) সেরা। অন্যদিকে, যদি আপনি মার্কিন যুক্তরাষ্ট্রের মনোভাব (যেমন, DiMaggio, Evans, and Bryson (1996) ) এর মনোভাবের ধ্রুবকতার মধ্যে দীর্ঘমেয়াদী পরিবর্তন বুঝতে চান, তাহলে সাধারণ সামাজিক জরিপ হল সর্বোত্তম পছন্দ। অধিকতর সাধারণভাবে তর্ক করার চেষ্টা করা হচ্ছে যে, বড় ধরনের তথ্য উৎসগুলি অন্য ধরনের ডেটা ছাড়ার চেয়ে ভাল বা খারাপ, এই অধ্যায়টি স্পষ্ট করার চেষ্টা করবে যে কোন ধরণের গবেষণা প্রশ্নগুলি বড় তথ্য উত্সগুলির কাছে আকর্ষণীয় বৈশিষ্ট্য এবং সেগুলির কোনও ধরণের প্রশ্ন তারা হতে পারে না আদর্শ।

বড় তথ্য উত্স সম্পর্কে চিন্তা করার সময়, অনেক গবেষকরা অবিলম্বে অনুসন্ধান ইঞ্জিন লগ এবং সোশ্যাল মিডিয়া পোস্টগুলির মতো সংস্থাগুলি দ্বারা তৈরি এবং সংগৃহীত অনলাইন ডেটাতে ফোকাস করে। যাইহোক, এই সংকীর্ণ ফোকাস বড় তথ্য দুটি অন্যান্য গুরুত্বপূর্ণ উত্স ছেড়ে। প্রথমত, ক্রমবর্ধমান কর্পোরেট বড় তথ্য উত্স শারীরিক বিশ্বের ডিজিটাল ডিভাইস থেকে আসে। উদাহরণস্বরূপ, এই অধ্যায়ে, আমি আপনাকে এমন একটি গবেষণায় বলব যে, তার কর্মীদের উৎপাদনশীলতা (Mas and Moretti 2009) এর উৎপাদনশীলতা দ্বারা কীভাবে প্রভাবিত হয় তা অধ্যয়নের জন্য সুপারমার্কেটের চেক-আউট ডেটা পুনর্বিন্যস্ত করা হয়েছে। এরপর, পরবর্তী অধ্যায়গুলিতে, আমি আপনাকে এমন গবেষকদের কাছে বলব যা মোবাইল ফোনের কল রেকর্ড (Blumenstock, Cadamuro, and On 2015) এবং বৈদ্যুতিক ইউটিলিটি দ্বারা তৈরি বিলিং ডেটা (Allcott 2015) । হিসাবে এই উদাহরণ উদাহরণস্বরূপ, কর্পোরেট বড় তথ্য উত্স শুধু অনলাইন আচরণ তুলনায় আরো হয়

অনলাইন আচরণের উপর একটি সংকীর্ণ ফোকাস দ্বারা মিস করা বড় তথ্য দ্বিতীয় গুরুত্বপূর্ণ উৎস সরকার দ্বারা তৈরি তথ্য। এই সরকারী তথ্য, যা গবেষকরা সরকারি প্রশাসনিক রেকর্ডে কল করে, যেমন ট্যাক্স রেকর্ড, স্কুল রেকর্ড এবং গুরুত্বপূর্ণ পরিসংখ্যানের রেকর্ডগুলি (যেমন, জন্ম ও মৃত্যুর রেজিষ্ট্রিসমূহ) অন্তর্ভুক্ত। সরকার এই ধরনের তথ্য তৈরি করছে, কিছু ক্ষেত্রে, শত শত বছর ধরে এবং সামাজিক বিজ্ঞানীরা প্রায়শই তাদের জন্য শোষণ করছে, যতদিন সামাজিক বিজ্ঞানীরা আছেন। তবে কি পরিবর্তন হয়েছে তা ডিজিটালাইজেশন, যা সরকারকে তথ্য সংগ্রহ, প্রেরণ, সংরক্ষণ ও বিশ্লেষণ করতে নাটকীয়ভাবে এটি তৈরি করেছে। উদাহরণস্বরূপ, এই অধ্যায়ের মধ্যে, আমি আপনাকে স্টাফ অর্থনীতি সম্পর্কে একটি মৌলিক বিতর্ক মোকাবেলার জন্য নিউ ইয়র্ক সিটি সরকারের ডিজিটাল ট্যাক্সি মিটার থেকে তথ্য repurposed যে একটি গবেষণায় সম্পর্কে বলতে হবে (Farber 2015) । তারপর, পরবর্তী অধ্যায়গুলির মধ্যে, আমি আপনাদের বলব কিভাবে একটি সরকারী জরিপ (Ansolabehere and Hersh 2012) এবং একটি পরীক্ষা (Bond et al. 2012) (Ansolabehere and Hersh 2012) সরকার-সংগৃহীত ভোটের রেকর্ডগুলি ব্যবহার করা হয়েছিল।

আমি মনে করি সংস্কারের ধারণা বড় তথ্য উত্স থেকে শেখার জন্য মৌলিক, এবং তাই, বড় তথ্য উত্সগুলির বৈশিষ্ট্য (বিভাগ 2.3) এবং কীভাবে গবেষণাগুলিতে এটি ব্যবহার করা যায় (বিভাগ ২.4) সম্পর্কে আরো স্পষ্টভাবে বলতে আগে, আমি চাই পুনর্মিলন সম্পর্কে সাধারণ পরামর্শ দুটি টুকরা অফার। প্রথমত, এটি "পাওয়া" ডেটা এবং "ডিজাইন করা" ডেটাগুলির মধ্যে থাকা হিসাবে আমি যে সেটটি সেট করেছি তার বিপরীতে চিন্তা করতে প্রলুব্ধ করা যেতে পারে। এটা বন্ধ, কিন্তু এটি বেশ সঠিক নয়। যদিও, গবেষকদের দৃষ্টিকোণ থেকে, বড় তথ্য উত্স "পাওয়া", তারা শুধু আকাশ থেকে পড়ে না। পরিবর্তে, গবেষকদের দ্বারা "পাওয়া" এমন তথ্য সূত্রগুলি কিছু উদ্দেশ্যে কিছু দ্বারা ডিজাইন করা হয়েছে। যেহেতু "পাওয়া" ডেটা কারো দ্বারা ডিজাইন করা হয়েছে, আমি সর্বদা পরামর্শ দিই যে আপনি আপনার ডেটা তৈরি করে এমন লোকেদের ও প্রক্রিয়া সম্পর্কে যতটা সম্ভব বুঝতে চেষ্টা করেন। দ্বিতীয়ত, যখন আপনি তথ্য পুনরুদ্ধার করছেন, এটি আপনার সমস্যার জন্য আদর্শ ডেটাসেটটি কল্পনা করতে প্রায়ই সহায়ক হয় এবং তারপর যে আদর্শ ডেটাসেটটি আপনি ব্যবহার করছেন তার সাথে তুলনা করুন। আপনি যদি আপনার ডেটা নিজের কাছে সংগ্রহ না করে থাকেন তবে আপনার কি কি প্রয়োজন এবং আপনার কি কি আছে তা নিয়ে গুরুত্বপূর্ণ পার্থক্য থাকতে পারে। এই পার্থক্যগুলি দেখতে আপনার কাছে যে তথ্য পাওয়া যায় তা থেকে আপনি কী শিখতে পারবেন না তা স্পষ্ট করতে সাহায্য করবে এবং এটি আপনার সংগ্রহ করা নতুন ডেটা সুপারিশ করতে পারে।

আমার অভিজ্ঞতায়, সামাজিক বিজ্ঞানী ও তথ্যবিদরা খুব ভিন্নভাবে পুনর্বিবেচনা করার চেষ্টা করেন। গবেষণার জন্য পরিকল্পিত ডেটার সাথে কাজ করতে অভ্যস্ত এমন সামাজিক বিজ্ঞানী সাধারণত তার শক্তিগুলি উপেক্ষা করে পুনরাবৃত্ত তথ্য নিয়ে সমস্যাগুলি তুলে ধরার জন্য দ্রুত। অন্য দিকে, ডেটা বিজ্ঞানী সাধারণত তার দুর্বলতাগুলি উপেক্ষা করে পুনরাবৃত্ত তথ্য উপভোগ করতে নির্দেশ করে। স্বাভাবিকভাবেই, সর্বোত্তম পদ্ধতি হল একটি সংকর উপাদান। যে, গবেষকরা বড় তথ্য সূত্রের বৈশিষ্ট্যগুলি বোঝার প্রয়োজন- উভয়ই ভাল এবং মন্দ- এবং তারপর তাদের কাছ থেকে শেখার কী কী কীভাবে চিন্তা করে। এবং, এই অধ্যায়ে বাকি জন্য পরিকল্পনা। পরবর্তী বিভাগে, আমি বড় তথ্য উত্স দশ সাধারণ বৈশিষ্ট্য বর্ণনা করবে। তারপর, নিম্নোক্ত বিভাগে, আমি তিনটি গবেষণা পন্থা বর্ণনা করব যা এই ধরনের ডেটার সাথে ভাল কাজ করতে পারে।