2.2 বিগ তথ্য

বিগ তথ্য সৃষ্টি এবং গবেষণার চেয়ে অন্য কাজে সরকার দ্বারা সংগ্রহ করা হয়. গবেষণার জন্য এই তথ্য ব্যবহার করে, সুতরাং, repurposing প্রয়োজন.

সামাজিক গবেষণার একটি idealized দৃশ্য একজন বিজ্ঞানী একটি ধারণা হচ্ছে এবং তারপর যে ধারণা পরীক্ষা করার জন্য তথ্য সংগ্রহ কল্পনা. গবেষণার এই বিন্যাসে গবেষণা প্রশ্ন এবং তথ্য মধ্যে একটা সংকুচিত হইয়া বাড়ে, কিন্তু এটা সীমিত একটি পৃথক গবেষক প্রায়ই সম্পদ যেমন, বড় ধনী, এবং জাতিগতভাবে-প্রতিনিধি তথ্য হিসাবে তথ্য তারা প্রয়োজন, সংগ্রহ করা প্রয়োজন হবে না, কারণ. যেমন সাধারণ সামাজিক সার্ভে (GSS), আমেরিকান ন্যাশনাল ইলেকশন স্টাডি (ANES), এবং আয় ডাইনামিক্স প্যানেল স্টাডি (PSID) হিসাবে অতএব, অতীতে সামাজিক গবেষণার অনেক ব্যবহার করেছেন বড় মাপের সামাজিক সার্ভে. এই বড় মাপের সমীক্ষা সাধারণত গবেষকদের একটি দল দ্বারা পরিচালিত হয় এবং তারা তথ্য যে অনেক গবেষক দ্বারা ব্যবহার করা যেতে পারে তৈরি করার জন্য ডিজাইন করা হয়. এই বড় মাপের সমীক্ষা লক্ষ্যগুলি কারণ, মহান যত্ন তথ্য সংগ্রহ নকশা এবং গবেষক দ্বারা ব্যবহারের জন্য ফলে ডেটা প্রস্তুতি পুরা. এই তথ্য গবেষকরা ও গবেষকদের জন্য হয়.

ডিজিটাল বয়স উত্স ব্যবহার অধিকাংশ সামাজিক গবেষণা, তবে মৌলিকভাবে ভিন্ন. পরিবর্তে গবেষক ও গবেষকদের জন্য সংগৃহীত তথ্য ব্যবহার করে, এটি ডাটা উত্স সৃষ্টি করেছেন এবং এই ধরনের একটি মুনাফা তৈরীর একটি সেবা প্রদান, বা একটি আইন administering হিসাবে তাদের নিজস্ব উদ্দেশ্য জন্য ব্যবসা এবং সরকার দ্বারা সংগ্রহ করা হয়েছে যে ব্যবহার. এই ব্যবসা এবং সরকারের তথ্য সূত্র বড় তথ্য বলা যেতে আসতে হবে. বড় তথ্য দিয়ে গবেষণা করছেন তথ্য যে মূলত গবেষণার জন্য তৈরি করা হয়েছে সঙ্গে গবেষণা করছেন তুলনায় ভিন্ন. তুলনা করুন, উদাহরণস্বরূপ, যেমন টুইটার হিসাবে একটি সামাজিক মিডিয়া ওয়েবসাইট, যেমন সাধারণ সামাজিক সার্ভে (GSS) হিসাবে একটি ঐতিহ্যগত জনমত জরিপ. টুইটার এর প্রধান লক্ষ্য তার ব্যবহারকারীদের জন্য একটি সেবা প্রদান এবং একটি লাভ করতে হয়. এই লক্ষ্য অর্জনের প্রক্রিয়া, টুইটার তথ্য যে জনমত এর কিছু দিক অধ্যয়নরত জন্য উপযোগী হতে পারে সৃষ্টি. কিন্তু, সাধারণ সামাজিক সার্ভে (GSS) অসদৃশ, টুইটার না প্রাথমিকভাবে সামাজিক গবেষণা উপর দৃষ্টি নিবদ্ধ করা হয়.

শব্দটি বড় তথ্য frustratingly অস্পষ্ট, এবং এটা অনেক ভিন্ন জিনিস গ্রুপ একসঙ্গে. সামাজিক গবেষণার উদ্দেশ্য পূরণকল্পে, আমি মনে করি এটা বড় তথ্য উৎসের দুই ধরণের মধ্যে পার্থক্য করতে সহায়ক হয়. সরকার প্রশাসনিক রেকর্ড ও ব্যবসা প্রশাসনিক রেকর্ডপত্র সরকারের প্রশাসনিক রেকর্ড তথ্য তাদের রুটিন কার্যক্রম অংশ হিসাবে সরকার দ্বারা তৈরি করা হয় যে হয়. রেকর্ডের এই ধরণের-যেমন গত অধ্যয়নরত জন্ম, বিবাহ, এবং মৃত্যুর রেকর্ড কিন্তু সরকার ক্রমবর্ধমান সংগ্রহ ও analyzable ফর্ম বিস্তারিত রেকর্ড মুক্তি হয় জনসংখ্যাবিদদের হিসাবে গবেষক দ্বারা ব্যবহৃত হয়েছে. উদাহরণস্বরূপ, নিউ ইয়র্ক সিটি সরকার শহরে যে ট্যাক্সির ভিতরে ডিজিটাল মিটার ইনস্টল. এই মিটার চালক, শুরুর সময় এবং অবস্থান, স্টপ সময় এবং অবস্থান, এবং ভাড়া সহ প্রতিটি ট্যাক্সি যাত্রায় সম্পর্কে তথ্য সব ধরণের রেকর্ড. একটি গবেষণায় যে আমি এই অধ্যায়ে পরে বলব সালে হেনরী Farber (2015) ঘনঘন মজুরি এবং ঘন্টা কাজ সংখ্যার মধ্যে সম্পর্ক সম্পর্কে শ্রম অর্থনীতি একটি মৌলিক বিতর্ক মোকাবেলার এই তথ্য পরে সেটির.

সামাজিক গবেষণার জন্য বড় তথ্য দ্বিতীয় প্রধান টাইপ ব্যবসার প্রশাসনিক রেকর্ড হয়. এই তথ্য যে ব্যবসা তৈরি এবং তাদের রুটিন কার্যক্রম অংশ হিসাবে সংগ্রহ করা হয়. এই ব্যবসার প্রশাসনিক রেকর্ড প্রায়ই ডিজিটাল ট্রেস বলা হয়, এবং সার্চ ইঞ্জিন কোয়েরি লগ সোশ্যাল মিডিয়া পোস্ট ভালো জিনিস অন্তর্ভুক্ত, এবং মোবাইল ফোন থেকে রেকর্ড কল. গুরুতর, এই ব্যবসা প্রশাসনিক রেকর্ড শুধু অনলাইন আচরণ সম্পর্কে নয়. উদাহরণস্বরূপ, দোকানে যে চেক-আউট স্ক্যানার ব্যবহার কর্মী উৎপাদনশীলতা বাস্তব সময় পরিমাপ করে তৈরি করা হয়. একটি গবেষণায় যে আমি আপনি এই অধ্যায়ে সম্পর্কে পরে বলব মধ্যে, আলেকজান্দ্রো Mas এবং এনরিকো Moretti (2009) অধ্যয়ন কিভাবে একটি শ্রমিকদের উত্পাদনশীলতা তাদের সহকর্মীরা উৎপাদনশীলতা দ্বারা প্রভাবিত হয় এই সুপারমার্কেট চেক-আউট তথ্য পরে সেটির.

এই উদাহরণ উভয় চিত্রিত হিসাবে, repurposing ধারণা বড় তথ্য থেকে শেখার জন্য একটি মৌলিক বিষয়. আমার অভিজ্ঞতায়, সমাজবিজ্ঞানী ও তথ্য বিজ্ঞানীরা এই খুব ভিন্নভাবে repurposing নিকটে. সমাজ বিজ্ঞানী, যারা গবেষণা জন্য ডিজাইন করা ডেটা সঙ্গে কাজ করতে অভ্যস্ত হয়, সেটির তথ্য সঙ্গে সমস্যা পয়েন্ট আউট যখন তার শক্তি উপেক্ষা দ্রুত. অপরপক্ষে, তথ্য বিজ্ঞানীরা পরে সেটির তথ্য সুবিধাগুলো বাতলান যখন তার দুর্বলতা উপেক্ষা দ্রুত. স্বাভাবিকভাবেই, সবচেয়ে ভালো উপায় একটি সংকর হবে. যে গবেষকদের তথ্য-উভয় ভাল এবং খারাপ এবং তারপর তাদের কাছ থেকে শিখতে জিনিসটা কিভাবে এই নতুন উৎসের বৈশিষ্ট্য বুঝতে হবে, হয়. আর যে এই অধ্যায়ের বাকি জন্য পরিকল্পনা. এর পরে, আমি ব্যবসা এবং সরকারের প্রশাসনিক ডাটা দশ সাধারণ বৈশিষ্ট্য বর্ণনা করবে. এর পর, আমি তিনটি গবেষণা পন্থা যে এই তথ্য, পন্থা যে ভাল এই তথ্য বৈশিষ্ট্য উপযোগী হয় সঙ্গে ব্যবহার করা যেতে পারে বর্ণনা করবে.