2.3.1.1 বিগ

বড় ডেটাসেট শেষ করার জন্য একটি উপায় আছে; তারা নিজেদের মধ্যে শেষ না হয়.

বড় তথ্য তিনটি ভাল বৈশিষ্ট্য প্রথম সবচেয়ে আলোচিত হয়: এই বিশাল তথ্য আছে. অনেক মানুষ, জনপ্রতি তথ্য প্রচুর, অথবা সময়ের অনেক পর্যবেক্ষণ: এই তথ্য সূত্র তিনটি ভিন্ন উপায়ে বড় হতে পারে. একটি বড় ডেটাসেট হচ্ছে, বিরল ঘটনা অধ্যয়নরত ছোট পার্থক্য detecting, ও পর্যবেক্ষণকারী ডাটা থেকে কার্যকারণ অনুমান উপার্জন, গবেষণা-পরিমাপ বিষমসত্ত্বতা কিছু নির্দিষ্ট ধরনের সক্ষম. এছাড়া sloppiness একটি নির্দিষ্ট ধরনের হতে বলে মনে হয়.

প্রথম জিনিস, যার জন্য আকার অত্যান্ত সুবিধাজনক নির্দিষ্ট উপগোষ্ঠী জন্য অনুমান করতে গড় পরেও চলন্ত হয়. উদাহরণস্বরূপ, গ্যারি রাজা, জেনিফার প্যান, এবং মলি রবার্টস (2013) সম্ভাব্যতা মাপা চীন সামাজিক মিডিয়া পোস্ট সরকার দ্বারা সেন্সর করা হবে. নিজে অপসারণের এই গড় সম্ভাব্যতা বুঝতে কেন সরকার কিছু পোস্ট না কিন্তু অন্যদের সেন্সরের জন্য খুব সহায়ক নয়. কিন্তু, কারণ তাদের ডেটা সেটটি 11 মিলিয়ন পোস্ট অন্তর্ভুক্ত, রাজা এবং সহকর্মীদের এছাড়াও 85 পৃথক বিভাগ (যেমন, পর্ণোগ্রাফি, তিব্বত, বেইজিং ট্রাফিক) উপর পদের জন্য সেন্সরশিপের সম্ভাব্যতা জন্য অনুমান উত্পাদিত. বিভিন্ন ক্যাটাগরিতে পোস্টের জন্য সেন্সরশিপের সম্ভাব্যতা তুলনা করে, তারা কিভাবে এবং কেন সরকার পোস্টের নির্দিষ্ট ধরনের সেন্সর সম্পর্কে আরো বুঝতে পেরেছি. 11 হাজার পোস্ট (বদলে 11 মিলিয়ন পোস্ট) সঙ্গে, তারা এই ক্যাটেগরী নির্দিষ্ট অনুমান উত্পাদন করতে সক্ষম হত না.

দ্বিতীয়ত, আকার জন্য বিরল ঘটনা অধ্যয়নরত হয় অত্যান্ত সুবিধাজনক. উদাহরণস্বরূপ, গোয়েল এবং সহকর্মীদের (2015) বিভিন্ন উপায়ে যে টুইট ভাইরাল যেতে পারেন অধ্যয়ন চেয়েছিলেন. কারণ রি-টুইট বৃহৎ ক্যাসকেড অত্যন্ত বিরল-সম্পর্কে এক একটি আছে 3000-তারা যাতে তাদের বিশ্লেষণের জন্য পর্যাপ্ত স্থান ক্যাসকেড এটি একটি বিলিয়ন বেশি টুইট অধ্যয়ন করা প্রয়োজন.

তৃতীয়ত, বৃহৎ ডেটাসেট ছোট পার্থক্য সনাক্ত করতে গবেষকরা সক্ষম. বস্তুত, শিল্পে বড় তথ্য উপর ফোকাস অনেক এই ছোট পার্থক্য সম্পর্কে: নির্ভরযোগ্যভাবে একটি বিজ্ঞাপন উপর 1% এবং 1.1% ক্লিক থ্রু হারের পার্থক্যের detecting অতিরিক্ত রাজস্ব মিলিয়ন মিলিয়ন ডলার মধ্যে অনুবাদ করতে. কিছু বৈজ্ঞানিক সেটিংস এ ধরনের ছোট পার্থক্য বিশেষ গুরুত্বপূর্ণ নাও হতে পারে (এমনকি যদি তারা পরিসংখ্যানগত উল্লেখযোগ্য হয়). কিন্তু, কিছু নীতি সেটিংস, এই ধরনের ছোট পার্থক্য গুরুত্বপূর্ণ যখন সমষ্টিগত দেখা হতে পারে. উদাহরণস্বরূপ, যদি দুজন জনস্বাস্থ্য হস্তক্ষেপ এবং এক হয় কিঞ্চিত বেশী কার্যকর, তারপর আরো কার্যকর হস্তক্ষেপ অতিরিক্ত হাজার হাজার জীবন বাঁচান শেষ পর্যন্ত পারে সুইচিং হয়.

অবশেষে, বৃহৎ ডেটা সেট ব্যাপকভাবে পর্যবেক্ষণমূলক ডেটা থেকে কার্যকারণ অনুমান করতে আমাদের ক্ষমতা বৃদ্ধি. বৃহৎ ডেটাসেট মৌলিকভাবে গুরুত্বপূর্ণ পর্যবেক্ষণ তথ্য থেকে কার্যকারণ অনুমান তৈরীর মিলে এবং প্রাকৃতিক পরীক্ষায় দুই কৌশল যে গবেষকরা পর্যবেক্ষণমূলক থেকে কার্যকারণ দাবি তৈরীর জন্য আছে উন্নত তথ্য-উভয় ব্যাপকভাবে বৃহৎ ডেটাসেট থেকে উপকৃত সঙ্গে সমস্যার পরিবর্তন করবেন না যদিও. আমি ব্যাখ্যা এবং এই অধ্যায়ের পরবর্তী বৃহত্তর বিষদভাবে এই দাবি চিত্রিত যখন আমি গবেষণা কৌশল বর্ণনা করব.

যদিও bigness সাধারণত একটি ভাল সম্পত্তি যখন সঠিকভাবে ব্যবহৃত হয়, আমি লক্ষ্য করেছি যে bigness সাধারণভাবে একটি ধারণাগত ত্রুটি বাড়ে. যেকোনো কারণেই হোক, bigness উপেক্ষা তাদের ডেটা কিভাবে উত্পন্ন হয় গবেষকদের পরিচালিত বলে মনে হয়. Bigness র্যান্ডম ত্রুটি সম্পর্কে চিন্তা করার প্রয়োজন হ্রাস করতে পারে, এটা আসলে পদ্ধতিগত ত্রুটি সম্পর্কে চিন্তা করা প্রয়োজন, কিভাবে তথ্য সৃষ্টি এবং সংগ্রহ করা হয় মধ্যে গোঁড়ামির থেকে উঠা ত্রুটি যে আমি নিচে আরো বর্ণনা করব ধরণের বৃদ্ধি পায়. একটি ছোট ডেটা সেটটি উভয় র্যান্ডম ত্রুটি এবং নিয়মানুগ ত্রুটি গুরুত্বপূর্ণ হতে পারে, কিন্তু করা হয় একটি বৃহৎ ডেটাসেট র্যান্ডম বিভ্রান্তিতে দূরে গড় হিসাব করা যেতে পারে এবং নিয়মানুগ ত্রুটি প্রাধান্য পায়. গবেষকরা যারা নিয়মানুগ ত্রুটি ভুল জিনিস একটি সুনির্দিষ্ট অনুমান পেতে তাদের বৃহৎ ডেটাসেট ব্যবহার শেষ হবে আমার মনে হয় না; তারা অবিকল বেঠিক হবে (McFarland and McFarland 2015) .