2.1 تعارف

ینالاگ عمر میں، کے بارے میں اعداد و شمار جمع رویے جو مہنگی، اور اس وجہ سے، نسبتا کم ہوتے ہیں جب تھا ہے کرتا ہے. اب، ڈیجیٹل دور میں، لوگوں کے اربوں کے طرز عمل، ریکارڈ محفوظ کیا، اور analyzable رہے ہیں. مثال کے طور پر، آپ کو ایک ویب سائٹ پر کلک ہر بار، آپ کے موبائل فون پر ایک کال کرنے کے، یا آپ کے کریڈٹ کارڈ کے ساتھ کسی چیز کے لئے ادائیگی کرتے ہیں، آپ کے رویے کی ایک ڈیجیٹل ریکارڈ بنایا اور ایک کاروبار کی طرف سے محفوظ کیا جاتا ہے. ان اعداد و شمار لوگوں کے جو کہ ہر دن کے اعمال کی ایک کی طرف سے مصنوعات ہیں، وہ اکثر ڈیجیٹل نشانات کہا جاتا ہے. کاروبار کی طرف سے منعقد کی ان نشانات کے علاوہ میں، حکومتوں نے بھی افراد اور کاروباری اداروں دونوں کے بارے میں ناقابل یقین حد تک امیر کے اعداد و شمار، ڈیٹا کے اکثر DIGITIZED اور analyzable ہے جو. ساتھ مل کر ان کے کاروبار اور حکومت کے ریکارڈ کے اکثر بڑے اعداد و شمار کو کہا جاتا ہے.

بڑے اعداد و شمار کے کبھی بڑھتی ہوئی سیلاب کا مطلب ہے کہ رویوں کے اعداد و شمار کے ایک ایسی دنیا رویوں کے اعداد و شمار بہت ہے جہاں قلیل تھا جہاں ہم ایک ایسی دنیا سے چلے گئے ہیں. لیکن، ان اقسام کے اعداد و شمار نسبتا نئی ہے کیونکہ، ان کا استعمال تحقیق کے ایک بدقسمتی رقم آنکھ بند دستیاب اعداد و شمار کا پیچھا سائنس دانوں کی طرح لگتا ہے. اس باب میں، بجائے، اعداد و شمار کے مختلف ذرائع کو سمجھنے کے لئے ایک اصولی نقطہ نظر پیش کرتا ہے اور وہ کس طرح استعمال کیا جا سکتا. یہ امیر تفہیم آپ کو بہتر کے اعداد و شمار کے مناسب ذرائع کے آپ کی تحقیق سوالات سے ملنے میں مدد کرنا چاہئے. یا، اس طرح موجودہ ذرائع کمی کر رہے ہیں تو، آپ کو مستقبل کے ابواب میں خیالات کا استعمال کرتے ہوئے اپنی خود کی ڈیٹا کو جمع کرنے کی قائل.

پریکشتاتمک ڈیٹا: بگ ڈیٹا سے سیکھنے کے لئے ایک پہلا قدم یہ کئی سالوں کے لئے سوشل ریسرچ کے لئے استعمال کیا گیا ہے کہ اعداد و شمار کے ایک وسیع تر زمرے کا حصہ ہے کہ احساس کرنے کے لئے ہے. تقریبا، پریکشتاتمک ڈیٹا کو کسی طرح سے مداخلت کے بغیر ایک سماجی نظام کا مشاہدہ سے نتائج کہ کسی بھی اعداد و شمار ہے. اس کے بارے میں سوچنے کے لئے ایک خام طریقہ پریکشتاتمک ڈیٹا کو لوگوں (مثلا، سروے، باب 3 کے موضوع) یا لوگوں کی ماحول (مثلا، تجربات، باب 4 کے موضوع) تبدیل کرنے کے ساتھ بات کر شامل نہیں ہے کہ سب کچھ ہے ہے. اس طرح، کاروبار اور حکومت کے ریکارڈ کے علاوہ میں، پریکشتاتمک ڈیٹا بھی اخبار کے مضامین اور سیٹلائٹ تصاویر میں سے متن کی طرح باتیں شامل ہیں.

اس باب کے تین حصے ہیں. سب سے پہلے، سیکشن 2.2 میں، میں نے بڑی ڈیٹا مزید تفصیل سے بیان کریں اور یہ اور عام طور پر ماضی میں سماجی تحقیق کے لیے استعمال کیا گیا ہے کہ اعداد و شمار کے درمیان ایک بنیادی فرق کو واضح. اس کے بعد، سیکشن 2.3 میں، میں نے بڑی اعداد و شمار ذرائع کے دس مشترکہ خصوصیات کی وضاحت. ان خصوصیات کو سمجھنا ہمیں فوری طور پر طاقت اور موجودہ ذرائع کی کمزوریوں کو تسلیم کرنے اور ہمیں مستقبل میں پیدا کیا جائے گا کہ نئے ذرائع بروئے کار لانے میں مدد ملے گی کے قابل بناتا ہے. گنتی چیزیں، موسمیاتی پیش گوئی چیزیں، اور ایک تجربہ approximating: آخر میں، سیکشن 2.4 میں، میں نے آپ کو پریکشتاتمک کے اعداد و شمار سے سیکھنے کے لئے استعمال کر سکتے ہیں تین اہم تحقیق کی حکمت عملی کی وضاحت.