2.2 بگ ڈیٹا

بگ ڈیٹا کو پیدا کیا اور تحقیق کے علاوہ دیگر مقاصد کے لئے حکومتوں کی طرف سے جمع کر رہے ہیں. تحقیق کے لئے اس ڈیٹا کا استعمال کرتے ہوئے، اس وجہ سے، repurposing کا تقاضہ کرتا ہے.

سماجی تحقیق کے ایک نمونوں کے ذریعے قول ایک سائنسدان ایک خیال رکھنے اور اس کے بعد اس خیال کو ٹیسٹ کرنے کے اعداد و شمار جمع تصور. تحقیق کے اس طرز تحقیق سوال اور ڈیٹا کے درمیان ایک تنگ فٹ کی طرف جاتا ہے، لیکن ایک فرد کے محقق اکثر اس طرح کے طور پر، بڑے امیر، اور قومی نمائندے کے اعداد و شمار کو ان کی ضرورت کے اعداد و شمار جمع کرنے کے لئے ضروری وسائل کی ضرورت نہیں ہے، کیونکہ یہ محدود ہے. اس طرح جنرل سوشل سروے (GSS)، امریکی قومی الیکشن مطالعہ (ANES) اور انکم ڈائنامکس کے پینل مطالعہ (PSID) کے طور پر اس وجہ سے، ماضی میں سماجی تحقیق کے ایک بہت استعمال کیا ہے بڑے پیمانے پر سماجی سروے،. یہ بڑے پیمانے پر سروے عام طور پر محققین کی ایک ٹیم کی طرف سے چلائے جا رہے ہیں اور وہ بہت سے محققین کی طرف سے استعمال کیا جا سکتا ہے کہ اعداد و شمار کو پیدا کرنے کے لئے ڈیزائن کر رہے ہیں. ان بڑے پیمانے پر سروے کے مقاصد کی وجہ سے، بہت احتیاط کے اعداد و شمار جمع ڈیزائن اور محققین کی طرف سے استعمال کے لئے نتیجے میں ڈیٹا کی تیاری میں ڈال دیا ہے. یہ اعداد و شمار محققین کی طرف سے اور محققین کے لئے ہیں.

ڈیجیٹل دور کے ذرائع کو استعمال کرتے ہوئے میں سے زیادہ تر سماجی تحقیق، تاہم، بنیادی طور پر مختلف ہے. اس کے بجائے محققین کی طرف سے اور محققین کے لئے جمع اعداد و شمار کا استعمال کرتے ہوئے کی، یہ اعداد و شمار کے ذرائع پیدا اور جیسا کہ، ایک منافع بخش بنانے کے ایک سروس فراہم کرنے، یا ایک قانون انتظام ان کے اپنے مقاصد کے لئے کاروباری اداروں اور حکومتوں کی طرف سے جمع کیا گیا ہے کہ استعمال کرتا ہے. یہ کاروبار اور حکومت کے اعداد و شمار کے ذرائع بڑی ڈیٹا بلایا جائے کے لئے آئے ہیں. بڑے اعداد و شمار کے ساتھ تحقیق کرنے سے اصل میں تحقیق کے لئے پیدا کیا گیا ہے کہ اعداد و شمار کے ساتھ تحقیق کرنے سے مختلف ہے. مثال کے طور پر، کا موازنہ کریں، اس طرح کے ٹویٹر کے طور پر سوشل میڈیا ویب سائٹس،، اس طرح جنرل سوشل سروے (GSS) کے طور پر ایک روایتی رائے عامہ کے سروے کے ساتھ. ٹوئٹر کی اہم اہداف اس کے صارفین کے لئے ایک سروس فراہم کرنے کے لئے اور ایک منافع بخش بنانے کے لئے ہیں. ان مقاصد کو حاصل کرنے کے عمل میں، ٹویٹر ڈیٹا رائے عامہ کے کچھ پہلوؤں کی تعلیم حاصل کرنے کے لئے مفید ہو سکتا ہے کہ پیدا کرتا ہے. لیکن، جنرل سوشل سروے (GSS) کے برعکس، ٹویٹر نہ سوشل ریسرچ پر بنیادی طور پر مرکوز ہے.

اصطلاح بڑی ڈیٹا مایوسی مبہم ہے، اور یہ بہت سے مختلف چیزوں کے گروپوں کے ساتھ مل کر. سماجی تحقیق کے مقاصد کے لئے، میرے خیال میں یہ بڑی ڈیٹا کے ذرائع کی دو اقسام کے درمیان تمیز کرنے کے لئے مددگار ہے. حکومت انتظامی ریکارڈ اور کاروباری انتظامی ریکارڈ حکومت کے انتظامی ڈیٹا ریکارڈ سے اپنے معمول کی سرگرمیوں کے حصہ کے طور پر حکومتوں کی طرف سے پیدا کر رہے ہیں ہیں. ریکارڈز کی یہ قسم، اس طرح کے ماضی کے طور پر پیدائش، شادی اور موت کے ریکارڈز-لیکن حکومتوں کو تیزی سے جمع اور analyzable حالتوں میں تفصیلی ریکارڈ جاری کر رہے ہیں زیر تعلیم demographers میں محققین کی طرف سے استعمال کیا گیا ہے. مثال کے طور پر، نیویارک سٹی حکومت شہر میں ہر ٹیکسی کے اندر ڈیجیٹل میٹر نصب. یہ میٹر ڈرائیور، آغاز وقت اور مقام، سٹاپ وقت اور مقام، اور کرایہ سمیت ہر ٹیکسی کی سواری کے بارے میں اعداد و شمار کے تمام قسم کے کو ریکارڈ. ایک مطالعہ ہے کہ میں نے اس باب میں بعد میں بتاتا ہوں میں، ہینری Farber کے (2015) فی گھنٹہ اجرت اور کام کیا گھنٹوں کی تعداد کے درمیان تعلقات کے بارے میں لیبر معاشیات میں ایک بنیادی بحث کو حل کرنا ان اعداد و شمار repurposed کیا.

سوشل ریسرچ بڑی ڈیٹا کا دوسرا اہم قسم کے کاروبار انتظامی ریکارڈ ہے. یہ اعداد و شمار کے کاروبار بنانے اور اپنے معمول کی سرگرمیوں کے حصہ کے طور پر جمع ہیں. یہ کاروباری انتظامی ریکارڈ اکثر ڈیجیٹل نشانات کہا جاتا ہے، اور تلاش کے انجن کے سوال نوشتہ، سوشل میڈیا خطوط کی طرح باتیں شامل ہیں، اور موبائل فونز سے کال ریکارڈز. شدید، ان کاروباری انتظامی ریکارڈ صرف آن لائن رویے کے بارے میں نہیں ہیں. مثال کے طور پر، چیک آؤٹ اسکینرز استعمال کرنے والی دکانوں کارکن پیداوری کے اصل وقت کے اقدامات پیدا کر رہے ہیں. ایک مطالعہ ہے کہ میں کے بارے میں بعد اس باب میں آپ کو بتاتا ہوں میں، الیگزینڈر مہینے اور ینریکو Moretti کے (2009) ایک کارکنوں کی پیداوری ان کے ساتھیوں کی پیداوری کی طرف سے متاثر کیا جاتا ہے کس طرح مطالعہ کرنے کے لئے اس سپر مارکیٹ کے چیک آؤٹ کے اعداد و شمار repurposed کیا.

ان مثالوں میں سے دونوں کی نمائندگی کرتی ہے کے طور پر، repurposing کا کے خیال کے بڑے اعداد و شمار سے سیکھنے کے لئے بنیادی ہے. میرے تجربے میں، سماجی سائنسدانوں اور ڈیٹا سائنسدانوں کو یہ بہت مختلف طریقے سے repurposing کا رجوع. سماجی سائنسدانوں، جو تحقیق کے لئے ڈیزائن کے اعداد و شمار کے ساتھ کام کرنے کے عادی رہے ہیں، اس کی طاقت نظر انداز کرتے ہوئے repurposed کیا اعداد و شمار کے ساتھ مسائل کی نشاندہی کرنا جلدی کر رہے ہیں. دوسری طرف، ڈیٹا سائنسدانوں کو اس کی کمزوریوں کو نظر انداز کرتے ہوئے repurposed کیا اعداد و شمار کے فوائد باہر کی طرف اشارہ کرنے کے لئے فوری ہیں. قدرتی طور پر، سب سے بہترین نقطہ نظر ایک ہائبرڈ ہو گا. یہی وجہ ہے کہ محققین کے اعداد و شمار پر اچھے اور برے دونوں-اور پھر پتہ لگا ان سے سیکھنے کے لئے کس طرح ان نئے ذرائع کی خصوصیات کو سمجھنے کی ضرورت ہے. اور یہ کہ اس باب کے باقی کے لئے منصوبہ بندی کی ہے. اگلا، میں کاروبار اور حکومت انتظامی ڈیٹا کے دس مشترکہ خصوصیات کی وضاحت کریں گے. اس کے بعد، میں نے ان اعداد و شمار، کے ساتھ ساتھ اس ڈیٹا کی خصوصیات کی مناسبت سے تیار ہے کہ نقطہ نظر کے ساتھ استعمال کیا جا سکتا ہے کہ تین تحقیقی نقطہ نظر کی وضاحت کریں گے.