2.2 بگ ڈیٹا

بڑی اعداد و شمار کمپنیوں اور حکومتوں کی طرف سے تحقیق کے علاوہ مقاصد کے لئے پیدا اور جمع کیے جاتے ہیں. تحقیق کے لئے اس اعداد و شمار کا استعمال کرتے ہوئے، دوبارہ بازی کرنے کی ضرورت ہے.

پہلی ڈیجیٹل عمر میں سب سے پہلے لوگ معاشرتی تحقیقات کا سامنا کرتے ہیں، جو اکثر بڑے اعداد و شمار سے متعلق ہوتے ہیں . اس اصطلاح کے وسیع پیمانے پر استعمال کے باوجود، اس کے بارے میں کوئی اتفاق نہیں ہے کہ کتنا بڑا ڈیٹا بھی ہے. تاہم، بڑے اعداد و شمار کے سب سے زیادہ عام تعریفوں میں سے ایک "3 ویز": حجم، مختلف قسم، اور رفتار پر توجہ مرکوز کرتا ہے. بہت سارے فارمیٹس میں، بہت سے اعداد و شمار ہیں، اور یہ مسلسل تیار کیا جا رہا ہے. بڑے اعداد و شمار کے کچھ شائقین بھی دوسرے "ویز" جیسے ویرٹیتا اور ویلیو کو شامل کرتے ہیں، جبکہ بعض اخلاقیات جیسے ویز اور چھٹکارا شامل ہیں. بلکہ سماجی تحقیق کے مقاصد کے لئے، 3 "ویز" (یا 5 "ویز" یا 7 "ویز") کے مقابلے میں، مجھے لگتا ہے کہ ایک بہتر جگہ شروع کرنے کے لئے 5 "Ws" ہے: کون، کیا، کہاں، جب ، اور کیوں. دراصل، مجھے لگتا ہے کہ بڑی اعداد و شمار کے وسائل کی طرف سے پیدا ہونے والے بہت سے چیلنجوں اور مواقع صرف ایک "W" پر عمل کرتے ہیں: کیوں.

ینالاگ عمر میں، سماجی تحقیق کے لئے استعمال کیا گیا اعداد و شمار کے زیادہ سے زیادہ اعداد و شمار تحقیق کرنے کے مقصد کے لئے پیدا کیا گیا تھا. تاہم، ڈیجیٹل عمر میں کمپنیوں اور حکومتوں نے تحقیقات کے علاوہ مقاصد کے لئے بہت سارے ڈیٹا پیدا کیے ہیں، جیسے خدمات فراہم کرنے، پیدا ہونے والی منافع اور انتظامی قوانین. تاہم، تخلیقی افراد نے محسوس کیا ہے کہ آپ تحقیق کے لئے یہ کارپوریٹ اور سرکاری اعداد و شمار دوبارہ کر سکتے ہیں. باب 1 میں آرٹ تعصب میں سوچتے ہیں، جیسے جیسے ڈچپیمپ نے آرٹ بنانے کے لئے ایک پایا اعتراض کو دوبارہ نکال دیا، سائنسدان اب اعداد و شمار کو دوبارہ تلاش کرنے کے لئے دوبارہ تلاش کرسکتے ہیں.

اگرچہ بے شک بے معتبر مواقع کے لئے بہت سے مواقع موجود ہیں، تحقیق کے مقاصد کے لئے نہیں بنائے گئے اعداد و شمار کا استعمال کرتے ہوئے نئے چیلنجز بھی پیش کرتے ہیں. مثال کے طور پر، مثال کے طور پر، ایک سوشل میڈیا سروس، جیسے ٹویٹر، روایتی عوامی رائے سروے کے ساتھ، جیسا کہ جنرل سوشل سروے. ٹویٹر کے اہم مقاصد اس کے صارفین کے لئے ایک سروس فراہم کرنے اور منافع بنانے کے لئے ہیں. عام سماجی سروے، دوسری جانب، سماجی تحقیق کے لئے عام مقصد کے اعداد و شمار کو پیدا کرنے پر توجہ مرکوز کی جاتی ہے، خاص طور پر عوامی رائے ریسرچ کے لئے. مقاصد میں اس فرق کا مطلب یہ ہے کہ ٹویٹر کی تخلیق کردہ اعداد و شمار اور عام سماجی سروے کی طرف سے پیدا کردہ مختلف خصوصیات ہیں، اگرچہ دونوں عوامی رائے کا مطالعہ کرنے کے لئے استعمال کیا جا سکتا ہے. ٹویٹر ایک پیمانے پر اور رفتار پر چلتا ہے کہ جنرل سوشل سروے سے مل کر نہیں مل سکتا، لیکن، سماجی سروے کے برعکس، ٹویٹر کو صارفین کو احتیاط سے نمٹنے نہیں دیتا اور وقت کے ساتھ نسبتا برقرار رکھنے کے لئے سخت محنت نہیں کرتا. چونکہ یہ دو اعداد و شمار کے ذرائع بہت مختلف ہیں، یہ یہ سمجھ نہیں آتی کہ جنرل سوشل سروے ٹویٹر یا اس کے برعکس بہتر ہے. اگر آپ گلوبل موڈ کے گھڑی کے اقدامات چاہتے ہیں (مثال کے طور پر، Golder and Macy (2011) )، ٹویٹر بہترین ہے. دوسری جانب، اگر آپ ریاست ہائے متحدہ امریکہ (جیسے مثال کے طور پر، DiMaggio, Evans, and Bryson (1996) میں رویوں کے polarization میں طویل مدتی تبدیلیوں کو سمجھنا چاہتے ہیں، تو عام سماجی سروے کا بہترین انتخاب ہے. زیادہ تر عام طور پر، اس بڑے اعداد و شمار کے ذرائع کے بارے میں بحث کرنے کی بجائے دیگر اقسام کے اعداد و شمار سے بہتر یا بدتر ہیں، یہ باب اس بات کی وضاحت کرے گی کہ جس قسم کے تحقیقاتی سوالات کے بارے میں بہت سے ڈیٹا کے ذرائع کو کشش خصوصیات ہیں اور جس قسم کے سوالات ہیں مثالی.

بڑے اعداد و شمار کے ذرائع کے بارے میں سوچتے وقت، بہت سے محققین کو فوری طور پر کمپنیوں کی طرف سے تشکیل اور جمع آن لائن اعداد و شمار پر توجہ مرکوز، جیسے سرچ انجن لاگس اور سوشل میڈیا پوزیشن. تاہم، یہ تنگ توجہ بڑے اعداد و شمار کے دو دیگر اہم ذرائع کو چھوڑ دیتا ہے. سب سے پہلے، تیزی سے کارپوریٹ بڑے اعداد و شمار ذرائع جسمانی دنیا میں ڈیجیٹل آلات سے آتے ہیں. مثال کے طور پر، اس باب میں، میں آپ کو ایک مطالعہ کے بارے میں بتاتا ہوں کہ اس کا مطالعہ کرنے کے لئے سپر مارکیٹ جانچ پڑتال کے اعدادوشمار کو دوبارہ پڑھایا جائے گا کہ اس کے ساتھیوں (Mas and Moretti 2009) پیداوار کی طرف سے کارکن کی پیداوار کو متاثر کیا جائے. اس کے بعد، بعد میں بابوں میں، میں آپ کو تجزیہ کاروں کے بارے میں بتاؤں گا جو موبائل فونز سے کال ریکارڈز کا استعمال کرتے تھے (Blumenstock, Cadamuro, and On 2015) اور برقی افادیت (Allcott 2015) کی تخلیق کردہ بلنگ کا ڈیٹا. جیسا کہ ان مثالوں کی وضاحت کی جاتی ہے، کارپوریٹ بڑے ڈیٹا ذرائع صرف آن لائن رویے سے کہیں زیادہ ہیں.

آن لائن رویے پر تنگ توجہ کی وجہ سے بڑے اعداد و شمار کا دوسرا اہم ذریعہ حکومتوں کی طرف سے پیدا کردہ اعداد و شمار ہے. ان حکومتی اعدادوشمار، جو محققین حکومتی انتظامی ریکارڈز کو کہتے ہیں، ٹیکس کے ریکارڈ، اسکول کے ریکارڈ، اور اہم اعداد و شمار کے ریکارڈ (مثال کے طور پر، پیدائش اور موت کے رجسٹرڈ) جیسے چیزوں میں شامل ہیں. حکومتی اداروں کے لئے ان قسم کے اعداد و شمار پیدا کیے جا رہے ہیں، بعض معاملات میں، سینکڑوں سال، اور سماجی سائنسدان ان کی استحصال کر رہے ہیں جب تک وہ سماجی سائنسدان ہیں. تاہم، کیا تبدیل ہوا ہے، تاہم، ڈیجیٹلائزیشن ہے، جس نے حکومتوں کو اعداد و شمار جمع کرنے، منتقل کرنے، اسٹور اور تجزیہ کرنے کے لئے اسے ڈرامائی طور پر آسان بنا دیا ہے. مثال کے طور پر، اس باب میں، میں آپ کو ایک مطالعہ کے بارے میں بتاتا ہوں کہ نیویارک سٹی حکومت کی ڈیجیٹل ٹیکسی میٹر سے اعداد و شمار کو دوبارہ بدترین کرنے کے لۓ مزدوری کی معیشت (Farber 2015) میں بنیادی بحث کو حل کرنے کے لئے. اس کے بعد، بعد میں بابوں میں، میں آپ کو بتاتا ہوں کہ کس طرح حکومت کے جمع کردہ ریکارڈ ریکارڈز سروے (Ansolabehere and Hersh 2012) اور ایک تجربے (Bond et al. 2012) .

مجھے لگتا ہے کہ بڑے اعداد و شمار کے وسائل سے سیکھنے کے لئے بنیادی طور پر ریورسنگنگ کا خیال بنیادی طور پر بڑے اعداد و شمار کے ذرائع (سیکشن 2.3) کی خصوصیات اور اس کی تحقیق (سیکشن 2.4) میں استعمال کیا جاسکتا ہے. repurposing کے بارے میں عام مشورہ کے دو ٹکڑے پیش کرتے ہیں. سب سے پہلے، یہ اس کے برعکس سوچنے کے لئے پریشان ہوسکتا ہے کہ میں نے "پایا" ڈیٹا اور "ڈیزائن" ڈیٹا کے درمیان ہونے کی حیثیت سے قائم کیا ہے. یہ قریب ہے، لیکن یہ بالکل صحیح نہیں ہے. اگرچہ، محققین کے نقطہ نظر سے، بڑے اعداد و شمار کے ذریعہ "پایا" ہے، وہ صرف آسمان سے نہیں گرتے ہیں. اس کے بجائے، اعداد و شمار کے ذریعہ جو محققین کی طرف سے "پائے جاتے ہیں" کو کسی مقصد کے ذریعہ کسی مقصد کے لئے ڈیزائن کیا گیا ہے. کیونکہ "پایا" ڈیٹا کسی کے ذریعہ ڈیزائن کیا گیا ہے، میں ہمیشہ یہ مشورہ دیتا ہوں کہ آپ لوگوں اور عملوں کے بارے میں زیادہ سے زیادہ ممکنہ طور پر سمجھنے کی کوشش کریں جو آپ کے ڈیٹا کو بنائے. دوسرا، جب آپ اعداد و شمار کو دوبارہ ترتیب دے رہے ہیں، تو اکثر اکثر آپ کی دشواری کے لئے مثالی ڈیٹا بیس تصور کرنے کے لئے انتہائی مددگار ثابت ہوتا ہے اور پھر اس مثالی ڈیٹا بیس کا استعمال کرتے ہیں جو آپ استعمال کرتے ہیں. اگر آپ نے اپنے ڈیٹا کو اپنے آپ کو جمع نہیں کیا، تو آپ جو چاہے اور آپ کے پاس کیا ہے اس کے درمیان اہم اختلافات ہونے کا امکان ہے. ان اختلافات کو نظر انداز کرنے میں آپ کی کیا وضاحت کی وضاحت کرنے میں مدد ملے گی اور آپ کے ڈیٹا سے سیکھ سکیں، اور یہ آپ کو جمع کرنے والے نئے اعداد و شمار کا مشورہ دے سکیں.

میرے تجربے میں، سماجی سائنسدانوں اور اعداد و شمار سائنسدانوں کو بہت مختلف طریقے سے دوبارہ پیش کرنے کے لۓ ہوتے ہیں. سماجی سائنسدان، جو تحقیق کے لئے ڈیزائن کردہ اعداد و شمار کے ساتھ کام کرنے کے عادی ہیں، عام طور پر فوری طور پر فوری طور پر فوری طور پر فوری طور پر دوبارہ اعداد و شمار کے اعداد و شمار کے ساتھ اس کی طاقت کو نظر انداز کرنے کے لئے فوری طور پر فوری طور پر اشارہ ہوتے ہیں. دوسری طرف، اعداد و شمار سائنسدانوں کو عام طور پر فوری طور پر فوری طور پر معتبر اعداد و شمار کے فوائد کی نشاندہی کرنے کے لۓ اس کی کمزوریاں نظر انداز ہوتی ہے. قدرتی طور پر، بہترین نقطہ نظر ایک ہائبرڈ ہے. یہی ہے، محققین کو بڑے اعداد و شمار کے ذرائع کی خصوصیات کو سمجھنے کی ضرورت ہے- اچھے اور خراب دونوں - اور پھر پتہ چلتا ہے کہ ان سے کیسے سیکھنا پڑتا ہے. اور، یہ اس باب کے باقی کے لئے منصوبہ ہے. اگلے حصے میں، میں بڑے ڈیٹا ذرائع کے دس عام خصوصیات بیان کروں گا. اس کے بعد میں مندرجہ ذیل سیکشن میں تین تحقیقی نقطہ نظر بیان کروں گا جو اس طرح کے اعداد و شمار کے ساتھ اچھی طرح سے کام کرسکتا ہے.