3.6.2 پوچھا

یہ ترجمہ ایک کمپیوٹر کے ذریعے پیدا کیا گیا تھا. ×

3.6.2 پوچھا

بہت سے لوگوں سے بڑے اعداد و شمار کا ذریعہ کے ساتھ چند لوگوں سے سروے کے اعداد و شمار کو یکجا کرنے کے لئے ایک پیش گوئی ماڈل کا استعمال کرتے ہوئے پر زور دیا گیا.

مجموعی سروے اور بڑے اعداد و شمار کے ذرائع کے لئے ایک مختلف طریقہ ایک ایسا عمل ہے جسے میں پوچھ رہا ہوں. روایتی طور پر پوچھ گچھ میں، ایک محقق ایک پیمانے پر یا گرینولائزیشن پر تخمینہ پیدا کرنے کے لئے ایک بڑا ڈیٹا ذریعہ کے ساتھ ایک چھوٹا سا سروے کے اعداد و شمار کو یکجا کرنے کے لئے ایک پیش گوئی ماڈل کا استعمال کرتا ہے جو انفرادی طور پر ڈیٹا بیس کے ساتھ ممکن نہیں ہو گا. پریشان کن سوال کا ایک اہم مثال یہوشو بلومین اسٹاک کے کام سے آتا ہے، جو اعداد و شمار کو جمع کرنا چاہتا تھا جو غریب ممالک میں ترقی کی راہنمائی میں مدد کرسکتا تھا. ماضی میں، عام طور پر اس قسم کے اعداد و شمار کو جمع کرنے والے محققین کو دو طریقوں میں سے ایک لے جانا تھا: نمونہ سروے یا سنسر. نمونہ سروے، جہاں محققین ایک چھوٹی سی تعداد میں لوگوں کا انٹرویو کرسکتے ہیں، لچکدار، بروقت، اور نسبتا سست ہوسکتے ہیں. تاہم، یہ سروے، کیونکہ وہ ایک نمونہ پر مبنی ہیں، اکثر ان کے حل میں محدود ہوتے ہیں. ایک نمونہ سروے کے ساتھ، یہ مخصوص جغرافیائی علاقوں کے بارے میں یا مخصوص ڈیموگرافک گروپوں کے بارے میں تخمینہ لگانا مشکل ہے. دوسری طرف، Censuses، سب کو انٹرویو کرنے کی کوشش کی، اور اسی طرح وہ چھوٹے جغرافیائی علاقوں یا ڈیموگرافک گروہوں کے تخمینوں کو پیدا کرنے کے لئے استعمال کیا جا سکتا ہے. لیکن سینسرس عام طور پر مہنگی ہیں، محدود توجہ میں (وہ صرف ایک چھوٹی سی سوالات شامل ہیں)، اور بروقت وقت نہیں (وہ ایک مقررہ شیڈول پر ہوتا ہے، جیسے ہر 10 سال) (Kish 1979) . نمونہ سروے یا سنسر کے ساتھ پھنسنے کے بجائے، تصور کریں کہ اگر محققین دونوں کی بہترین خصوصیات کو یکجا کر سکیں. تصور کریں کہ محققین ہر سوال سے ہر روز ہر روز سے کہہ سکتے ہیں. ظاہر ہے، یہ باضابطہ، ہمیشہ پر سروے ایک قسم کی سماجی سائنس فنتاسی ہے. لیکن یہ ظاہر ہوتا ہے کہ ہم اس سروے کے سوالات کو کم کرنے کے ذریعہ تقریبا شروع کر سکتے ہیں جو بہت سے لوگوں سے ڈیجیٹل نشانوں کے ساتھ کم سے کم لوگ ہیں.

بلومین اسٹاک کی تحقیقات شروع ہوئی جب انہوں نے روانڈا میں سب سے بڑا موبائل فون فراہم کنندہ کے ساتھ شراکت کی، اور کمپنی نے 2005 اور 2009 کے درمیان 1.5 ملین گاہکوں کو نامزد کردہ ٹرانزیکشن ریکارڈ فراہم کیا. یہ ہر کال اور ٹیکسٹ پیغام کے بارے میں ان معلومات کا ریکارڈ ہے جیسے آغاز وقت، مدت ، اور کالر اور رسیور کا تخمینہ جغرافیای مقام. اعداد و شمار کے مسائل کے بارے میں بات کرنے سے پہلے، یہ اس بات کا اشارہ ہے کہ یہ پہلا قدم بہت سے محققین کے لئے سب سے مشکل میں سے ایک ہوسکتا ہے. جیسا کہ میں نے باب 2 میں بیان کیا ہے، محققین کے لئے سب سے زیادہ بڑے اعداد و شمار کے قابل نہیں ہیں. ٹیلی فون میٹا ڈیٹا خاص طور پر قابل رسائی نہیں ہے کیونکہ یہ بنیادی طور پر نام نہاد ناممکن ہے اور اس میں تقریبا یقینی طور پر معلومات پر مشتمل ہے کہ شرکاء حساس پر غور کریں گے (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . اس خاص معاملے میں، محققین اعداد و شمار کی حفاظت کے لئے محتاط تھے اور ان کا کام تیسری پارٹی (یعنی ان کے آئی آر بی) کی طرف سے نگرانی کی گئی تھی. میں ان اخلاقی مسائل کو باب 6 میں مزید تفصیل سے واپس لوٹ دونگا.

بلومین اسٹاک مال و دولت اور خوشحالی کی پیمائش میں دلچسپی رکھتے تھے. لیکن یہ علامات کال ریکارڈ میں براہ راست نہیں ہیں. دوسرے الفاظ میں، اس تحقیق کے لئے یہ کال ریکارڈ نامکمل ہیں- باب میں تفصیل سے بڑے اعداد و شمار کے ذرائع کی ایک عام خصوصیت جس پر تفصیل سے تبادلہ خیال کیا گیا تھا. تاہم، یہ شاید لگتا ہے کہ کال ریکارڈز شاید کچھ معلومات حاصل کرسکیں جو غیرمعمول دولت کے بارے میں معلومات فراہم کرسکتے ہیں. اچھی طرح سے. اس امکان کو دیکھ کر بلاومین اسٹاک نے پوچھا کہ آیا مشینری سیکھنے کے ماڈل کو تربیت دینے کے لئے یہ ممکن ہے کہ ان کی کال ریکارڈوں پر مبنی کسی سروے کا جواب کس طرح ہوگا. اگر یہ ممکن تھا تو، بلومین اسٹاک اس ماڈل کو استعمال کرسکتے ہیں جو تمام 1.5 ملین گاہکوں کے سروے کے جوابات کی پیش گوئی کرتے ہیں.

ایسے ماڈل کی تعمیر اور تربیت کرنے کے لۓ، بلومین اسٹاک اور سائنس اور ٹیکنالوجی کے کیگالی انسٹی ٹیوٹ کے تحقیقی معاونین نے تقریبا ایک ہزار گاہکوں کی بے ترتیب نمونہ نامی. محققین نے منصوبے کے اہداف کو شرکاء کو بتایا، کال ریکارڈوں کے سروے کے ردعمل سے منسلک کرنے کے لئے ان کی رضامندیاں کی درخواست کی، اور پھر ان سے پوچھا کہ ان کے مال و دولت کو بہتر بنانے کے لئے ان کی ایک سلسلہ سوال ہے، جیسے " ریڈیو؟ "اور" کیا آپ ایک سائیکل کا مالک ہیں؟ "(جزوی فہرست کیلئے 3.14 نمبر دیکھیں). سروے میں تمام شرکاء کو مالی طور پر معاوضہ دیا گیا تھا.

اس کے بعد، بلومین اسٹاک نے مشینری سیکھنے میں مشترکہ دو مرحلہ طریقہ کار استعمال کیا: نگرانی سیکھنے کے بعد نمایاں انجینئرنگ. سب سے پہلے، خصوصیت انجینئرنگ کے مرحلے میں، ان سب کے لئے جو انٹرویو کیا گیا تھا، بلومین اسٹاک نے کال ریکارڈ کو ہر ایک کے بارے میں مخصوص خصوصیات میں تبدیل کر دیا. اعداد و شمار سائنس دان ان خصوصیات کو "خصوصیات" کہہ سکتے ہیں اور سماجی سائنسدان ان کو "متغیرات" کہتے ہیں. مثال کے طور پر، ہر شخص کے لئے، بلومین اسٹاک سرگرمی کے ساتھ دن کی کل تعداد کی گنتی، مخصوص افراد کی تعداد ایک شخص کے ساتھ رابطے میں ہے، ہوائی جہاز پر خرچ کی رقم، اور اسی طرح. بنیادی طور پر، اچھی خصوصیت انجینئرنگ تحقیق کی ترتیب کے بارے میں علم کی ضرورت ہے. مثال کے طور پر، اگر یہ گھریلو اور بین الاقوامی کالوں کے درمیان فرق کرنے کے لئے اہم ہے (ہم ایسے لوگوں کی توقع کر سکتے ہیں جو بین الاقوامی طور پر دولت مند ہوں)، پھر یہ خصوصیت انجینئرنگ کے مرحلے میں ہونا چاہیے. ایک محققین روانڈا کی چھوٹی سی سمجھ کے ساتھ اس خصوصیت میں شامل نہیں ہوسکتا ہے، اور پھر ماڈل کے پیش گوئی کی کارکردگی کا شکار ہو جائے گا.

اگلا، نگرانی سیکھنے کے مرحلے میں، بلومین اسٹاک نے ان کی خصوصیات پر مبنی ہر شخص کے سروے کے جواب کی پیشکش کرنے کے لئے ایک ماڈل بنایا. اس صورت میں، بلومین اسٹاک نے لاجسٹک ریگریشن کا استعمال کیا، لیکن اس نے اس سے مختلف قسم کے دیگر اعداد و شمار یا مشین سیکھنے کے طریقوں کا استعمال کیا تھا.

تو یہ کیسے کام کرتا ہے؟ کیا بلاومین اسٹاک سروے کے سوالات کے جوابات کی پیش گوئی کرنے میں کامیاب تھا جیسے کال ریکارڈوں سے حاصل کردہ خصوصیات کا استعمال کرتے ہوئے "آپ ایک ریڈیو کا مالک ہے؟" اور "کیا آپ کو ایک سائیکل ہے؟". اپنے پیش گوئی ماڈل کی کارکردگی کا اندازہ کرنے کے لۓ، بلومین اسٹاک نے کراس کی توثیق کا استعمال کیا، عام طور پر ڈیٹا سائنس میں استعمال ہونے والے ایک تخنیک کا استعمال کیا تھا، لیکن اس سے کم از کم سماجی سائنس میں. کراس کی توثیق کا مقصد یہ ہے کہ اس کی تربیت کی طرف سے ماڈل کی پیشن گوئی کی کارکردگی کا منصفانہ جائزہ فراہم کرنا اور اعداد و شمار کے مختلف سبسیٹس پر جانچ پڑتال کرنا ہے. خاص طور پر، بلومین اسٹاک نے ان کے اعداد و شمار کو 100 لوگوں میں سے 100 افراد میں تقسیم کیا. اس کے بعد، انہوں نے اپنے ماڈل کو تربیت دینے کے لئے نووں میں سے 9 کا استعمال کیا، اور تربیت یافتہ ماڈل کی پیش گوئی کارکردگی باقی باقیوں پر نظر انداز کی گئی. انہوں نے یہ طریقہ کار 10 مرتبہ بار بار کیا - ڈیٹا کے ہر حصے کے ساتھ توثیق کے اعداد و شمار کے طور پر ایک باری حاصل کردی اور نتائج کو معمول کیا.

پیشن گوئی کی درستگی کچھ علامات کے لئے اعلی تھا (اعداد و شمار 3.14)؛ مثال کے طور پر، بلومین اسٹاک 97.6٪ کی درستگی کے ساتھ پیش گوئی کرسکتا ہے اگر کسی نے کسی ریڈیو کی ملکیت حاصل کی. یہ ممکنہ لگ سکتا ہے، لیکن ایک سادہ متبادل کے خلاف ایک پیچیدہ پیشن گوئی کی موازنہ کا موازنہ ہمیشہ اہم ہے. اس صورت میں، ایک سادہ متبادل یہ ہے کہ سب سے زیادہ عام جواب دے گا. مثال کے طور پر، 97.3٪ جواب دہندگان نے ایک ریڈیو کو مدعو کیا کہ اگر بلاومین اسٹاک نے پیش گوئی کی تھی کہ ہر ایک کو ریڈیو کے مالک کی رپورٹ کی جائے گی تو اس میں 97.3٪ کی درستگی ہوگی، جس میں حیرت انگیز طور پر ان کی زیادہ پیچیدہ طریقہ کار کی کارکردگی (97.6٪ درستگی) . دوسرے الفاظ میں، تمام فینسی ڈیٹا اور ماڈلنگ نے پیش گوئی کی درستگی میں 97.3٪ سے 97.6 فیصد اضافہ کیا. تاہم، دوسرے سوالات کے لئے، جیسے "آپ کو ایک سائیکل ہے؟"، پیشن گوئی 54.4٪ سے 67.6٪ سے بہتر ہوئی. زیادہ تر عام طور پر، اعداد و شمار 3.15 سے پتہ چلتا ہے کہ کچھ علامات کے لئے بلومین اسٹاک نے آسان بنیادی لائن کی پیشن گوئی کرنے سے کہیں زیادہ بہتر نہیں کیا، لیکن دوسرے علامات کے لئے کچھ بہتری تھی. تاہم، صرف ان نتائج پر نظر آتے ہیں، آپ کو یہ نہیں لگتا کہ یہ نقطہ نظر خاص طور پر وعدہ ہے.

شکل 3.14: کال ریکارڈ کے ساتھ تربیت یافتہ اعداد و شمار کے ماڈل کے لئے تشخیصی درستگی. بلومین اسٹاک (2014) سے طے شدہ، میز 2.

شکل 3.14: کال ریکارڈ کے ساتھ تربیت یافتہ اعداد و شمار کے ماڈل کے لئے تشخیصی درستگی. Blumenstock (2014) ، میز 2.

شکل 3.15: ایک بنیادی اعداد و شمار کے لئے پیش گوئی کی درستگی کی موازنہ کال ریکارڈ کے ساتھ سادہ بنیادی لائن پر مبنی پیش گوئی میں تربیت دی جاتی ہے. اوورلیپ سے بچنے کے لئے پوائنٹس تھوڑا سا جھٹکا دیا جاتا ہے. Blumenstock (2014) ، میز 2.

تاہم، صرف ایک سال بعد، بلومین اسٹاک اور دو ساتھیوں - جبریل کیڈامورو اور رابرٹ اون نے سائنس میں ایک بہت اچھا نتائج حاصل کیے ہیں (Blumenstock, Cadamuro, and On 2015) . اس بہتری کے لئے دو بنیادی تکنیکی وجوہات تھے: (1) انہوں نے زیادہ جدید ترین طریقوں کا استعمال کیا (مثلا انجینئرنگ کو نمایاں کرنے کا ایک نئے نقطہ نظر اور خصوصیات کے جوابات کی پیشکش کرنے کے لئے ایک جدید ترین ماڈل) اور (2) انفرادی طور پر ردعمل کی کوشش کرنے کی بجائے سروے کے سوالات (مثال کے طور پر، "کیا آپ ایک ریڈیو کا مالک ہیں؟")، انہوں نے ایک جامع مال انڈیکس کو کم کرنے کی کوشش کی. ان تکنیکی اصلاحات کا مطلب ہے کہ وہ اپنے نمونے میں لوگوں کے لئے دولت کی پیشن گوئی کرنے کے لئے کال ریکارڈ استعمال کرنے کا مناسب کام کرسکتے ہیں.

نمونہ میں لوگوں کی دولت کی تعریف کرتے ہوئے، تاہم، تحقیق کا حتمی مقصد نہیں تھا. یاد رکھیں کہ حتمی مقصد ترقی پذیر ممالک میں غربت کے درست، اعلی قرارداد کا اندازہ پیدا کرنے کے لئے نمونہ کے سروے اور سنسر کے کچھ بہترین خصوصیات کو یکجا کرنا تھا. اس مقصد کو حاصل کرنے کی اپنی صلاحیت کا اندازہ کرنے کے لئے، بلومین اسٹاک اور ساتھیوں نے ان کے ماڈل اور ان کے اعداد و شمار کو کال ریکارڈ میں تمام 1.5 ملین افراد کی دولت کی پیشکش کی. اور انہوں نے کال ریکارڈ میں شامل جیوپوٹیلیل معلومات کا استعمال کیا (یاد رکھیں کہ ہر کال کے لئے قریب ترین سیل ٹاور کا مقام بھی شامل ہے) ہر شخص کے رہائشی جگہ (انداز 3.17) کا تخمینہ لگانا. ان دونوں تخمینوں کو ایک ساتھ مل کر، بلومین اسٹاک اور ساتھیوں نے انتہائی ٹھیک مقامی گرینولائزیشن پر سبسکرائب کے مال کی جغرافیائی تقسیم کا تخمینہ لگایا. مثال کے طور پر، وہ روانڈا کے 2،148 سیلز (ملک میں سب سے چھوٹی انتظامی یونٹ) میں اوسط دولت کا اندازہ لگا سکتے ہیں.

ان تخمینوں نے ان علاقوں میں غربت کی حقیقی سطح سے کیسے مل کر کیا؟ اس سوال کا جواب دینے سے پہلے، میں اس حقیقت پر زور دینا چاہوں گا کہ بہت سی وجوہات موجود ہیں. مثال کے طور پر، انفرادی سطح پر پیشن گوئی کرنے کی صلاحیت بہت شور تھی (اعداد و شمار 3.17). اور، شاید زیادہ اہم بات، موبائل فون کے ساتھ لوگوں کو موبائل فون کے بغیر لوگوں سے منظم طریقے سے مختلف ہوسکتا ہے. اس طرح، بلومینک اور ساتھیوں کو ان کی خرابی کی خرابی کی قسموں سے بھی متاثر ہوسکتا ہے جس نے 1936 کے ادبی ڈائجیسٹ سروے کا تعاقب کیا تھا جسے میں نے پہلے بیان کیا تھا.

ان کے تخمینوں کے معیار کا احساس حاصل کرنے کے لئے، بلومین اسٹاک اور ساتھیوں نے انہیں کچھ اور کے ساتھ موازنہ کرنے کی ضرورت تھی. خوش قسمتی سے، ایک ہی وقت کے ارد گرد ان کے مطالعہ کے طور پر، محققین کے ایک اور گروپ روانڈا میں زیادہ روایتی سماجی سروے چل رہا تھا. یہ دوسرا سروے - جو وسیع پیمانے پر معزز ڈیموگرافک اور ہیلتھ سروے کے پروگرام کا حصہ تھا - ایک بڑا بجٹ تھا اور اعلی معیار، روایتی طریقوں کا استعمال کیا. لہذا، ڈیموگرافک اور صحت سروے کے تخمینہ معتبر طور پر سونے کے معیار کے تخمینوں پر غور کیا جا سکتا ہے. جب دو تخمینوں کے مقابلے میں، وہ بالکل اسی طرح کی تھیں (3.17 نمبر). دوسرے الفاظ میں، کال ریکارڈ کے ساتھ ایک چھوٹا سا سروے کے اعداد و شمار کو یکجا کرکے بلاومین اسٹاک اور ساتھیوں نے سونے کے معیار کے نقطہ نظر سے ان لوگوں کے مقابلے میں تخمینہ پیدا کرنے کے قابل تھے.

ممکنہ طور پر ان نتائج کو مایوسی کے طور پر دیکھ سکتے ہیں. سب کے بعد، انہیں دیکھنے کا ایک طریقہ یہ کہنا ہے کہ بڑے ڈیٹا اور مشین سیکھنے کا استعمال کرتے ہوئے، بلومین اسٹاک اور ساتھیوں نے اندازہ لگایا تھا کہ پہلے ہی موجودہ طریقوں سے زیادہ معتبر طریقے سے بنایا جا سکتا ہے. لیکن مجھے نہیں لگتا کہ یہ دو وجوہات کے لئے اس مطالعہ کے بارے میں سوچنے کا صحیح طریقہ ہے. سب سے پہلے، بلومینک اور ساتھیوں کے تخمینے تقریبا دس گنا تیز اور 50 گنا سستا تھے (جب قیمت متغیر کی قیمتوں کے لحاظ سے ماپا جاتا ہے). جیسا کہ میں نے پہلے اس باب میں بحث کی ہے، محققین اپنے خطرے پر لاگو نظر انداز کرتے ہیں. اس معاملے میں، مثال کے طور پر، لاگت میں ڈرامائی کمی کا مطلب یہ ہے کہ ہر چند سال چلنے کے بجائے ڈیموگرافک اور صحت کے سروے کے معیار کے طور پر- یہ قسم کا سروے ہر ماہ چل سکتا ہے، جو محققین اور پالیسی کے لئے بہت سے فوائد فراہم کرے گا. ساز شکست کے نقطہ نظر کو نہیں لینے کا دوسرا سبب یہ ہے کہ یہ مطالعہ ایک بنیادی ہدایت فراہم کرتا ہے جو بہت سے مختلف تحقیقاتی حالتوں کے مطابق ہوسکتا ہے. یہ ہدایت صرف دو اجزاء اور دو قدم ہے. اجزاء ہیں (1) ایک بڑا ڈیٹا کا ذریعہ ہے جو وسیع لیکن پتلی ہے (یعنی بہت سے لوگ ہیں لیکن آپ کو ہر فرد کے بارے میں ضرورت نہیں ہے) اور (2) ایک سروے ہے جو تنگ لیکن موٹی ہے (یعنی، یہ صرف کچھ لوگ، لیکن اس کی معلومات ہے جو آپ کو ان لوگوں کے بارے میں ضرورت ہے). اس اجزاء کو دو مرحلے میں مل کر کیا جاتا ہے. سب سے پہلے، اعداد و شمار کے ذرائع دونوں کے لوگوں کے لئے، ایک مشین سیکھنے کا ماڈل بناتا ہے جو سروے کے جوابات کی پیشن گوئی کے لئے بڑا ڈیٹا ذریعہ استعمال کرتا ہے. اگلا، اس ماڈل کا استعمال بڑے اعداد و شمار کے وسائل میں سب کے سروے کے جوابات کو مسترد کرنے کے لئے. اس طرح، اگر کچھ سوال ہے تو آپ بہت سے لوگوں سے پوچھنا چاہتے ہیں، ان لوگوں سے جو ان کے جواب کی پیروی کرنے کے لئے استعمال کیا جا سکتا ہے ان سے بڑے ڈیٹا کا ذریعہ تلاش کریں، یہاں تک کہ اگر آپ بڑے اعداد و شمار کے بارے میں پرواہ نہیں کرتے ہیں . یہی ہے، بلومین اسٹاک اور ساتھیوں نے ملک کی کال ریکارڈ کے بارے میں پرواہ نہیں کیا. انہوں نے صرف کال ریکارڈ کے بارے میں پرواہ کیا کیونکہ وہ سروے کے جوابات کی پیش گوئی کرنے کے لئے استعمال کیا جا سکتا تھا کہ انہوں نے اپنی پرواہ کی. بڑے اعداد و شمار کے ذریعہ یہ خصوصیت صرف غیر متوقع دلچسپی رکھتا ہے- جس میں میں نے پہلے بیان کیا ہے، سرایت شدہ پوچھ سے مختلف پوچھا.

شکل 3.16: Blumenstock، Cadamuro، اور پر (2015) کی طرف سے مطالعہ کی منصوبہ بندی. فون کمپنی سے کال ریکارڈز کو ہر ایک شخص اور ایک خصوصیت ہر ایک خصوصیت کے لئے ایک صف (میٹر، متغیر) کے ساتھ ایک میٹرکس میں تبدیل کیا گیا تھا. اگلا، محققین نے نگرانی کردہ سیکھنے کے ماڈل کو انسان کی طرف سے خصوصیت میٹرکس کے سروے کے جوابات کی پیشکش کی. اس کے بعد، نگرانی کردہ سیکھنے کے ماڈل کو تقریبا 1.5 ملین گاہکوں کے سروے کے ردعمل کو مسترد کرنے کے لئے استعمال کیا گیا تھا. اس کے علاوہ، محققین کا اندازہ لگایا گیا ہے کہ ان کی کالوں کے مقامات پر تمام 1.5 ملین گاہکوں کے لئے رہائش گاہ کا تقریبا ایک جگہ ہے. جب ان دو اندازوں کا اندازہ لگایا گیا تھا کہ اندازہ شدہ مال اور رہائش گاہ کا اندازہ لگایا گیا تھا، یہ نتائج ڈیموگرافک اور ہیلتھ سروے، ایک سونے کے معیار کے روایتی سروے (3.17 نمبر) کے تخمینوں سے ملتے جلتے تھے.

شکل 3.16: Blumenstock, Cadamuro, and On (2015) طرف سے مطالعہ کی Blumenstock, Cadamuro, and On (2015) . فون کمپنی سے کال کی ریکارڈ کو ہر ایک شخص اور ایک خصوصیت ہر ایک خصوصیت کے لئے ایک صف (یعنی متغیر) کے ساتھ ایک میٹرکس میں تبدیل کیا گیا تھا. اگلا، محققین نے نگرانی کردہ سیکھنے کے ماڈل کو انسان کی طرف سے خصوصیت میٹرکس کے سروے کے جوابات کی پیشکش کی. اس کے بعد، نگرانی کردہ سیکھنے کے ماڈل کو تقریبا 1.5 ملین گاہکوں کے سروے کے ردعمل کو مسترد کرنے کے لئے استعمال کیا گیا تھا. اس کے علاوہ، محققین کا اندازہ لگایا گیا ہے کہ ان کی کالوں کے مقامات پر تمام 1.5 ملین گاہکوں کے لئے رہائش گاہ کا تقریبا ایک جگہ ہے. جب ان دو اندازوں کا اندازہ لگایا گیا تھا کہ اندازہ شدہ مال اور رہائش گاہ کا اندازہ لگایا گیا تھا، یہ نتائج ڈیموگرافک اور ہیلتھ سروے، ایک سونے کے معیار کے روایتی سروے (3.17 نمبر) کے تخمینوں سے ملتے جلتے تھے.

شکل 3.17: بلومین اسٹاک، کیڈامورو، اور پر (2015) کے نتائج. انفرادی سطح پر، محققین نے اپنے کال ریکارڈ سے کسی کے مال کی پیشن گوئی میں مناسب کام کرنے کے قابل تھے. روانڈا کے 30 ضلعوں کے لئے ضلع سطح کی دولت کا اندازہ - جو انفرادی سطح پر انحصار کرتا ہے اور ان کی رہائش گاہ کی جگہوں پر مشتمل تھا - اسی طرح ڈیمپوگرافک اور ہیلتھ سروے کے نتیجے میں ایک گولڈ معیاری روایتی سروے تھا. Blumenstock، Cadamuro، اور پر (2015) سے مطابق، 1a اور 3c کے اعداد و شمار.

شکل 3.17: Blumenstock, Cadamuro, and On (2015) . انفرادی سطح پر، محققین نے اپنے کال ریکارڈ سے کسی کے مال کی پیشن گوئی میں مناسب کام کرنے کے قابل تھے. روانڈا کے 30 اضلاع کے لئے ضلع سطح کی دولت کا اندازہ - جو انفرادی سطحوں پر مالیت اور رہائش گاہ کی جگہوں پر مبنی تھا - اسی طرح ڈیمپوگرافک اور ہیلتھ سروے کے نتیجے میں ایک گولڈ معیاری روایتی سروے تھا. Blumenstock, Cadamuro, and On (2015) ، 1a اور 3c کے اعداد و شمار.

آخر میں، بلومینسٹاک کے زلزلے سے متعلق پوچھ گچھ کے ذریعے سروے کے اعداد و شمار کا ایک بڑا ڈیٹا ذریعہ ہے جو سونے کے معیار کے سروے سے ان لوگوں کے مقابلے میں تخمینوں کا اندازہ لگایا گیا ہے. یہ خاص مثال رواں سروے اور روایتی سروے کے طریقوں کے درمیان کچھ تجارتی بند بھی واضح کرتی ہے. روایتی تخمینہ لگانے کا تخمینہ زیادہ بروقت، کافی سستی، اور زیادہ سے زیادہ ہیں. لیکن، دوسری طرف، اس طرح کے تیار کردہ پوچھ کے لئے ابھی تک ایک مضبوط نظریاتی بنیاد نہیں ہے. یہ ایک مثال یہ نہیں ظاہر ہوتا ہے کہ جب یہ نقطہ نظر کام کرے گا اور جب یہ نہیں کرے گا، اور اس نقطہ نظر کا استعمال کرتے ہوئے محققین کو خاص طور پر ممکن ہے کہ جس میں شامل کیا جاسکتا ہے اور جو ان میں شامل نہیں ہے ان کے بڑے ڈیٹا ذریعہ میں شامل ہونے کی ضرورت ہے. اس کے علاوہ، تعبیر شدہ پوچھ گچھ اس کے تخمینوں کے ارد گرد غیر یقینی صورتحال کو کم کرنے کے لئے ابھی تک مناسب طریقے نہیں ہے. خوش قسمتی سے، تعصب سے پوچھتا ہے کہ اعداد و شمار - چھوٹے علاقائی تخمینہ (Rao and Molina 2015) ، عدم (Rubin 2004) ، اور ماڈل پر مبنی پوسٹ اسٹریٹٹیشن (جس میں خود کو مسٹر پی کے قریبی قریبی تعلق سے متعلق ہے (Rubin 2004) میں تین بڑے علاقوں میں گہرے کنکشن ہیں. جس میں نے باب میں پہلے بیان کیا تھا) (Little 1993) . ان گہری کنکشنوں کی وجہ سے، مجھے امید ہے کہ تعصب شدہ پوچھ کے بہت سے طریقہ کار بنیادوں پر جلد ہی بہتر ہو جائے گا.

آخر میں، بلومین اسٹاک کی پہلی اور دوسری کوششیں ڈیجیٹل عمر سماجی تحقیق کے بارے میں ایک اہم سبق بھی بیان کرتی ہیں: آغاز آخر نہیں ہے. یہ بہت سے وقت ہے، پہلا نقطہ نظر سب سے بہتر نہیں ہوگا، لیکن اگر محققین کام جاری رہے تو چیزیں بہتر ہوسکتی ہیں. زیادہ عام طور پر، ڈیجیٹل عمر میں سماجی تحقیق کے نئے نقطہ نظر کا اندازہ کرتے وقت، یہ دو مختلف تشخیص کرنے کے لئے ضروری ہے: (1) اب یہ کام کتنا اچھا ہے؟ اور (2) مستقبل میں یہ کام کس طرح بہتر کرے گا جیسے اعداد و شمار کی زمین کی تزئین کی تبدیلیوں اور محققین نے اس مسئلے کو مزید توجہ دی ہے؟ اگرچہ محققین کو پہلی قسم کی تشخیص کرنے کے لئے تربیت دی جاتی ہے، دوسری صورت میں اکثر زیادہ اہم ہے.