2.3.1 بگ

وڏيون datasets ختم ڪرڻ جو هڪ وسيلو آهي. اهي پاڻ ۾ هڪ حرف آخر نه آهن.

سڀ کان وڌيڪ وسيع بحث جي خاصيت جي وڏي ڊيٽا ذريعن جو اهو آهي ته اهي BIG آهن. مثال طور، ڪيترن ئي مقالا، بحث ڪرڻ شروع ڪندي ۽ ڪڏهن ڪڏهن برجنگ جي باري ۾. مثال طور، Google Books corpus ۾ لفظ استعمال ٿيل رجحانات جو مطالعو سائنس ۾ شايع ٿيل هڪ مقالا هيٺيان شامل آهن (Michel et al. 2011) :

"[اسان جي] ڪورپس تي 500 ارب لفظن تي مشتمل آهي، انگريزيء ۾ (361 ارب)، فرانسيسي (45 ارب)، اسپيني (45 ارب)، جرمن (37 ارب)، چيني (13 ارب)، روسي (35 ارب)، ۽ عبراني (2 ارب). سڀ کان پراڻو ڪم 1500 ع ۾ شايع ٿيا. شروعاتي ڏهاڪن ۾ هر سال صرف چند ڪتابن جي نمائندگي ڪئي وئي آهي، جن ۾ ڪيترائي سئو هزار لفظ شامل آهن. 1800 کان، ڪور ڪور هر سال 98 ملين تائين وڌندو آهي. 1900 کان، 1.8 بلين؛ ۽ 2000 کان، 11 ارب. ڪورپس انساني طرفان نه پڙهي سگهجي ٿو. جيڪڏهن توهان صرف 2000 سال کان صرف انگريزي ٻولي جون لکڻيون پڙهڻ جي ڪوشش ڪئي ته 200 لفظن / منٽ جي مناسب جاء تي، کائڻ يا ننڊ ۾ بغير بغير ڪنهن به هنڌ 80 سالن تائين هوندي. خطن جي ترتيب انساني جينوم کان 1000 ڀيرا وڌيڪ آهي: جيڪڏهن توهان هن کي سڌا لڪير ۾ ڪڍي ڇڏيو ته اهو چنڊ تائين پهچي ويندو ۽ 10 ڀيرا وڌيڪ وقت تي. "

هن ڊيٽا جي پيچيدگي غير معتبر آهي، ۽ اسان سڀني کان خوش نصيب آهيون ته گوگل ڪتاب ٽيم هنن ڊيٽا کي عوام ڏانهن موڪليو آهي (حقيقت ۾، هن باب جي آخر ۾ ڪجهه سرگرميون هن ڊيٽا جو استعمال ڪن ٿا). پر، جڏهن به توهان اهڙي شيء وانگر ڪجهه ڏسن ٿا ته توهان کان پڇڻ گهرجي: ڇا اهو سڀ ڪجهه ڊيٽا واقعي سان ڪجهه ڪري رهيا آهيو؟ ڇا اهي ساڳيا تحقيق ڪيا آهن ته ڊيٽا کي چنڊ تائين پهچي سگهي ٿي ۽ واپس صرف هڪ ڀيرو؟ ڇا اهو انگ صرف ايور ايورسٽ جي چوٽي يا اييل ٽاور جي چوٽي تائين پهچي سگهي ٿو؟

انهي صورت ۾، انهن جي تحقيقات اها آهي، حقيقت ۾، ڪجهه حصا آهن، جيڪي ڊگهي عرصي دوران لفظن جي وڏي انگن جي ضرورت هوندي آهي. مثال طور، هڪ ئي شيون ڳولڻ جو گرامر جي ارتقاء آهي، خاص طور تي ناقابل فعل فعلگيشن جي شرح ۾ تبديلي. ڪجھ غيرقانوني فعل کان تمام گهڻا نابالغ آھن، ڊيٽا جي وڏي مقدار ۾ وقت جي تبديلين کي ظاھر ڪرڻ جي ضرورت آھي. پر اڪثر، تحقيق ڪندڙ محقق وڏن ڊيٽا جي ماپ جو اندازو لڳائي رهيا آهن، "نظر ڏسو ته ڪئين ڪيتري ڊيٽا مون کي ڪتب آڻي ٿو" - ڪجهه وڌيڪ اهم سائنسي مقصد جي وسعت کان.

منهنجي تجربن ۾، ناياب واقعن جي مطالعي مان هڪ مخصوص مخصوص سائنسي پڇاڙيء مان هڪ آهي، جيڪا وڏي ڊيٽابيس کي فعال ڪن ٿا. ٻيو حصو هائوسجيتيت جو مطالعو آهي، جيئن امريڪا ۾ سماجي ميلاپ تي راج چيچنٽ ۽ ان جي ڀائيوارن (2014) مطالعي سان نمايان ٿي سگهي ٿو. ماضي ۾ ڪيترن ئي تحقيق ڪندڙن کي سماجي متحرڪ ۽ والدين جي زندگي جي نتيجن جي مقابلي جو مطالعو ڪيو آهي. هن ادب مان هڪ جهڙي خبر پئجي وئي آهي ته ماء پيء جي فائدي ۾ ٻارڙن جو فائدو حاصل ڪن ٿا، پر هن جو تعلق وقت ۽ ملڪن جي ڀيٽ ۾ مختلف آهي (Hout and DiPrete 2006) . اڃا تازو، چيچنٽ ۽ ساٿين کي 40 ملين ماڻهن کان ٽيڪس ريڪارڊ استعمال ڪرڻ جي قابل ٿي گڏيل قومن جي وچ ۾ متحرک حرکت پذير نقل و حرکت (گڏيل نمبر 2.1). مثال طور، هڪ ٻار کي ممڪن آهي ته هڪ ٻار ملي آمدني جي تقسيم جي هيٺيان ملي آمدني جي تقسيم جي هيٺيان ڪائنات ۾ خاندان مان شروع ٿئي سان سان جوس، ڪيليفورنيا ۾ تقريبا 13٪ آهي، तर چارलोٽ، उत्तरी क्यولرينا ۾ केवल 4٪ मात्र. جيڪڏهن توهان هڪ پل لاء 2.1 انگ ڏسو، توهان کي تعجب ڪرڻ شروع ٿئي ٿي ته ٻين جي ڀيٽ ۾ ڪجهه هنڌن ۾ بين الاقوامي تڪليف اعلي آهي. چيٽ ۽ ساٿي بلڪل ساڳئي سوال سان هئا، ۽ هنن اهو معلوم ڪيو ته تيز رفتار واري شعبي ۾ گهٽ رهائشي جابلو، گهٽ آمدني مساوات، بهتر پرائمري اسڪول، وڏن سماجي سرمائيداري ۽ گهريلو استحڪام وڌيڪ گهڻائي آهي. يقينا، اهي باهمي تعلق فقط اڪيلو نه ٿا ڪن ته اهي ڪارڪردگي گهڻو وڌيڪ موثر آهن، ليڪن اهي ممڪن طريقيڪار جو مشورو ڏيندا آهن جيڪي وڌيڪ ڪم ۾ ڳولي سگهجن ٿيون، جنهن ۾ بلڪل شي چيٽ ۽ همٿ پنهنجن بعد ۾ ڪم ڪيو. نوٽيس ته هن منصوبي ۾ ڪيترو ڊيٽا ڪيترا اهم هوندا هئا. جيڪڏهن چيچنٽ ۽ ساٿين کي 40 ملين کان به 40 هزار ماڻهن جي ٽيڪس رڪارڊ استعمال ڪيو ويو، اهي علائقائي جغرافيائي اندازي جو اندازو نه ڪري سگهندا هئا ۽ اهي بعد ۾ تحقيق نه ڪري سگهندا هئا، تر څو यो भिन्नता सिर्जना गर्ने तान्त्रिक तवरमा पहिचान गर्ने प्रयास गर्नुहोस्.

نقشو 2.1: آمدني جي ورڇ ۾ والدين کي هيٺين 20 سيڪڙو ۾ گهٽتائي جي 20 سيڪڙو تائين پهچڻ جي ٻارن جي اندازن جو اندازو (Chetty et al 2014 2014). علائقائي سطح جو اندازو، جيڪو حرف ڏيکاري ٿو، قدرتي طور تي دلچسپ ۽ اهم سوالن جي ڪري ٿو جيڪو هڪ قومي سطح جي اندازي مان پيدا نه ٿيندو. اهي علائقائي سطح جي اندازي لحاظ کان ممڪن ٿي رهيا هئا ڇاڪاڻ ته محقق هڪ وڏي وڏي ڊيٽا جو ذريعو استعمال ڪري رهيا هئا: 40 ملين ماڻهن جي ٽيڪس ريڪارڊ. http://www.equality-of-opportunity.org/ تي دستياب ٿيل ڊيٽا مان ٺهيل.

نقشو 2.1: آمدني جي ورڇ ۾ والدين کي هيٺين 20 سيڪڙو ۾ گهٽتائي جي 20 سيڪڙو تائين پهچڻ جي ٻارن جي اندازن جو اندازو (Chetty et al. 2014) . علائقائي سطح جو اندازو، جيڪو حرف ڏيکاري ٿو، قدرتي طور تي دلچسپ ۽ اهم سوالن جي ڪري ٿو جيڪو هڪ قومي سطح جي اندازي مان پيدا نه ٿيندو. اهي علائقائي سطح جي اندازي لحاظ کان ممڪن ٿي رهيا هئا ڇاڪاڻ ته محقق هڪ وڏي وڏي ڊيٽا جو ذريعو استعمال ڪري رهيا هئا: 40 ملين ماڻهن جي ٽيڪس ريڪارڊ. http://www.equality-of-opportunity.org/ تي دستياب ٿيل ڊيٽا مان ٺهيل.

آخرڪار، ناياب واقعن کي مطالع ڪرڻ ۽ جغرافيائي تعليم حاصل ڪرڻ جي باوجود، وڏي پئٽرن کي محققن کي ننڍڙن فرقن جي سڃاڻپ پڻ ڏئي ٿو. حقيقت ۾، صنعت ۾ وڏن ڊيٽا تي گهڻو ڌيان هن ننڍڙن اختلافن بابت آهي: 1٪ ۽ 1.1٪ جي وچ ۾ فرق ڳولڻ معتبر طور تي اشتهار تي ڪلڪ ڪيو ذريعي شرح اضافي آمدني ۾ لکين ڊالر ۾ ترجمو ڪري سگهي ٿو. تاہم، ڪجھ سائنسي سيٽنگون ۾، ننڍا ننڍا فرق خاص طور تي اھميت نٿي ڪري (Prentice and Miller 1992) آھن، حتی اگر اھي مستحکم اھم آھن (Prentice and Miller 1992) . پر، ڪجهه پاليسي سيٽنگن ۾، اهي مجموعي طور تي ڏٺو جڏهن اهي اهم ٿي سگهن ٿيون. مثال طور، جيڪڏهن ٻه سرڪاري صحت جي مداخلتون آهن ۽ هڪ ٻئي کان وڌيڪ اثرائتو آهي، ته وڌيڪ اثرائتي مداخلت چونڊڻ هزارين اضافي زندگي بچائي سگهي.

جيتوڻيڪ بورج عام طور تي استعمال ٿيندو جڏهن عام طور تي هڪ چڱي ملڪيت آهي، مون محسوس ڪيو آهي ته ڪڏهن ڪڏهن هڪ تصوراتي غلطي کي ڏسجي سگھن ٿا. ڪجهه سببن لاء، بين الاقوامي تحقيق ڪندڙن جي اڳواڻي لڳي ٿو ته انهن جي ڊيٽا ٺاهيل ڪيئن نظر انداز ڪرڻ لاء. + R بي ترتيبي غلطي جي باري ۾ پريشان ٿيڻ جي ضرورت جي خاتمي ڪندو، جڏهن ته، اهو اصل ۾ منظم غلطيون جي باري ۾ پريشان ٿيڻ جي ضرورت وڌائي، غلطيون جو قسم آهي ته مون کي ته هيٺ بيان سين ڪيئن ڊيٽا پيدا آهن ۾ پير پساري کان طالع. مثال طور، هڪ منصوبي ۾ آئون هن باب ۾ وضاحت ڪندس، تحقيق ڪندڙن دهشتگردي حملن جي ردعمل جي اعلي ريزوليشن جذباتي ٽائم لائن تيار ڪرڻ لاء 11 سيپٽمبر، 2001 تي پيغام ٺاهي استعمال ڪيو (Back, Küfner, and Egloff 2010) . ڇاڪاڻ ته محقق انهن سڀني نياڻين جو پيغام هئا، انهن کي حقيقت جي ضرورت ناهي ته ڇا انهن خيالن جي ڏي وٺ ڪئي وئي آهي جيڪي ڪاوڙجي پيا آهن. ايترو گهڻو ڊيٽا هو ۽ اهو نمونو ايترو واضح هو ته سڀني جي شمارياتي انگن اکرن واري چڪاس جو تجويز ڪيل آهي ته اهو هڪ حقيقي نمونو آهي. پر، انهن جي شمارياتي تجربن جا ڄاڻ هئا ته ڊيٽا ڪيئن ٺاهي وئي هئي. حقيقت ۾ اهو اهو نڪتو آهي ته ڪيتريون ئي نمونتون هڪ اڪيلو ٻٽ سان منسوب هوندا هئا جنهن ۾ اڄ به وڌيڪ اڻ کليل پيغام مليون آهن. ختم ڪندي هن هڪ بوٽ مڪمل طور تي ڪاغذ ۾ ڪجهه اهم نتيجن کي تباهه ڪيو (Pury 2011; Back, Küfner, and Egloff 2011) . بلڪل اڪيلو، محقق ڪندڙ جيڪي سسٽماتي غلطي بابت نه سوچندا آهن انهن جي وڏي ڊيٽابيس استعمال ڪرڻ جي خطر جي منهن کي اڻ ڄاڻائي مقدار جي درست تخميني حاصل ڪرڻ لاء، جهڙوڪ خودڪار بوٽ طرفان پيدا ڪيل بي معني پيغامات جي جذباتي مواد.

آخر ۾، وڏن ڊاڪٽرن پاڻ ۾ ختم نه آهن، پر اهي ڪجهه خاص قسم جا تحقيق ناهن واقعن جي مطالعي، تثليث جي تخميني ۽ ننڍن اختلافن جي تشخيص شامل آهن. وڏن دستاويزن پڻ ڪجهه محققن کي ڏسڻ تي غور ڪن ٿا انهن کي نظر انداز ڪرڻ لاء انهن جي ڊيٽا ڪيئن پيدا ڪئي وئي، جيڪا انهن کي اڻ ڄاڻائي مقدار جي صحيح اندازي حاصل ڪري سگھي ٿي.