2.2 بگ ڊيٽا

وڏي ڊيٽا ڪمپنيون ۽ حڪومتن پاران تحقيق کان سواء ٻيا مقصد حاصل ڪرڻ ۽ گڏ ڪيل آهن. انهي ڊيٽا کي تحقيق لاء استعمال ڪري، تنهنڪري ٻيهر ريگولڪس ڪرڻ جي ضرورت آهي.

پهرين طريقي سان ڪيترا ئي ماڻهو ڊجيٽل عمر ۾ سماجي تحقيقي سامھون ٿي رهيا آهن جن کي عام طور تي وڏي ڊيٽا سڏيو ويندو آهي. انهي اصطلاح جي وسيع استعمال باوجود، ڪو به اتفاق ناهي ته ڇا وڏي انگ ڊيٽا پڻ آهي. جڏهن ته، وڏي انگن مان هڪ سڀ کان عام معقول "3 ويز" تي مشتمل آهي: حجم، مختلف قسم ۽ رفتار. عموما، مختلف قسمن ۾ ڪافي ڊيٽا آهي، ۽ اهو مسلسل طور تي پيدا ٿي رهيو آهي. وڏن ڊيٽا جي ڪجهه مداح پڻ ٻيا "وي" جهڙوڪ ويٽيڊيس ۽ ويلڊ شامل ڪري رهيا آهن، پر ڪجهه تنقيد پسندن جهڙوڪ ويگ ۽ خفيه شامل آهن. بلڪه، سماجي تحقيق جي مقصدن لاء 3 "وي" (يا 5 "وي" يا 7 "ويز")، مون کي سوچڻ لاء هڪ بهتر مقام 5 "Ws" آهي: ڪير، ڇا، ڪٿي، جب ، ۽ ڇو. حقيقت ۾، مان سمجهان ٿو ته وڏي ڊيٽا وسيلن پاران پيدا ٿيل ڪيتريون ئي چيلينج ۽ موقعن مان فقط هڪ "W" جي پٺيان آهن.

اينالاگ عمر ۾، جيڪي گهڻا ڊيٽا استعمال ڪيا ويا آهن انهن جي تحقيق لاء تحقيق جي مقصد لاء ٺاهي وئي هئي. جيتوڻيڪ ڊجيٽل عمر ڪمپنين ۽ حڪومتن پاران تحقيقات کانسواء ٻيا مقصد حاصل ڪرڻ جي لاء وڏي مقدار جي ڊيٽا، جيئن خدمتون مهيا ڪرڻ، پيداوار نفعي مهيا ڪرڻ، ۽ قانون سازي جي لاء. جيتوڻيڪ، تخليقي ماڻهن، اهو محسوس ڪيو آهي ته توهان تحقيق جي لاء هن ڪارپوريٽ ۽ حڪومتي ڊيٽا کي ٻيهر بحال ڪري سگهو ٿا. باب 1 ۾ آرٽالاجي واپس سوچڻ، جيئن ڊائوپپ هڪ آرٽ ٺاهي اعتراض کي ڪڍڻ لاء، سائنسدان هاڻي تحقيق جي پيداوار لاء ڊيٽا ڳولي سگهو ٿا.

جيتوڻيڪ اڻ سڌريل طريقيڪار جا ڪيترائي موقعا آهن، تحقيق جي مقصدن لاء پيدا ٿيل انگ اکر استعمال ڪري نيون چيلنج پڻ پيش ڪن ٿيون. مثال طور، مثال طور، هڪ سماجي ميڊيا سروس، جهڙوڪ Twitter، هڪ روايتي عوامي راء جي سروي سان، جهڙوڪ جنرل سوشل سروي. Twitter جي مکيه مقصد انهن جي صارفن ۽ فائدي کي هڪ خدمت مهيا ڪرڻ لاء آهن. ٻئي طرف، سوشل سوشل سروي، سماجي تحقيق جي لاء خاص طور تي عوامي راء جي تحقيق لاء عام مقصد جي ڊيٽا ٺاهڻ تي مرکوز آهي. اهڙن مقصدن ۾ اهو فرق اهو آهي ته Twitter جي ٺاهيل ڊيٽا ۽ انهي کي عام سماجي سروي پاران پيدا ڪيل مختلف ملڪيت آهن، جيتوڻيڪ ٻنهي کي عام راء جي مطالعي لاء استعمال ڪري سگهجي ٿو. Twitter انهي سطح تي هلندي ۽ رفتار تي هلندي آهي ته عام سماجي سروي سان نه ٿي سگھي، پر، عام سماجي سروي جي خلاف، ٽريڪ استعمال ڪندڙن کي نموني سان نموني سان نموني سان نه ٺهرايو ۽ وقت جي ڀيٽ ۾ نسبتا برقرار رکڻ لاء محنت نه ڪندو آهي. ڇو ته اهي ٻه انگا وسيلا وسيع مختلف آهن، اهو احساس نه ٿو ڏئي ته عام سماجي سروي Twitter کان بهتر آهي يا ناڪاري. جيڪڏهن توهان گلوبل موڊ جي ڪلاڪ اپائن چاهيندا آهيو (مثال طور، Golder and Macy (2011) )، ٽيڪر بهترين آهي. ٻئي طرف، جيڪڏهن توهان امريڪا ۾ (رئيم DiMaggio, Evans, and Bryson (1996) ) جي رويليزيشن ۾ ڊگهي مدت واري تبديلي کي سمجهڻ چاهيندا آهن، پوء عام سماجي سروي بهترين انتخاب آهي. وڌيڪ عام طور تي، وڏي پئماني جي وسيلن کي بحث ڪرڻ جي بدران، ٻين قسمن جي ڊيٽا کان بهتر يا بدترين آهن، هن باب جي وضاحت ڪرڻ جي ڪوشش ڪنداسين ته انهي قسم جي تحقيقاتي سوالن جي وڏي انگن اکرن کي وڏي دلچسپي هوندي آهي ۽ انهن جا ڪهڙا سوال آهن مثالي.

جڏهن وڏن ڊيٽا ذريعن جي باري ۾ سوچيو، ڪمپنين پاران پيدا ڪيل ۽ گڏ ڪيل، آن لائن ڊيٽا تي فوري طور تي ڪيترائي محقق، ڳولڻ انجڻ لاگس ۽ سوشل ميڊيا پوسٽ. جڏهن ته، هن تنگ فڪر کي وڏي ڊيٽا جي ٻن اهم ذريعن کان ٻاهر نڪري ٿو. پهريون، جلدي ڪارپوريشن وڏي انگن اکرن وسيلي جسماني دنيا ۾ ڊجيٽل ڊوائيس کان ايندا آهن. مثال طور، هن باب ۾، مان توهان کي هڪ مطالعي جي باري ۾ ٻڌائي ٿو ته ان جي پيرز (Mas and Moretti 2009) جي پيداوار جي ڪارڪردگي جي ڪارڪردگي کي ڪئين مطالعو ڪرڻ لاء سپر مارڪيٽ جي چيڪ آئوٽ ڊيٽا کي واپس آڻيندي. ان کان پوء، ايندڙ بابن ۾، مان توهان کي محقق ڪندڙن بابت ٻڌايان ٿو جيڪو موبائيل فونز (Blumenstock, Cadamuro, and On 2015) کان ڪال رڪارڊ استعمال ڪيو ويو (Blumenstock, Cadamuro, and On 2015) (Allcott 2015) استعمال جون پيدا ڪيل بلنگ ڊيٽا (Allcott 2015) . جيئن ته اهي مثال بيان ڪن ٿا، ڪارپوريٽ وڏي ڊيٽا جو ذريعو صرف آن لائن رويي کان وڌيڪ آهن.

ھڪڙي تنگ انگن جو ٻيو اھم ذريعو آھي جنھن کي تنگ رويي جي ھڪڙي مفاصلي تي آن لائين رويٽ تي ڊيٽا موجود آھي. اهي سرڪاري انگ، جن جا محقق سرڪار جي انتظامي رڪارڊ کي سڏيندا آهن، انهن شين جهڙوڪ ٽيڪس ريڪارڊ، اسڪول ريڪارڊ، ۽ اهم انگ اکر رڪارڊ شامل آهن (مثال طور، ڄمڻ ۽ موت جي رجسٽرڊ). حڪومتي ادارن انهن قسم جي ڊيٽا ٺاهي رهيا آهن، ڪجهه ڪيسن ۾، سئو سالن کان، ۽ سماجي سائنسدان ان کي گهڻو ڪري سماجي طور تي سائنسدان هجڻ جي لاء استحصال ڪيو ويو آهي. جڏهن ته تبديل ٿي وئي آهي، تنهن هوندي به، ڊجيٽلائيزيشن آهي، جيڪا اها حڪومتن لاء ڊيٽا کي گڏ ڪرڻ، منتقل ڪرڻ، اسٽوريج ۽ تجزيو ڪرڻ لاء آسان بڻائي ڇڏيو آهي. مثال طور، هن باب ۾، مان توهان کي هڪ مطالعي جي باري ۾ ٻڌائي ٿو ته پورهيت جي اقتصاد (Farber 2015) بنيادي (Farber 2015) ۾ بنيادي بحث جو پتو لڳائڻ لاء، نيويارڪ سٽي حڪومت جي ڊجيٽل ٽيڪسي ميٽر مان ڊيٽا کي واپس آڻيندي. ان کان پوء، ايندڙ بابن ۾، مان توهان کي ٻڌايان ٿو ته ڪئين سروي (Ansolabehere and Hersh 2012) ۾ هڪ سرڪاري رڪارڊ استعمال ٿيل هئي ۽ هڪ تجربه (Bond et al. 2012) .

مان سمجهان ٿو ته وڏن انگن اکرن (سيڪشن 2.3) جي ملڪيت جي باري ۾ وڌيڪ خاص طور تي ڳالهائڻ کان اڳ ۽ انهي جي تحقيق ۾ ڪتب آڻي سگهجي ٿو. (2.4) مون کي وڌيڪ پسند آهي. پيش ڪرڻ جي باري ۾ ٻه صلاح مشورو پيش ڪرڻ. پهرين، اهو ان جي ابتڙ سوچڻ لاء غور ڪري سگهجي ٿو جيڪو مون "قائم" ڊيٽا ۽ "ڊزائين ڪيل" ڊيٽا جي وچ ۾ وڃي رهيو آهي. اهو ويجهي آهي، پر اهو صحيح نه آهي. جيتوڻيڪ، تحقيق ڪندڙن جي نظرئي کان، وڏن انگن اکرن کي "مليا" آهن، اهي صرف آسمان مان نه ٿا ڪن. انهي جي بدران، ڊيٽا ذريعن جيڪي تحقيق ڪندڙ طرفان "مليا" آهن، ڪنهن به مقصد لاء ڪنهن جي طرفان ٺهيل آهن. ڇو ته "مليو" ڊيٽا ڪنهن جي طرفان ٺهيل آهن، مان هميشه توهان جي سفارش ڪري ٿو ته توهان جي ڊيٽا ٺاهي ماڻهن ۽ عملن بابت گهڻو ممڪن سمجهڻ جي ڪوشش ڪريو. ٻيو، جڏهن توهان ڊيٽا کي ٻيهر ڏنڊو ڪري رهيا آهيو، اهو عام طور تي توهان جي مسئلي لاء مثالي ڊيٽاسٽ تصور ڪرڻ جي قابل هوندو آهي ۽ انهي جو مثالي ڊيٽاسٽ جي مقابلي ۾ جيڪو توهان استعمال ڪري رهيا آهيو. جيڪڏهن توهان پنهنجي ڊيٽا کي پنهنجو پاڻ کي گڏ ڪونه ڪيو، توهان جي لاء جيڪي توهان چاهيندا آهيو ۽ توهان جي وچ ۾ اهم فرق هجڻ جا امڪان آهن. واضع ڪرڻ ۾ اهي اختلافات جيڪي توهانجي معلومات حاصل ڪري سگهو ٿا ۽ توهان کي معلومات حاصل نه ڪري سگھندا، انهن کي واضع ڪرڻ ۾ مدد ملندي، اور यसले नयाँ डेटा लाई तपाईले सङ्कलन गर्न सुझाव दिन्छ.

منهنجي تجربن ۾، سماجي سائنسدان ۽ ڊيٽا سائنسدان جيڪي بلڪل مختلف طور تي ٻيهر ڀروسو ڪرڻ جي ڪوشش ڪندا آهن. سماجي سائنسدان، جيڪي تحقيق لاء ٺهيل ڊيٽا سان گڏ ڪم ڪرڻ جا عادي آهن، عام طور تي انهن جي مسئلي کي نظر انداز ڪرڻ لاء پريشاني واري ڊيٽا سان گڏ تڪڙو تڪڙو آهن. ٻئي طرف، ڊيٽا سائنسدان اڪثر ڪري انهن جي ڪمزورين کي نظرانداز ڪري رهيا آهن جڏهن ته ريگول ٿيل ڊيٽا جي فائدي کي جلدي تيز ڪن ٿا. قدرتي طور، بهترين نقطو هڪ هائبرڊ آهي. اهو آهي، محقق وڏن انگن اکرن جي شين کي ڄاڻڻ جي ضرورت آهي- ٻنهي کان خراب ۽ خراب-پوء پوء معلوم ٿيندو ته انهن مان ڪيئن ڪئين. ۽، اهو هن باب جي باقي رهڻ جو منصوبو آهي. ايندڙ حصي ۾، آئون وڏي ڊيٽا جي وسيلن جي ڏهن عام خاصيتن جي وضاحت ڪندس. ان کان پوء، هيٺ ڏنل حصي ۾، آئون ٽن تحقيقي طريقن جو بيان ڪندس جنهن سان گڏ ڊيٽا سان گڏ ڪم ڪري سگهي ٿو.