2.4.1 गिनती बातों

अगर आप अच्छा डेटा के साथ एक अच्छा सवाल गठबंधन सरल गिनती दिलचस्प हो सकता है।

यद्यपि यह परिष्कृत-ध्वनि भाषा में जुड़ा हुआ है, लेकिन बहुत से सामाजिक शोध वास्तव में चीजों की गिनती कर रहे हैं। बड़े आंकड़ों की उम्र में, शोधकर्ता पहले से कहीं अधिक गिन सकते हैं, लेकिन इसका मतलब यह नहीं है कि उन्हें केवल खतरनाक गिनती शुरू करनी चाहिए। इसके बजाए, शोधकर्ताओं से पूछना चाहिए: क्या चीजें गिनने लायक हैं? यह पूरी तरह से व्यक्तिपरक पदार्थ की तरह प्रतीत हो सकता है, लेकिन कुछ सामान्य पैटर्न हैं।

अक्सर छात्र कहकर अपने गिनती शोध को प्रेरित करते हैं: मैं कुछ ऐसी गिनती करने जा रहा हूं जिसे पहले कभी नहीं गिना गया है। उदाहरण के लिए, एक छात्र कह सकता है कि कई लोगों ने प्रवासियों का अध्ययन किया है और कई लोगों ने जुड़वां अध्ययन किया है, लेकिन किसी ने भी प्रवासी जुड़वां अध्ययन नहीं किया है। मेरे अनुभव में, इस रणनीति, जिसे मैं अनुपस्थिति से प्रेरित करता हूं, आमतौर पर अच्छा शोध नहीं लेता है। अनुपस्थिति से प्रेरणा यह कहने की तरह है कि वहां एक छेद है, और मैं इसे भरने के लिए बहुत मेहनत करने जा रहा हूं। लेकिन हर छेद को भरने की जरूरत नहीं है।

अनुपस्थिति से प्रेरित होने के बजाय, मुझे लगता है कि एक बेहतर रणनीति उन शोध प्रश्नों की तलाश करना है जो महत्वपूर्ण या रोचक (या आदर्श दोनों) हैं। इन दोनों शर्तों को परिभाषित करने के लिए थोड़ा मुश्किल है, लेकिन महत्वपूर्ण शोध के बारे में सोचने का एक तरीका यह है कि नीति निर्माताओं द्वारा इसका एक महत्वपूर्ण निर्णय में इसका कुछ प्रभावशाली प्रभाव या फ़ीड होता है। उदाहरण के लिए, बेरोजगारी की दर को मापना महत्वपूर्ण है क्योंकि यह अर्थव्यवस्था का संकेतक है जो नीति निर्णयों को चलाता है। आम तौर पर, मुझे लगता है कि शोधकर्ताओं के पास महत्वपूर्ण बात है कि क्या महत्वपूर्ण है। तो, इस खंड के बाकी हिस्सों में, मैं दो उदाहरण प्रदान करने जा रहा हूं जहां मुझे लगता है कि गिनती दिलचस्प है। प्रत्येक मामले में, शोधकर्ता खतरनाक गिनती नहीं कर रहे थे; बल्कि, वे बहुत ही विशेष सेटिंग्स में गिन रहे थे, जो सामाजिक प्रणालियों के काम के बारे में अधिक सामान्य विचारों में महत्वपूर्ण अंतर्दृष्टि प्रकट करते थे। दूसरे शब्दों में, इन विशेष गिनती अभ्यासों को दिलचस्प बनाने में बहुत कुछ डेटा नहीं है, यह इन सामान्य विचारों से आता है।

गिनती की सरल शक्ति का एक उदाहरण हेनरी फरबर (2015) न्यूयॉर्क सिटी टैक्सी ड्राइवरों के व्यवहार के अध्ययन से आता है। यद्यपि यह समूह स्वाभाविक रूप से दिलचस्प नहीं लग सकता है, यह श्रम अर्थशास्त्र में दो प्रतिस्पर्धी सिद्धांतों का परीक्षण करने के लिए एक रणनीतिक अनुसंधान स्थल है । फरबर के शोध के प्रयोजनों के लिए, टैक्सी चालकों के कार्य वातावरण के बारे में दो महत्वपूर्ण विशेषताएं हैं: (1) मौसम की तरह कारकों के आधार पर, उनके प्रति घंटा मजदूरी दिन-प्रतिदिन उतार-चढ़ाव करती है, और (2) घंटों की संख्या काम अपने फैसलों के आधार पर प्रत्येक दिन उतार-चढ़ाव कर सकता है। ये विशेषताएं प्रति घंटा मजदूरी और घंटों के बीच संबंधों के बारे में एक दिलचस्प सवाल का कारण बनती हैं। अर्थशास्त्र में नियोक्लासिकल मॉडल का अनुमान है कि टैक्सी ड्राइवर उन दिनों पर अधिक काम करेंगे जहां उनके पास प्रति घंटा वेतन होता है। वैकल्पिक रूप से, व्यवहारिक अर्थशास्त्र के मॉडल बिल्कुल विपरीत की भविष्यवाणी करते हैं। यदि ड्राइवर एक विशेष आय लक्ष्य निर्धारित करते हैं- प्रति दिन $ 100 कहें- और उस लक्ष्य तक पूरा होने तक काम करें, तो ड्राइवर दिन कम काम कर रहे हैं कि वे अधिक कमाई कर रहे हैं। उदाहरण के लिए, यदि आप एक लक्षित कमाई करने वाले थे, तो आप एक अच्छे दिन (25 डॉलर प्रति घंटे) और खराब दिन ($ 20 प्रति घंटे) पर पांच घंटे काम कर सकते हैं। तो, क्या चालक उच्च घंटों के मजदूरी (जैसा कि नियोक्लासिकल मॉडल द्वारा भविष्यवाणी की जाती है) या कम घंटे के मजदूरी वाले दिनों में अधिक घंटों (व्यवहारिक आर्थिक मॉडल द्वारा भविष्यवाणी) के साथ दिन में अधिक घंटे काम करते हैं?

इस सवाल का जवाब देने के लिए फरबर ने 200 9 से 2013 तक न्यू यॉर्क सिटी कैब द्वारा ली गई हर टैक्सी यात्रा पर डेटा प्राप्त किया, जो डेटा अब सार्वजनिक रूप से उपलब्ध है। इन आंकड़ों को इलेक्ट्रॉनिक मीटर द्वारा एकत्रित किया गया था कि शहर को टैक्सियों का उपयोग करने की आवश्यकता है-प्रत्येक यात्रा के बारे में जानकारी शामिल करें: प्रारंभ समय, प्रारंभ स्थान, समाप्ति समय, अंतिम स्थान, किराया, और टिप (यदि टिप क्रेडिट कार्ड के साथ भुगतान किया गया था) । इस टैक्सी मीटर डेटा का उपयोग करते हुए, फरबर ने पाया कि अधिकांश ड्राइवर दिन पर अधिक काम करते हैं जब मजदूरी अधिक होती है, जो नियोक्लासिकल सिद्धांत के अनुरूप होती है।

इस मुख्य खोज के अलावा, फरबर विषमता और गतिशीलता की बेहतर समझ के लिए डेटा के आकार का उपयोग करने में सक्षम था। उन्होंने पाया कि, समय के साथ, नए ड्राइवर धीरे-धीरे उच्च वेतन वाले दिनों में अधिक घंटे काम करना सीखते हैं (उदाहरण के लिए, वे नियोक्लासिकल मॉडल भविष्यवाणियों के रूप में व्यवहार करना सीखते हैं)। और नए ड्राइवर जो लक्ष्य कमाई करने वालों की तरह अधिक व्यवहार करते हैं, वे टैक्सी ड्राइवर होने से अधिक होने की संभावना रखते हैं। इन दोनों सूक्ष्म निष्कर्षों, जो मौजूदा ड्राइवरों के मनाए गए व्यवहार की व्याख्या करने में मदद करते हैं, डेटासेट के आकार के कारण ही संभव थे। उन्हें पहले के अध्ययनों में पता लगाना असंभव था कि पेपर ट्रिप शीट्स का इस्तेमाल छोटी अवधि में टैक्सी ड्राइवरों की थोड़ी सी अवधि (Camerer et al. 1997)

फरबर का अध्ययन एक बड़े डेटा स्रोत का उपयोग करके एक शोध के लिए सबसे अच्छे मामले के परिदृश्य के करीब था क्योंकि शहर द्वारा एकत्र किए गए आंकड़े फरबर द्वारा एकत्र किए गए डेटा के बहुत करीब थे (एक अंतर यह है कि फरबर कुल मिलाकर डेटा चाहता था मजदूरी-किराए के साथ-साथ सुझाव-लेकिन शहर के डेटा में केवल क्रेडिट कार्ड द्वारा भुगतान की गई युक्तियां शामिल थीं)। हालांकि, अकेले डेटा पर्याप्त नहीं थे। फरबर के शोध की कुंजी डेटा पर एक दिलचस्प सवाल ला रही थी, एक प्रश्न जिसमें इस विशिष्ट सेटिंग से परे बड़े प्रभाव पड़ते हैं।

चीजों की गिनती का दूसरा उदाहरण चीनी सरकार द्वारा ऑनलाइन सेंसरशिप पर गैरी किंग, जेनिफर पैन और मौली रॉबर्ट्स (2013) द्वारा अनुसंधान से आता है। इस मामले में, हालांकि, शोधकर्ताओं को अपना स्वयं का बड़ा डेटा एकत्र करना पड़ा और उन्हें इस तथ्य से निपटना पड़ा कि उनका डेटा अधूरा था।

राजा और सहयोगियों को इस तथ्य से प्रेरित किया गया कि चीन में सोशल मीडिया पदों को एक विशाल राज्य तंत्र द्वारा सेंसर किया गया है, जिसमें हजारों लोगों को शामिल करने का विचार किया जाता है। हालांकि, शोधकर्ताओं और नागरिकों को यह समझ में नहीं आता कि ये सेंसर कैसे तय करते हैं कि कौन सी सामग्री को हटाया जाना चाहिए। चीन के विद्वानों के पास वास्तव में विवादित उम्मीदें हैं कि किस प्रकार की पोस्ट हटा दी जाने की संभावना है। कुछ सोचते हैं कि सेंसर राज्य की आलोचनात्मक पदों पर ध्यान केंद्रित करते हैं, जबकि अन्य सोचते हैं कि वे उन पदों पर ध्यान केंद्रित करते हैं जो सामूहिक व्यवहार जैसे विरोध प्रदर्शन को प्रोत्साहित करते हैं। इन अपेक्षाओं में से कौन सा उम्मीद सही है, यह पता लगाने के लिए कि शोधकर्ता चीन और अन्य सत्तावादी सरकारों को कैसे समझते हैं, जो सेंसरशिप में संलग्न होते हैं, इस पर प्रभाव पड़ता है। इसलिए, राजा और सहयोगी प्रकाशित पदों की तुलना करना चाहते थे और बाद में पोस्ट की गई पोस्टों के साथ हटा दिए गए और कभी नहीं हटाए गए।

इन पदों का संग्रह शामिल प्रासंगिक पदों अलग पेज लेआउट खोजने, और फिर इन पदों की समीक्षा देखने के लिए जो बाद में नष्ट कर दिया गया था के साथ 1,000 से अधिक चीनी सामाजिक मीडिया वेबसाइटों-प्रत्येक रेंगने की अद्भुत इंजीनियरिंग करतब। बड़े पैमाने पर वेब रेंगने के साथ जुड़े सामान्य इंजीनियरिंग समस्याओं के अलावा, इस परियोजना को जोड़ा चुनौती यह है कि यह बहुत तेजी से हो सकता है क्योंकि कई सेंसर पदों कम से कम 24 घंटे में नीचे ले रहे हैं की जरूरत थी। दूसरे शब्दों में, एक धीमी गति से क्रॉलर पदों है कि सेंसर थे बहुत याद होगा। इसके अलावा, क्रॉलर्स ऐसा न हो कि सामाजिक मीडिया वेबसाइटों के उपयोग ब्लॉक या अन्यथा अध्ययन के जवाब में उनकी नीतियों को बदलने, जबकि पता लगाने से बच रहा है यह सब डेटा संग्रह करना था।

जब तक इस बड़े पैमाने पर इंजीनियरिंग कार्य पूरा हो गया, तब तक राजा और सहयोगियों ने 85 विभिन्न पूर्वनिर्धारित विषयों पर 11 मिलियन पद प्राप्त किए थे, जिनमें प्रत्येक संवेदनशीलता के अनुमानित स्तर के साथ था। उदाहरण के लिए, उच्च संवेदनशीलता का विषय असी वीईवेई, असंतुष्ट कलाकार है; मध्यम संवेदनशीलता का विषय चीनी मुद्रा की प्रशंसा और अवमूल्यन है, और कम संवेदनशीलता का विषय विश्व कप है। इन 11 मिलियन पदों में से लगभग 2 मिलियन सेंसर किए गए थे। कुछ हद तक आश्चर्यजनक रूप से, राजा और सहयोगियों ने पाया कि अत्यधिक संवेदनशील विषयों पर पोस्ट मध्य-और कम संवेदनशीलता विषयों पर पोस्ट की तुलना में केवल थोड़ी अधिक सेंसर किए गए थे। दूसरे शब्दों में, चीनी सेंसर एक पोस्ट को सेंसर करने की संभावना रखते हैं जो ऐई वीवी को विश्व कप का उल्लेख करने वाले पद के रूप में उल्लेख करता है। ये निष्कर्ष इस विचार का समर्थन नहीं करते हैं कि सरकार संवेदनशील विषयों पर सभी पदों को सेंसर करती है।

हालांकि, विषय के अनुसार सेंसरशिप दर की यह सरल गणना भ्रामक हो सकती है। उदाहरण के लिए, सरकार उन पदों को सेंसर कर सकती है जो ऐ वीवेई के सहायक हैं, लेकिन उन पदों को छोड़ दें जो उनके लिए महत्वपूर्ण हैं। पदों के बीच अधिक सावधानी से अंतर करने के लिए, शोधकर्ताओं को प्रत्येक पद की भावना को मापने की आवश्यकता होती है। दुर्भाग्यवश, बहुत से काम के बावजूद, पूर्व-मौजूदा शब्दकोशों का उपयोग करके भावनाओं का पता लगाने के पूरी तरह से स्वचालित तरीके अभी भी कई परिस्थितियों में बहुत अच्छे नहीं हैं (11 सितंबर, 2001 की भावनात्मक समयरेखा बनाने वाली समस्याओं को वापस 2.3.9 में वर्णित समस्याओं के बारे में सोचें)। इसलिए, राजा और सहयोगियों को 11 मिलियन सोशल मीडिया पदों को लेबल करने का एक तरीका चाहिए, चाहे वे (1) राज्य की आलोचनात्मक हों, (2) राज्य के सहायक, या (3) घटनाओं के बारे में अप्रासंगिक या तथ्यात्मक रिपोर्ट। यह एक बड़े काम की तरह लगता है, लेकिन उन्होंने इसे एक शक्तिशाली चाल का उपयोग करके हल किया जो डेटा विज्ञान में आम है लेकिन सामाजिक विज्ञान में अपेक्षाकृत दुर्लभ है: पर्यवेक्षित शिक्षा ; आकृति 2.5 देखें।

सबसे पहले, एक चरण में आमतौर पर प्रीप्रोकैसिंग कहा जाता है , शोधकर्ताओं ने सोशल मीडिया पोस्ट को दस्तावेज़-अवधि मैट्रिक्स में परिवर्तित कर दिया, जहां प्रत्येक दस्तावेज़ के लिए एक पंक्ति थी और एक स्तंभ जो रिकॉर्ड करता था कि पोस्ट में एक विशिष्ट शब्द (उदाहरण के लिए, विरोध या यातायात) । इसके बाद, शोध सहायकों के एक समूह ने पदों के नमूने की भावना को लेबल किया। फिर, उन्होंने एक मशीन लर्निंग मॉडल बनाने के लिए इस हाथ से लेबल किए गए डेटा का उपयोग किया जो इसकी विशेषताओं के आधार पर एक पोस्ट की भावना का अनुमान लगा सकता है। अंत में, उन्होंने इस मॉडल का उपयोग सभी 11 मिलियन पदों की भावना का अनुमान लगाने के लिए किया।

इस प्रकार, 11 मिलियन पदों को मैन्युअल रूप से पढ़ने और लेबल करने के बजाय-जो तर्कसंगत रूप से असंभव होगा-राजा और सहयोगियों ने मैन्युअल रूप से कुछ पदों को लेबल किया और फिर सभी पदों की भावना का अनुमान लगाने के लिए पर्यवेक्षित शिक्षा का उपयोग किया। इस विश्लेषण को पूरा करने के बाद, वे निष्कर्ष निकालने में सक्षम थे कि, कुछ हद तक आश्चर्यजनक रूप से, एक पद को हटाए जाने की संभावना इस बात से असंबंधित थी कि क्या यह राज्य की आलोचनात्मक थी या राज्य के सहायक।

चित्रा 2.5: 11 मिलियन चीनी सोशल मीडिया पदों की भावना का अनुमान लगाने के लिए किंग, पैन और रॉबर्ट्स (2013) द्वारा उपयोग की जाने वाली प्रक्रिया की सरलीकृत योजनाबद्ध योजना। सबसे पहले, एक प्रीप्रोकैसिंग चरण में, शोधकर्ताओं ने सोशल मीडिया पोस्ट को दस्तावेज़-अवधि मैट्रिक्स में परिवर्तित कर दिया (अधिक जानकारी के लिए ग्रिमर और स्टीवर्ट (2013) देखें)। दूसरा, उन्होंने पदों के एक छोटे से नमूने की भावनाओं को हाथ से कोडित किया। तीसरा, उन्होंने पदों की भावना को वर्गीकृत करने के लिए एक पर्यवेक्षित शिक्षण मॉडल को प्रशिक्षित किया। चौथा, उन्होंने सभी पदों की भावना का अनुमान लगाने के लिए पर्यवेक्षित शिक्षण मॉडल का उपयोग किया। अधिक विस्तृत विवरण के लिए किंग, पैन, और रॉबर्ट्स (2013), परिशिष्ट बी देखें।

चित्रा 2.5: 11 मिलियन चीनी सोशल मीडिया पदों की भावना का अनुमान लगाने के लिए King, Pan, and Roberts (2013) द्वारा उपयोग की जाने वाली प्रक्रिया की सरलीकृत योजनाबद्ध योजना। सबसे पहले, एक प्रीप्रोकैसिंग चरण में, शोधकर्ताओं ने सोशल मीडिया पोस्ट को दस्तावेज़-अवधि मैट्रिक्स में परिवर्तित कर दिया Grimmer and Stewart (2013) अधिक जानकारी के लिए Grimmer and Stewart (2013) देखें)। दूसरा, उन्होंने पदों के एक छोटे से नमूने की भावनाओं को हाथ से कोडित किया। तीसरा, उन्होंने पदों की भावना को वर्गीकृत करने के लिए एक पर्यवेक्षित शिक्षण मॉडल को प्रशिक्षित किया। चौथा, उन्होंने सभी पदों की भावना का अनुमान लगाने के लिए पर्यवेक्षित शिक्षण मॉडल का उपयोग किया। अधिक विस्तृत विवरण के लिए King, Pan, and Roberts (2013) , परिशिष्ट बी देखें।

अंत में, राजा और सहयोगियों ने पाया कि केवल तीन प्रकार की पोस्ट नियमित रूप से सेंसर की गई थीं: अश्लील साहित्य, सेंसर की आलोचना, और जिनके सामूहिक कार्य क्षमता थी (यानी, बड़े पैमाने पर विरोध प्रदर्शन की संभावना)। हटाए गए पदों की एक बड़ी संख्या और हटाए गए पदों को देखकर, राजा और सहयोगी यह जानने में सक्षम थे कि कैसे सेंसर केवल देखकर और गिनती करके काम करते हैं। इसके अलावा, इस पुस्तक के दौरान एक विषय की भविष्यवाणी की जाएगी, पर्यवेक्षित सीखने का दृष्टिकोण जो उन्होंने कुछ परिणामों को हाथ से लेबल किया था और फिर डिजिटल युग में सामाजिक शोध में आराम से लेबल करने के लिए एक मशीन लर्निंग मॉडल का निर्माण किया । आप अध्याय 3 (प्रश्न पूछने) में चित्र 2.5 के समान चित्र देखेंगे और 5 (जन सहयोग बनाना); यह कई अध्यायों में से एक है जो एकाधिक अध्यायों में प्रकट होता है।

ये उदाहरण- न्यूयॉर्क में टैक्सी ड्राइवरों के कामकाजी व्यवहार और चीनी सरकार के सोशल मीडिया सेंसरशिप व्यवहार से पता चलता है कि कुछ स्थितियों में अपेक्षाकृत सरल डेटा स्रोतों की तुलनात्मक रूप से सरल गिनती दिलचस्प और महत्वपूर्ण शोध की ओर ले सकती है। हालांकि, दोनों मामलों में, शोधकर्ताओं को बड़े डेटा स्रोत पर दिलचस्प प्रश्न लाना पड़ा; अपने आप से डेटा पर्याप्त नहीं था।