2.4.1 मतमोजणी गोष्टी

आपण चांगले डेटा एक चांगला प्रश्न एकत्र तर साधे मतमोजणी मनोरंजक असू शकते.

तो अत्याधुनिक-दणदणीत भाषेत जोडला गेला असला तरी पुष्कळ सामाजिक संशोधन खरोखरच केवळ गोष्टींची गणना करत आहे. मोठ्या संख्येच्या डेटामध्ये, संशोधक पूर्वीपेक्षा अधिक मोजू शकतात, परंतु याचा अर्थ असा नाही की त्यांनी केवळ अधार्मिकपणे गणना करणे सुरू केले पाहिजे. त्याऐवजी, संशोधकांनी असा प्रश्न विचारला पाहिजे की कोणत्या गोष्टी मोजल्या जातात? हे एक पूर्णपणे व्यक्तिनिष्ठ बाब आहे असे वाटू शकते, पण काही सामान्य नमुने आहेत

बर्याचदा विद्यार्थ्यांनी त्यांचे गणित संशोधन हे असे म्हणण्यास प्रेरित करतात की: मी ज्या गोष्टींची गणना करत आहे ती आता कोणीही मोजत नाही. उदाहरणार्थ, एक विद्यार्थी म्हणू शकतो की बर्याच लोकांनी प्रवासी स्थलांतर केले आहे आणि बर्याच लोकांनी जुळ्या विषयांचा अभ्यास केला आहे, परंतु कोणीतरी स्थलांतरित जुळे शिक्षण घेतलेले नाही माझ्या अनुभवातील, हे धोरण, जे मी अनुपस्थितीने प्रेरणा म्हणतो, सहसा चांगल्या संशोधनास कारणीभूत होत नाही. अनुपस्थितीने प्रेरणा हे असे सांगण्यासारखे आहे की तिथे एक छिद्र आहे, आणि मी ती भरण्यासाठी फार कठोर परिश्रम घेणार आहे. परंतु प्रत्येक छिद्र भरण्याची गरज नाही.

अनुपस्थितीने प्रेरणा देण्याऐवजी, मला वाटते की, महत्वाची किंवा मनोरंजक (किंवा आदर्श दोन्ही) शोधविषयक प्रश्न शोधणे हे एक उत्तम धोरण आहे. या दोन्ही अटी परिभाषित करणे कठिण आहे, परंतु महत्वाच्या संशोधनाबद्दल विचार करण्याचा एक मार्ग म्हणजे तो काही मोजता येण्याजोगा परिणाम आहे किंवा धोरण तयार करणार्या एका महत्त्वपूर्ण निर्णयाच्या रूपात असतो. उदाहरणार्थ, बेरोजगारीचा दर मोजणे महत्त्वाचे आहे कारण हे अर्थव्यवस्थेचे सूचक आहे जे धोरण निर्णय घेते. साधारणपणे, माझ्या मते संशोधकांना काय महत्वाचे आहे याचा एक सुंदर अर्थ आहे. तर या उर्वरित भागात, मी दोन उदाहरण देतो जेथे मला वाटते की मोजणी मनोरंजक आहे. प्रत्येक बाबतीत, संशोधक अधार्मिक नाही; त्याऐवजी, ते अतिशय विशिष्ट रीतीमध्ये गणले जात होते ज्यात सामाजिक प्रणाली कशी कार्य करते याबद्दल अधिक सामान्य कल्पनांमध्ये महत्वाची माहिती दिली. दुस-या शब्दात सांगायचे तर, ज्यामुळे या विशिष्ट मोजणीचा परिणाम मनोरंजक बनतो तो खूप डेटा नाही, हे या सर्वसाधारण कल्पनांमधून येते.

मोजणीच्या सोप्या शक्तीची एक उदाहरण हेन्री फरबरच्या (2015) न्यू यॉर्क शहर टॅक्सी चालकांच्या वागणुकीचा अभ्यास आहे. जरी हे गट स्वाभाविकपणे मनोरंजक बोलत नसले तरी श्रमिक अर्थव्यवस्थेतील दोन स्पर्धात्मक सिद्धांत तपासण्यासाठी हे एक मोक्याचा शोधस्थान आहे. फरबरच्या संशोधनासाठी, टॅक्सी चालकांच्या कार्य पर्यावरणाविषयी दोन महत्वाच्या वैशिष्ट्ये आहेत: (1) त्यांच्या रोजच्या रोजच्या रोजगारामध्ये हवामानासारख्या कारणास्तव, आणि (2) तासांच्या संख्येवर आधारित, त्यांच्या रोजच्या रोजगारावर चढ-उतार होतात. आपल्या निर्णयांवर आधारित प्रत्येक दिवशी अस्थिरता निर्माण होऊ शकते. या वैशिष्ट्यांमुळे काम केलेल्या तासातील मजुरी आणि तासांमधील नातेसंबंधांबद्दलचे एक मनोरंजक प्रश्न उद्भवतात. अर्थशास्त्रातील नियोक्लास्टिक मॉडेल असा अंदाज करतात की टॅक्सी चालक त्या दिवशी अधिक काम करतील जेथे त्यांना उच्च तासाची मजुरी असते. वैकल्पिकरित्या, वागणूकविषयक अर्थशास्त्र पासून मॉडेल नक्की उलट अंदाज. जर ड्रायव्हर्सने विशिष्ट उत्पन्न लक्ष्य निर्धारित केले - तर दररोज $ 100 म्हणा- आणि त्या लक्ष्यापर्यंत काम करेपर्यंत चालणार नाहीत, तर ड्रायव्हर त्यापेक्षा कमी तास काम करू लागतील ज्या दिवशी ते अधिक कमाई करत आहेत. उदाहरणार्थ, आपण लक्ष्य कमावणारे असल्यास, आपण एका चांगल्या दिवसापासून (तास 25 डॉलर) आणि खराब दिवस ($ 20 प्रति तास) वर पाच तास काम करू शकता. तर, चालकास जास्त तासाचा मजुरीसह (न्यूलॅलॅसिकल मॉडेलद्वारा अंदाज लावल्याप्रमाणे) किंवा कमी तासासाठीच्या मजुरीसह (अधिक व्यावहारिक आर्थिक मॉडेलनुसार अंदाज केलेल्या) दिवसांमध्ये अधिक तास काम करतात का?

या प्रश्नाचे उत्तर देण्यासाठी फरबरने न्यूयॉर्क सिटी कॅबचे 200 9 ते 2013 या कालावधीत घेतलेल्या प्रत्येक टॅक्सी प्रवासाची माहिती प्राप्त केली, आता सार्वजनिकरित्या उपलब्ध असलेल्या माहिती या डेटास इलेक्ट्रॉनिक मीटरने गोळा केल्या गेल्या आहेत ज्या शहरांना टॅक्सी वापरण्याची आवश्यकता आहे-प्रत्येक सहलीबद्दलची माहिती समाविष्ट करा: प्रारंभ वेळ, प्रारंभ स्थान, समाप्ती वेळ, अंतिम स्थान, भाडे आणि टिप (टीप क्रेडिट कार्डाने दिले असल्यास) . या टॅक्सी मीटरच्या डेटाचा वापर करून, फॉबरला आढळले की बहुतेक ड्रायव्हर्स दिवसावर जास्त काम करतात जेव्हा मजुरी जास्त असते, नियोक्लासॅलिसल सिद्धांताशी सुसंगत.

या मुख्य शोधाव्यतिरिक्त, फरबर विविधता आणि गतिशीलता चांगल्या प्रकारे समजून घेण्यासाठी डेटाचा आकार वापरण्यास सक्षम होता. कालांतराने, नवीन ड्रायव्हर हळूहळू उच्च वेतन दिवसावर अधिक तास काम करायला शिकतात (उदा. ते नवशालेय मॉडेल म्हणून भविष्य वर्तवणे शिकतात). आणि नवे ड्रायव्हर जे लक्ष्यित कमावणाऱ्यासारखे वागतात ते अधिक टॅक्सी ड्रायव्हर्सना सोडून जातात. या दोन्ही अधिक सूक्ष्म निष्कर्ष, जे वर्तमान ड्रायव्हर्सचे साजरे वर्तन समजावण्यास मदत करतात, डेटासेटच्या आकारामुळेच शक्य होते. आधीच्या अभ्यासामध्ये ते शोधण्यास अशक्य होते जे अल्प काळातील अल्प संख्येने टॅक्सी चालकांकडून कागदी ट्रिप शीट वापरत होते (Camerer et al. 1997) .

फार्बरचा अभ्यास हा मोठ्या प्रमाणावर डेटा स्त्रोताचा वापर करून संशोधनासाठी उत्कृष्ट परिस्थितीच्या जवळपास होता कारण शहराद्वारे गोळा करण्यात आलेला डेटा फार्बरने गोळा केला होता त्या डेटाशी अगदी जवळचा होता (एक फरक म्हणजे फरबरने एकूण डेटाचे असावे वेतन-भाडे आणि टिपा-परंतु शहराचा डेटा केवळ क्रेडिट कार्डाद्वारे भरलेल्या युक्त्यांचा समावेश आहे). तथापि, केवळ डेटा पुरेसे नव्हते फार्बरच्या संशोधनाची एक महत्त्वाची समस्या, या प्रश्नावर एक मनोरंजक प्रश्न आणत आहे, जो फक्त या विशिष्ट सेटिंगच्या बाहेर पलीकडे एक मोठा प्रभाव आहे.

गणना करण्याच्या गोष्टीचे दुसरे उदाहरण म्हणजे गॅरी किंग, जेनिफर पॅन आणि मॉली रॉबर्ट्स (2013) यांच्याद्वारे चिनी सरकारने ऑनलाइन सेन्सॉरशिपवर संशोधन केले आहे. या प्रकरणात, तथापि, संशोधकांना त्यांचे स्वत: चे मोठे डेटा गोळा करावे लागले आणि त्यांच्या डेटाची अपूर्ण माहिती असल्याची त्यांना सवय होती.

राजा आणि त्यांचे सहकारी हे चीनच्या सोशल मीडिया पोस्ट्सवर एक प्रचंड राज्य तंत्रज्ञानाद्वारे सेन्सॉर केले गेले आहे ज्याचा विचार हजारो लोकांच्या संख्येचा समावेश आहे. तथापि, संशोधक आणि नागरिकांना मात्र या सेन्सर्सने काय सामग्री हटविली जावी हे ठरवितात याबद्दल थोडीच जाण आहे. चीनच्या विद्वानांकडे खरोखर कोणत्या प्रकारच्या पोस्ट हटविल्या जात आहेत त्याबद्दल परस्परविरोधी अपेक्षा आहेत. काहींना असे वाटते की सेन्सर्स राज्यांच्या समस्येवरील पोस्टवर लक्ष देतात, तर इतरांना वाटते की ते अशा सामूहिक वर्तनास प्रोत्साहन देणार्या पोस्टवर लक्ष देतात, जसे की निषेध या पैकी कोणती अपेक्षा अचूक आहे हे समजून घेणे संशोधकांना चीन आणि सेंसरशिपमध्ये सामील असलेल्या अन्य हुकूमशाही सरकारांना कसे समजते यावर परिणाम होतो. म्हणून, राजा आणि त्यांचे सहकारी प्रकाशित झालेली पोस्ट्स आणि नंतर प्रकाशित झालेल्या पोस्ट हटविल्या गेल्या आणि कधीही हटवल्या जाणार नाहीत याची तुलना करू इच्छित होते.

या पोस्ट गोळा भिन्न पृष्ठावर संबद्ध पोस्ट लेआउट-आढळले, आणि नंतर नंतर हटविले गेले पाहण्यासाठी या पोस्ट पुन्हा भेटी 1,000 पेक्षा अधिक चीनी सोशल मीडियावर प्रत्येक क्रॉलिंग आश्चर्यकारक अभियांत्रिकी पराक्रम सहभाग. मोठ्या प्रमाणात वेब-क्रॉलिंग संबंधित सामान्य अभियांत्रिकी समस्या व्यतिरिक्त, हा प्रकल्प तो अत्यंत जलद असणे आवश्यक आहे की, अनेक होउन पोस्ट पेक्षा कमी 24 तासांत खाली घेतले जातात कारण जोडले आव्हान होते. दुसऱ्या शब्दांत, एक मंद सरपटत जाणारा होउन होते की पोस्ट बरेच चुकली होईल. शिवाय, क्रॉलर सोशल मीडियावर प्रवेश अवरोधित किंवा अन्यथा अभ्यास प्रतिसाद त्यांची धोरणे बदलू नये ओळख नव्ह्ता तर हा सर्व डेटा संग्रह करावं लागलं.

या प्रचंड अभियांत्रिकी कार्य पूर्ण झाल्यानंतर, राजा आणि सहकाऱ्यांनी 85 विभिन्न prespecified विषयांवर सुमारे 11 दशलक्ष पोस्ट मिळविली होती, प्रत्येक संवेदनशीलता पातळीच्या पातळीवर. उदाहरणार्थ, उच्च संवेदनशीलतेचा विषय म्हणजे आय वेईवी, असंतुष्ट कलाकार; मध्यम संवेदनशीलतेचा विषय म्हणजे चिनी चलनाचा कौतुक आणि अवमूल्यन, आणि कमी संवेदनशीलतेचा विषय म्हणजे विश्वचषक. या 11 दशलक्ष पोस्टपैकी सुमारे 2 दशलक्ष सेंसर केले गेले आहेत. काही आश्चर्याची गोष्ट म्हणजे, राजा आणि सहकाऱ्यांनी असे आढळले की अत्यंत संवेदनशील विषयांवरील पोस्ट्स फक्त मध्य आणि निम्न-संवेदनशीलता विषयांवरील पोस्ट्सपेक्षा किंचित अधिकच सेल्स होते. दुसऱ्या शब्दांत, चीनी सेन्सर्सने विश्वचषकांचा उल्लेख असलेल्या पदोन्नती म्हणून ए वी वेईवीचा उल्लेख करणार्या एका पदावर सेंसर करण्याची शक्यता आहे. हे शोध संवेदनशील विषयांवर सरकारच्या अखत्यारितील सर्व विषयांना कन्फर्म करते या कल्पनांना समर्थन देत नाही.

विषयासंदर्भातील सेन्सॉरशिप दरांची ही साधी गणना चुकीची असू शकते, तथापि उदाहरणार्थ, सरकार आई वेईवेईच्या समर्थनास असलेल्या पोस्टांवर नियंत्रण ठेवू शकते, परंतु त्यांच्यासाठी महत्वपूर्ण असलेले पद सोडा. पोस्ट्समधील अधिक काळजीपूर्वक फरक करण्यासाठी, संशोधकांना प्रत्येक पोस्टची भावना मोजण्यासाठी आवश्यक होते. दुर्दैवाने, बर्याच परिस्थितिंमध्ये (विभाग 9 .3 9 मध्ये वर्णन केलेल्या 11 सप्टेंबर 2001 च्या भावनात्मक वेळेत तयार करण्याच्या समस्येचा विचार करा) पूर्वतत्वाच्या शब्दकोषांचा वापर करून जास्त काम केल्याशिवाय, भावनांच्या शोधाचे स्वयंचलितपणे स्वयंचलित पद्धती अद्याप चांगले नाहीत. म्हणून, राजा आणि सहकाऱ्यांनी 11 दशलक्ष सोशल मीडिया पोस्टला राज्य करावे, (1) राज्याचे गंभीर, (2) राज्य समर्थक, किंवा (3) घटनांबद्दल अप्रासंगिक किंवा तथ्यात्मक अहवाल. हे एक भव्य नोकरीसारखे वाटत आहे, परंतु त्यांनी डेटा विज्ञानात सामान्यपणे एक शक्तिशाली युक्ती वापरून निराकरण केले आहे परंतु सामाजिक विज्ञान मध्ये तुलनेने दुर्लभ आहे: पर्यवेक्षण शिक्षण ; आकृती 2.5 पहा.

सर्वप्रथम, एखाद्या प्रक्रियेत सामान्यतः पूर्वप्रक्रिया म्हणतात, संशोधकांनी सोशल मीडिया पोस्ट्सला एक दस्तऐवज-कालावधीतील मॅट्रिक्समध्ये रूपांतरित केले होते, जेथे प्रत्येक दस्तऐवजासाठी एक पंक्ती होती आणि एका स्तंभामध्ये नोंद होते की पोस्टमध्ये विशिष्ट शब्द (उदा. निषेध किंवा रहदारी) . नंतर, संशोधन सहाय्यकांचा एक गट ने पोस्टच्या नमुन्यांची भावना मांडली. नंतर, त्यांनी या हाताने लेबल केलेल्या डेटाचा वापर मशीन शिक्षण मॉडेल तयार करण्यासाठी केला जो त्याच्या वैशिष्ट्यांवर आधारित एका पोस्टच्या भावनांचे आकलन करू शकले. अखेरीस त्यांनी 11 दशलक्ष पोस्टच्या भावनांचा अंदाज घेण्यासाठी या मॉडेलचा उपयोग केला.

अशाप्रकारे 11 दशलक्ष पोस्ट हाताने वाचून लेबल लावण्याऐवजी- जे लाकूडतत्त्वे अशक्य असेल - राजा आणि सहकाऱ्यांनी स्वतःच छोट्या संख्येची पदांची लेबले दिली आणि नंतर सर्व पोस्टच्या भावनांचा अंदाज घेण्यासाठी पर्यवेक्षी शिक्षण वापरला. हे विश्लेषण पूर्ण केल्यानंतर, ते निष्कर्ष काढू शकले की, एखादी पोस्ट काढून टाकण्याची संभाव्यता राज्याच्या टीकात्मक आहे किंवा राज्याचे आभारी आहे की नाही हे संबंधित नाही.

आकृती 2.5: राजा, पॅन आणि रॉबर्ट्स (2013) द्वारे वापरल्या जाणार्या प्रक्रियेच्या सरलीकृत योजनाबद्धतेसाठी 11 दशलक्ष चीनी सोशल मीडिया पोस्टच्या भावनांचा अंदाज लावला. प्रथम, पूर्वप्रक्रियाकरणाच्या प्रक्रियेत, संशोधकांनी सोशल मीडिया पोस्ट्सला एका दस्तऐवज-कालावधीतील मॅट्रिक्समध्ये रुपांतरित केले (अधिक माहितीसाठी ग्रिमर आणि स्टीवर्ट (2013) पहा). सेकंद, त्यांनी पोस्ट्सच्या एका छोट्याशा नमुन्यांची भावना मांडली. तिसरे, त्यांनी पदांच्या भावना वर्गीकृत करण्यासाठी पर्यवेक्षी शिक्षण मॉडेल प्रशिक्षित केले. चौथा, त्यांनी सर्व पदांच्या भावनांचा अंदाज घेण्यासाठी पर्यवेक्षी शिक्षण मॉडेलचा वापर केला. अधिक तपशीलवार वर्णनासाठी राजा, पॅन आणि रॉबर्ट्स (2013), परिशिष्ट B पहा.

आकृती 2.5: King, Pan, and Roberts (2013) द्वारे वापरल्या जाणार्या प्रक्रियेच्या सरलीकृत योजनाबद्धतेसाठी 11 दशलक्ष चीनी सोशल मीडिया पोस्टच्या भावनांचा अंदाज लावला. प्रथम, पूर्वप्रक्रियाकरणाच्या प्रक्रियेत , संशोधकांनी सोशल मीडिया Grimmer and Stewart (2013) एका दस्तऐवज-कालावधीतील मॅट्रिक्समध्ये रूपांतरित केले (अधिक माहितीसाठी Grimmer and Stewart (2013) पहा). सेकंद, त्यांनी पोस्ट्सच्या एका छोट्याशा नमुन्यांची भावना मांडली. तिसरे, त्यांनी पदांच्या भावना वर्गीकृत करण्यासाठी पर्यवेक्षी शिक्षण मॉडेल प्रशिक्षित केले. चौथा, त्यांनी सर्व पदांच्या भावनांचा अंदाज घेण्यासाठी पर्यवेक्षी शिक्षण मॉडेलचा वापर केला. अधिक तपशीलवार वर्णनासाठी King, Pan, and Roberts (2013) , परिशिष्ट B पहा.

सरतेशेवटी, राजा आणि त्यांच्या सहकाऱ्यांनी शोध लावले की केवळ तीन प्रकारचे पोस्ट नियमितपणे सेन्सॉर झाले आहेत: पोर्नोग्राफी, सेन्सर्सची टीका, आणि ज्या सामूहिक क्रिया क्षमता होत्या (म्हणजे मोठ्या प्रमाणावरील निषेधार्थ होण्याची शक्यता). हटवलेल्या मोठ्या पोस्ट आणि पोस्ट हटवल्या गेल्या नाहीत हे पाहून राजा आणि त्यांचे सहकारी हे जाणून घेण्यास सक्षम होते की सेन्सर्स कसे काम आणि मोजणी करून काम करतात. पुढे, या पुस्तकामध्ये ज्या विषयावर होणार्या एक थीमची पूर्वसूचना देणे, त्यांनी वापरलेले पर्यवेक्षी शिक्षण पध्दती जे काही परिणाम हाताळते-काही परिणामांचे लेबलिंग करतात आणि मग बाकीचे लेबल करण्यासाठी एक मशीन शिकण्याचे मॉडेल तयार करतात- डिजिटल युगात सामाजिक संशोधनात अतिशय सामान्य असल्याचे दिसून येते . आपण अध्याय 3 मध्ये आकृती 2.5 (प्रश्न विचारणे) आणि 5 (द्रुत सहयोग निर्माण करणे) प्रमाणेच चित्रे पाहू शकाल; हे अनेक कल्पनांमधील एक आहे जे अनेक अध्यायांमध्ये दिसून येते.

ही उदाहरणे- न्यूयॉर्कमधील टॅक्सी चालकांचे कार्यरत वर्तन आणि चीनी सरकारच्या सोशल मीडिया सेन्सॉरशिप वर्तन-हे दाखवतात की मोठ्या प्रमाणात डेटा स्त्रोतांची तुलनेने सोपी गणना करणे काही परिस्थितींमध्ये मनोरंजक आणि महत्त्वपूर्ण संशोधन करू शकते. दोन्ही प्रकरणांमध्ये, तथापि, संशोधकांना मोठ्या डेटा स्रोतासाठी मनोरंजक प्रश्न आणणे आवश्यक होते; डेटा स्वतःच पुरेसा नव्हता