2.4.1 गणना कुराहरू

तपाईं राम्रो डाटा असल प्रश्न संयोजन भने सरल गणना रोचक हुन सक्छ।

यद्यपि यो परिष्कृत-ध्वनि भाषामा जोडिएको छ, धेरै सामाजिक अनुसन्धान साँच्चै केवल चीजहरू गिनती छ। ठूलो डेटाको उमेरमा, शोधकर्ताहरूले धेरै भन्दा बढी गणना गर्न सक्छन्, तर यसको मतलब यो होइन कि उनीहरूले मात्र गम्भीर रूपमा गणना गर्नु पर्छ। बरु, शोधकर्ताहरूले सोध्नुपर्छ: कुन कुराहरूको गणना गइरहेको छ? यो पूर्णतया मानसिक विषय जस्तो लाग्न सक्छ, तर त्यहाँ केही सामान्य ढाँचाहरू छन्।

प्रायः विद्यार्थीहरूले आफ्नो काउन्टर रिसर्चलाई उत्प्रेरित गर्न उत्प्रेरित गर्छन: म केहि गन्ती गर्न जाँदैछु जुन कसैले पहिले नै गणना गरेको छैन। उदाहरणको लागि, एक विद्यार्थीले भन्न सक्छ कि धेरै व्यक्तिले प्रवासिहरु अध्ययन गरेका छन् र धेरै मानिसहरूले जुत्ताहरू अध्ययन गरेका छन्, तर कसैले पनि माइग्रेन्स जुडाइहरू अध्ययन गरेका छैनन्। मेरो अनुभवमा, यस रणनीति, जुन मैले अनावश्यकताले प्रेरणालाई बोलाउँछु , सामान्यतया राम्रो अनुसन्धानको लागि नेतृत्व गर्दैन। अनुपस्थितिबाट प्रेरणा यस्तो छ कि त्यहाँ त्यहाँ छेद छ, र म यसलाई भर्न कठिन छ। तर हरेक प्वाल भर्न आवश्यक छैन।

अनुपस्थितिले उत्प्रेरित गर्नुको सट्टा, मलाई एक राम्रो रणनीति हो कि अनुसन्धान प्रश्नहरू खोज्नु हो कि महत्त्वपूर्ण वा रोचक (वा आदर्श दुवै)। यी दुवै शब्दहरूलाई परिभाषित गर्न कठिन हुन्छ, तर महत्त्वपूर्ण अनुसन्धानको बारेमा सोच्ने एउटा तरिका हो कि यसले नीति निर्माताहरूको महत्त्वपूर्ण निर्णयमा केही मापदण्ड वा फीड्स छ। उदाहरणको लागि, बेरोजगारी दर को माप महत्त्वपूर्ण छ किनभने यो अर्थव्यवस्थाको सूचक हो जसले नीतिगत निर्णयहरू चलाउँछ। सामान्यतया, मलाई लाग्छ कि शोधकर्ताहरूले महत्त्वपूर्ण कुरा के राम्रो महसुस गरेका छन्। त्यसैले, यो खण्डको बाँकीमा, म दुई उदाहरणहरू प्रदान गर्न जाँदैछु जहाँ मलाई लाग्छ गिनती दिलचस्प छ। प्रत्येक मामला मा, शोधकर्ताओं को बेतरतीब रूप देखि गिनती नहीं थिए; बरु, तिनीहरू धेरै विशेष सेटिङहरूमा गइरहेको थिए जसले कसरी सोशल प्रणालीले काम गर्ने बारेमा सामान्य विचारहरूबारे महत्त्वपूर्ण अन्तर्वार्ताहरू प्रकट गर्यो। अन्य शब्दहरुमा, यी विशेष गणना गर्ने रोचक कुराले धेरै कुरा गर्दछ जुन डेटा नै होइन, यो यी सामान्य विचारहरु बाट आउँछ।

गिनतीको साधारण शक्तिको एक उदाहरण हेनरी फारबर (2015) न्यूयर्क शहरको ट्याक्सी ड्राइवरहरूको व्यवहारको अध्ययनबाट आउँछ। यद्यपि यो समूहले म्यानुअल रोचक आवाजलाई सम्बोधन गर्न सक्दैन, यो श्रम अर्थशास्त्रमा दुई प्रतिस्पर्धात्मक सिद्धान्तहरू परीक्षण गर्न रणनीतिक अनुसन्धान साइट हो । फारबरको अनुसन्धानका उद्देश्यका लागि, ट्याक्सी चालकहरूको काम वातावरणको बारेमा दुईवटा महत्त्वपूर्ण विशेषताहरू छन्: (1) तिनीहरूको घण्टाको वेतन दिन दिनदेखि उल्ट्याउँछ, मौसम जस्तै कारक, र (2) घडीको संख्यामा कामले प्रत्येक दिन आफ्नो निर्णयको आधारमा उचाल्न सक्छ। यी सुविधाहरूले एक घण्टाको वेतन र घण्टा बीच सम्बन्धको सम्बन्धमा एक रोचक प्रश्न लिन्छ। अर्थशास्त्रमा नवकोषीय मोडेलले भविष्यवाणी गर्छ कि ट्याक्सी चालकहरूले ती दिनहरूमा अधिक काम गर्नेछन् जहाँ उनीहरूको उच्च घण्टाको वेतन छ। वैकल्पिक रूपमा, व्यवहार अर्थशास्त्रका मोडेलहरू वास्तवमा यसको विपरीत अनुमान गर्दछ। यदि चालकहरूले विशेष आय लक्ष्य सेट गरे-प्रति दिन $ 100 भन्नुहोस् र काम नगरेसम्मसम्म काम नगरे सम्म, त्यसोभए ड्राइभरहरूले थप कमाउने दिनहरूमा कम घण्टा काम गर्दछन्। उदाहरणको लागि, यदि तपाईं लक्ष्य कमाउनुहुन्थ्यो भने, तपाईं राम्रो दिन ($ 25 प्रति घण्टा) र चार दिन खराब दिन (चार घण्टा $ 20 प्रति घण्टा) मा चार घण्टा काम गर्न सक्नुहुनेछ। त्यसोभए, के चालकहरूले उच्च घण्टाको वेतन (नियोकोषल मोडेलका अनुसार भविष्यवाणी गरेको) वा कम घण्टाको मजदूरीको साथ दिनहरूमा बढी घण्टा (जस्तै व्यवहारिक आर्थिक मोडेलहरु द्वारा अनुमानित) संग अधिक घण्टा काम गर्दछ?

यस प्रश्नको जवाफ दिन फारबर 2009 देखि 2013 सम्म न्यूयोर्क सिटी क्याब्स द्वारा लिइएको हरेक ट्याक्सी यात्रामा डेटा प्राप्त गरेको छ जुन अहिले सार्वजनिक रूपमा उपलब्ध छ। यी डाटाहरू जुन इजरायली मीटरले सङ्कलन गर्न आवश्यक छ जुन शहरमा ट्याक्सीहरू प्रयोग गर्न आवश्यक छ - प्रत्येक यात्राको बारेमा जानकारी समावेश गर्दछ: सुरू हुने समय, स्थान सुरु गर्नुहोस्, अन्त समय, अन्त्य स्थान, भाडा र टिप (यदि टिप क्रेडिट कार्डसँग भुक्तानी गरिएको थियो) । यस टैक्सी मीटर डाटा प्रयोग गरेर, फबरले पत्ता लगाइयो कि धेरै चालकहरूले दिनभरि बढी काम गर्दछ जब मजदूरी उच्च हुन्छन्, नियोकोषिकल सिद्धांत संग लगातार।

यस मुख्य खोजको अतिरिक्त, फेरेर हिस्टोग्रामनेस र गतिशीलता को बेहतर समझ को लागि डेटा को आकार को उपयोग गर्न मा सक्षम थियो। उनले पाए कि, समय भन्दा माथि, नयाँ चालकहरूले क्रमश: उच्च-मजदूरी दिनहरूमा अधिक घण्टा काम गर्न जान्दछन् (उदाहरणका लागि, उनीहरूले नियोकोजिकल मोडेलको रूपमा व्यवहार गर्न सिकाउँछ)। अनि नयाँ चालकहरू जसले लक्ष्य कमाउने जस्ता अधिक व्यवहार गरिरहेका छन् ट्याक्सी चालकहरू छोड्न अधिक सम्भव छन्। यी दुवै सूक्ष्म निष्कर्षहरू, जो हालको चालकहरूको अवलोकन गरिएको व्यवहारको व्याख्या गर्न मद्दत गर्दछ, डाटासेटको आकारको कारण मात्र सम्भव थियो। पहिलेका अध्ययनहरूमा पत्ता लगाउन असम्भव थियो कि एक छोटो अवधिमा कम संख्याको ट्याक्सी ड्राइवरहरू (Camerer et al. 1997) बाट कागजी यात्रा पत्रहरू प्रयोग गर्थे।

फाबरको अध्ययन ठूलो डेटा स्रोतको प्रयोग गरेर एक अनुसन्धानका लागि उत्तम-केस परिदृश्यको नजिक थियो किनभने शहर द्वारा संकलन गरिएको डाटा सुन्दर थियो कि डेटाको नजिक थिए (एक फरक छ कि फारबर कुल मा डाटा चाहियो मजदूरी-टाढा र सुझावहरू-तर शहर डेटा मात्र क्रेडिट कार्डद्वारा भुक्तानी सुझावहरू समावेश छन्)। यद्यपि, डेटा मात्र पर्याप्त थिएनन्। फारबरको अनुसन्धानको कुञ्जी डाटामा एक रोचक प्रश्न ल्याइयो, एउटा प्रश्नको साथमा यो विशिष्ट सेटिङ भन्दा ठूलो प्रभावहरू छन्।

चीजहरूको गणना गर्ने दोस्रो उदाहरण चीन सरकार द्वारा अनलाइन सेंसरशिपमा गैरी किंग, जेनिफर प्यान, र मोली रबर्ट्स (2013) द्वारा अनुसन्धान बाट आउँछ। तथापि, तथापि, शोधकर्ताहरूले आफ्नै ठूलो डेटा संकलन गर्न थालिन् र तिनीहरूले तथ्यलाई सम्झौता गरे कि तिनीहरूको डेटा अधूरो थियो।

राजा र सहकर्मीहरूले यस तथ्यलाई उत्प्रेरित गरिरहेको थियो कि चीनमा सामाजिक सञ्जाल पदहरूले ठूलो राज्यको उपकरणबाट संवेदना गरेका छन् जुन दसैं मानिसहरूको समावेश गर्ने सोच राखिएको छ। तथापि, शोधकर्ताओं र नागरिकहरु, यो सेंसरहरूले कस्तो सामाग्री हटाइने निर्णय गरेको कुरा कसरी सोच्न सक्दछ। चीनका विद्वानहरूले वास्तवमा विवादास्पद अपेक्षाहरू छन् कि कुन प्रकारका पोष्टहरु मेटिने छ भन्ने सम्भावना छ। केहि सोच्छ कि सेंसरहरू पोस्टहरूमा ध्यान केन्द्रित गर्छन् जुन राज्यको आलोचना हो, अरूले सोचेका छन् कि तिनीहरूले पदहरूमा ध्यान दिए जुन सामूहिक व्यवहारलाई प्रोत्साहन दिन्छन्। यी अपेक्षाहरूको कुन कुरा सही छ भन्ने दृष्टान्त सही छ कि कसरी शोधकर्ताहरू चीन र अन्य उदारवादी सरकारहरूलाई कसरी सेंसरशिपमा संलग्न हुन्छन् भन्ने बुझिन्छ। त्यसकारण, राजा र सहकर्मीहरू प्रकाशित गरिएका पदहरू तुलना गर्न चाहन्थे र पछि तिनले प्रकाशित गरिएका पोस्टहरूसँग मेटाइएका थिए र कहिल्यै मेटाइएनन्।

यी पोस्ट सङ्कलन सान्दर्भिक पोस्ट फरक पृष्ठ लेआउट-फेला, र त्यसपछि जो पछि हटाइएको थियो हेर्न यी पोस्ट revisiting संग 1,000 भन्दा बढी चिनियाँ सामाजिक मिडिया वेबसाइट-प्रत्येक crawling को अचम्मको ईन्जिनियरिङ् कमाल संलग्न। ठूलो मात्रा वेब-crawling सम्बन्धित सामान्य ईन्जिनियरिङ् समस्याको साथै, यो परियोजना किनभने धेरै सेन्सर पोस्ट 24 भन्दा कम घण्टामा लिइएको हो, यसलाई अत्यन्तै छिटो हुन आवश्यक छ कि थप चुनौती थियो। अर्को शब्दमा, एक ढिलो क्रलर सेन्सर थिए पोस्ट धेरै सम्झना थियो। यसबाहेक, crawlers अध्ययन गर्न प्रतिक्रिया आफ्नो नीति परिवर्तन नत्र सामाजिक मिडिया वेबसाइट पहुँच वा अन्यथा ब्लक पत्ता लगाउने बच गर्दा यो सबै डाटा संग्रह गर्न थियो।

जब सम्म यो ठूलो मात्रामा ईन्जिनियरिङ् कार्य पुरा भयो, राजा र सहकर्मीहरूले 85 विभिन्न प्रत्याशित विषयहरूमा 11 लाख पद प्राप्त गरेका थिए, प्रत्येकले संवेदनशीलताको अनुमानित स्तरको साथ। उदाहरणका लागि, उच्च संवेदनशीलताको विषय एआई वेईवेई हो, विद्रोही कलाकार; मध्य संवेदनशीलताको एक विषय चिनियाँ मुद्राको प्रशंसा र अवमूल्यन हो, र कम संवेदनशीलताको विषय विश्व कप हो। यी 11 मिलियन पदहरू मध्ये लगभग 2 मिलियन सेन्सर भएको थियो। केहि आश्चर्यजनक कुरा, राजा र सहकर्मीहरूले पत्ता लगाउँथे कि अत्यधिक संवेदनशील विषयहरूमा पोष्टहरू बीचमा फरक-फरक सिन्डर्ड थिए- र कम-संवेदनशीलता विषयहरू। अर्को शब्दमा, चिनियाँ सेन्सरहरूले पोष्टलाई सम्बोधन गर्ने सम्भावनाको बारेमा बताएका छन् जसले एआई वेइवेईलाई पोस्ट गरेकी थिइन् जसले विश्व कपको उल्लेख गर्दछ। यी निष्कर्षहरूले यस विचारलाई समर्थन गर्दैन कि सरकारले संवेदनशील विषयहरूमा सबै पोष्टहरू संवेदन गर्छ।

विषय द्वारा सेंसरशिप दर को यो सरल गणना भ्रामक हुन सक्छ, तथापि। उदाहरणको लागी, सरकारले एआई वेइवेईका समर्थक पदहरूलाई स्यानसरमा पार्न सक्छ, तर तिनीहरुका अनुहारहरू छोड्नुहोस्। क्रममा थप सावधानीहरू बीचमा विभाजन गर्न, प्रत्येक पोस्टको भावना को मापने को लागि शोधकर्ताहरु लाई आवश्यक छ। दुर्भाग्यवश, धेरै कामको बावजूद, पूर्व-अवस्थित शब्दकोशहरू प्रयोग गरी भावनात्मक पहिचानको सम्पूर्ण स्वचालित तरिका अझै पनि धेरै परिस्थितिहरूमा धेरै राम्रो छैन (खण्ड 2.3.9 मा वर्णन गरिएको सेप्टेम्बर 11, 2001 को भावनात्मक समयरेखा सिर्जना गर्न समस्यामा विचार गर्नुहोस्)। त्यसकारण, राजा र सहकर्मीहरूलाई उनीहरूलाई 11 लाख सोशल मिडिया पोष्टहरू लेबल गर्ने तरिका चाहिन्छ कि उनीहरूले (1) राज्यको आलोचना, (2) राज्यको सहायक, वा (3) घटनाहरूको बारेमा अप्रासंगिक वा वास्तविक रिपोर्टहरू थिए। यो एक ठूलो नौकरी जस्तै लाग््छ, तर तिनीहरूले यसलाई एक शक्तिशाली चाल प्रयोग गरेर यो डेटा विज्ञान मा सामान्य छ को प्रयोग गरेर हल गरे तर अपेक्षाकृत सामाजिक विज्ञान मा दुर्लभ: पर्यवेक्षित सिक्न ; चित्र 2.5 हेर्नुहोस्।

पहिले, एक कदम मा सामान्यतया पूर्वप्राप्तिकरण भनिन्छ, शोधकर्ताहरूले सोशल मिडिया पोष्टहरूलाई कागजात-म्याच म्याट्रिक्समा रूपान्तरित गर्यो, जहाँ त्यहाँ प्रत्येक कागजात र एक स्तम्भको लागि एउटा पङ्क्ति थियो जुन रेकर्डले एक विशिष्ट शब्द समावेश गर्दछ कि (जस्तै, विरोध वा ट्राफिक) । अर्को, अनुसन्धान सहयोगीहरूको एक समूहले पोस्टको नमूनाको भावनालाई हस्तान्तरण गर्यो। त्यसपछि, तिनीहरूले यो हात-लेबल गरिएको डेटा प्रयोग गरे कि मेशिन सिकाउने मोडेल सिर्जना गर्न जुन यसको विशेषतामा आधारित पोष्टको भावना घटाउन सक्छ। अन्ततः, यो मोडेलले 11 मिलियन पदका भावनालाई अनुमान गर्न प्रयोग गर्यो।

यसैले, म्यानुअल रूपमा 11 मिलियन पदहरू पढ्ने र लेबल गर्ने-जुन तर्कवादी रूपमा असंभव हुनेछ-राजा र सहकर्महरूले मैन्युअल रूपले साना अंकहरू लेबल गरे र त्यसपछि सबै पोष्टहरूको भावना अनुमान गर्न निरीक्षण गरिएको शिक्षा प्रयोग गरे। यो विश्लेषण पूरा भएपछि, तिनीहरूले निष्कर्षमा पुग्न सकेका थिए, केहि आश्चर्यजनक कुरा, पोस्ट पोस्टको सम्भावनाले यो राज्य वा समर्थनको महत्त्वपूर्ण थियो कि छैन संग सम्बन्धित थियो।

चित्रा 2.5: 11 लाख चिनियाँ सोशल मिडिया पोष्टहरूको भावना अनुमान गर्न राजा, प्यान र रबर्ट्स (2013) द्वारा प्रयुक्त प्रक्रियाको सरलीकृत योजनाबद्ध। पहिलो, एक प्रसोधन प्रक्रिया मा, शोधकर्ताहरूले सोशल मिडिया पोष्टहरूलाई एक दस्तावेजमा आधारित म्याट्रिक्समा रूपान्तरण गर्नुभयो (थप जानकारीको लागि ग्रिमर र स्टीवर्ट (2013) हेर्नुहोस्। दोस्रो, तिनीहरूले पोष्टको सानो नमूनाको भावनालाई सम्बोधन गरे। तेस्रो, तिनीहरूले एक निरीक्षणशील सिकाउने मोडेललाई पदको भावनालाई वर्गीकृत गर्न प्रशिक्षित गरे। चौथो, तिनीहरूले सबै पोष्टहरूको भावना अनुमान गर्न निरीक्षण गरिएको सिकाउने मोडेल प्रयोग गरे। बढी विस्तृत विवरणको लागि राजा, प्यान र रॉबर्ट्स (2013), परिशिष्ट बी हेर्नुहोस्।

चित्रा 2.5: 11 लाख चिनियाँ सोशल मिडिया पोष्टहरूको भावना अनुमान गर्न King, Pan, and Roberts (2013) द्वारा प्रयुक्त प्रक्रियाको सरलीकृत योजनाबद्ध। पहिलो, एक प्रसोधन प्रक्रिया मा , शोधकर्ताहरूले सोशल मिडिया पोष्टहरूलाई एक दस्तावेजमा आधारित म्याट्रिक्समा रूपान्तरण गर्नुभयो (थप जानकारीको लागि Grimmer and Stewart (2013) हेर्नुहोस्। दोस्रो, तिनीहरूले पोष्टको सानो नमूनाको भावनालाई सम्बोधन गरे। तेस्रो, तिनीहरूले एक निरीक्षणशील सिकाउने मोडेललाई पदको भावनालाई वर्गीकृत गर्न प्रशिक्षित गरे। चौथो, तिनीहरूले सबै पोष्टहरूको भावना अनुमान गर्न निरीक्षण गरिएको सिकाउने मोडेल प्रयोग गरे। बढी विस्तृत विवरणको लागि King, Pan, and Roberts (2013) , परिशिष्ट बी हेर्नुहोस्।

अन्तमा, राजा र साथीहरूले पत्ता लगाए कि केवल तीन प्रकारका पोष्टहरू नियमित रूपमा संवेदित भएका थिए: पोर्नोग्राफी, सेन्सरहरूको आलोचना, र जो सामूहिक क्रियाकलाप क्षमता थियो (यानी, ठूला-विरोधको विरोधको लागि अग्रणी)। मेटिएको थियो कि पोष्ट र धेरै पदहरु को एक विशाल संख्या को अवलोकन गरेर, किंग र सहकर्मीहरू सिक्न र गणना गरेर क्यान्सर कसरी काम गर्न सिक्न सक्षम थिए। यसका साथै, एक विषयवस्तुलाई पूर्वाधारमा राखेर यो पुस्तकमा देखापर्यो, उनीहरूले प्रयोग-हस्त-लेबललाई केही परिणामहरू प्रयोग गर्थे र त्यसपछि डिजिटल युगमा सोशल रिसर्चमा बाहिरी-बायाँ घुमाउन लेबल गर्न एक मेशिन सिकाउने मोडेल निर्माण गर्दछन्। । तपाईं चित्रहरु 2.5 को अध्याय 3 (प्रश्न सोध्नु) र 5 (ठूलो सहयोग सिर्जना गर्दै) धेरै तस्वीरहरु देख्नुहुनेछ; यो धेरै अध्यायहरूमा देखा पर्ने केहि विचारहरू हो।

यी उदाहरणहरू - न्यूयर्कमा ट्याक्सी ड्राइवरहरूको काम गर्ने कार्य र चीनी सरकारको सोशल मिडिया सनसनीकरण व्यवहारले ठूलो डाटा स्रोतहरूको अपेक्षाकृत साधारण गणना गर्दा केही परिस्थितिहरूमा, रोचक र महत्त्वपूर्ण अनुसन्धानको नेतृत्व गर्न सक्छ। तथापि, दुवै अवस्थामा, शोधकर्ताहरूले ठूलो डेटा स्रोतमा रोचक प्रश्नहरू ल्याए; आफैले डेटा पर्याप्त थिएन।