2.3.2.1 अपूर्ण

जतिसुकै "ठूलो" आफ्नो "ठूलो डाटा" यो शायद तपाईंले चाहेको जानकारी छैन।

सबैभन्दा ठूलो डाटा स्रोतहरु तिनीहरूले तपाईं आफ्नो अनुसन्धान को लागि चाहनुहुन्छ भन्ने जानकारी छैन कि अर्थमा, अपूर्ण छन्। यो अनुसन्धान भन्दा अन्य प्रयोजनका लागि सिर्जना गरेका थिए डाटा को एक साधारण सुविधा छ। धेरै सामाजिक वैज्ञानिकहरूले पहिले नै यस्तो अवस्थित सर्वेक्षण तपाईं चाहन्थे प्रश्न गरेनन् भनेर रूप मा, incompleteness सामना गर्ने को अनुभव गरेको छ। दुर्भाग्यवश, incompleteness समस्या ठूलो डाटा मा थप चरम हुन गर्छन। सैद्धान्तिक constructs operationalize गर्न डेमोग्राफिकहरूको, अन्य मञ्चहरूमा व्यवहार र डाटा: मेरो अनुभव मा, ठूलो डाटा हराइरहेको गर्न सामाजिक अनुसन्धान को लागि उपयोगी जानकारी को तीन प्रकारका tends।

यी incompleteness को प्रकारका सबै तीन Gueorgi Kossinets र डंकन वत्स द्वारा एक अध्ययन मा सचित्र छन् (2006) एक विश्वविद्यालयमा सामाजिक सञ्जाल को विकास बारे। Kossinets र वत्स विश्वविद्यालय इमेल लग, के समयमा कसको इमेल पठाउने (शोधकर्ताओं ईमेल सामग्री पहुँच छैन) बारे सटीक जानकारी थियो जो संग थाले। यी इमेल रेकर्ड आवाज एउटा अचम्मको डेटासेटको जस्तै, तर, तिनीहरू-बावजुद आफ्नो आकार र विघटन-मौलिक अपूर्ण। उदाहरणका लागि, इमेल लग को डेमोग्राफिक यस्तो लिङ्ग र उमेर, विद्यार्थीहरुको विशेषताहरु बारे डाटा समावेश छैन। यसबाहेक, इमेल लग यस्तो फोन कल, टेक्स्ट सन्देश, वा आमने-अनुहार कुराकानी अन्य मिडिया, माध्यम संचार बारेमा जानकारी समावेश छैन। अन्तमा, इमेल लग सीधा सम्बन्ध, धेरै विद्यमान सिद्धान्त मा सैद्धान्तिक constructs बारेमा जानकारी समावेश छैन। अध्याय पछि, जब म अनुसन्धान रणनीति कुरा, तपाईं Kossinets र वत्स यी समस्या कसरी हल देख्नुहुनेछ।

incompleteness तीन प्रकारका, सैद्धान्तिक constructs operationalize गर्न अपूर्ण डाटा को समस्या समाधान गर्न मुश्किल छ, र मेरो अनुभव मा, यो अक्सर गल्ति डाटा वैज्ञानिकहरू द्वारा बेवास्ता गरिएको छ। लगभग, सैद्धान्तिक constructs दुर्भाग्य, यी constructs सधैं unambiguously परिभाषित गर्न सकिँदैन र मापन, सामाजिक वैज्ञानिकहरूले अध्ययन भनेर अमूर्त विचारहरू छन्, तर। उदाहरणका लागि, गरेको empirically थप बौद्धिक छन् जसले मानिसहरूलाई थप पैसा कमाउन कि स्पष्टतः सरल दावी परीक्षण गर्न प्रयास कल्पना गरौं। यो दावी परीक्षण गर्न तपाईँले मापन गर्न आवश्यक हुनेछ "बुद्धि।" तर, बुद्धि के हो? उदाहरणका लागि, Gardner (2011) त्यहाँ वास्तवमा बुद्धि को आठ फरक प्रकारका कि तर्क। र, सही यी बुद्धि को प्रकारका कुनै पनि मापन गर्न सक्छ भन्ने प्रक्रियाहरु हुन्? मनोवैज्ञानिक द्वारा काम भारी रकम भए तापनि यी प्रश्नहरूको अझै पनि unambiguous जवाफ छैन। तसर्थ, एक अपेक्षाकृत सरल थप बौद्धिक छन् जसले दावी-मान्छे पनि कमाउन बढी पैसा-सक्छन् किनभने यो डाटा मा सैद्धान्तिक constructs operationalize गर्न गाह्रो हुन सक्छ empirically आकलन गर्न गाह्रो हुन। महत्त्वपूर्ण तर "मान्यता," "सामाजिक राजधानी," र "लोकतन्त्र समावेश operationalize गर्न कठिन छ कि सैद्धान्तिक constructs अन्य उदाहरणहरू।" सामाजिक वैज्ञानिकहरूले सैद्धान्तिक constructs र डाटा निर्माण वैधता बीच मिलान कल (Cronbach and Meehl 1955) । र, constructs को यो सूची सुझाव रूपमा, वैधता समस्या सामाजिक वैज्ञानिकहरूले एक धेरै लामो समय को लागि संघर्ष गरेको छ, तिनीहरूले अनुसन्धान गर्ने उद्देश्यका लागि संकलित थियो डाटा संग काम थिए हुँदा पनि निर्माण। अनुसन्धान भन्दा अन्य प्रयोजनका लागि संकलित डेटा संग काम गर्दा निर्माण वैधता समस्या अझ चुनौतीपूर्ण छन् (Lazer 2015)

तपाईं एक अनुसन्धान कागज पढ्दै हुनुहुन्छ गर्दा आकलन एक छिटो र उपयोगी मार्गमा निर्माण वैधता बारेमा चिन्ता सामान्यतया constructs मामलामा व्यक्त गरिएको छ जो कागज, मा मुख्य दावी लिन छ, र प्रयोग डाटा को मामला मा यसलाई पुन: व्यक्त। उदाहरणका लागि, थप बौद्धिक मान्छे बढी पैसा कमाउन भनेर देखाउने दाबी दुई काल्पनिक अध्ययन विचार:

  • अध्ययन 1: विश्लेषनात्मक बुद्धि को-एक परीक्षण राम्रो अध्ययन परीक्षण रैवेन प्रगतिशील matrices मा राम्रो स्कोर मानिसहरू (Carpenter, Just, and Shell 1990) उच्च रिपोर्ट आय आफ्नो कर लाभ मा -have
  • अध्ययन 2: प्रयोग गर्ने अब शब्दहरू लक्जरी ब्रान्ड उल्लेख बढी सम्भावना हुन्छ ट्विटर मा मान्छे

दुवै अवस्थामा, अनुसन्धानकर्ताहरूले तिनीहरूले थप बौद्धिक मान्छे बढी पैसा कमाउन भनेर देखाएका छन् ठोकुवा गर्न सक्छ। तर, पहिलो अध्ययन मा सैद्धान्तिक constructs राम्रो डाटा द्वारा operationalized छन्, र दोस्रो तिनीहरूले छैनन्। यसबाहेक, यस उदाहरण देखाउँछ रूपमा, अधिक डाटा स्वतः निर्माण वैधता समस्या समाधान गर्दैन। यो एक लाख ट्विट, एक अर्ब ट्वीट, वा ट्रिलियन ट्विट संलग्न कि तपाईं अध्ययन 2 को परिणाम शङ्का गर्नुपर्छ। अनुसन्धानकर्ताहरूले निर्माण वैधता को विचार संग परिचित छैन लागि, टेबल 2.2 डिजिटल ट्रेस डेटा प्रयोग सैद्धान्तिक constructs operationalized गरेको अध्ययन केही उदाहरण प्रदान गर्दछ।

तालिका 2.2: थप सार सैद्धान्तिक अवधारणाहरु उपाय रूपमा प्रयोग गरिन्छ कि डिजिटल निशान को उदाहरण। सामाजिक वैज्ञानिकहरूले यस खेलमा निर्माण वैधता कल र यसलाई सामाजिक अनुसन्धान लागि ठूलो डाटा स्रोतहरू प्रयोग गरेर एउटा प्रमुख चुनौती हो (Lazer 2015)
डिजिटल ट्रेस सैद्धान्तिक निर्माण उद्धरण
विश्वविद्यालय इमेल लग (मेटा-डेटा मात्र) सामाजिक सम्बन्ध Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
Weibo मा सामाजिक मिडिया पोस्ट नागरिक संलग्नता Zhang (2016)
दृढ इमेल लग (मेटा-डेटा र पूर्ण पाठ) एक संगठनमा सांस्कृतिक फिट Goldberg et al. (2015)

operationalizing सैद्धान्तिक constructs लागि अपूर्ण डाटा को समस्या समाधान गर्न धेरै कठिन छ तापनि, अपूर्ण डेमोग्राफिक जानकारी र अन्य मञ्चहरूमा व्यवहारमा अपूर्ण जानकारी को समस्या तीन साधारण समाधान छन्। पहिलो वास्तवमा तपाईं आवश्यक डाटा संकलन गर्न छ; जब म सर्वेक्षण बारेमा बताउन म अध्याय 3 मा त्यो एउटा उदाहरण बारेमा बताउन छौँ। दुर्भाग्यवश, डाटा संग्रह को यस प्रकारको सधैं सम्भव छ। दोस्रो मुख्य समाधान के डाटा वैज्ञानिकहरूले प्रयोगकर्ता-विशेषता inference र कुन सामाजिक वैज्ञानिकहरूले कल imputation कल गर्नु हो। यो दृष्टिकोण मा, अनुसन्धानकर्ताहरूले अन्य मान्छे को विशेषताहरु infer गर्न तिनीहरूले केही मानिसहरूलाई भन्ने जानकारी प्रयोग गर्नुहोस्। तेस्रो सम्भाव्य समाधान-को Kossinets र प्रयोग एक धेरै डाटा स्रोतहरु संयोजन गर्न वत्स-थियो। यो प्रक्रिया कहिले काँही मर्ज वा रेकर्ड लिंकेज भनिन्छ। यो प्रक्रिया मेरो मनपर्ने उपमा धेरै पहिले कागज कहिल्यै रेकर्ड लिंकेज लेखिएको को पहिलो अनुच्छेदमा प्रस्तावित थियो (Dunn 1946) :

"संसारमा प्रत्येक व्यक्ति जीवन को एक पुस्तक सिर्जना गर्छ। यो पुस्तक सुरु जन्म साथ र मृत्यु संग समाप्त हुन्छ। यसको पृष्ठ अप जीवनमा सिद्धान्त घटनाहरूको रेकर्ड गरिन्छ। रेकर्ड लिंकेज एक मात्रा मा यस पुस्तकको पृष्ठ assembling प्रक्रिया दिइएको नाम हो। "

यस खण्डमा 1946 मा लेखिएको थियो, र त्यो समय मा, मान्छे जीवन पुस्तकका जन्म, विवाह, सम्बन्ध विच्छेद र मृत्यु जस्तै प्रमुख जीवन घटनाहरू समावेश गर्न सक्छ कि सोच थियो। तर, अब मान्छे बारे धेरै जानकारी रेकर्ड गरिएको छ कि, जीवन पुस्तकका एक अविश्वसनीय विस्तृत चित्र ती फरक पृष्ठ (अर्थात्, हाम्रो डिजिटल निशान), सँगै बाध्य गर्न सकिन्छ भने हुन सक्छ। जीवन को यो पुस्तक अनुसन्धानकर्ताहरूले लागि ठूलो स्रोत हुन सक्छ। तर, जीवनको पुस्तकमा पनि नष्ट को एक डेटाबेस भनिन्छ सकिएन (Ohm 2010) unethical उद्देश्यका लागि सबै प्रकार प्रयोग गर्न सकिएन जो, जब म जानकारी संवेदनशील प्रकृति तल ठूलो डाटा स्रोतहरु संकलित कुरा तल थप वर्णन रूपमा र अध्याय 6 (नीतिशास्त्र)।