2.3 बड़े डेटा की दस आम विशेषताओं

बड़े डेटा स्रोतों में आम तौर पर कई विशेषताएं होती हैं; कुछ आम तौर पर सामाजिक शोध के लिए अच्छे होते हैं और कुछ आम तौर पर खराब होते हैं।

भले ही प्रत्येक बड़ा डेटा स्रोत अलग है, यह ध्यान देने योग्य है कि कुछ विशेषताएं हैं जो बार-बार होती हैं। इसलिए, मंच-दर-प्लेटफ़ॉर्म दृष्टिकोण लेने के बजाय (उदाहरण के लिए, आपको ट्विटर के बारे में जानने की आवश्यकता है, यहां आपको Google खोज डेटा आदि के बारे में जानने की आवश्यकता है), मैं बड़े की दस सामान्य विशेषताओं का वर्णन करने जा रहा हूं डाटा के स्रोत। प्रत्येक विशेष प्रणाली के विवरण से पीछे हटना और इन सामान्य विशेषताओं को देखते हुए शोधकर्ताओं को मौजूदा डेटा स्रोतों के बारे में जल्दी से सीखने में सक्षम बनाता है और भविष्य में बनाए गए डेटा स्रोतों पर लागू होने के लिए विचारों का दृढ़ सेट होता है।

हालांकि डेटा स्रोत की वांछित विशेषताओं अनुसंधान लक्ष्य पर निर्भर करती है, लेकिन मुझे दस विशेषताओं को दो व्यापक श्रेणियों में समझने में मदद मिलती है:

  • आम तौर पर अनुसंधान के लिए सहायक: बड़ा, हमेशा चालू, और nonreactive
  • आम तौर पर अनुसंधान के लिए समस्याग्रस्त: अपूर्ण, अप्राप्य, गैर-प्रतिनिधि, बहती हुई, एल्गोरिदमिक रूप से उलझन में, गंदे, और संवेदनशील

जैसा कि मैं इन विशेषताओं का वर्णन कर रहा हूं, आप देखेंगे कि वे अक्सर उठते हैं क्योंकि अनुसंधान के उद्देश्य के लिए बड़े डेटा स्रोत नहीं बनाए गए थे।