2.3 मोठ्या डेटाची सामान्य वैशिष्ट्ये

मोठ्या डेटा स्त्रोतांमध्ये सामान्यत: बर्याच प्रकारची वैशिष्ट्ये असतात; काही साधारणपणे सामाजिक संशोधनासाठी चांगले असतात आणि काही सामान्यतः खराब असतात.

जरी प्रत्येक मोठा डेटा स्रोत वेगळा आहे तरी, लक्षात घेण्यास मदत करणे उपयुक्त आहे की काही विशिष्ट वैशिष्ट्ये पुन्हा व पुन्हा घडतात. म्हणून प्लॅटफॉर्म-बाय-प्लॅटफॉर्म पध्दत घेण्याऐवजी (उदा., ट्विटर बद्दल आपल्याला काय हवे आहे ते येथे आहे, Google शोध डेटाबद्दल आपल्याला काय माहित असणे आवश्यक आहे ते येथे आहे), मी मोठ्या दहा सामान्य वैशिष्ट्यांचे वर्णन करणार आहे डेटा स्त्रोत प्रत्येक विशिष्ट यंत्रणेच्या तपशीलावरून मागे वळून या सर्वसाधारण वैशिष्टयांकडे पहाणे संशोधकांना सध्याच्या डेटा स्त्रोतांबद्दल त्वरेने शिकता येईल आणि भविष्यकाळात तयार होणार्या डेटा स्त्रोतांना लागू करण्यासाठी कल्पनांचा फर्म सेट असेल.

जरी डेटा स्त्रोताची आवड असणारी वैशिष्ट्ये संशोधन लक्ष्यावर अवलंबून असली तरी मला दहा वैशिष्ट्यांचे दोन व्यापक श्रेणींमध्ये बेढबरपणे गटबद्ध करणे उपयुक्त ठरते:

  • संशोधनासाठी साधारणपणे उपयुक्त: मोठे, नेहमी चालू, आणि विना-क्रियाशील
  • संशोधनासाठी सामान्यत: समस्याग्रस्त: अपूर्ण, प्रवेश करण्यायोग्य, निरर्थक, वाहते, अल्गोरिदमिक गोंधळलेले, गलिच्छ आणि संवेदनशील

मी या वैशिष्ट्यांचे वर्णन करीत आहे म्हणून आपण हे लक्षात घेता की ते नेहमीच उद्भवतात कारण संशोधनाच्या उद्देशासाठी मोठे डेटा स्रोत तयार केलेले नाहीत.