2.3.2.3 नॉन-प्रतिनिधी

नॉन-representativeness दोन स्रोत विविध लोकसंख्या आणि विविध वापर नमुन्यांची आहेत.

मोठे डेटा पद्धतशीरपणे दोन मुख्य प्रकारे आक्षेप कल. हे विश्लेषण सर्व प्रकारची एक समस्या होऊ गरज नाही, पण काही विश्लेषण तो एक गंभीर दोष असू शकते.

पद्धतशीर बायस च्या प्रथम स्रोत मिळविले लोक विशेषत: किंवा सर्व लोक दोन्हीपैकी एक पूर्ण विश्वाची कोणत्याही विशिष्ट लोकसंख्या यादृच्छिक नमुना आहे. उदाहरणार्थ, Twitter वर अमेरिकन अमेरिकन एक यादृच्छिक नमुना नाहीत (Hargittai 2015) . पद्धतशीर बायस दुसरा स्त्रोत अनेक मोठे डेटा प्रणाली क्रिया हस्तगत आहे, आणि काही लोक इतरांपेक्षा अनेक क्रिया घालणारा. उदाहरणार्थ, Twitter वर काही लोक इतर पेक्षा जास्त वेळा अधिक ट्विट शेकडो घालणारा. त्यामुळे एक विशिष्ट व्यासपीठ कार्यक्रम व्यासपीठ स्वतः पेक्षा काही subgroups कधीही अधिक जोरदारपणे अधोरेखित असू शकते.

साधारणपणे संशोधक आहे की डेटा खूप जाणून घ्यायचे आहे. पण, मोठे डेटा न प्रतिनिधी निसर्ग दिले, तो उपयुक्त देखील आपल्या विचार झटका आहे. आपण माहित नाही डेटा खूप माहित असणे आवश्यक आहे. हे विशेषतः खरे आहे जे आपल्याकडे नाही डेटा तुम्हाला आहे का की डेटा पद्धतशीरपणे भिन्न असतात तेव्हा. उदाहरणार्थ, आपण एक विकसनशील देशांमध्ये एक मोबाइल फोन कंपनीकडून कॉल रेकॉर्ड असेल तर, आपण फक्त आपल्या डेटासेटमध्ये लोक, पण एक मोबाइल फोन स्वत: च्या खूप गरीब असू शकते लोक विचार करावा. पुढील धडा 3, आम्ही भार योजन नॉन-प्रतिनिधी डेटा चांगले अंदाज करण्यासाठी संशोधक सक्षम कसा करू शकतो बद्दल जाणून घेता येईल.