2.3.2.3 गैर प्रतिनिधि

गैर प्रातिनिधिकता के दो सूत्रों विभिन्न आबादी और विभिन्न उपयोग के पैटर्न हैं।

बिग डेटा व्यवस्थित दो मुख्य तरीके में पक्षपाती हो जाते हैं। इस विश्लेषण के सभी प्रकार के लिए एक समस्या पैदा नहीं जरूरत है, लेकिन कुछ विश्लेषण के लिए यह एक महत्वपूर्ण दोष हो सकता है।

व्यवस्थित पूर्वाग्रह का पहला स्रोत है कि लोगों को आम तौर पर कब्जा कर लिया न तो सभी लोगों का एक पूरा ब्रह्मांड या किसी विशिष्ट जनसंख्या एक यादृच्छिक नमूना हैं। उदाहरण के लिए, ट्विटर पर अमेरिकियों अमेरिकियों के एक यादृच्छिक नमूना नहीं हैं (Hargittai 2015) । व्यवस्थित पूर्वाग्रह का एक दूसरा स्रोत है कि कई बड़े डेटा सिस्टम कार्यों पर कब्जा है, और कुछ लोगों को दूसरों की तुलना में बहुत अधिक कार्रवाई योगदान करते हैं। उदाहरण के लिए, ट्विटर पर कुछ लोगों को दूसरों की तुलना में गुना अधिक ट्वीट के सैकड़ों योगदान करते हैं। इसलिए, एक विशेष मंच पर घटनाओं मंच से ही कुछ उपसमूहों की कभी अधिक भारी चिंतनशील हो सकता है।

आम तौर पर शोधकर्ताओं डेटा है कि वे के बारे में बहुत कुछ पता करना चाहते हैं। लेकिन, बड़ा डेटा के गैर प्रतिनिधि प्रकृति को देखते हुए, यह मददगार भी अपनी सोच को फ्लिप करने के लिए है। आप यह भी डेटा आप की जरूरत नहीं है कि बारे में बहुत कुछ जानने की जरूरत है। यह विशेष रूप से सच है जब आप डेटा की जरूरत नहीं है कि डेटा आप क्या करना है उस से व्यवस्थित ढंग से अलग हैं। उदाहरण के लिए, यदि आप एक विकासशील देशों में एक मोबाइल फोन कंपनी से कॉल रिकॉर्ड है, तो आप सोचना चाहिए न सिर्फ, लेकिन यह भी लोग हैं, जो भी एक मोबाइल फोन ही गरीब हो सकता है के बारे में अपने डाटासेट में लोगों के बारे में। इसके अलावा, अध्याय 3 में, हम भार कैसे शोधकर्ताओं गैर प्रतिनिधि डेटा से बेहतर अनुमान बनाने के लिए सक्षम कर सकते हैं के बारे में सीखना होगा।