2.3.7 बहती है

जनसंख्या बहाव, उपयोग बहाव, और सिस्टम बहाव लंबी अवधि के रुझानों का अध्ययन करने के लिए बड़े डेटा स्रोतों का उपयोग करना मुश्किल बनाता है।

कई बड़े डेटा स्रोतों के महान फायदों में से एक यह है कि वे समय के साथ डेटा एकत्र करते हैं। सामाजिक वैज्ञानिक इस तरह के ओवर-टाइम डेटा अनुदैर्ध्य डेटा कहते हैं । और, स्वाभाविक रूप से, परिवर्तन का अध्ययन करने के लिए अनुदैर्ध्य डेटा बहुत महत्वपूर्ण हैं। परिवर्तन को विश्वसनीय रूप से मापने के लिए, हालांकि, माप प्रणाली स्वयं स्थिर होना चाहिए। समाजशास्त्री ओटिस डडले डंकन के शब्दों में, "यदि आप परिवर्तन को मापना चाहते हैं, तो माप को न बदलें" (Fischer 2011)

दुर्भाग्यवश, कई बड़ी डेटा सिस्टम-विशेष रूप से व्यवसाय प्रणाली-हर समय बदल रही हैं, एक प्रक्रिया जिसे मैं बहाव कहूंगा। विशेष रूप से, ये प्रणालियां तीन मुख्य तरीकों से बदलती हैं: आबादी बहाव (जो उनका उपयोग कर रहे हैं में परिवर्तन), व्यवहारिक बहाव (लोग इसका उपयोग कैसे कर रहे हैं में परिवर्तन), और सिस्टम बहाव (सिस्टम में स्वयं परिवर्तन)। बहाव के तीन स्रोतों का मतलब है कि किसी बड़े डेटा स्रोत में किसी भी पैटर्न को दुनिया में एक महत्वपूर्ण बदलाव के कारण हो सकता है, या यह किसी भी प्रकार के बहाव के कारण हो सकता है।

बहाव-जनसंख्या बहाव का पहला स्रोत - सिस्टम का उपयोग करने वाले परिवर्तनों के कारण होता है, और ये परिवर्तन छोटे और लंबे समय के दोनों समय पर हो सकते हैं। उदाहरण के लिए, 2012 के अमेरिकी राष्ट्रपति चुनाव के दौरान महिलाओं द्वारा लिखित राजनीति के बारे में ट्वीट्स का अनुपात दिन-प्रतिदिन (Diaz et al. 2016) उतार-चढ़ाव हुआ। इस प्रकार, ट्विटर-कविता के मूड में बदलाव के रूप में क्या प्रतीत हो सकता है वास्तव में किसी भी पल में कौन बात कर रहा है में बदलाव हो सकता है। इन अल्पकालिक उतार-चढ़ावों के अतिरिक्त, ट्विटर को अपनाने और त्यागने वाले कुछ जनसांख्यिकीय समूहों की लंबी अवधि की प्रवृत्ति भी रही है।

सिस्टम का उपयोग करने वाले परिवर्तनों के अतिरिक्त, सिस्टम में कैसे उपयोग किया जाता है, इसमें परिवर्तन भी होते हैं, जिन्हें मैं व्यवहारिक बहाव कहता हूं। उदाहरण के लिए, 2013 के दौरान तुर्की में गीज़ी विरोध प्रदर्शन पर, विरोधियों ने विरोध विकसित होने के रूप में हैशटैग के उपयोग को बदल दिया। यहां बताया गया है कि जेनेप तुफेकी (2014) ने व्यवहारिक बहाव का वर्णन किया, जिसे वह पहचानने में सक्षम थी क्योंकि वह ट्विटर पर और व्यक्तिगत रूप से व्यवहार देख रही थी:

"क्या हुआ था कि जैसे ही विरोध प्रभावी भूमिका बन गया, बड़ी संख्या में लोगों ने ... एक नई घटना पर ध्यान आकर्षित करने के अलावा हैशटैग का उपयोग करना बंद कर दिया ... जबकि विरोध जारी रहा, और यहां तक ​​कि तेज भी हो गया, हैशटैग की मृत्यु हो गई। साक्षात्कार के लिए इसके दो कारण सामने आए। सबसे पहले, जब कोई व्यक्ति विषय को जानता था, तो हैशटैग चरित्र-सीमित ट्विटर प्लेटफ़ॉर्म पर एक बार अनिवार्य और अपर्याप्त था। दूसरा, हैशटैग केवल एक विशेष विषय पर ध्यान आकर्षित करने के लिए उपयोगी थे, इसके बारे में बात करने के लिए नहीं। "

इस प्रकार, शोधकर्ताओं ने विरोध प्रदर्शन से संबंधित हैशटैग के साथ ट्वीट का विश्लेषण करके विरोध प्रदर्शन अध्ययन कर रहे थे कि क्या इस व्यवहार बहाव की वजह से हो रहा था की एक विकृत भावना होगा। उदाहरण के लिए, उनका मानना ​​है कि हो सकता है कि विरोध की चर्चा लंबे समय तक कमी आई है पहले यह वास्तव में कमी आई है।

तीसरा प्रकार का बहाव सिस्टम बहाव है। इस मामले में, यह लोग बदलते नहीं हैं या उनका व्यवहार बदल रहा है, लेकिन सिस्टम स्वयं बदल रहा है। उदाहरण के लिए, समय के साथ फेसबुक ने स्टेटस अपडेट की लंबाई पर सीमा बढ़ा दी है। इस प्रकार, स्थिति अद्यतनों का कोई अनुदैर्ध्य अध्ययन इस परिवर्तन के कारण कलाकृतियों के प्रति संवेदनशील होगा। सिस्टम बहाव एल्गोरिदमिक confounding नामक एक समस्या से बारीकी से संबंधित है, जो मैं धारा 2.3.8 में शामिल होगा।

निष्कर्ष निकालने के लिए, उनमें से कौन से उपयोग किए जा रहे परिवर्तनों में, और सिस्टम कैसे काम करते हैं, उनके परिवर्तनों के कारण कई बड़े डेटा स्रोत बहते जा रहे हैं। परिवर्तन के ये स्रोत कभी-कभी दिलचस्प शोध प्रश्न होते हैं, लेकिन ये परिवर्तन समय के साथ दीर्घकालिक परिवर्तनों को ट्रैक करने के लिए बड़े डेटा स्रोतों की क्षमता को जटिल करते हैं।