2.3.7 رانش

رانش جمعیت، رانش استفاده و رانش سیستم، استفاده از منابع داده های بزرگ را برای مطالعه روند بلند مدت مشکل می کند.

یکی از مزایای بزرگ بسیاری از منابع بزرگ داده ها این است که آنها اطلاعات را در طول زمان جمع آوری می کنند. دانشمندان علوم اجتماعی این نوع از داده های طولی داده ها را بار می اندازند . و به طور طبیعی، داده های طولی برای مطالعه تغییرات بسیار مهم هستند. با این حال، به منظور قابل اعتماد تغییر اندازه، سیستم اندازه گیری باید پایدار باشد. به گفته جامعه شناسی Otis Dudley دانکن، "اگر می خواهید تغییر اندازه گیری کنید، اندازه گیری را تغییر ندهید" (Fischer 2011) .

متأسفانه، بسیاری از سیستم های بزرگ داده، به خصوص سیستم های کسب و کار، در حال تغییر همه زمان ها هستند، فرایندی که من به آن رانده می شود . به طور خاص، این سیستم ها به سه روش اصلی تغییر می کند: راندگی جمعیت (تغییر در افرادی که از آنها استفاده می کنند)، راندگی رفتاری (تغییر در نحوه استفاده مردم از آنها) و رانش سیستم (تغییر در سیستم). سه منبع رانش به این معنی است که هر الگوی در یک منبع داده بزرگ می تواند ناشی از تغییر مهمی در جهان باشد یا این امر می تواند ناشی از یک نوع ریزش باشد.

اولین منبع رانش رانش جمعیت - به علت تغییراتی که در سیستم استفاده می شود، ایجاد می شود و این تغییرات می تواند در هر زمان کوتاه و بلند انجام شود. به عنوان مثال، در انتخابات ریاست جمهوری ایالات متحده در سال 2012، میزان تویت های مربوط به سیاست که توسط زنان نوشته شده بود، روز به روز تغییر کرد (Diaz et al. 2016) . بنابراین، آنچه ممکن است به نظر می رسد یک تغییر در خلق آیه توییتر باشد، ممکن است فقط تغییر در کسی باشد که در هر لحظه صحبت می کند. علاوه بر این نوسانات کوتاهمدت، یک روند بلند مدت برخی از گروه های جمعیت شناختی را نیز پذیرفته و رها کرده است.

علاوه بر تغییراتی که در استفاده از یک سیستم وجود دارد، تغییراتی نیز در نحوه استفاده از سیستم وجود دارد که من به آن اشاره می کنم. به عنوان مثال، در طی اعتراضات ژیز در سال 2013 در ترکیه، اعتراضات خود را از اعمال هشترها تغییر دادند. در اینجا این است که چگونه Zeynep Tufekci (2014) ریسک رفتاری را توصیف کرد، که او قادر به شناسایی آن بود، زیرا رفتار او را در توییتر و شخصا مشاهده کرد:

"آنچه اتفاق افتاد این بود که به محض این که اعتراض به داستان غالب تبدیل شد، تعداد زیادی از مردم ... استفاده از هشتاگ ها را متوقف کرد، مگر اینکه به یک پدیده جدید توجه کنند ... در حالی که اعتراضات همچنان ادامه داشت و حتی تشدید شد، هشتگ ها از بین رفتند. مصاحبه ها دو دلیل برای این موضوع نشان داد. اولا، وقتی همه این موضوع را می دانستند، هشتگ به طور مجانی بر روی پلاتفرم توییتر محدود به کاراکترهای اضافی و بی عاطفه بود. دوم، هشتگها فقط برای جذب توجه به یک موضوع خاص مفید بود، نه برای صحبت در مورد آن. "

بنابراین، محققان که در حال مطالعه این تظاهرات با تجزیه و تحلیل توییت با هشتگ های مربوط به اعتراض شد که حس تحریف شده از آنچه به خاطر این رانش رفتاری اتفاق می افتد است. به عنوان مثال، آنها ممکن است بر این باورند که بحث در مورد اعتراض کاهش طولانی قبل از آن را در واقع کاهش یافته است.

نوع سوم رانش رانش سیستم است. در این مورد، افراد تغییر نمی کنند یا رفتار آنها تغییر نمی کند، بلکه سیستم خود تغییر می کند. به عنوان مثال، در طول زمان فیس بوک محدودیت طول به روز رسانی وضعیت را افزایش داده است. بنابراین، هر مطالعه طولی از به روز رسانی وضعیت به مصنوعات ناشی از این تغییر آسیب پذیر خواهد بود. رانش سیستم نزدیک به یک مشکل به نام الگوریتم مخلوط مربوط است، که من در بخش 2.3.8 آن را پوشش می دهم.

به این نتیجه می رسیم که بسیاری از منابع بزرگ داده ها به علت تغییراتی که در آنها استفاده می شود، نحوه استفاده از آنها و نحوه کارکرد سیستم ها، از بین می رود. این منابع تغییرات گاهی سوالات تحقیق جالبی هستند، اما این تغییرات توانایی منابع داده های بزرگ را برای ردیابی تغییرات درازمدت در طول زمان، پیچیده می کند.