2.3.7 Дрейфинг

Халықтың дрейфі, дрейфтерді пайдалану және жүйенің ауытқуы ұзақ мерзімді үрдістерді зерттеу үшін үлкен деректер көздерін пайдалануды қиындатады.

Көптеген ірі деректер көздерінің үлкен артықшылықтарының бірі - олар деректерді уақыт бойынша жинайды. Әлеуметтік ғалымдар осы уақытқа дейінгі деректердің бойлық деректерін атайды. Және, әрине, бойлық деректер деректерді өзгерту үшін өте маңызды. Дегенмен, өлшеуді сенімді өлшеу үшін, өлшеу жүйесінің өзі тұрақты болуы керек. Социолог Отис Дадли Дунканың сөзінше, «егер өзгерісті өлшегіңіз келсе, шараны өзгертпеңіз» (Fischer 2011) .

Өкінішке орай, көптеген үлкен деректер жүйелері, әсіресе бизнес жүйелері, үнемі өзгеріп отырады, бұл мен дрейфті шақырамын. Атап айтқанда, бұл жүйе үш негізгі жолмен өзгереді: халықтың дрейфі (оларды пайдаланатын өзгеріс), мінез-құлықтың ауытқуы (адамдар оны қалай қолданып жатқанын өзгерту) және жүйенің ауытқуы (жүйенің өзі өзгеруі). Дрифтің үш қайнар көзі үлкен деректер көзіндегі кез келген үлгінің дүниедегі маңызды өзгерістерден туындағанын білдіреді немесе бұл дрейфтің кейбір түрінен туындауы мүмкін.

Drift-population drift-тің алғашқы көзі - жүйені қолданатын өзгерістердің туындауы, бұл өзгерістер қысқа да, ұзақ уақытқа да орын алуы мүмкін. Мысалы, АҚШ президентінің 2012 жылғы сайлауы кезінде әйелдерге жазған саясат туралы твиттердің үлесі күн сайын ауытқыған (Diaz et al. 2016) . Осылайша, Twitter-нің көңіл күйінде өзгеріс болуы мүмкін кез-келген сәтте кімнің сөйлейтіні өзгеруі мүмкін. Осы қысқа мерзімді ауытқуларға қосымша, Twitter-ні қолдана отырып, кейбір демографиялық топтардың ұзақ мерзімді тренді болды.

Жүйені қолданатын өзгерістерге қосымша, мінез-құлықтың дрейфі деп аталатын жүйенің қалай қолданылатыны да өзгереді. Мысалы, 2013 жылы Түркиядағы «Гези» шерулерінде наразылық акциясы наразылық акциясы ретінде наразылық білдірушілер хэштэгтерді пайдалануды өзгертті. Zeynep Tufekci (2014) өзінің мінез-құлқының дрейфін қалай сипаттады, ол Twitter-де және жеке адамның мінез-құлқын байқап жатқанын анықтай алды:

«Не болғаны соншалық, наразылық басымдылыққа айналғанда, көп адам ... хэштиктерді қолдануға тыйым салып, жаңа құбылысқа назар аударуды тоқтатты ... Бірақ наразылық жалғасып, тіпті күшейе түскенде, хэштар өлді. Бұл сұхбаттың екі себебін көрсетті. Біріншіден, тақырыпты әркім білсе, хэштег бірден Twitter-дегі платформаға тәуелді болды. Екіншіден, хэштегтер тек белгілі бір тақырыпқа назар аудару үшін ғана емес, бұл туралы әңгімелесу үшін де пайдалы болды ».

Осылайша, наразылық байланысты хэштегтерінің бар хабарламаларды талдау арқылы наразылық оқыған зерттеушілер, өйткені осы мінез-құлық дрейфа болған нәрсенің бұрыс ой еді. Мысалы, олар ол шын мәнінде төмендеді бұрын наразылық талқылау ұзақ төмендеді деп санайды мүмкін.

Дрейфтің үшінші түрі - жүйелі ауытқу. Бұл жағдайда адамдар өзгермейді немесе олардың мінез-құлқы өзгермейді, бірақ жүйенің өзі өзгереді. Мысалы, уақыт өте келе Facebook мәртебелік жаңартулардың ұзақтығына шектеуді арттырды. Осылайша, статус жаңартуларының кез-келген ұзындықты зерттеуі осы өзгерістерден туындаған артефакттарға осалды болады. Жүйелік ауытқу алгоритмдік араласу деп аталатын проблемамен тығыз байланысты, ол 2.3.8 бөлімінде жазылатын болады.

Қорытындылай келе, көптеген деректер көздері, олардың пайдаланылуында, олардың қалай қолданылып жатқандығына және жүйенің қалай жұмыс істейтініне байланысты өзгеріп отырады. Өзгерістердің осы көздері кейде қызықты зерттеу сұрақтары болып табылады, бірақ бұл өзгерістер үлкен деректер көздерінің уақыт бойынша ұзақ мерзімді өзгерістерді қадағалау мүмкіндігін қиындатады.