2.3.7 Дрифтинг

Намаляването на населението, потреблението на натоварване и изместването на системата затрудняват използването на големи източници на данни за изучаване на дългосрочните тенденции.

Едно от големите предимства на много големи източници на данни е, че събират данни с течение на времето. Социалните учители наричат ​​този вид данни за надвременен период от време. И, разбира се, данните от повторението са много важни за изучаването на промяната. За да може обаче да се измерят надеждно промените, самата система за измерване трябва да бъде стабилна. По думите на социологът Отис Дъдли Дънкан, "ако искате да измерите промяната, не променяйте мярката" (Fischer 2011) .

За съжаление, много големи системи за данни - особено бизнес системи - се променят непрекъснато - процес, който ще наричам плаващ . По-специално, тези системи се променят по три основни начина: изместване на населението (промяна в това кой ги използва), поведенчески отклонения (промяна в начина, по който хората ги използват) и отклонение на системата (промяна в самата система). Трите източника на отклонение означават, че всеки модел в голям източник на данни може да бъде причинен от важна промяна в света или може да бъде причинен от някаква форма на отклонение.

Първият източник на плаващ поток от население - е причинен от промените в това кой използва системата, и тези промени могат да се случат както на кратки, така и на дълги срокове. Например по време на президентските избори в САЩ през 2012 г. делът на tweets за политика, написани от жени, се колебае от ден на ден (Diaz et al. 2016) . По този начин, това, което може да изглежда като промяна в настроението на Twitter-стиха, всъщност може да бъде просто промяна в това кой говори във всеки един момент. В допълнение към тези краткосрочни колебания е налице и дългосрочна тенденция на някои демографски групи да приемат и да изоставят Twitter.

В допълнение към промените в това кой използва система, има и промени в начина, по който се използва системата, която наричам поведенческо отклонение. Например, по време на протестите в Турция през 2013 г., протестиращите промениха използването на хехаги, докато протестът се развиваше. Ето как Zeynep Tufekci (2014) описва поведението, което тя е успяла да открие, защото наблюдаваше поведението си в Twitter и лично:

"Това, което се беше случило, беше, че веднага след като протестът стана доминираща история, голям брой хора ... спряха да използват хахата, освен да привлекат вниманието към ново явление ... Докато протестите продължиха и дори се засилиха, хехагите утихнаха. Интервютата разкриха две причини за това. Първо, след като всички познаваха темата, хастрата беше веднага излишна и разточителна на ограничената от героя платформа на Twitter. Второ, хакетите се разглеждат само като полезни за привличане на вниманието към конкретна тема, а не за това, че говорим за нея. "

По този начин, изследователите, които изучават протестите чрез анализиране туитове с протестни свързани с този знак, ще имат изкривено чувство от това, което се случва, защото на този поведенчески дрейф. Например, те могат да повярват, че обсъждането на протеста е намалял много преди тя действително е намалял.

Третият вид отклонение е отклонението на системата. В този случай хората не се променят или поведението им се променя, но самата система се променя. Например, с течение на времето Facebook увеличи ограничението за продължителността на актуализациите на състоянието. По този начин всяко надлъжно проучване на актуализациите на статуса ще бъде уязвимо за артефакти, причинени от тази промяна. Системното отклонение е тясно свързано с проблем, наречен алгоритмично объркване, който ще включа в раздел 2.3.8.

В заключение, много големи източници на данни се носят поради промени в това кой ги използва, как се използват и как функционират системите. Тези източници на промяна понякога са интересни изследователски въпроси, но тези промени усложняват способността на големите източници на данни да следят дългосрочните промени с течение на времето.