2.3.2.4 плаващи

Население дрейф, използване на дрейф, и система за дрифт да е трудно да се използва голям източник на данни за проучване на дългосрочните тенденции.

Един от най-големите предимства на много от големите източници на данни са, че те се събират данни с течение на времето. Социолозите наричат ​​този вид над-време данни, надлъжни данни. И, естествено, надлъжни данни са много важни за изучаване на климата. За да се оцени надеждно промяна, обаче, самата система за измерване трябва да бъде стабилна. По думите на социолога Otis Дъдли Дънкан ", ако искате да се измери промяна, не се променят мярката" (Fischer 2011) .

За съжаление, много системи-особено голям данни бизнес система, които създават и улови цифрови следи-се променят през цялото време, а процес, който ще се обадя на дрейф. По-специално, тези системи се променят по три основни начина: население дрейф (промяна в който ги използва), поведенческо отклонение (промяна в това как хората ги използват), и система за дрифт (промяна в самата система). Трите източници на дрейф означават, че всеки модел в цифрови данни следи могат да бъдат причинени от важна промяна в света, или тя може да бъде причинено от някаква форма на дрейф.

Първият източник на дрифт-популация дрифт-е, който се използва системата, и това променя по дълго време везни и къси времеви скали. Например, от 2008 г. да представи на средната възраст на хората в социалните медии се е увеличил. В допълнение към тези дългосрочни тенденции, хората, които използват система във всеки един момент варира. Например, по време на избори в САЩ на президента на 2012 г. делът на туитове за политика, които са написани от жени се колебае от ден на ден (Diaz et al. 2016) . По този начин, това, което може да изглежда промяна в настроението на Twitter-стих всъщност може да бъде само промени в които се говори във всеки един момент.

В допълнение към промените в които се използва система, там са и промените в начина на използване на системата. Например, по време на Occupy Gezi Park протести в Истанбул, Турция през 2013 протестиращи се променили тяхното използване на този знак, като протестът еволюира. Ето как Зейнеп Тюфекчи (2014) , описан в дрейф, което тя е в състояние да открие, защото тя се наблюдава поведението на Twitter и на земята:

"Това, което се е случило е, че веднага след като протестът се превърна в доминираща историята, на голям брой хора. , , спряно с помощта на Hashtags освен да привлече вниманието към едно ново явление. , .. Въпреки протестите продължиха и дори се засили, на Hashtags починали надолу. Интервюта разкриха две причини за това. Първо, след като всеки знае по темата, таг беше наведнъж излишно и разточителство на герой-ограничено Twitter платформата. На второ място, този знак, са наблюдавани само като полезни за привличане на вниманието към определена тема, не за да говорим за това. "

По този начин, изследователите, които изучават протестите чрез анализиране туитове с протестни свързани с този знак, ще имат изкривено чувство от това, което се случва, защото на този поведенчески дрейф. Например, те могат да повярват, че обсъждането на протеста е намалял много преди тя действително е намалял.

Третият вид на дрейф е система дрейф. В този случай, не е хората променят или поведението им се променя, но самата система се променя. Например, с течение на времето Facebook се е увеличила лимита от дължината на статуси. По този начин, всяка надлъжна проучване на статуси ще бъдат уязвими на артефакти, причинени от тази промяна. Система за дрифт е тясно свързано с проблема, наречен алгоритмична погрешни изводи, до която ние сега се обръщат.