2.3.7 Дрифтинг

Становањски дрифт, искоришћење дрифта и системски дрифт отежавају кориштење великих извора података за проучавање дугорочних трендова.

Једна од великих предности многих великих извора података је тај што прикупљају податке током времена. Социолози зову ову врсту претерано времена података уздужној података. И, наравно, уздужни подаци су веома важни за проучавање промена. Како би се поуздано мјерила промјена, међутим, сам систем мјерења мора бити стабилан. Према ријечима социолога Отис Дудлеи Дунцан, "ако желите мерити промјену, немојте мијењати меру" (Fischer 2011) .

Нажалост, многи велики системи података - посебно пословни системи - се стално мењају, процес који ћу назвати дрифт . Нарочито, ови системи се мењају на три главна начина: дрифт становништва (промјена у томе ко их користи), понашање у понашању (промјена у начину на који их људи користе), и системски дрифт (промјена у самом систему). Три извора дрифта значе да било који узорак у великом извору података може бити узрокован важном промјеном у свијету, или може бити узрокован неким обликом дрифта.

Први извор дрифт-популационог дрифт-а је узрокован промјенама у томе ко користи систем, а ове промјене могу се десити иу кратким и дугим временским периодима. На пример, током предсједничких избора у САД-у у 2012. години, проценат твеетова о политици које су написали жене флуктуирали су из дана у дан (Diaz et al. 2016) . Стога, оно што би се могло чинити промјеном расположења Твиттер-стиха, заправо би могло бити само промјена у томе ко говори у било ком тренутку. Осим ових краткорочних флуктуација, постојао је и дугорочни тренд одређених демографских група усвајања и напуштања Твиттер-а.

Поред промјена у томе ко користи систем, постоје и промјене у начину на који се систем користи, што ја називам понашањем у понашању. На пример, током протеста у Оццупи Гези-у 2013. године у Турској демонстранти су променили своју употребу хашташа док је протеста еволуирала. Ево како Зеинеп Туфекци (2014) описује понашање у понашању које је могла открити зато што је посматрала понашање на Твиттер-у и лично:

"Оно што се десило било је то што чим је протест постао доминантна прича, велики број људи ... престао је користити хешетове, осим што је скренуо пажњу на нови феномен ... Док су протести наставили, па чак и интензивирали, хашете су умириле. Интервјуи су открили два разлога за то. Прво, када су сви познавали ову тему, хасхтаг је одједном био сувишан и расипан на Твиттер платформи ограниченом карактером. Друго, хасхтагс су сматрани једино корисним за привлачење пажње на одређену тему, а не за причање о томе. "

Тако, истраживачи који су проучавали протесте анализом твеетс са Хеш-ознаке протеста у вези ће имати искривљену осећај шта се дешава због овог понашања дрифт. На пример, они могу да верујем да је расправа протеста смањио много пре него што заправо смањио.

Трећа врста дрифт-а је системски дрифт. У овом случају, људи се не мењају или се њихово понашање мења, али сам систем се мења. На примјер, током времена Фацебоок је повећао ограничење дужине статусних исправки. Стога, свака лонгитудинална студија ажурирања статуса ће бити осјетљива на артефакте изазване овом промјеном. Системски дрифт је уско повезан са проблемом који се назива алгоритамским збуњењем, који ћу покрити у одјељку 2.3.8.

Да закључимо, многи велики извори података пролазе кроз промене у томе ко их користи, како се користе и како функционишу системи. Ови извори промјена су понекад интересантна питања истраживања, али ове промјене компликују способност великих извора података да прате дугорочне промјене током времена.