2.3.7 Drifting

Populacija stanovništva, pomeranje korištenja i odvajanje sistema otežavaju korištenje velikih izvora podataka za proučavanje dugoročnih trendova.

Jedna od velikih prednosti mnogih velikih izvora podataka je taj što prikupljaju podatke tokom vremena. Sociolozi zovu ove vrste više-time podataka longitudinalnih podataka. I, naravno, uzdužni podaci su veoma važni za proučavanje promena. Kako bi se pouzdano mjerila promjena, međutim, sam sistem merenja mora biti stabilan. Prema riječima sociologa Otis Dudley Duncan, "ako želite meriti promjenu, ne mijenjite mjeru" (Fischer 2011) .

Nažalost, mnogi veliki sistemi podataka - pogotovo poslovni sistemi - se menjaju stalno, proces koji ću nazvati drift . Naročito, ovi sistemi se menjaju na tri glavna načina: razmnožavanje stanovništva (promjena u tome ko ih koristi), ponašanje u ponašanju (promjena u načinu na koji ih ljudi koriste), i sistemski drift (promjena u samom sistemu). Tri izvora drifta znače da bilo koji obrazac u velikom izvoru podataka može biti uzrokovan važnom promjenom u svijetu, ili može biti uzrokovan nekom oblikom drifta.

Prvi izvor drift-populacionog drift-a je uzrokovan promjenama u tome ko koristi sistem, a ove promjene mogu se desiti iu kratkim i dugim vremenskim periodima. Na primjer, tokom američkih predsjedničkih izbora 2012. godine, procenat tweetova o politici koje su pisali žene fluktuirali su iz dana u dan (Diaz et al. 2016) . Stoga, ono što bi se moglo činiti promjenom raspoloženja Twitter-stiha, zapravo bi moglo biti promjena u tome ko govori u bilo kom trenutku. Osim ovih kratkoročnih fluktuacija, postojao je dugoročni trend određenih demografskih grupa usvajanja i napuštanja Tvitera.

Pored promjena u tome ko koristi sistem, postoje i promjene u načinu na koji se sistem koristi, što ja nazivam ponašanjem u ponašanju. Na primjer, tokom protesta u Occupy Gezi u Turskoj 2013. godine, demonstranti su promijenili svoju upotrebu haštaša dok je protesta evoluirala. Evo kako je Zeynep Tufekci (2014) opisala ponašanje u ponašanju koje je mogla otkriti jer je posmatrala ponašanje na Twitter-u i lično:

"Ono što se dogodilo je to što čim je protest postao dominantna priča, veliki broj ljudi ... prestao je da koristi hašete osim da skrene pažnju na novi fenomen ... Dok su protesti nastavili, pa čak i intenzivirali, hašete su umirile. Intervjui su otkrili dva razloga za to. Prvo, kada su svi poznavali ovu temu, hashtag je odmah bio suvišan i rasipan na Twitter platformi ograničenom za karakter. Drugo, hashtags su viđeni samo kao korisni za privlačenje pažnje na određenu temu, a ne za pričanje o tome. "

Stoga, istraživači koji su studirali protesta analizirajući tweetove sa hashtags protesta vezanih imati iskrivljenu osjećaj onoga što se događa zbog toga drift ponašanja. Na primjer, mogli bi smatraju da je rasprava o protesta smanjen dugo prije nego što je zapravo smanjena.

Treća vrsta drift-a je sistemski drift. U ovom slučaju, ljudi se ne menjaju ili se njihovo ponašanje menja, ali sam sistem se menja. Na primjer, tokom vremena Facebook je povećao ograničenje dužine statusnih ispravki. Prema tome, svaka longitudinalna studija ažuriranja statusa će biti osjetljiva na artefakte izazvane ovom promjenom. Udaljavanje sistema je usko povezano sa problemom koji se naziva algoritamskim zbunjenjem, koji ću pokriti u odjeljku 2.3.8.

Da zaključimo, mnogi veliki izvori podataka prolaze kroz promene u tome ko ih koristi, kako se koriste, i kako funkcionišu sistemi. Ovi izvori promjena su ponekad interesantna pitanja istraživanja, ali ove promjene komplikuju sposobnost velikih izvora podataka da prate dugoročne promjene tokom vremena.