2.3.7 Dreifuojantis

Gyventojų dreifas, naudojimo dreifas ir sistemos dreifas apsunkina didelių duomenų šaltinių naudojimą ilgalaikėms tendencijoms tyrinėti.

Vienas didžiausių daugelio didžiųjų duomenų šaltinių privalumų yra tai, kad jie kaupia duomenis laikui bėgant. Socialiniai mokslininkai vadina tokius pernelyg didelių duomenų išilginius duomenis . Ir, žinoma, išilginiai duomenys yra labai svarbūs pokyčių studijoms. Tačiau, norint patikimai išmatuoti pokyčius, pati matavimo sistema turi būti stabili. Sociologo Otis Dudley Duncan žodžiais tariant, "jei norite išmatuoti pokyčius, nepakeiskite priemonės" (Fischer 2011) .

Deja, daugelis didelių duomenų sistemų, ypač verslo sistemų, nuolat keičiasi, procesą, kurį vadinu dreifu . Visų pirma šios sistemos pasikeičia trimis pagrindiniais būdais: gyventojų dreifu (pasikeitimais, kurie juos naudoja), elgesio dreifą (jų naudojamų žmonių pasikeitimą) ir sistemos dreifaciją (pačios sistemos pasikeitimą). Trys dreifo šaltiniai reiškia, kad bet kokį didelio duomenų šaltinio modelį gali sukelti svarbus pasaulio pokytis, arba tai gali sukelti tam tikros dreifo formos.

Pirmas šaltinis dreifo populiacijos dreifas - tai pokyčiai, kurie naudojasi sistema, ir šie pokyčiai gali įvykti tiek trumpuoju, tiek ilguoju laikotarpiu. Pavyzdžiui, 2012 m. JAV prezidento rinkimuose moterų rašytiniai tweets apie politiką svyravo kasdien (Diaz et al. 2016) . Taigi, kas gali atrodyti kaip "Twitter" stiliaus pasikeitimas, iš tikrųjų gali būti tik tai, kas pasikeičia tuo, kas kalba bet kuriuo metu. Be šių trumpalaikių svyravimų, taip pat buvo ilgalaikė tam tikrų demografinių grupių tendencija priimti ir atsisakyti "Twitter".

Be sistemos naudotojų pakeitimų, taip pat keičiami sistemos naudojimo būdai, kuriuos vadinu elgesio dreifu. Pavyzdžiui, 2013 m. "Occupy Gezi" protestuose Turkijoje protestuotojai pasikeitė, kai protestas pasikeitė. Štai kaip Zeynep Tufekci (2014) Apibūdino elgesio dreifą, kurį ji galėjo aptikti, nes ji stebėjo elgesį "Twitter" ir asmeniškai:

"Tai, kas įvyko, buvo tai, kad kuo greičiau protestas tapo dominuojančia istorija, daugybė žmonių ... nustojo naudoti rašas, išskyrus tai, kad atkreipė dėmesį į naują reiškinį ... Nors protestai tęsėsi ir netgi sustiprėjo, maišeliai sumažėjo. Interviu metu paaiškėjo dvi priežastys. Pirma, kai visi sužinojo apie temą, "hashtag" iš karto buvo nereikalingas ir netinkamas "Twitter" platformai, kuriai būdingas simbolis. Antra, "hashtags" buvo vertinami tik kaip naudingi, norint pritraukti dėmesį į konkrečią temą, o ne apie tai kalbėti ".

Taigi, mokslininkai, kurie mokeisi protestus analizuojant tweets su protesto susijusių hashtags darytų iškreiptą prasmę, kas vyksta, nes šios elgsenos dreifo. Pavyzdžiui, jie gali manyti, kad protesto aptarimas ilgai sumažėjo, kol ji faktiškai sumažėjo.

Trečioji dreifo rūšis yra sistemos dreifas. Šiuo atveju ne žmonės keičiasi arba jų elgesys keičiasi, o pati sistema keičiasi. Pavyzdžiui, "Facebook" laikui bėgant padidino statuso atnaujinimų trukmę. Taigi, bet koks išilginis būsenos atnaujinimo tyrimas bus pažeidžiamas dėl šio pakeitimo sukeltų artefaktų. Sistemos dreifas yra glaudžiai susijęs su problema, vadinama algoritminiu sumaišymu, kurią aš aptarsiu 2.3.8 skirsnyje.

Apibendrinant, daugelis didelių duomenų šaltinių dreifuojami dėl to, kad jie keičiasi, kas juos naudoja, kaip jie naudojami ir kaip veikia sistemos. Šie pokyčių šaltiniai kartais yra įdomūs tyrimo klausimai, tačiau šie pokyčiai apsunkina didelių duomenų šaltinių gebėjimą stebėti ilgalaikius pokyčius laikui bėgant.