2.3.7 Triivimine

Pikaajaliste suundumuste uurimiseks on raske kasutada suured andmeallikaid, kuna rahvastiku liikumine, kasutusviis ja süsteemi triivimine.

Paljude suurte andmeallikate üks suurimaid eeliseid on see, et nad koguvad andmeid aja jooksul. Sotsiaalteadlased nimetavad seda tüüpi ületatud andmete pikisuunalised andmed . Loomulikult on pikisuunalised andmed muutuste uurimiseks väga olulised. Mõõtmise usaldusväärselt mõõtmiseks peab mõõtesüsteem siiski olema stabiilne. Sotsialistide Otis Dudley Duncan sõnul ei muuda meedet muutuste mõõtmiseks (Fischer 2011) .

Kahjuks muudavad paljud suured andmesüsteemid, eriti ärisüsteemid, pidevalt muutust, protsessi, mida ma nimetan triiviks . Eelkõige muutuvad need süsteemid kolmel põhilisel moel: rahvastiku nihe (nende muutmine, kes neid kasutab), käitumisharjumuste muutumine (nende kasutamise muutumine) ja süsteemi triiv ( süsteemi muutus). Kolme triivalli all mõeldakse seda, et suvalises andmeallikas suvalist mustrit võib põhjustada oluline muutus maailmas või see võib olla tingitud mõnest triivist.

Esimene drift-populatsiooni nihke allikas on põhjustatud muudatustest, kes kasutavad süsteemi ja need muudatused võivad toimuda nii lühikeste kui ka pikkade ajavahemike tagant. Näiteks 2012. aasta Ameerika Ühendriikide presidendivalimiste ajal oli naiste poolt koostatud poliitikavaldkondade tiitrite osakaal igapäevaselt kõikuv (Diaz et al. 2016) . Seega, mis võiks tunduda olevat muutunud vidistama-stiili meeleolu, võib tegelikult olla just see, kes räägib igal hetkel. Lisaks nendele lühiajalistele kõikumistele on olnud ka pikaajaline suundumus teatavatele demograafilistele rühmadele, kes võtavad vastu ja loobuvad Twitterist.

Lisaks muutustele, kes kasutavad süsteemi, on ka süsteemis kasutatavaid muudatusi, mida ma nimetan käitumisharjumuseks. Näiteks Türgi okupeeritud Gezi 2013. aasta meeleavalduste ajal muutis meeleavaldajad protestiks tekkinud hashtagide kasutamist. Siin kirjeldas Zeynep Tufekci (2014) käitumisharjumusi, mida ta suutis tuvastada, kuna ta jälgis Twitteris ja isiklikult käitumist:

"Mis juhtus, oli see, et niipea, kui protest sai domineerivaks lugu, suures koguses inimesi ... lõpetas räsitsuste kasutamise, välja arvatud juhtida tähelepanu uuele nähtusele ... Kuigi protestid jätkusid ja isegi intensiivsemad, häkkisid nad maha. Intervjuudest selgus kaks põhjust. Esiteks, kui kõik teadsid seda teemat, oli hashtag otsekohe tarbetu ja raiskav Twitter-i iseloomustava platvormi jaoks. Teiseks, räsipaiku peeti ainult kasulikuks, et meelitada tähelepanu teatud teemale, mitte seda rääkima. "

Seega teadlased, kes uurisid protestid analüüsides tweets protesti seotud hashtags oleks tunnetus on häiritud, mis juhtub, sest see käitumuslikud triivi. Näiteks, nad võivad arvata, et arutelu protesti vähenenud kaua, enne kui see tegelikult vähenenud.

Kolmanda tüübi triiv on süsteemi triiv. Sellisel juhul ei muutu inimesed ega nende käitumine muutub, kuid süsteem ise muutub. Näiteks aja jooksul on Facebook suurendanud staatuse värskenduste kestust. Seega on kõik staatuse uuenduste pikaajalised uuringud muutuste põhjustatud esemeid haavatavad. Süsteemi triiv on tihedalt seotud probleemiga, mida nimetatakse algoritmiliseks segaks, mida ma käsitlean punktis 2.3.8.

Kokkuvõtteks võib öelda, et paljud suured andmeallikad triivivad muutuste tõttu, kes neid kasutab, kuidas neid kasutatakse ja kuidas süsteeme töötab. Need muutujad on mõnikord huvitavad uurimisküsimused, kuid need muudatused raskendavad suurte andmeallikate võimet jälgida pikaajalisi muutusi aja jooksul.