2.3.7 Drifting

Driftanje stanovništva, domet korištenja i driftanje sustava otežavaju korištenje velikih izvora podataka za proučavanje dugoročnih trendova.

Jedna od velikih prednosti mnogih velikih izvora podataka jest prikupljanje podataka tijekom vremena. Društveni znanstvenici nazivaju takve pretjerane podatke longitudinalnih podataka . I, naravno, longitudinalni podaci vrlo su važni za proučavanje promjena. Da bi se pouzdano mjerila promjena, međutim, sam sustav mjerenja mora biti stabilan. U riječima sociologa Otis Dudley Duncan, "ako želite izmjeriti promjenu, nemojte mijenjati mjeru" (Fischer 2011) .

Nažalost, mnogi veliki podatkovni sustavi - pogotovo poslovni sustavi - mijenjaju se cijelo vrijeme, proces koji ću nazvati driftom . Konkretno, ti se sustavi mijenjaju na tri glavna načina: dometa stanovništva (promjena u tome tko ih upotrebljava), ponašanja u dometu (promjena u načinu na koji ih ljudi upotrebljavaju) i poremećaja sustava (promjena samog sustava). Tri izvora pomaka znači da bilo koji uzorak u velikoj izvoru podataka može biti uzrokovan važnom promjenom na svijetu ili bi to moglo biti uzrokovano nekim oblikom pomaka.

Prvi izvor drift-populacije-uzrokovan je promjenama u tome tko koristi sustav, a te se promjene mogu dogoditi na kratkim i dužim vremenskim rokovima. Na primjer, tijekom predsjedničkih izbora u SAD-u, udio tweeta o politici koji su napisali žene fluktuirao je iz dana u dan (Diaz et al. 2016) . Dakle, ono što se može činiti kao promjena u raspoloženju Twitter stihova može biti samo promjena tko govori u svakom trenutku. Osim ovih kratkotrajnih kolebanja, postojao je dugoročni trend određenih demografskih skupina koje prihvaćaju i napuštaju Twitter.

Pored promjena u tome tko upotrebljava sustav, postoje i promjene u načinu korištenja sustava, koje ja nazivam ponašanjem. Na primjer, za vrijeme okupacije Gezi prosvjeda u Turskoj 2013. godine, prosvjednici su promijenili uporabu hashtagova dok se prosvjed razvijao. Evo kako je Zeynep Tufekci (2014) opisao ponašanje koje je uspjela otkriti jer je promatrala ponašanje na Twitteru i osobno:

"Ono što se dogodilo bilo je da čim je prosvjed postao dominantna priča, veliki broj ljudi ... prestao je upotrebljavati hashtagove osim da privuče pozornost na novi fenomen ... Dok su prosvjedi nastavljeni, pa čak i pojačani, hashtagovi su preminuli. Intervjui su otkrili dva razloga za to. Prvo, kada su svi znali tu temu, hashtag je istodobno suvišan i rasipan na znakovnoj Twitter platformi. Drugo, hashtagovi su bili vidljivi samo kao korisni za privlačenje pozornosti na određenu temu, a ne za razgovor o tome. "

Dakle, istraživači koji su proučavali proteste analizom tweetove s prosvjednih vezane izrazi s oznakom # će imati iskrivljenu osjećaj za ono što se događa zbog toga ponašanja nanosa. Na primjer, oni vjeruju da je rasprava o prosvjedu smanjena dugo prije nego što je zapravo smanjena.

Treća vrsta driftova je drift sustava. U ovom slučaju, ljudi se ne mijenjaju ili se njihova ponašanja mijenjaju, ali sustav se mijenja. Na primjer, tijekom vremena Facebook je povećao ograničenje duljine ažuriranja statusa. Dakle, bilo koja longitudinalna studija nad ažuriranjima statusa bit će ranjiva na artefakte uzrokovane ovom promjenom. Drift sustava je usko povezan s problemom koji se naziva algoritamskim zbunjenjem, koje ću obuhvatiti u odjeljku 2.3.8.

Zaključujemo da mnogi veliki izvori podataka driftaju zbog promjena u tome tko ih koristi, u načinu na koji se upotrebljavaju te u načinu na koji sustavi funkcioniraju. Ti su izvori promjena ponekad zanimljiva pitanja istraživanja, ali te promjene kompliciraju sposobnost velikih izvora podataka da dugoročno promijene tijekom vremena.