2.3.2.4 Drifting

Populația în derivă, în derivă de utilizare, și derivă sistem face greu de utilizat sursă de date de mare pentru a studia tendințele pe termen lung.

Unul dintre marile avantaje ale multor surse de date mari sunt date pe care le colectează în timp. Oamenii de stiinta sociale numesc acest tip de peste timp date, date longitudinale. Și, în mod firesc, datele longitudinale sunt foarte importante pentru studierea schimbării. În scopul de a evalua în mod credibil schimbare, cu toate acestea, sistemul de măsurare în sine trebuie să fie stabil. În cuvintele lui sociologul Otis Dudley Duncan, "dacă doriți să măsoare schimbările, nu se schimba măsura" (Fischer 2011) .

Din nefericire, multe sisteme mai ales mari de date sistem de afaceri care să creeze și să captureze urme-digitale schimbă tot timpul, un proces pe care voi suna în derivă. În special, aceste sisteme de schimbare în trei moduri principale: în derivă populației (schimbarea care le folosește), derivă de comportament (schimbare în modul în care oamenii le folosesc), iar sistemul de drift (schimbare în sistemul în sine). Cele trei surse de derivei înseamnă că orice model în date de urme digitale ar putea fi cauzate de o schimbare importantă în lume, sau ar putea fi cauzată de o anumită formă de derivă.

Prima sursă de derivă populației în derivă este care utilizează sistemul, iar acest lucru se schimbă pe scări lungi de timp și cântare scurtă de timp. De exemplu, din 2008 să prezinte vârsta medie a persoanelor pe social media a crescut. În plus față de aceste tendințe pe termen lung, persoanele care utilizează un sistem în orice moment variază. De exemplu, în timpul alegerilor prezidențiale din SUA din 2012, proporția de tweet - uri despre politică , care au fost scrise de femei au fluctuat de la o zi la alta (Diaz et al. 2016) , (Diaz et al. 2016) . Astfel, ceea ce ar putea părea a fi o schimbare în starea de spirit a Twitter-un vers ar putea fi de fapt doar niște modificări, care vorbește în orice moment.

În plus față de modificările care utilizează un sistem, există, de asemenea, schimbări în modul în care este utilizat sistemul. De exemplu, în timpul protestelor Occupy Gezi Park din Istanbul, Turcia, în 2013, protestatarii au schimbat utilizarea lor de hashtagurilor ca protestul a evoluat. Iată cum Zeynep Tufekci (2014) s-a descris în derivă, pe care ea a fost în măsură să detecteze pentru că ea a fost observarea comportamentului pe Twitter si pe teren:

"Ceea ce sa întâmplat a fost că de îndată ce protestul a devenit povestea dominantă, un mare număr de oameni. . . oprit folosind hashtag-ul, cu excepția pentru a atrage atenția asupra unui fenomen nou. . .. In timp ce protestele au continuat, și chiar intensificat, hashtag-ul a murit în jos. Interviurile a relevat două motive pentru acest lucru. În primul rând, odată ce toată lumea știa subiect, hashtag-ul a fost la o dată inutilă și o risipă de pe limita de caractere platforma Twitter. În al doilea rând, hashtagurilor au fost observate numai la fel de util pentru a atrage atenția asupra unui anumit subiect, nu pentru a vorbi despre asta ".

Astfel, cercetatorii care au studiat protestele prin analiza tweet-uri cu diez, legate de protest ar avea un sentiment distorsionat de ceea ce se întâmpla din cauza acestei derivei comportamentale. De exemplu, s-ar putea crede că discuția despre protestul a scăzut cu mult înainte de aceasta a scăzut de fapt.

Al treilea tip de sistem de drift este în derivă. În acest caz, nu este poporul schimbarea sau schimbarea lor de comportament, dar sistemul în sine în schimbare. De exemplu, în timp, Facebook a crescut limita lungimii de actualizări de stare. Astfel, orice studiu longitudinal al actualizărilor de stare va fi vulnerabile la artefacte cauzate de această schimbare. Sistemul de drift este strâns legată de problema numită intricate algoritmică la care ne întoarcem acum.