2.3.7 Drifting

Devastarea populației, deraparea utilizării și deviația sistemului fac dificilă utilizarea surselor mari de date pentru a studia tendințele pe termen lung.

Unul dintre marile avantaje ale multor surse de date mari este că acestea colectează date în timp. Oamenii de știință din domeniul științific numesc astfel de date longitudinale de date suplimentare . Și, firește, datele longitudinale sunt foarte importante pentru studierea schimbării. Cu toate acestea, pentru a măsura fiabil schimbările, sistemul de măsurare trebuie să fie stabil. În cuvintele sociologului Otis Dudley Duncan, "dacă doriți să măsurați schimbarea, nu schimbați măsura" (Fischer 2011) .

Din păcate, multe sisteme de date mari - în special sistemele de afaceri - se schimbă tot timpul, un proces pe care îl voi numi drift . În special, aceste sisteme se schimbă în trei moduri principale: derivarea populației (schimbarea utilizării acesteia), driftul comportamental (schimbarea modului în care oamenii o utilizează) și driftul sistemului (schimbarea sistemului în sine). Cele trei surse de drift înseamnă că orice tipar dintr-o mare sursă de date ar putea fi cauzat de o schimbare importantă în lume sau ar putea fi cauzată de o anumită formă de deviație.

Prima sursă de drift-drift populație-este cauzată de schimbările în care utilizează sistemul, iar aceste schimbări se pot întâmpla atât pe termen scurt, cât și pe termen lung. De exemplu, în timpul alegerilor prezidențiale din SUA din 2012, proporția de tweet-uri despre politică scrise de femei a fluctuat din zi în zi (Diaz et al. 2016) . Astfel, ceea ce pare a fi o schimbare în starea de spirit a versiunii Twitter ar putea fi doar o schimbare în ceea ce vorbește în orice moment. În plus față de aceste fluctuații pe termen scurt, a existat și o tendință pe termen lung a anumitor grupuri demografice care adoptă și abandonează Twitter.

În plus față de schimbările în care utilizează un sistem, există și schimbări în modul în care este utilizat sistemul, pe care îl numesc derivă comportamentală. De exemplu, în timpul protestelor din Occupy Gezi din 2013, protestatarii și-au schimbat folosirea hashtag-urilor pe măsură ce protestul a evoluat. Iată cum Zeynep Tufekci (2014) descris driftul comportamental, pe care a reușit să-l detecteze pentru că observa comportamentul pe Twitter și în persoană:

"Ce sa întâmplat a fost că, de îndată ce protestul a devenit povestea dominantă, un număr mare de oameni ... au încetat să mai folosească haștagurile decât să atragă atenția asupra unui nou fenomen ... În timp ce protestele au continuat și chiar s-au intensificat, hashtag-urile au murit. Interviurile au dezvăluit două motive pentru acest lucru. În primul rând, odată ce toată lumea cunoștea tema, hashtag-ul a fost imediat inutil și risipitor pe platforma de Twitter limitată de caractere. În al doilea rând, hashtagurile au fost văzute doar ca fiind utile pentru a atrage atenția asupra unui anumit subiect, nu pentru a vorbi despre el ".

Astfel, cercetatorii care au studiat protestele prin analiza tweet-uri cu diez, legate de protest ar avea un sentiment distorsionat de ceea ce se întâmpla din cauza acestei derivei comportamentale. De exemplu, s-ar putea crede că discuția despre protestul a scăzut cu mult înainte de aceasta a scăzut de fapt.

Cel de-al treilea tip de drift este derivarea sistemului. În acest caz, oamenii nu se schimbă sau comportamentul lor se schimbă, însă sistemul însuși se schimbă. De exemplu, în timp, Facebook a mărit limita privind durata actualizărilor de stare. Astfel, orice studiu longitudinal al actualizărilor de stare va fi vulnerabil la artefactele cauzate de această schimbare. Desprinderea de sistem este strâns legată de o problemă numită confuzie algoritmică, pe care o voi acoperi în secțiunea 2.3.8.

În concluzie, multe surse mari de date se derulează din cauza schimbărilor în ceea ce le utilizează, în modul în care sunt utilizate și în modul în care sistemele funcționează. Aceste surse de schimbare sunt uneori întrebări de cercetare interesante, dar aceste schimbări complică capacitatea surselor mari de date de a urmări schimbările pe termen lung în timp.