2.3.2.4 A la deriva

Desplaçament de la població, la deriva del seu ús, i la deriva del sistema fan que sigui difícil d'usar font de dades gran com per estudiar les tendències a llarg termini.

Una de les grans avantatges de moltes fonts de dades són grans que recullen dades en el temps. Els científics socials anomenen aquest tipus de sobre-temps de les dades, les dades longitudinals. I, naturalment, les dades longitudinals són molt importants per a l'estudi del canvi. Per tal de mesurar amb fiabilitat canvi, però, el sistema de mesurament en si ha de ser estable. En paraules del sociòleg Otis Dudley Duncan, "si es vol mesurar el canvi, no canviï la mesura" (Fischer 2011) .

Desafortunadament, molts sistemes de dades, especialment les grans sistema de negocis que creen i capturen les empremtes digitals-estan canviant tot el temps, un procés que vaig a trucar a la deriva. En particular, aquests sistemes canvien en tres formes principals: desplaçament de la població (canvi en qui les utilitza), la deriva del comportament (canvi en com les persones estan fent servir), i la deriva del sistema (canvi en el propi sistema). Les tres fonts de la deriva vol dir que qualsevol patró de dades de rastreig digital podria ser causat per un canvi important en el món, o podria ser causada per algun tipus de deriva.

La primera font de la deriva a la població de deriva és que està utilitzant el sistema, i això canvia en escales de temps llargues i escales de temps curt. Per exemple, des de 2008 fins a l'actualitat la mitjana d'edat de les persones a les xarxes socials s'ha incrementat. A més d'aquestes tendències a llarg termini, les persones que utilitzen un sistema en qualsevol moment varia. Per exemple, durant l'elecció presidencial nord-americana de 2012, la proporció dels tweets sobre la política que van ser escrits per dones fluctuar d'un dia a un altre (Diaz et al. 2016) . Per tant, el que podria semblar un canvi en l'estat d'ànim de la Twitter-vers en realitat podria ser només canvis en què està parlant en tot moment.

A més dels canvis en què està utilitzant un sistema, hi ha també canvis en com s'utilitza el sistema. Per exemple, durant les protestes a Gezi Park a Istanbul, Turquia el 2013 manifestants van canviar el seu ús de hashtags com la protesta es va desenvolupar. Així és com Zeynep Tufekci (2014) va descriure la deriva, que va ser capaç de detectar a causa de que ella estava observant el comportament a Twitter i al terra:

"El que havia succeït era que tan aviat com la protesta es va convertir en la història dominant, un gran nombre de persones. . . deixat d'utilitzar els hashtags excepte per cridar l'atenció sobre un fenomen nou. . .. Tot i que les protestes van continuar, i fins i tot es va intensificar, els hashtags es va calmar. Les entrevistes van revelar dues raons per això. En primer lloc, una vegada que tothom coneixia el tema, el hashtag era alhora supèrflua i inútil a la plataforma Twitter caràcter limitat. En segon lloc, els hashtags van ser vistos només com a útil per atreure l'atenció sobre un tema en particular, no per parlar-ne ".

Per tant, els investigadors que estudiaven les protestes mitjançant l'anàlisi de tweets amb hashtags relacionats amb la protesta, tindrien un sentit distorsionat del que estava passant a causa d'aquesta deriva del comportament. Per exemple, poden creure que la discussió de la protesta va disminuir molt abans que en realitat va disminuir.

El tercer tipus de deriva és la deriva del sistema. En aquest cas, no són les persones que canvien o el seu canvi de comportament, però el propi sistema canviant. Per exemple, amb el temps Facebook ha augmentat el límit de la longitud de les actualitzacions d'estat. Per tant, qualsevol estudi longitudinal de les actualitzacions d'estat serà vulnerable als artefactes causats per aquest canvi. la deriva sistema està estretament relacionat amb un problema anomenat confusió algorítmic a la qual ens dirigim ara.