2.3.7 Drifting

La deriva de la població, la deriva d'ús i la deriva del sistema dificulten l'ús de grans fonts de dades per estudiar tendències a llarg termini.

Una de les grans avantatges de moltes grans fonts de dades és que recullen dades al llarg del temps. Els científics socials anomenen aquest tipus de dades longitudinals de dades a llarg termini. I, naturalment, les dades longitudinals són molt importants per estudiar el canvi. Per tal de mesurar de forma fiable el canvi, però, el propi sistema de mesura ha de ser estable. En paraules del sociòleg Otis Dudley Duncan, "si vols mesurar el canvi, no canvieu la mesura" (Fischer 2011) .

Malauradament, molts sistemes de dades importants -especialment els sistemes empresarials- estan canviant tot el temps, un procés que anomenaré deriva . En particular, aquests sistemes canvien de tres maneres principals: la deriva de la població (canvi en qui els utilitza), la deriva del comportament (canvi en la forma en què les utilitza), i la deriva del sistema (canvi en el propi sistema). Les tres fonts de la deriva fan que qualsevol patró d'una gran font de dades pugui ser causat per un canvi important al món, o podria ser causat per alguna forma de deriva.

La primera font de deriva-drift de la població-és causada pels canvis en qui està utilitzant el sistema, i aquests canvis poden passar tant a curt com a llarg termini. Per exemple, durant les eleccions presidencials de 2012, la proporció de tweets sobre la política que van ser escrits per dones variava dia (Diaz et al. 2016) dia (Diaz et al. 2016) . Per tant, el que podria semblar un canvi en l'estat d'ànim de Twitter-verse podria ser un canvi en qui parla en qualsevol moment. A més d'aquestes fluctuacions a curt termini, també hi ha hagut una tendència a llarg termini de certs grups demogràfics que adopten i abandonen Twitter.

A més dels canvis en qui està utilitzant un sistema, també hi ha canvis en la manera en què s'utilitza el sistema, que anomeno desviació conductual. Per exemple, durant les protestes de Occupy Gezi a Turquia, els manifestants van canviar l'ús d'hashtags a mesura que la protesta va evolucionar. Així és com Zeynep Tufekci (2014) descriure la deriva conductual, que va poder detectar perquè estava observant comportaments en Twitter i en persona:

"El que havia passat era que tan bon punt la protesta esdevingués la història dominant, un gran nombre de persones ... va deixar d'utilitzar els hashtags, excepte per cridar l'atenció sobre un nou fenomen ... Mentre les protestes continuaven, i fins i tot es van intensificar, els hashtags van morir. Les entrevistes van revelar dos motius per a això. En primer lloc, una vegada que tothom coneixia el tema, l'hashtag era alhora superflu i desfavorable a la plataforma Twitter de caràcter limitat. En segon lloc, els hashtags només es veien útils per cridar l'atenció sobre un tema concret, no per parlar-ne. "

Per tant, els investigadors que estudiaven les protestes mitjançant l'anàlisi de tweets amb hashtags relacionats amb la protesta, tindrien un sentit distorsionat del que estava passant a causa d'aquesta deriva del comportament. Per exemple, poden creure que la discussió de la protesta va disminuir molt abans que en realitat va disminuir.

El tercer tipus de deriva és la deriva del sistema. En aquest cas, no és que les persones canviïn o que canviïn el seu comportament, sinó que el mateix sistema canviï. Per exemple, amb el temps, Facebook ha augmentat el límit en la durada de les actualitzacions d'estat. Així, qualsevol estudi longitudinal de les actualitzacions d'estat serà vulnerable als artefactes causats per aquest canvi. La deriva del sistema està estretament relacionada amb un problema anomenat confusió algorítmica, que vaig a cobrir a la secció 2.3.8.

Per concloure, moltes grans fonts de dades estan a la deriva a causa de canvis en qui els utilitza, en la seva utilització i en la manera com funcionen els sistemes. Aquestes fonts de canvi són de vegades interessants qüestions d'investigació, però aquests canvis compliquen la capacitat de grans fonts de dades per fer un seguiment dels canvis a llarg termini.