2.3.7 Deriva

La deriva de la población, la deriva de uso y la deriva del sistema dificultan el uso de grandes fuentes de datos para estudiar las tendencias a largo plazo.

Una de las grandes ventajas de muchas fuentes de datos grandes es que recopilan datos a lo largo del tiempo. Los científicos sociales llaman a este tipo de datos longitudinales de datos a lo largo del tiempo. Y, naturalmente, los datos longitudinales son muy importantes para estudiar el cambio. Sin embargo, para medir el cambio de manera confiable, el sistema de medición en sí mismo debe ser estable. En palabras del sociólogo Otis Dudley Duncan, "si quiere medir el cambio, no cambie la medida" (Fischer 2011) .

Desafortunadamente, muchos sistemas de big data, especialmente los sistemas comerciales, están cambiando todo el tiempo, un proceso que llamaré deriva . En particular, estos sistemas cambian de tres formas principales: deriva de la población (cambio en quién los está usando), deriva del comportamiento (cambio en cómo las personas los usan) y deriva del sistema (cambio en el sistema mismo). Las tres fuentes de deriva significan que cualquier patrón en una gran fuente de datos podría ser causado por un cambio importante en el mundo, o podría ser causado por alguna forma de deriva.

La primera fuente de deriva derivada de la población es causada por cambios en quién está usando el sistema, y ​​estos cambios pueden ocurrir en escalas de tiempo tanto cortas como largas. Por ejemplo, durante las elecciones presidenciales de EE. UU. De 2012, la proporción de tweets sobre política escrita por mujeres fluctúa día a día (Diaz et al. 2016) . Por lo tanto, lo que podría parecer un cambio en el estado de ánimo del verso de Twitter en realidad podría ser un cambio en quién está hablando en cualquier momento. Además de estas fluctuaciones a corto plazo, también ha habido una tendencia a largo plazo de ciertos grupos demográficos que adoptan y abandonan Twitter.

Además de los cambios en quién está usando un sistema, también hay cambios en la forma en que se usa el sistema, lo que llamo deriva conductual. Por ejemplo, durante las protestas de Occupy Gezi de 2013 en Turquía, los manifestantes cambiaron su uso de hashtags a medida que evolucionó la protesta. Así es como Zeynep Tufekci (2014) describió el cambio de comportamiento, que fue capaz de detectar porque estaba observando el comportamiento en Twitter y en persona:

"Lo que sucedió fue que tan pronto como la protesta se convirtió en la historia dominante, un gran número de personas ... dejaron de usar los hashtags, excepto llamar la atención sobre un nuevo fenómeno ... Mientras las protestas continuaban e incluso se intensificaban, los hashtags se calmaron. Las entrevistas revelaron dos razones para esto. En primer lugar, una vez que todos conocieron el tema, el hashtag fue a la vez superfluo y derrochador en la plataforma limitada de Twitter. Segundo, los hashtags fueron vistos solo como útiles para atraer atención a un tema en particular, no para hablar sobre eso ".

Por lo tanto, los investigadores que estudiaban las protestas mediante el análisis de tweets con hashtags relacionados con la protesta, tendrían un sentido distorsionado de lo que estaba ocurriendo a causa de esta deriva del comportamiento. Por ejemplo, pueden creer que la discusión de la protesta disminuyó mucho antes de que en realidad disminuyó.

El tercer tipo de deriva es la deriva del sistema. En este caso, no son las personas las que cambian o su comportamiento cambia, sino que el sistema mismo está cambiando. Por ejemplo, con el tiempo Facebook ha aumentado el límite en la duración de las actualizaciones de estado. Por lo tanto, cualquier estudio longitudinal de las actualizaciones de estado será vulnerable a los artefactos causados ​​por este cambio. La deriva del sistema está estrechamente relacionada con un problema llamado confusión algorítmica, que cubriré en la sección 2.3.8.

Para concluir, muchas fuentes de big data están a la deriva debido a los cambios en quién las está utilizando, en cómo se usan y en cómo funcionan los sistemas. Estas fuentes de cambio a veces son preguntas de investigación interesantes, pero estos cambios complican la capacidad de las fuentes de big data para rastrear los cambios a largo plazo a lo largo del tiempo.