2.3.7 deriva

A deriva da poboación, a deriva do uso ea deriva do sistema dificultan a utilización de grandes fontes de datos para estudar tendencias a longo prazo.

Unha das grandes vantaxes de moitas grandes fontes de datos é que recollen datos ao longo do tempo. Os científicos sociais chaman a este tipo de datos lonxitudinais de datos a longo prazo. E, por suposto, os datos lonxitudinais son moi importantes para estudar o cambio. A fin de medir de forma fiable o cambio, con todo, o propio sistema de medición debe ser estable. En palabras do sociólogo Otis Dudley Duncan, "se quere medir o cambio, non mude a medida" (Fischer 2011) .

Desafortunadamente, moitos grandes sistemas de datos -especialmente os sistemas empresariais- están cambiando todo o tempo, un proceso que chamaré á deriva . En particular, estes sistemas cambian de tres maneiras principais: a deriva da poboación (cambio en quen está a empregar), a deriva do comportamento (cambio na forma en que a xente está a empregar) e a deriva do sistema (cambio no propio sistema). As tres fontes de deriva significan que calquera patrón nunha fonte de datos grande pode ser causado por un cambio importante no mundo, ou podería ser causado por algunha forma de deriva.

A primeira fonte de deriva-drift da poboación é causada por cambios en quen está a usar o sistema, e estes cambios poden ocorrer tanto a curto como a longo prazo. Por exemplo, durante as eleccións presidenciais de 2012, a proporción de tweets sobre a política que escribiron as mulleres fluctuou día a día (Diaz et al. 2016) . Deste xeito, o que pode parecer un cambio no humor do Twitter-verse realmente podería ser un cambio en quen está falando en ningún momento. Ademais destas fluctuacións a curto prazo, tamén houbo unha tendencia a longo prazo de certos grupos demográficos que adoptaron e abandonaron Twitter.

Ademais dos cambios en quen está a usar un sistema, tamén hai cambios na forma en que se usa o sistema, o que chamo deriva do comportamento. Por exemplo, durante as protestas de Occupy Gezi en Turquía en 2013, os manifestantes cambiaron o uso de hashtags a medida que a protesta evolucionou. Vexa como Zeynep Tufekci (2014) describiu a deriva conductual, que puido detectar porque estaba observando o comportamento en Twitter e en persoa:

"O que aconteceu foi que axiña que a protesta converteuse na historia dominante, un gran número de persoas ... deixou de usar os hashtags excepto para chamar a atención sobre un novo fenómeno ... Mentres as protestas continúan e ata se intensifican, os hashtags morreron. As entrevistas revelaron dous motivos. En primeiro lugar, unha vez que todos coñecían o tema, o hashtag era á vez superfluo e desproporcionado na plataforma Twitter de carácter limitado. En segundo lugar, os hashtags só se vían útiles para atraer a atención sobre un tema en particular, non por falar sobre iso ".

Así, os investigadores que estudaban as protestas a través da análise tweets con hashtags relacionados coa protesta tería un sentido distorsionada do que estaba a suceder por mor deste desvío comportamental. Por exemplo, poden crer que a discusión da protesta diminuíu moito antes do que realmente diminuíu.

O terceiro tipo de deriva é a deriva do sistema. Neste caso, non son as persoas que cambian ou o seu comportamento cambian, pero o propio sistema cambia. Por exemplo, co paso do tempo Facebook aumentou o límite sobre a duración das actualizacións de estado. Deste xeito, calquera estudo lonxitudinal das actualizacións de estado será vulnerable aos artefactos provocados por este cambio. A deriva do sistema está intimamente relacionada cun problema denominado confundimento algorítmico, que cubrira na sección 2.3.8.

Para concluír, moitas grandes fontes de datos están a xurdir por mor de cambios en quen o está a usar, en como se están a usar e en como funcionan os sistemas. Estas fontes de cambio son ás veces interesantes cuestións de investigación, pero estes cambios complican a capacidade de grandes fontes de datos para rastrexar cambios a longo prazo.