2.3.7 Drifting

Befolkningsdrift, driftdrift och systemdrift gör det svårt att använda stora datakällor för att studera långsiktiga trender.

En av de stora fördelarna med många stora datakällor är att de samlar in data över tiden. Sociala forskare kallar denna typ av data för longitudinella data över tid . Och naturligtvis är longitudinella data mycket viktiga för att studera förändringar. För att på ett tillförlitligt sätt mäta förändring måste mätningssystemet i sig vara stabilt. Med orden av sociologen Otis Dudley Duncan, "om du vill mäta förändring, förändra inte åtgärden" (Fischer 2011) .

Tyvärr förändras många stora datasystem, speciellt affärssystem, hela tiden, en process som jag kallar drift . I synnerhet förändras dessa system på tre huvudvägar: befolkningsdrift (förändring av vem som använder dem), beteendedrift (förändring i hur människor använder dem) och systemdrift (förändring i systemet själv). De tre drivkällorna betyder att varje mönster i en stor datakälla kan orsakas av en viktig förändring i världen, eller det kan orsakas av någon form av drift.

Den första källan till drift-befolkningsdrift-orsakas av förändringar i vem som använder systemet, och dessa förändringar kan ske på både korta och långa tidsramar. Till exempel, under det amerikanska presidentvalet 2012 varierade andelen tweets om politik som skriven av kvinnor dagligen (Diaz et al. 2016) . Således kan vad som verkar vara en förändring i Twitter-versens stämning faktiskt bara vara en förändring i vem som pratar när som helst. Utöver dessa kortfristiga fluktuationer har det också funnits en långsiktig trend för vissa demografiska grupper som antar och överger Twitter.

Förutom förändringar i vem som använder ett system, finns det också förändringar i hur systemet används, vilket jag kallar beteendedrift. Till exempel, under 2013 Occupy Gezi protester i Turkiet, förändrade demonstranter deras användning av hashtags som protesten utvecklades. Så här beskriver Zeynep Tufekci (2014) beteendedrift som hon kunde upptäcka eftersom hon observerade beteende på Twitter och personligen:

"Det som hade hänt var att så fort protesten blev den dominerande berättelsen, slutade ett stort antal människor ... med hjälp av hashtagsen förutom att uppmärksamma ett nytt fenomen ... medan protesterna fortsatte och till och med intensifierades, dödade ishtagen ner. Intervjuer avslöjade två skäl till detta. Först, när alla kände till ämnet, var hashtaget omedelbart överflödigt och slöseri med den teckenbegränsade Twitter-plattformen. För det andra hade hashtags endast sett som användbara för att locka uppmärksamhet mot ett visst ämne, inte för att prata om det. "

Således skulle forskare som studerade protesterna genom att analysera tweets med protestrelaterade hashtags har en förvrängd uppfattning om vad som hände på grund av detta beteende drift. Till exempel kan de tror att diskussionen om protesten minskade långt innan det faktiskt minskat.

Den tredje typen av drift är systemdrift. I det här fallet är det inte människorna som ändrar eller deras beteende ändras, men själva systemet ändras. Till exempel har Facebook över tiden ökat gränsen för längden av statusuppdateringar. All longitudinell studie av statusuppdateringar kommer alltså att vara sårbar mot artefakter orsakade av denna förändring. Systemdrift är nära relaterad till ett problem som kallas algoritmisk confounding, som jag kommer att täcka i avsnitt 2.3.8.

Sammanfattningsvis drivs många stora datakällor på grund av förändringar i vem som använder dem, hur de används och hur systemen fungerar. Dessa förändrings källor är ibland intressanta forskningsfrågor, men dessa förändringar gör att stora datakällor kan komplicera möjligheten att spåra långsiktiga förändringar över tiden.