2.3.2.4 Drifting

Befolkning drift, brug afdrift, og systemet afdrift gør det svært at bruge store datakilde for at studere langsigtede tendenser.

En af de store fordele ved mange store datakilder er, at de indsamler data over tid. Samfundsforskere kalder denne form for over-time data, longitudinale data. Og naturligvis tidsseriedata er meget vigtige for at studere ændringer. For pålideligt at måle forandringer skal imidlertid målesystemet selv være stabil. Med ordene fra sociologen Otis Dudley Duncan, ", hvis du ønsker at måle forandringer, ændrer ikke foranstaltningen" (Fischer 2011) .

Desværre er der mange store datasystemer-især forretningssystem, der skaber og fange digitale spor-ændrer sig hele tiden, en proces, som jeg vil kalde afdrift. Især ændre disse systemer på tre måder: befolkning drift (ændring i, hvem der bruger dem), adfærdsmæssige drift (ændring i, hvordan folk bruger dem), og systemet drift (ændring i selve systemet). De tre kilder til drift betyder, at noget mønster i digitale spor data kan være forårsaget af en vigtig ændring i verden, eller det kunne være forårsaget af en form for afdrift.

Den første kilde til drift-population afdrift-er, hvem der bruger systemet, og dette ændrer på lange-tidsskalaer og korte tidshorisonter. For eksempel, fra 2008 at præsentere den gennemsnitlige alder for folk på sociale medier er steget. Ud over disse langsigtede tendenser, de mennesker, der bruger et system på ethvert tidspunkt varierer. For eksempel under det amerikanske præsidentvalg i 2012 er andelen af tweets om politik, der blev skrevet af kvinder svingede fra dag til dag (Diaz et al. 2016) . Således hvad kan synes at være en ændring i stemningen i Twitter-vers kan faktisk bare være ændringer i, hvem der taler på ethvert tidspunkt.

Ud over ændringer i hvem der bruger et system, der også ændringer i, hvordan systemet anvendes. For eksempel under Occupy Gezi Park protester i Istanbul, Tyrkiet i 2013 demonstranter ændret deres brug af hashtags som protesten udviklet sig. Her er hvordan Zeynep Tufekci (2014) beskrev afdrift, som hun var i stand til at opdage, fordi hun var observere adfærd på Twitter og på jorden:

"Hvad der var sket, var, at så snart protest blev den dominerende historie, et stort antal mennesker. . . stoppet ved hjælp af hashtags undtagen at gøre opmærksom på et nyt fænomen. . .. Mens protesterne fortsatte, og endda styrket, de hashtags døde ned. Interviews afslørede to grunde til dette. Først når alle vidste det emne, hashtag var på én gang overflødigt og spild af karakteren begrænset Twitter platform. For det andet blev hashtags set kun som nyttige for at tiltrække opmærksomhed på et bestemt emne, ikke for at tale om det. "

Således ville forskere, der studerede protesterne ved at analysere tweets med protest-relaterede hashtags har et forvrænget fornemmelse af, hvad der foregik på grund af denne adfærdsmæssige afdrift. For eksempel kan de mener, at diskussionen om protesten faldt længe før det rent faktisk er faldet.

Den tredje form for drift er system drift. I dette tilfælde er det ikke de mennesker Ændring eller deres adfærd ændrer sig, men selve systemet forandring. For eksempel over tid Facebook har øget grænse for længden af ​​statusopdateringer. Således vil enhver langsgående studie af statusopdateringer være sårbare over for artefakter forårsaget af denne ændring. System afdrift er nært beslægtet med problem kaldet algoritmisk confounding, som vi nu vende.