2.3.7 Drifting

Befolkningsdrift, brugsdrift og systemdrift gør det svært at bruge store datakilder til at studere langsigtede tendenser.

En af de store fordele ved mange store datakilder er, at de samler data over tid. Socialforskere kalder denne form for data over længere tid i længderetningen . Og naturligvis er longitudinale data meget vigtige for at studere forandring. For at pålidelig måle forandring må selve målesystemet være stabilt. Med ordene fra sociologen Otis Dudley Duncan, "hvis du vil måle forandring, ændrer du ikke foranstaltningen" (Fischer 2011) .

Desværre ændrer mange store datasystemer - især forretningssystemer - hele tiden, en proces, som jeg kalder drift . Disse systemer ændrer sig især på tre hovedmåder: befolkningsdrift (ændring i hvem bruger dem), adfærdsmæssig drift (ændring i hvordan folk bruger dem) og systemdrift (ændring i selve systemet). De tre drivkilder betyder, at ethvert mønster i en stor datakilde kan skyldes en vigtig ændring i verden, eller det kan skyldes en form for drift.

Den første kilde til drift-befolkningsdrift - skyldes ændringer i, hvem der bruger systemet, og disse ændringer kan ske både på korte og lange tidspunkter. For eksempel, under det amerikanske præsidentvalg i 2012 var andelen af ​​tweets om politik, der blev skrevet af kvinder, svinget fra dag til dag (Diaz et al. 2016) . Således, hvad der synes at være en ændring i stemningen i Twitter-verset, kan faktisk bare være en ændring i, hvem der taler til enhver tid. Ud over disse kortvarige udsving har der også været en langsigtet tendens for visse demografiske grupper, der vedtager og opgiver Twitter.

Udover ændringer i, hvem der bruger et system, er der også ændringer i, hvordan systemet bruges, hvilket jeg kalder adfærdsdrift. For eksempel ændrede demonstranterne i 2013 Occupy Gezi protesterne i Tyrkiet deres brug af hashtags, da protesten udviklede sig. Sådan beskrev Zeynep Tufekci (2014) adfærdsdrift, som hun kunne opdage, fordi hun observerede adfærd på Twitter og personligt:

"Hvad der var sket, var, at så snart protesten blev den dominerende historie, standsede mange mennesker ... med at bruge hashtags undtagen for at gøre opmærksom på et nyt fænomen. Mens protesterne fortsatte og endnu intensiverede, døde hashtagsne ned. Interviews afslørede to grunde til dette. For det første, da alle kendte emnet, var hashtaget overflødigt og spildt på den tegnbegrænsede Twitter-platform. For det andet er hashtags kun set som nyttige for at tiltrække opmærksomhed mod et bestemt emne, ikke for at tale om det. "

Således ville forskere, der studerede protesterne ved at analysere tweets med protest-relaterede hashtags har et forvrænget fornemmelse af, hvad der foregik på grund af denne adfærdsmæssige afdrift. For eksempel kan de mener, at diskussionen om protesten faldt længe før det rent faktisk er faldet.

Den tredje slags drift er systemdrift. I dette tilfælde er det ikke folkene, der ændrer sig eller deres adfærd ændres, men selve systemet ændrer sig. For eksempel har Facebook over tid øget grænsen for længden af ​​statusopdateringer. Enhver langsigtet undersøgelse af statusopdateringer vil således være sårbar over for artefakter forårsaget af denne ændring. Systemdrift er tæt forbundet med et problem kaldet algoritmisk confounding, som jeg vil dække i afsnit 2.3.8.

Til konklusion drev mange store datakilder på grund af ændringer i, hvem der bruger dem, hvordan de bruges, og hvordan systemerne fungerer. Disse kilder til forandring er nogle gange interessante forskningsspørgsmål, men disse ændringer komplicerer store datakildernes evne til at spore langsigtede ændringer over tid.