2.3.7 Drifting

Befolkningsdrift, bruksdrift og systemdrift gjør det vanskelig å bruke store datakilder for å studere langsiktige trender.

En av de store fordelene ved mange store datakilder er at de samler data over tid. Sosialforskere kaller denne typen data over lengre data i lengderetningen . Og selvfølgelig er langsgående data svært viktige for å studere forandring. For å kunne måle forandring på en pålitelig måte, må målesystemet i seg selv være stabilt. Med ordene fra sosiologen Otis Dudley Duncan, "hvis du vil måle endring, ikke endre mål" (Fischer 2011) .

Dessverre, mange store datasystemer, spesielt forretningssystemer, endrer seg hele tiden, en prosess som jeg vil kalle drift . Spesielt bytter disse systemene på tre hovedveier: befolkningsdrift (endring i hvem som bruker dem), atferdsdrift (endring i hvordan folk bruker dem) og systemdrift (endring i selve systemet). De tre drivkildene betyr at ethvert mønster i en stor datakilde kan skyldes en viktig forandring i verden, eller det kan skyldes en form for drift.

Den første kilden til drift-befolkningsdrift er forårsaket av endringer i hvem som bruker systemet, og disse endringene kan skje både på kort og lang tid. For eksempel, i løpet av det amerikanske presidentvalget i 2012 var andelen tweets om politikk som ble skrevet av kvinner, svingte fra dag til dag (Diaz et al. 2016) . Således kan det som synes å være en forandring i stemningen til Twitter-verset egentlig bare være en forandring i hvem som snakker når som helst. I tillegg til disse kortsiktige svingningene har det også vært en langsiktig trend for visse demografiske grupper som vedtar og forlater Twitter.

I tillegg til endringer i hvem som bruker et system, er det også endringer i hvordan systemet brukes, som jeg kaller atferdsdrift. For eksempel endret protesterne i løpet av 2013 Occupy Gezi-protestene i Tyrkia bruken av hashtags da protesten utviklet seg. Slik beskriver Zeynep Tufekci (2014) atferdsdriften, som hun kunne oppdage fordi hun var å observere atferd på Twitter og personlig:

"Det som skjedde var at så snart protesten ble den dominerende historien, stoppet mange mennesker ... med å bruke hashtags unntatt for å trekke oppmerksomhet til et nytt fenomen ... Mens protestene fortsatte, og enda intensiverte, døde ishagene ned. Intervjuer avslørte to grunner til dette. Først, når alle kjente emnet, var hashtaget umiddelbart overflødig og sløsing på den tegnbegrensede Twitter-plattformen. For det andre, hashtags ble sett bare som nyttig for å tiltrekke oppmerksomhet til et bestemt emne, ikke for å snakke om det. "

Dermed vil forskerne som studerte protestene ved å analysere tweets med protest-relaterte hashtags har en forvrengt oppfatning av hva som skjedde på grunn av dette atferds drift. For eksempel kan de tro at diskusjonen av protest redusert lenge før det faktisk redusert.

Den tredje typen drift er systemdrift. I dette tilfellet er det ikke menneskene som endrer seg eller at deres oppførsel endres, men selve systemet endrer seg. For eksempel har Facebook over tid økt grensen på lengden av statusoppdateringer. Således vil enhver longitudinell undersøkelse av statusoppdateringer være sårbare for gjenstander forårsaket av denne endringen. Systemdrift er nært knyttet til et problem som kalles algoritmisk confounding, som jeg vil dekke i avsnitt 2.3.8.

Til slutt konkluderer mange store datakilder på grunn av endringer i hvem som bruker dem, hvordan de brukes, og hvordan systemene fungerer. Disse kildene til endring er noen ganger interessante forskningsspørsmål, men disse endringene kompliserer store datakilders evne til å spore langsiktige endringer over tid.