2.3.7 Drifting

Směšování obyvatelstva, odchylky od používání a systémové posuny ztěžují využívání velkých zdrojů dat ke studiu dlouhodobých trendů.

Jednou z velkých výhod mnoha velkých datových zdrojů je, že sbírají data v průběhu času. Sociální vědci nazývají tento druh údajů o dlouhodobých datech . A přirozeně jsou pro studium změn velmi důležité dlouhodobé údaje. Pro spolehlivé měření změn však musí být samotný měřicí systém stabilní. Podle slov sociologa Otisa Dudleyho Duncana "pokud chcete měřit změnu, neměňte opatření" (Fischer 2011) .

Naneštěstí mnoho velkých datových systémů - zejména obchodních systémů - se stále mění, proces, který nazývám drift . Tyto systémy se mění zejména ve třech hlavních směrech: posun obyvatelstva (změna v tom, kdo je používá), behaviorální drift (změna v tom, jak je lidé používá) a systémový drift (změna v samotném systému). Tři zdroje driftu znamenají, že jakýkoli vzor ve velkém zdroji dat může být způsoben důležitou změnou ve světě, nebo by mohl být způsoben nějakou formou driftu.

První zdroj drift-populace drift-je způsoben změnami v tom, kdo používá systém, a tyto změny se mohou stát jak na krátké, tak na dlouhé časové lhůty. Například během amerických prezidentských voleb v roce 2012 se podíl tweetů o politice, které napsali ženy, každodenně (Diaz et al. 2016) . To, co se může zdát být změnou nálady v Twitteru, může být ve skutečnosti pouze změnou v tom, kdo mluví kdykoli. Navíc k těmto krátkodobým výkyvům dochází také k dlouhodobému trendu některých demografických skupin, které přijaly a zanechaly Twitter.

Kromě změn v tom, kdo používá systém, dochází také ke změnám ve způsobu používání systému, což nazývám behaviorální drift. Například během protestů Occupy Gezi z roku 2013 v Turecku protestující změnili své použití hashtagů, jak se protest vyvíjel. Zde je popsáno, jak Zeynep Tufekci (2014) popisuje behaviorální drift, který dokázala zjistit, protože sledovala chování na Twitteru a osobně:

"Co se stalo bylo, že jakmile se protest stal dominantním příběhem, velké množství lidí ... přestalo používat hashtagy, s výjimkou, aby upoutaly pozornost na nový fenomén ... Zatímco protesty pokračovaly a dokonce zintenzivňovaly, haštagové zmizeli. Rozhovory odhalily dva důvody. Nejprve, jakmile to každý znal téma, hashtag byl okamžitě nadbytečný a zbytečný na platformě Twitter s omezeným charakterem. Za druhé, hashtags byly viděny jen jako užitečné pro přitahování pozornosti k určitému tématu, ne pro to, aby o tom mluvil. "

Proto vědci, kteří studovali protesty analýzou tweety protest v souvislosti s hashtags bude mít zkreslené smysl toho, co se děje, protože toto chování driftu. Například věří, že diskuse o protestu dlouho snížil před tím, než ve skutečnosti snížil.

Třetí druh driftu je systémový drift. V tomto případě se lidé nemění nebo se mění jejich chování, ale samotný systém se mění. Například Facebook časem zvýšil limit délky aktualizací stavu. Takže jakákoli longitudinální studie aktualizace stavu bude zranitelná na artefakty způsobené touto změnou. Systémový posun je úzce souvislý s problémem nazývaným algoritmické zmatení, který budu pokrývat v části 2.3.8.

Závěrem lze konstatovat, že mnoho velkých zdrojů dat je unášeno kvůli změnám v tom, kdo je používá, jak jsou používány a jak fungují systémy. Tyto zdroje změn jsou někdy zajímavé výzkumné otázky, ale tyto změny komplikují schopnost velkých zdrojů dat sledovat dlouhodobé změny v průběhu času.