2.3.7 Drifting

Obťažovanie obyvateľstva, drift používania a drift systému spôsobujú ťažkosti pri využívaní veľkých zdrojov údajov na štúdium dlhodobých trendov.

Jednou z veľkých výhod mnohých veľkých zdrojov údajov je to, že časom zhromažďujú údaje. Sociálni vedci nazývajú tento druh údajov o dlhodobých údajoch nadčas . Prirodzene, pozdĺžne údaje sú veľmi dôležité pre štúdium zmien. Aby bolo možné spoľahlivo zmerať zmenu, samotný merací systém musí byť stabilný. Podľa slov sociológov Otis Dudley Duncan, "ak chcete merať zmenu, nezmeníte opatrenie" (Fischer 2011) .

Bohužiaľ, veľa veľkých dátových systémov - najmä obchodných systémov - sa stále mení, proces, ktorý nazývam unášať . Tieto systémy sa menia najmä troma spôsobmi: zmena populácie (zmena v tom, kto ich používa), správanie sa (zmena spôsobu, akým ich ľudia používajú) a systémový drift (zmena v samotnom systéme). Tieto tri zdroje driftu znamenajú, že akýkoľvek vzor vo veľkom zdroji údajov by mohol byť spôsobený dôležitou zmenou vo svete, alebo by to mohlo byť spôsobené nejakou formou driftu.

Prvý zdroj drift-populácie drift-je spôsobený zmenami v tom, kto používa systém, a tieto zmeny sa môžu stať na krátke aj dlhé časové pásma. Napríklad počas amerických prezidentských volieb v roku 2012 sa podiel publikovaných tweets o politike každodenne (Diaz et al. 2016) . To, čo sa môže javiť ako zmena nálady verzie Twitteru, môže byť zmenou v tom, kto hovorí kedykoľvek. Okrem týchto krátkodobých výkyvov existuje aj dlhodobý trend niektorých demografických skupín, ktoré prijali a zanechali Twitter.

Okrem zmien v tom, kto používa systém, existujú aj zmeny v používaní systému, ktoré nazývam behaviorálny drift. Napríklad počas protestov obsadených v roku 2013 v Turecku protestujúci zmenili svoje použitie hashtagov v dôsledku vývoja protestu. Tu je spôsob, akým Zeynep Tufekci (2014) opísal behaviorálny drift, ktorý dokázala zistiť, pretože pozorovala správanie na Twitteru a osobne:

"Čo sa stalo bolo, že hneď ako sa protest stal dominantným príbehom, veľké množstvo ľudí ... prestali používať hashtagové prístroje okrem toho, aby upriamili pozornosť na nový fenomén ... Zatiaľ čo protesty pokračovali a dokonca zintenzívnili, hashtagy zanikli. Rozhovory odhalili dva dôvody. Po prvé, akonáhle každý vedel túto tému, hashtag bol hneď nadbytočný a nehospodárny na platforme Twitter s obmedzeným charakterom. Po druhé, hashtags boli považované iba za užitočné na pritiahnutie pozornosti k určitej téme, nie na to, aby sme o nej hovorili. "

Preto vedci, ktorí študovali protesty analýzou tweety protest v súvislosti s hashtags bude mať skreslené zmysel toho, čo sa deje, pretože toto správanie driftu. Napríklad verí, že diskusia o proteste dlho znížil pred tým, než v skutočnosti znížil.

Tretím druhom driftu je systémový drift. V tomto prípade sa ľudia nemenia alebo sa ich správanie mení, ale samotný systém sa mení. Napríklad časom Facebook zvýšil limit na dĺžku aktualizácií stavu. Takže akékoľvek pozdĺžne štúdie aktualizácií stavu budú zraniteľné voči artefaktom spôsobeným touto zmenou. Systémový posun je úzko spojený s problémom nazývaným algoritmické spochybňovanie, ktoré budem pokryť v časti 2.3.8.

Na záver, mnoho veľkých zdrojov údajov sa unáša z dôvodu zmien v tom, kto ich používa, ako sa používajú a ako fungujú systémy. Tieto zdroje zmien sú niekedy zaujímavé výskumné otázky, ale tieto zmeny komplikujú schopnosť veľkých zdrojov údajov sledovať dlhodobé zmeny v priebehu času.