2.3.2.4 Drifting

Loĝantaro derivas, uzado drivo kaj sistemo derivas fari malfacile uzi grandajn datumfonto studi longtempe tendencoj.

Unu el la grandaj avantaĝoj de multaj grandaj datumoj fontoj estas ke ili kolekti datumoj super tempo. Sociaj sciencistoj nomas tiun specon de super-tempa datumo, longitudaj datumoj. Kaj, nature, longitudaj datumoj estas tre grava por studi ŝanĝon. Por fidinde mezuri ŝanĝo, aliflanke, la mezurado sistemo mem devas esti stabila. En la vortoj de sociologo Otis Dudley Duncan, "se vi volas mezuri ŝanĝon, ne ŝanĝas la mezuro" (Fischer 2011) .

Bedaŭrinde, multaj grandaj datumoj sistemoj-precipe komerca sistemo kiu kreas kaj kapti ciferecan spuron-ŝanĝas la tutan tempon, procezo kiu mi vokos derivas. Aparte, tiuj sistemoj ŝanĝas en tri ĉefaj formoj: loĝantaro derivas (ŝanĝo en kiuj uzas ilin), kondutaj drivo (ŝanĝo en kiel homoj uzas ilin), kaj sistemo derivas (ŝanĝo en la sistemo mem). La tri fontoj de derivas signifas ke ajna modelo en cifereca spuro datumoj povus esti kaŭzita de grava ŝanĝo en la mondo, aŭ ĝi povus esti kaŭzita de iu formo de drift.

La unua fonto de drift-loĝantaro derivas-estas kiu uzas la sistemon, kaj tio ŝanĝas la delonga skaloj kaj mallonga tempo skaloj. Ekzemple, de 2008 por prezenti la averaĝa aĝo de homoj sur socia amaskomunikiloj pliigis. Krom tiuj longtempe tendencoj, la personoj uzas sistemon ĉiumomente varias. Ekzemple, dum la Usona Prezidanta elekto de 2012 la proporcio de tweets pri politiko, skribitajn per virinoj variadis de tago al tago (Diaz et al. 2016) . Tiel, kio povus aperi esti ŝanĝo en la humoro de la Twitter-verso povus reale esti nur ŝanĝojn en kiu parolas ĉiumomente.

Krom ŝanĝoj en kiu uzas sistemon, ekzistas ankaŭ ŝanĝas en kiom la sistemo estas uzata. Ekzemple, dum la Occupy Gezi Parko protestoj en Istanbulo, Turkio en 2013 manifestacianoj ŝanĝis ilian uzon de hashtags kiel la protesto evoluis. Jen kiel Zeynep Tufekci (2014) priskribis ŝin derivas, kiun ŝi povis detekti ĉar ŝi observis konduton en Twitter kaj sur la tero;

"Kio okazis estis ke kiam la protesto fariĝis ĉefa rakonto, nombregoj de homoj. . . ĉesis uzi la hashtags krom atentigi nova fenomeno. . .. Dum la protestoj daŭrigis, kaj eĉ intensigis, la hashtags kvietiĝis. Intervjuoj rivelis du kialoj por tio. Unue, iam ĉiuj sciis la temon, la hashtag estis samtempe superflua kaj malŝparema sur la karaktero-limigita Twitter platformo. Dua, hashtags estis vidita nur kiel utila por altiri atenton al specifa temo, ne por paroli pri ĝi. "

Tiel, esploristoj kiuj studis la protestoj analizante ĉirpetas per protesto-rilatajn hashtags havus distorsionada senson de kio okazis pro tio kondutaj derivas. Ekzemple, ili povus kredi, ke la diskutado pri la protesto malpliigis longe antaŭ ĝi efektive malpliiĝis.

La tria speco de derivas estas sistemo derivas. En tiu kazo, estas ne la homoj ŝanĝi aŭ ilia konduto sxangxigxi, sed la sistemo mem ŝanĝiĝas. Ekzemple, la tempo de Facebook pliigis la limon sur la longo de statuso ĝisdatigoj. Tiel, ajna longitudinales studo de statuso ĝisdatigoj estos vundeblaj al artefaktoj kaŭzita de tiu ŝanĝo. Sistemo derivas estas tre rilata al problemo nomita algoritma konfuzante al kiuj ni nun turnas.