2.3.2.4 Drifting

Drifft boblogaeth, drifft defnydd, a drifft system yn ei gwneud yn anodd i ddefnyddio ffynhonnell ddata mawr i astudio tueddiadau tymor hir.

Un o fanteision mawr o lawer o ffynonellau data mawr yw eu bod yn casglu data dros gyfnod o amser. gwyddonwyr cymdeithasol yn galw y math hwn o ddata dros amser, data hydredol. Ac, yn naturiol, mae data hydredol yn bwysig iawn ar gyfer astudio newid. Er mwyn mesur y newid yn ddibynadwy, fodd bynnag, mae'n rhaid i'r system fesur ei hun fod yn sefydlog. Yng ngeiriau cymdeithasegwr Otis Dudley Duncan, "os ydych am i fesur newid, peidiwch â newid y mesur" (Fischer 2011) .

Yn anffodus, mae llawer o systemau-yn enwedig data mawr system busnes sy'n creu ac yn dal olion-yn ddigidol newid drwy'r amser, proses y byddaf yn galw drifft. Yn benodol, y systemau hyn yn newid mewn tair prif ffordd: drifft poblogaeth (newid yn pwy sy'n eu defnyddio), drifft ymddygiadol (newid yn y ffordd y mae pobl yn eu defnyddio), a drifft system (newid yn y system ei hun). Mae tair ffynhonnell o drifft yn golygu y gallai unrhyw batrwm yn y data olion digidol gael ei achosi gan newid pwysig yn y byd, neu gallai gael ei achosi gan ryw fath o ddrifft.

Y ffynhonnell gyntaf o ddrifft-poblogaeth drifft-yn pwy sy'n defnyddio'r system, ac mae hyn yn newid ar raddfeydd hir-amser a graddfeydd amser byr. Er enghraifft, o 2008 i gyflwyno oedran cyfartalog pobl ar gyfryngau cymdeithasol wedi cynyddu. Yn ychwanegol at y tueddiadau tymor hir hyn, mae'r bobl ddefnyddio system ar unrhyw adeg yn amrywio. Er enghraifft, yn ystod yr etholiad Unol Daleithiau Arlywyddol o 2012 y gyfran o tweets am wleidyddiaeth a gafodd eu hysgrifennu gan ferched amrywio o ddydd i ddydd (Diaz et al. 2016) . Felly, yr hyn a allai ymddangos yn newid yn y naws y Twitter-pennill allai mewn gwirionedd yn unig fod newidiadau mewn pwy sy'n siarad ar unrhyw adeg.

Yn ogystal â'r newidiadau o ran pwy sy'n defnyddio system, mae yna hefyd newidiadau yn y ffordd y mae'r system yn cael ei ddefnyddio. Er enghraifft, yn ystod y Occupy protestiadau Parc Gezi yn Istanbul, Twrci yn 2013 protestwyr wedi newid eu defnydd o hashtags fel y brotest esblygu. Dyma sut Zeynep Tufekci (2014) yn disgrifio'r drifft, oedd hi'n gallu canfod oherwydd ei bod yn arsylwi ymddygiad ar Twitter ac ar y ddaear:

"Yr hyn oedd wedi digwydd oedd bod cyn gynted ag y brotest daeth y stori dominyddol, nifer fawr o bobl. . . rhoi'r gorau i ddefnyddio hashtags ac eithrio i dynnu sylw at ffenomen newydd. . .. Er bod y protestiadau barhau, a hyd yn oed dwysáu, hashtags farw i lawr. Datgelodd y cyfweliadau dau reswm dros hyn. Yn gyntaf, unwaith pawb yn gwybod y pwnc, hashtag oedd ar unwaith yn ddiangen ac yn wastraffus ar y llwyfan Twitter cyfyngedig gymeriad. Yn ail, gwelwyd hashtags yn unig fel ddefnyddiol ar gyfer denu sylw at bwnc penodol, nid am siarad am y peth. "

Felly, byddai ymchwilwyr a oedd yn astudio y protestiadau drwy ddadansoddi tweets gyda hashtags cysylltiedig â protest cael ymdeimlad gwyrgam o'r hyn oedd yn digwydd oherwydd y drifft ymddygiadol hwn. Er enghraifft, efallai y byddant yn credu bod y drafodaeth ar y brotest gostwng hir cyn iddo mewn gwirionedd gostwng.

Y trydydd math o drifft yw drifft system. Yn yr achos hwn, nid dyma'r bobl sy'n newid neu eu newid ymddygiad, ond y system ei hun yn newid. Er enghraifft, dros gyfnod o amser Facebook wedi cynyddu'r cyfyngiad ar hyd y diweddariadau statws. Felly, bydd unrhyw astudiaeth hydredol o ddiweddariadau statws fod yn agored i arteffactau a achosir gan y newid hwn. drifft system yn perthyn yn agos i broblem o'r enw dryslyd algorithmig yr ydym yn awr yn troi.