2.3.7 Potopitev

Preusmeritev prebivalstva, premikanje porabe in preusmeritev sistema otežujejo uporabo velikih podatkovnih virov za preučevanje dolgoročnih trendov.

Ena od velikih prednosti številnih velikih virov podatkov je, da sčasoma zbirajo podatke. Socialni znanstveniki tovrstne podatke o dolgotrajnih podatkih kličejo. In, seveda, vzdolžni podatki so zelo pomembni za preučevanje sprememb. Vendar pa mora merilni sistem sam obstati stabilen, da bi zanesljivo izmeril spremembe. Po besedah ​​sociologa Otisa Dudleya Duncana, "če želite meriti spremembe, ne spreminjajte ukrepa" (Fischer 2011) .

Na žalost, mnogi veliki podatkovni sistemi-predvsem poslovni sistemi se spreminjajo ves čas, proces je, da bom poklical škropiva. Zlasti se ti sistemi spreminjajo na tri glavne načine: preusmeritev prebivalstva (sprememba pri tem, kdo jih uporablja), vedenjski drift (sprememba v tem, kako jih ljudje uporabljajo) in sistemski drift (sprememba v samem sistemu). Trije viri vibracij pomenijo, da lahko kateri koli vzorec v velikem viru podatkov povzroči pomembna sprememba v svetu ali pa jo lahko povzroči nekakšna oblika odcepa.

Prvi vir prenosa drift-populacije je posledica sprememb v tem, kdo uporablja sistem, in te spremembe se lahko zgodijo tako v kratkih kot dolgih časovnih obdobjih. Na primer, na ameriških predsedniških volitvah leta 2012 je delež tweetov o politiki, ki so jih napisali ženske, nihale od dneva v dan (Diaz et al. 2016) . Tako se lahko zdi, da je sprememba razpoloženja Twitter-verse dejansko samo sprememba v tem, kdo v vsakem trenutku govori. Poleg teh kratkoročnih nihanj je prišlo tudi do dolgoročnega trenda nekaterih demografskih skupin, ki so sprejele in opustile Twitter.

Poleg sprememb v tem, kdo uporablja sistem, obstajajo tudi spremembe v tem, kako se sistem uporablja, kar imenujem vedenjski drift. Na primer, med protesti Occupy Gezi leta 2013 v Turčiji so protestniki spremenili svojo uporabo hashtags, ko je protest razvil. Tako je Zeynep Tufekci (2014) opisal vedenjski drift, ki jo je lahko odkrila, ker je opazovala vedenje na Cvrkutati in osebno:

"Kar se je zgodilo je, da takoj, ko je protest postal prevladujoča zgodba, je veliko ljudi ... prenehalo uporabljati hashtags, razen da bi pritegnilo pozornost na nov pojav ... Medtem ko so se protesti nadaljevali in celo intenzivirali, so se hashtags umrli. Intervjuji so razkrili dva razloga za to. Prvič, ko so vsi poznali temo, je bil hashtag naenkrat odveč in potraten na platformi, ki je omejena na znake. Drugič, hashtags je bil videti le kot koristen za privabljanje pozornosti na določeno temo, ne pa za pogovor o tem. "

Tako bi raziskovalci, ki so se učili proteste z analizo tweets z oznake tem, povezanih s protestnimi imajo izkrivljen občutek, kaj se je dogajalo zaradi tega vedenjskega škropiva. Na primer, lahko menijo, da je razprava o protestu zmanjšal, še preden je dejansko zmanjšala.

Tretja vrsta odmika je sistemski drift. V tem primeru se ljudje ne spreminjajo ali se njihovo vedenje spreminja, toda sam sistem se spreminja. Na primer, sčasoma je Facebook povečal omejitev dolžine posodobitev statusa. Tako bo vsaka longitudinalna študija posodobitev statusa podvržena artefakti, ki jih povzroča ta sprememba. Odsotnost sistema je tesno povezana s problemom, imenovano algoritemsko zmedo, ki ga bom pokril v poglavju 2.3.8.

Za zaključek se veliko velikih virov podatkov spreminja zaradi sprememb v tem, kdo jih uporablja, kako se uporabljajo in kako sistemi delujejo. Ti viri sprememb so včasih zanimiva raziskovalna vprašanja, vendar te spremembe otežujejo zmožnost velikih virov podatkov, da sčasoma spremljajo dolgoročne spremembe.