2.3.7 drifting

Utoaji wa idadi ya watu, matumizi ya matumizi, na drift mfumo hufanya iwe vigumu kutumia vyanzo vya data kubwa kujifunza mwenendo wa muda mrefu.

Moja ya faida kubwa ya vyanzo vingi vya data ni kwamba hukusanya data kwa wakati. Wanasayansi wa jamii huita aina hii ya data ya muda mrefu data data longitudinal . Na, kwa kawaida, data ya longitudinal ni muhimu sana kwa kusoma mabadiliko. Ili kutekeleza mabadiliko kwa uaminifu, hata hivyo, mfumo wa kipimo yenyewe lazima uwe imara. Kwa maneno ya mwanasosholojia Otis Dudley Duncan, "ikiwa unataka kupima mabadiliko, usibadie kipimo" (Fischer 2011) .

Kwa bahati mbaya, wengi data kubwa mifumo-hasa mifumo-ni biashara ya kubadilisha wakati wote, utaratibu huo Nitakupigia simu drift. Hasa, mifumo hii inabadilika kwa njia tatu kuu: idadi ya watu hubadilishana (mabadiliko ya nani anayotumia), drift tabia (mabadiliko ya jinsi watu wanavyotumia), na mfumo wa drift (mabadiliko katika mfumo yenyewe). Vyanzo vitatu vya drift inamaanisha kwamba muundo wowote katika chanzo kikubwa cha data inaweza kusababishwa na mabadiliko muhimu duniani, au inaweza kusababisha kwa aina fulani ya drift.

Chanzo cha kwanza cha drift-population drift-kinasababishwa na mabadiliko katika nani anayetumia mfumo, na mabadiliko haya yanaweza kutokea kwenye nyakati za muda mfupi na za muda mrefu. Kwa mfano, wakati wa uchaguzi wa rais wa Marekani wa 2012 idadi ya tweets kuhusu siasa ambazo ziliandikwa na wanawake zimeongezeka kila siku (Diaz et al. 2016) . Kwa hiyo, kile ambacho kinaonekana kuwa mabadiliko katika hali ya mstari wa Twitter inaweza kweli kuwa tu mabadiliko katika nani anayesema wakati wowote. Mbali na mabadiliko haya ya muda mfupi, pia imekuwa na mwenendo wa muda mrefu wa makundi fulani ya watu wanaotumia na kuacha Twitter.

Mbali na mabadiliko katika nani anayetumia mfumo, pia kuna mabadiliko katika jinsi mfumo hutumiwa, ambao niitwa na drift tabia. Kwa mfano, wakati wa maandamano ya Uvuvi wa Gezi wa 2013 nchini Uturuki, waandamanaji walibadilisha matumizi yao ya hashtag kama maandamano yalivyogeuka. Hivi ndivyo Zeynep Tufekci (2014) alivyoelezea drift tabia, ambayo aliweza kuchunguza kwa sababu alikuwa akiangalia tabia kwenye Twitter na kwa mtu:

"Nini kilichotokea ni kwamba mara tu maandamano yalipokuwa hadithi kubwa, idadi kubwa ya watu ... waliacha kutumia hashtag isipokuwa kuzingatia jambo jipya ... Wakati maandamano yaliendelea, na hata kuongezeka, hashtags alikufa. Mahojiano yalifunua sababu mbili za hili. Kwanza, mara moja kila mtu alijua mada hii, hashtag ilikuwa mara moja isiyo ya maana na ya kupoteza kwenye jukwaa la mdogo wa Twitter. Pili, hashtags zilionekana tu kama muhimu kwa kuvutia tahadhari fulani, si kwa kuzungumza juu yake. "

Hivyo, watafiti ambao walikuwa kusoma maandamano na kuchambua tweets na hashtags maandamano yanayohusiana na ingekuwa maana potofu ya nini kinatokea kwa sababu ya drift hii tabia. Kwa mfano, wapate kuamini kwamba mjadala wa maandamano ilipungua kwa muda mrefu kabla ni kweli kupungua.

Aina ya tatu ya drift ni drift mfumo. Katika kesi hiyo, sio watu wanaobadilisha au tabia zao zinabadilika, lakini mfumo huo wenyewe hubadilika. Kwa mfano, baada ya muda Facebook imeongeza kikomo kwa urefu wa sasisho za hali. Kwa hiyo, utafiti wowote wa muda mrefu wa sasisho za hali utaweza kuathiriwa na mabaki yaliyosababishwa na mabadiliko haya. Mfumo wa drift unahusiana kwa karibu na tatizo linalojulikana kama mchanganyiko wa algorithmic, ambayo nitapatikana katika kifungu 2.3.8.

Ili kukamilisha, vyanzo vingi vyenye data vinakuja kwa sababu ya mabadiliko ya nani anayatumia, jinsi ya kutumiwa, na jinsi mifumo inafanya kazi. Vyanzo hivi vya mabadiliko wakati mwingine huvutia maswali ya utafiti, lakini mabadiliko haya yanajumuisha uwezo wa vyanzo vya data kubwa kufuatilia mabadiliko ya muda mrefu kwa muda.