2.3.7 anod

Ang drift ng populasyon, paggamit ng drift, at system drift ay nagpapahirap sa paggamit ng mga malalaking data source upang pag-aralan ang pangmatagalang mga uso.

Ang isa sa mga mahusay na pakinabang ng maraming malalaking pinagmumulan ng data ay ang pagkolekta nila ng data sa paglipas ng panahon. Tinatawag ng mga social scientist ang ganitong uri ng data na over-time na paayon ng data . At, natural, ang paayon na data ay napakahalaga para sa pag-aaral ng pagbabago. Upang mapagkakatiwalaan ang panukalang pagbabago, gayunpaman, ang sistema ng pagsukat mismo ay dapat na matatag. Sa mga salita ng sociologist na si Otis Dudley Duncan, "kung nais mong sukatin ang pagbabago, huwag baguhin ang panukala" (Fischer 2011) .

Sa kasamaang palad, maraming malalaking sistema ng data-lalo na mga sistema ng negosyo-ay nagbabago sa lahat ng oras, isang proseso na tatawagan ko na lumipat . Sa partikular, ang mga sistemang ito ay nagbabago sa tatlong pangunahing paraan: ang drift ng populasyon (pagbabago sa kung sino ang gumagamit nito), pag- uugaling pag-uugali (pagbabago sa kung paano ginagamit ng mga tao ang mga ito), at sistema ng pag-anod (pagbabago sa sistema mismo). Ang tatlong pinagkukunan ng naaanod ay nangangahulugan na ang anumang mga pattern sa isang malaking mapagkukunan ng data ay maaaring sanhi ng isang mahalagang pagbabago sa mundo, o maaaring ito ay sanhi ng ilang mga paraan ng drift.

Ang unang pinagmumulan ng naaanod na populasyon ay nagiging sanhi ng pagbabago sa kung sino ang gumagamit ng system, at ang mga pagbabagong ito ay maaaring mangyari sa parehong maikli at mahabang panahon. Halimbawa, sa panahon ng halalan ng Pangulo ng Estados Unidos ng 2012 ang proporsiyon ng mga tweet tungkol sa pulitika na isinulat ng mga kababaihan ay nagbago sa araw-araw (Diaz et al. 2016) . Kaya, kung ano ang maaaring lumitaw na maging isang pagbabago sa mood ng Twitter-tula ay maaaring talagang maging isang pagbabago sa kung sino ang pakikipag-usap sa anumang sandali. Bilang karagdagan sa mga panandaliang pagbabago na ito, nagkaroon din ng pangmatagalang kalakaran ng ilang mga pangkat ng demograpiko na nag-aampon at nag-abandunado sa Twitter.

Bilang karagdagan sa mga pagbabago sa kung sino ang gumagamit ng isang sistema, mayroon ding mga pagbabago sa kung paano ginagamit ang system, na tinatawag kong pag-uugali ng pag-uugali. Halimbawa, sa panahon ng 2013 Protestang Gezi protesta sa Turkey, ang mga nagpoprotesta ay nagbago ng kanilang paggamit ng hashtags habang ang protesta ay nagbago. Narito kung paano inilarawan ni Zeynep Tufekci (2014) ang pag-uugali ng pag-uugali, na natuklasan niya dahil napanood niya ang pag-uugali sa Twitter at nang personal:

"Ano ang nangyari ay na sa sandaling ang protesta ay naging nangingibabaw na kuwento, maraming tao ... tumigil sa paggamit ng hashtags maliban sa paghahatid ng pansin sa isang bagong kababalaghan ... Habang ang mga protesta ay nagpatuloy, at lumakas pa, ang mga hashtags ay namatay. Ang mga interbyu ay nagsiwalat ng dalawang dahilan para dito. Una, sa sandaling alam ng lahat ang paksa, ang hashtag ay sabay-sabay na labis at walang pag-aalinlangan sa platform ng Twitter na may limitadong character. Pangalawa, ang mga hashtags ay nakita lamang bilang kapaki-pakinabang para sa pag-akit ng pansin sa isang partikular na paksa, hindi para sa pakikipag-usap tungkol dito. "

Kaya, ang mga mananaliksik na nag-aaral ang mga protesta sa pamamagitan ng pagsusuri tweet na may pasubali na may kinalaman sa hashtags ay magkaroon ng isang pangit na kahulugan ng kung ano ang nangyayari dahil sa ito pang-asal drift. Halimbawa, maaaring sila ay naniniwala na ang talakayan ng mga protesta nabawasan katagal bago ito aktwal na nabawasan.

Ang ikatlong uri ng drift ay sistema naaanod. Sa kasong ito, hindi ang mga taong nagbabago o ang pagbabago ng kanilang pag-uugali, ngunit ang sistema mismo ay nagbabago. Halimbawa, sa paglipas ng panahon ay pinataas ng Facebook ang limitasyon sa haba ng mga update sa katayuan. Samakatuwid, ang anumang pag-aaral sa pag-update ng mga pag-update sa katayuan ay maaaring mahina sa mga artifact na dulot ng pagbabagong ito. Ang paglilipat ng sistema ay malapit na nauugnay sa isang problema na tinatawag na algorithmic confounding, na sasaklawan ko sa seksyon 2.3.8.

Upang tapusin, maraming malalaking pinagmumulan ng data ang nauubos dahil sa mga pagbabago sa kung sino ang gumagamit nito, sa kung paano sila ginagamit, at sa kung paano gumagana ang mga sistema. Ang mga pinagkukunan ng pagbabago ay paminsan-minsan ay kagiliw-giliw na mga katanungan sa pananaliksik, ngunit ang mga pagbabagong ito ay nakakapagpapagaling sa kakayahan ng mga malalaking pinagkukunan ng data upang subaybayan ang mga pangmatagalang pagbabago sa paglipas ng panahon