2.3.7 sodródás

A népesség eltolódása, a felhasználás sodródása és a rendszer sodródása megnehezíti a nagy adatforrások használatát a hosszú távú trendek tanulmányozásához.

Számos nagy adatforrás egyik nagy előnye, hogy idővel adatokat gyűjtenek. A társadalomtudósok ezt a fajta túlmunkaidős adatokat longitudinális adatoknak nevezik. Természetesen a longitudinális adatok nagyon fontosak a változás tanulmányozásához. A változás megbízható mérése érdekében azonban a mérőrendszernek stabilnak kell lennie. Otis Dudley Duncan szociológus szavai szerint "ha meg akarja mérni a változást, ne változtassa meg az intézkedést" (Fischer 2011) .

Sajnos, sok nagy adatrendszerek, különösen, üzleti rendszerek, változnak az idő, ez a folyamat hívom drift. Különösen ezek a rendszerek háromféleképpen változnak: a népesség eltolódása (megváltozik azokban, akik használják őket), a viselkedési sodródás (megváltozik az emberek használatban), és a rendszer sodródása (maga a rendszer változása). A sodródás három forrása azt jelenti, hogy egy nagy adatforrás bármely formáját a világ egyik fontos változása okozhatja, vagy valamilyen eltolódás okozhat.

A sodródás-népesség sodródásának első forrását a rendszerhasználó változásai okozzák, és ezek a változások rövid és hosszú időtartamokon is előfordulhatnak. Például a 2012-es amerikai elnökválasztás során a nők által írt napi tweetek aránya napról napra ingadozott (Diaz et al. 2016) . Ezért, ami a Twitter versének hangulatát megváltoztatja, valójában csak egy változás lehet abban, hogy ki beszélhet bármikor. Ezen rövid távú ingadozások mellett bizonyos demográfiai csoportok hosszú távú trendje is volt, amely elfogadta és elhagyta a Twitter-t.

A rendszerhasználó változtatásai mellett változások is vannak a rendszer használatának változásairól, amelyet viselkedésbeli sodródásnak nevezek. Például, a 2013-as elfoglalása Gezi tiltakozás Törökországban, a tüntetők megváltoztatták a hashtags használatát, ahogy a tiltakozás fejlődött. Így írta le Zeynep Tufekci (2014) a viselkedési sodródást, amelyet felismerhetett, mert viselkedést figyelt meg a Twitteren és személyesen:

"Ami történt, az volt, hogy amint a tiltakozás az uralkodó történetévé vált, nagyszámú ember hagyta abba a hashtagok használatát, kivéve, hogy felhívja a figyelmet egy új jelenségre. Míg a tiltakozások tovább folytatódtak, sőt még fokozódtak is, a hashtagok elpusztultak. Az interjúk két okot tártak fel erre. Először is, miután mindenki ismerte a témát, a hashtag egyszerre felesleges és pazarlékony volt a karakteresen korlátozott Twitter platformon. Másodszor, a hashtagokat csak akkor lehetett hasznosnak tekinteni, ha felhívták a figyelmet egy adott témára, nem pedig arról, hogy beszéljenek róla. "

Így a kutatók, akik tanulmányozzák a tiltakozások elemzésével tweetjeit tiltakozás kapcsolatos hashtags volna torz értelemben, hogy mi történik, mert ez a viselkedési drift. Például, lehet, hogy úgy vélik, hogy a vita a tiltakozás csökkent jóval azelőtt, hogy ténylegesen csökken.

A harmadik fajta sodródás a rendszer sodródása. Ebben az esetben nem az emberek változnak, vagy viselkedése megváltozik, de a rendszer maga is változik. Például, az idő múlásával a Facebook növelte az állapotfrissítések hosszát. Így az állapotfrissítések bármely hosszanti vizsgálata sebezhető lesz a változás által okozott melléktermékekkel szemben. A rendszer driftje szorosan összefügg az algoritmikus zűrzavaros problémával, amelyet a 2.3.8.

Végezetül, sok nagy adatforrás sodródik, mert megváltozik azok, akik használják őket, hogyan használják őket, és hogyan működnek a rendszerek. Ezek a változásforrások néha érdekes kutatási kérdések, de ezek a változások bonyolítják a nagy adatforrások azon képességét, hogy nyomon követhessék a hosszú távú változásokat az idő múlásával.