2.3.7 Dreifēšana

Iedzīvotāju novirzīšana, izmantošanas novirze un sistēmas novirze liedz izmantot lielus datu avotus ilgtermiņa tendenču izpētei.

Viena no lielu daudzu lielu datu avotu lielajām priekšrocībām ir tā, ka tās laika gaitā vāc datus. Sociālie zinātnieki to sauc par šāda veida ilgstošu datu garengriezuma datiem . Un, protams, garengriezuma dati ir ļoti svarīgi pārmaiņu izpētei. Tomēr, lai ticami novērtētu izmaiņas, pašai mērīšanas sistēmai jābūt stabilai. Sociologa Otis Dudley Duncan vārdiem, "ja vēlaties izmērīt pārmaiņas, nemainiet pasākumu" (Fischer 2011) .

Diemžēl daudzas lielas datu sistēmas, it īpaši biznesa sistēmas, mainās nepārtraukti - procesu, ko es saucu par dreifu . Jo īpaši šīs sistēmas mainās trīs galvenajos veidos: iedzīvotāju novirzīšana (izmaiņas, kas tos izmanto), uzvedības novirze (izmaiņas, kā cilvēki tos izmanto), un sistēmas novirze (izmaiņas pašā sistēmā). Trīs trieciena avoti nozīmē to, ka lielu datu avotu jebkuru modeli varētu izraisīt svarīgas izmaiņas pasaulē, vai arī to varētu izraisīt kāda veida novirze.

Pirmais dreifējošo populāciju drifta avots ir saistīts ar izmaiņām sistēmā, kas izmanto sistēmu, un šīs izmaiņas var notikt gan īsos, gan ilgos laika posmos. Piemēram, 2012. gada prezidenta vēlēšanās 2012.gadā sieviešu rakstīto tweets par politiku, kas bija rakstītas sievietēm, svārstījās no dienas (Diaz et al. 2016) . Tādējādi tas, kas varētu šķist čivināt versijas noskaņojuma maiņu, faktiski varētu būt tikai pārmaiņa, kas runā jebkurā brīdī. Papildus šīm īstermiņa svārstībām ir vērojama arī ilgtermiņa tendence, ka atsevišķas demogrāfiskās grupas pieņem un pārtrauc lietot čivināt.

Papildus pārmaiņām tajā, kas izmanto sistēmu, ir arī izmaiņas sistēmas lietošanā, ko es saucu par uzvedības tendencēm. Piemēram, laikā, kad okupē Gezi protestus Turcijā 2013. gadā, protestētāji mainīja haftingu izmantojumu, protestējot. Lūk, kā Zeynep Tufekci (2014) aprakstīja uzvedības novirzi, ko viņa spēja atklāt, jo viņa novēroja uzvedību Twitter un personīgi:

"Kas notika, bija tas, ka tiklīdz protests kļuva par dominējošo stāstu, liels cilvēku skaits ... pārtrauca izmantot hashtags, izņemot, lai pievērstu uzmanību jaunajai parādībai ... Kamēr protesti turpinājās un pat pastiprinājās, heča pazuda. Intervijās tika konstatēti divi iemesli. Pirmkārt, kad visi pazina šo tēmu, tūlītējai hashtagi bija lieki un izšķērdīgi raksturīgo Twitter platformu. Otrkārt, jaucējkultūras tika uzskatītas tikai par noderīgām, lai pievērstu uzmanību kādai konkrētai tēmai, nevis lai runātu par to. "

Tātad, zinātnieki, kuri mācās protestus, analizējot tweets ar protesta saistīto hashtags būtu izkropļotu sajūtu par to, kas notiek, jo šo uzvedības drift. Piemēram, viņi varētu domāt, ka diskusija par protesta ilgi samazinājās, pirms tā faktiski samazinājās.

Trešā veida drift ir sistēmas drift. Šajā gadījumā cilvēki nemainās vai viņu uzvedība mainās, bet pati sistēma mainās. Piemēram, laika gaitā Facebook ir palielinājis statusa atjauninājumu skaita ierobežojumu. Tādējādi jebkura pagarinājuma statusa atjauninājumu izpēte būs neaizsargāta pret artefaktiem, ko izraisa šīs izmaiņas. Sistēmas novirze ir cieši saistīta ar problēmu, ko sauc par algoritmisko sajaukšanu, un to aplūkosim 2.3.8. Sadaļā.

Nobeigumā ir redzams, ka daudzi lieli datu avoti ir novecojuši to izmaiņu dēļ, kuri tos izmanto, kā tos izmanto, un kā sistēmas darbojas. Šie pārmaiņu avoti dažreiz ir interesanti pētījumu jautājumi, taču šīs izmaiņas apgrūtina lielo datu avotu spēju ilgstoši novērot izmaiņas laika gaitā.