2.3.7 Дрейфує

Дрейф населення, дрейф використання та дрейф системи ускладнюють використання великих джерел даних для вивчення довгострокових тенденцій.

Однією з великих переваг багатьох великих джерел даних є те, що вони збирають дані у часі. Соціальні вчені називають такий вид надмірних даних про поздовжні дані . І, природно, поздовжні дані дуже важливі для вивчення змін. Однак для того, щоб надійно вимірювати зміни, сама вимірювальна система повинна бути стабільною. За словами соціолога Отіса Дадлі Дункана, "якщо ви хочете виміряти зміну, не змінюйте міру" (Fischer 2011) .

На жаль, багато великих систем даних, особливо бізнес-систем, постійно змінюються, процес, який я називаю дрейфом . Зокрема, ці системи змінюються за трьома основними способами: дрейф населення (зміна того, хто їх використовує), поведінковий дрейф (зміна в тому, як люди використовують їх), а також дрейф системи (зміна в самій системі). Три джерела дрейфу означають, що будь-який шаблон у великому джерелі даних може бути викликаний важливою зміною в світі або може бути викликаний певною формою дрейфу.

Перше джерело дрейфу дрейфу-населення обумовлено змінами в тих, хто використовує систему, і ці зміни можуть відбутися як у короткі, так і у довгостроковій перспективі. Наприклад, під час президентських виборів у США 2012 року частка твітів про політику, що були написані жінками, коливалась з дня на день (Diaz et al. 2016) . Таким чином, те, що може здатися зміною настрою Twitter-вірша, насправді може бути лише зміною того, хто говорить в будь-який момент. Окрім цих короткострокових коливань, існує також довгострокова тенденція до прийняття певних демографічних груп та відмови від Twitter.

Окрім змін у тому, хто використовує систему, існують також зміни у використанні системи, яку я називаю поведінкою. Наприклад, під час протесту окупації Gezi 2013 року в Туреччині протестуючі змінювали своє використання хештейнів, коли розвивалися протести. Ось як Zeynep Tufekci (2014) описав поведінковий дрейф, який вона змогла виявити, оскільки вона спостерігала поведінку в Twitter і особисто:

"Що сталось, що, як тільки протест став домінуючою історією, велика кількість людей ... перестала використовувати хештег, за винятком того, щоб привернути увагу до нового явища ... Хоча протести тривали і навіть посилювалися, хештаги знизилися. Інтерв'ю виявили дві причини для цього. По-перше, як тільки всі знали цю тему, хеш-тег був відразу зайвий і марнотратний на платформі Twitter, обмеженій персонажем. По-друге, хештаги були помітні лише як корисні для залучення уваги до певної теми, а не для того, щоб говорити про це ".

Таким чином, дослідники, які вивчали протести, аналізуючи Твіти протесту, пов'язаних з хештегом матиме спотворене відчуття того, що відбувається через це поведінкового дрейфу. Наприклад, вони можуть повірити, що обговорення протесту зменшилася задовго до того, як насправді зменшилася.

Третім видом дрейфу є дрейф системи. У цьому випадку не люди змінюються, а їхня поведінка змінюється, але сама система змінюється. Наприклад, з часом Facebook збільшив ліміт на тривалість оновлень статусу. Таким чином, будь-яке подовжене вивчення статусних оновлень буде вразливим до артефактів, викликаних цією зміною. Системний дрейф тісно пов'язаний з проблемою, яка називається алгоритмічним змішуванням, яку я розповім у розділі 2.3.8.

На закінчення, багато великих джерел даних дрейфують через зміни тих, хто їх використовує, в тому, як вони використовуються, і в тому, як системи працюють. Ці джерела змін іноді цікаві дослідницькі питання, але ці зміни ускладнюють здатність великих джерел даних відслідковувати довгострокові зміни з часом.