2.3.9 брудні

Великі джерела даних можуть бути завантажені з небажаною і спаму.

Деякі дослідники вважають, що великі джерела даних, особливо онлайн-джерела, є незайманими, оскільки вони збираються автоматично. Фактично люди, які працювали з великими джерелами даних, знають, що вони часто брудні . Тобто, вони часто включають дані, які не відображають реальних дій, що цікавлять дослідників. Більшість соціологів вже знайомі з процесом очищення великомасштабних даних соціальних опитувань, але прибирання великих джерел даних, здається, важче. Я думаю, що основним джерелом цієї труднощі є те, що багато хто з цих великих джерел даних ніколи не були призначені для використання в дослідженнях, і тому вони не збираються, не зберігаються та не документуються таким чином, щоб полегшити чищення даних.

Небезпека брудних цифрових даних слідкує за дослідженнями "Назад" та "Колеги" (2010) Про емоційну реакцію на напади 11 вересня 2001 р., Про що ми коротко згадували раніше у цьому розділі. Дослідники, як правило, вивчають реакцію на трагічні події, використовуючи ретроспективні дані, зібрані протягом місяців чи навіть років. Але Назад і колеги знайшли завжди джерело цифрових слідів - автоматично фіксовані повідомлення з 85 000 американських пейджерів, що дозволило їм вивчити емоційну відповідь на набагато більш тонке часові рамки. Вони створили хвилинну емоційну шкалу від 11 вересня, кодуючи емоційний вміст повідомлень пейджера у відсотках слів, пов'язаних з (1) смутком (наприклад, "плач" та "горе"), (2) тривогою ( наприклад, "турбує" і "боїться") і (3) гніву (наприклад, "ненавидіти" та "критично"). Вони виявили, що смуток і тривожність коливалися протягом усього дня без сильної картини, але протягом дня спостерігався вражаючий приріст гніву. Це дослідження, як видається, є прекрасним прикладом можливостей джерел даних завжди: якщо було використано традиційні джерела даних, було б неможливо отримати таку високу роздільну здатність термінів негайного реагування на несподівану подію.

Проте через рік, однак, Синтія Пурі (2011) уважно переглянула дані. Вона виявила, що велика кількість нібито розгніваних повідомлень було створено одним пейджер, і всі вони були однаковими. Ось що казали такі нібито злісні повідомлення:

"Перезавантаження NT машина [ім'я] в кабінет [ім'я] на [місці]: фатальним: [дата і час]"

Ці повідомлення були позначені злісними, оскільки вони включали слово "КРИТИЧНЕ", яке, як правило, означає гнів, але в цьому випадку це не так. Видалення повідомлень, згенерованих цим єдиним автоматичним пейджером, повністю усуває очевидне збільшення гніву протягом дня (малюнок 2.4). Інакше кажучи, основним результатом роботи Back, Küfner, and Egloff (2010) став артефакт одного пейджера. Як показує цей приклад, порівняно простий аналіз відносно складних і неясні даних може мати серйозні помилки.

Рисунок 2.4. Оцінка тенденцій гніву протягом 11 вересня 2001 року на основі 85 000 американських пейджерів (Back, Küfner, Egloff 2010, 2011, Pury 2011). Спочатку Назад, Кюфнер та Еглофф (2010) повідомляли про тенденцію до зростання гніву протягом дня. Проте більшість з цих, мабуть, злісних повідомлень було створено одним пейджером, який неодноразово надіслав таке повідомлення: Перезапустіть NT-машину [name] у кабінеті [name] у [location]: CRITICAL: [date and time]. Знявши це повідомлення, зникає явне збільшення гніву (Pury 2011, Back, Küfner, Egloff 2011). Адаптовано з Pury (2011), малюнок 1b.

Рисунок 2.4. Оцінка тенденцій гніву протягом 11 вересня 2001 року на основі 85 000 американських пейджерів (Back, Küfner, and Egloff 2010, 2011; Pury 2011) . Спочатку Back, Küfner, and Egloff (2010) повідомляли про Back, Küfner, and Egloff (2010) до зростання гніву протягом дня. Проте більшість з цих очевидних зловмисних повідомлень було створено одним пейджером, який неодноразово надіслав таке повідомлення: "Перезавантажте NT-машину [name] у кабінеті [name] у [location]: CRITICAL: [date and time]". (Pury 2011; Back, Küfner, and Egloff 2011) це повідомлення, зникає явне збільшення гніву (Pury 2011; Back, Küfner, and Egloff 2011) . Адаптовано з Pury (2011) , малюнок 1b.

Незважаючи на те, що брудні дані, які створюються ненавмисно, наприклад, що з одного шумного пейджера, можуть бути виявлені досить обережним дослідником, існують також деякі онлайн-системи, які залучають навмисних спамерів. Ці спамери активно генерують фальшиві дані, і дуже часто мотивація прибутку призводить до приховування спаму. Наприклад, політична діяльність на Twitter, здається, включає, принаймні, деякі досить розумні спами, внаслідок чого деякі політичні причини навмисно виглядають більш популярними, ніж вони насправді є (Ratkiewicz et al. 2011) . На жаль, видалення цього навмисного спаму може бути досить складним.

Звичайно те, що вважається брудними даними, може частково залежати від дослідницького питання. Наприклад, багато редагувань Wikipedia створено автоматизованими ботами (Geiger 2014) . Якщо ви зацікавлені в екології Вікіпедії, то ці бот-створені редакції важливі. Але якщо ви зацікавлені в тому, як люди допомагають Вікіпедії, то виключені зміни, створені ботом.

Немає єдиної статистичної методики або підходу, яка б гарантувала, що ви досить очистили брудні дані. Зрештою, я думаю, що найкращий спосіб уникнути обдурювання брудними даними полягає в тому, щоб максимально зрозуміти, як створюються ваші дані.