2.3 Десять загальних характеристик великих даних

Великі джерела даних, як правило, мають ряд загальних характеристик; деякі, як правило, корисні для соціальних досліджень, а деякі, як правило, погані.

Незважаючи на те, що кожен великий джерело даних відрізняється, корисно помітити, що є певні характеристики, які, як правило, відбуваються знову і знову. Тому, замість того, щоб використовувати платформі підхід (наприклад, ось що потрібно знати про Twitter, ось що потрібно знати про дані пошуку Google тощо), я збираюся описати десять загальних характеристик великих джерела даних. Перехід від деталей кожної окремої системи та вивчення цих загальних характеристик дає змогу дослідникам швидко дізнатись про існуючі джерела даних та мати твердий набір ідей для застосування до джерел даних, які будуть створені в майбутньому.

Незважаючи на те, що бажані характеристики джерела даних залежать від цілі дослідження, я вважаю за потрібне грубо розділити десять характеристик на дві широкі категорії:

  • як правило, корисні для дослідження: великі, постійні та нееактивні
  • як правило, проблемні для досліджень: неповні, недоступні, непредставні, дрейфуючі, алгоритмічно збиті, брудні та чутливі

Оскільки я описую ці характеристики, ви помітите, що вони часто виникають тому, що великі джерела даних не створювалися для цілей дослідження.