2.3 Загальні характеристики великих обсягів даних

Великі джерела даних , як правило, мають десять характеристик; деякі з них хороші для соціальних досліджень і деякі з них погано.

Якщо дослідники збираються отримати з великих обсягів даних, які вони не створювали або збирати, то вони повинні розуміти її загальні характеристики. Замість того, щоб брати платформу за допомогою платформи підходу (наприклад, ось що вам потрібно знати про Twitter, ось що вам потрібно знати про дані пошуку Google і т.д.), я збираюся описати десять загальних характеристик великих обсягів даних, характеристики, які виникають тому що дані не була створена з метою соціальних досліджень. За відступаючи від деталей кожної конкретної системи і, дивлячись на ці загальні властивості, дослідники можуть швидко дізнатися більше про існуючі джерела даних і мати тверду набір ідей, щоб застосувати до майбутніх джерел даних.

Я вважаю корисним згрупувати характеристики на дві категорії:

  • як правило, добре для дослідження: великий, завжди на, що не реагують
  • як правило, погано для дослідження: неповної, недоступною, нерепрезентативного, дрейфує, алгоритмічно осоромлені, недоступне, брудний, і чутливий

Грубо кажучи, державні адміністративні записи є менш нерепрезентативна, менш алгоритмічно осоромлена, і менш дрейфуючих. З іншого боку, бізнес-адміністративні документи, як правило, більші і завжди на.