2.3 Десет общи характеристики на големи данни

Големите източници на данни обикновено имат общи характеристики; някои от тях обикновено са добри за социални изследвания и някои са като цяло лоши.

Въпреки че всеки голям източник на данни е различен, е полезно да забележите, че има някои характеристики, които са склонни да се появяват отново и отново. Поради това, вместо да се подхожда към платформа по платформа (напр. Ето какво трябва да знаете за Twitter, ето какво трябва да знаете за данните от търсенето с Google и т.н.), ще опиша десетте общи характеристики на големите източници на данни. Отстъпването от подробностите на всяка отделна система и разглеждането на тези общи характеристики позволяват на изследователите бързо да научат за съществуващите източници на данни и да разполагат с твърд набор от идеи, които да се прилагат към източниците на данни, които ще бъдат създадени в бъдеще.

Въпреки че желаните характеристики на даден източник на данни зависят от изследователската цел, считам, че е полезно грубо да се групират десетте характеристики в две широки категории:

  • като цяло полезни за изследванията: големи, винаги и без реакции
  • като цяло проблематични за изследванията: непълни, недостъпни, неефективни, плаващи, алгоритмично объркани, мръсни и чувствителни

Както описвам тези характеристики, ще забележите, че те често възникват, защото големи източници на данни не са създадени за целите на изследванията.