2.3 Общи характеристики на голям данни

Големите източници на данни са склонни да имат десет характеристики; някои са добри за социални изследвания и някои от тях са лоши.

Ако изследователи ще се учат от големите данни, че те не създаде или да събира, тогава те трябва да разберат неговите основни характеристики. Вместо да се платформа с подход платформа (например, тук е това, което трябва да знаете за Twitter, ето какво трябва да знаете за данни на Google за търсене и т.н.), аз ще опиша десет общи характеристики на големи данни, характеристики, които възникват тъй като данните не е създаден за целите на социалното изследване. Чрез засилване назад от детайлите на всяка конкретна система и погледнете в тези общи свойства, изследователите могат бързо да научат повече за съществуващите източници на данни и имат твърд набор от идеи, които да се прилагат към бъдещите източници на данни.

Смятам, че е полезно да се група на характеристиките на две категории:

  • цяло е добро за научни изследвания: голям, винаги-на, нереактивни
  • по принцип лошо за научни изследвания: непълна, недостъпна, които не са представителни, плаващи, алгоритмично посрамиха, недостъпна, мръсна, и чувствителна

Най-общо казано, държавни административни записи са по-малко не-представително, по-малко алгоритмично посрамиха, и по-малко дрифт. От друга страна, бизнес административни записи са по-големи и по-винаги на.