2.3 Общие характеристики больших объемов данных

Большие источники данных , как правило, имеют десять характеристик; некоторые из них хороши для социальных исследований и некоторые из них плохо.

Если исследователи собираются извлечь из больших объемов данных, которые они не создавали или собирать, то они должны понимать ее общие характеристики. Вместо того, чтобы брать платформу с помощью платформы подхода (например, вот что вам нужно знать о Twitter, вот что вам нужно знать о данных поиска Google и т.д.), я собираюсь описать десять общих характеристик больших объемов данных, характеристики, которые возникают потому что данные не была создана с целью социальных исследований. По отступая от деталей каждой конкретной системы и, глядя на эти общие свойства, исследователи могут быстро узнать больше о существующих источниках данных и иметь твердую набор идей, чтобы применить к будущим источникам данных.

Я считаю полезным сгруппировать характеристики на две категории:

  • как правило, хорошо для исследования: большой, всегда на, не реагирующие
  • как правило, плохо для исследования: неполной, недоступной, нерепрезентативного, дрейфует, алгоритмически посрамлены, недоступное, грязный, и чувствительный

Грубо говоря, государственные административные записи являются менее нерепрезентативная, менее алгоритмически посрамлена, и менее дрейфующих. С другой стороны, бизнес-административные документы, как правило, более крупные и всегда на.