2.3 Десять общих характеристик больших данных

Большие источники данных, как правило, имеют ряд общих характеристик; некоторые из них в целом хороши для социальных исследований, а некоторые, как правило, плохи.

Несмотря на то, что каждый большой источник данных различен, полезно заметить, что есть определенные характеристики, которые имеют тенденцию возникать снова и снова. Поэтому, вместо того, чтобы принимать поэтапный подход (например, вот что вам нужно знать о Twitter, вот что вам нужно знать о данных поиска Google и т. Д.), Я собираюсь описать десять общих характеристик больших источники данных. Возвращаясь к деталям каждой конкретной системы и рассматривая эти общие характеристики, ученые могут быстро узнать о существующих источниках данных и иметь твердый набор идей для применения к источникам данных, которые будут созданы в будущем.

Несмотря на то, что желаемые характеристики источника данных зависят от цели исследования, я считаю, что полезно грубо группировать десять характеристик по двум широким категориям:

  • обычно полезны для исследования: большие, всегда-и нереактивные
  • как правило, проблематичны для исследования: неполные, недоступные, нерепрезентативные, дрейфующие, алгоритмически запутанные, грязные и чувствительные

Поскольку я описываю эти характеристики, вы заметите, что они часто возникают из-за того, что большие источники данных не были созданы для целей исследования.