2.3大数据的十大共同特征

大数据源往往具有许多共同特征;有些通常对社会研究有益,有些通常是坏的。

即使每个大数据源都是不同的,但有必要注意到某些特征往往会一次又一次地发生。因此,我不是采用逐平台的方法(例如,这里是您需要了解的关于Twitter的内容,这是您需要了解的有关Google搜索数据的内容等),我将描述大的十大特征数据源。从每个特定系统的细节中退出并查看这些一般特征,使研究人员能够快速了解​​现有数据源,并有一套坚定的想法应用于将来创建的数据源。

尽管数据源的所需特征取决于研究目标,但我发现将这十个特征粗略地分为两大类是有帮助的:

  • 通常有助于研究:大,永远在线,非反应
  • 一般来说,研究存在问题:不完整,难以接近,不具代表性,漂移,算法混淆,肮脏和敏感

在我描述这些特征时,您会注意到它们经常出现,因为大数据源不是为研究目的而创建的。