2.3大數據的十大共同特徵

大數據源往往具有許多共同特徵;有些通常對社會研究有益,有些通常是壞的。

即使每個大數據源都是不同的,但有必要注意到某些特徵往往會一次又一次地發生。因此,我不是採用逐平台的方法(例如,這裡是您需要了解的關於Twitter的內容,這是您需要了解的有關Google搜索數據的內容等),我將描述大的十大特徵數據源。從每個特定係統的細節中退出並查看這些一般特徵,使研究人員能夠快速了解現有數據源,並有一套堅定的想法應用於將來創建的數據源。

儘管數據源的所需特徵取決於研究目標,但我發現將這十個特徵粗略地分為兩大類是有幫助的:

  • 通常有助於研究:大,永遠在線,非反應
  • 一般來說,研究存在問題:不完整,難以接近,不具代表性,漂移,算法混淆,骯髒和敏感

在我描述這些特徵時,您會注意到它們經常出現,因為大數據源不是為研究目的而創建的。