2.3 Ciri-ciri biasa data yang besar

Sumber data yang besar cenderung mempunyai sepuluh ciri-ciri; ada yang baik untuk penyelidikan sosial dan ada yang buruk.

Jika penyelidik akan belajar dari data yang besar bahawa mereka tidak membuat atau mengumpul, maka mereka mesti memahami ciri-ciri amnya. Daripada mengambil platform dengan platform pendekatan (contohnya, di sini adalah apa yang anda perlu tahu tentang Twitter, di sini adalah apa yang anda perlu tahu tentang data carian Google, dan lain-lain), saya akan menerangkan sepuluh ciri-ciri umum data yang besar, ciri-ciri yang timbul kerana data tidak dicipta untuk tujuan penyelidikan sosial. Dengan melangkah kembali dari butir-butir setiap sistem tertentu dan melihat sifat-sifat umum, penyelidik boleh belajar lebih lanjut mengenai sumber data yang sedia ada dan mempunyai satu set firma idea untuk memohon kepada sumber data masa depan.

Saya mendapati ia berguna untuk kumpulan ciri-ciri kepada dua kategori:

  • umumnya baik untuk penyelidikan: besar, sentiasa ke, bukan reaktif
  • umumnya tidak baik untuk penyelidikan: tidak lengkap, tidak boleh diakses, bukan wakil-, hanyut, algorithmically membingungkan, tidak boleh diakses, kotor, dan sensitif

Secara umum, rekod pentadbiran kerajaan kurang bukan wakil, kurang algorithmically fikirannya kepada kesesatan, kurang hanyut. Sebaliknya, rekod pentadbiran perniagaan cenderung untuk menjadi lebih besar dan lebih sentiasa hidup.