2.3 đặc điểm thường gặp của dữ liệu lớn

Nguồn dữ liệu lớn có xu hướng có mười đặc; một số là tốt cho nghiên cứu xã hội và một số là xấu.

Nếu các nhà nghiên cứu sẽ tìm hiểu từ dữ liệu lớn mà họ không tạo ra hoặc thu thập, sau đó họ phải hiểu đặc điểm chung của nó. Thay vì tham gia một nền tảng của phương pháp tiếp cận nền tảng (ví dụ, đây là những gì bạn cần biết về Twitter, đây là những gì bạn cần biết về dữ liệu tìm kiếm của Google, vv), tôi sẽ mô tả mười đặc tính chung của dữ liệu lớn, đặc điểm phát sinh vì dữ liệu không được tạo ra với mục đích nghiên cứu xã hội. Bằng cách lùi lại từ các chi tiết của từng hệ thống riêng và nhìn vào những thuộc tính chung, các nhà nghiên cứu có thể nhanh chóng tìm hiểu thêm về nguồn dữ liệu hiện có và có một bộ vững chắc của những ý tưởng để áp dụng cho các nguồn dữ liệu tương lai.

Tôi tìm thấy nó hữu ích cho nhóm đặc thành hai loại:

  • nói chung là tốt cho nghiên cứu: lớn, luôn luôn-on, không phản ứng
  • nói chung là xấu để nghiên cứu: không đầy đủ, không thể tiếp cận, không đại diện, trôi, thuật toán xấu hổ, không thể tiếp cận, dơ bẩn, và nhạy cảm

Nói chung, hồ sơ hành chính của chính phủ ít không đại diện, ít thuật toán xấu hổ, và ít trôi. Mặt khác, hồ sơ hành chính kinh doanh có xu hướng lớn hơn và nhiều hơn nữa luôn-on.