2.3 Mười đặc điểm chung của dữ liệu lớn

Các nguồn dữ liệu lớn có xu hướng có một số đặc điểm chung; một số nói chung là tốt cho nghiên cứu xã hội và một số nói chung là xấu.

Mặc dù mỗi nguồn dữ liệu lớn là khác biệt, nhưng rất hữu ích khi nhận thấy rằng có những đặc điểm nhất định có xu hướng xảy ra lặp đi lặp lại. Do đó, thay vì dùng cách tiếp cận từng nền tảng (ví dụ, đây là những gì bạn cần biết về Twitter, đây là những gì bạn cần biết về dữ liệu tìm kiếm của Google, v.v.), tôi sẽ mô tả mười đặc điểm chung của nguồn dữ liệu. Bước trở lại từ các chi tiết của từng hệ thống cụ thể và xem xét các đặc điểm chung này cho phép các nhà nghiên cứu nhanh chóng tìm hiểu về các nguồn dữ liệu hiện có và có một bộ ý tưởng vững chắc để áp dụng cho các nguồn dữ liệu sẽ được tạo trong tương lai.

Mặc dù các đặc tính mong muốn của nguồn dữ liệu phụ thuộc vào mục tiêu nghiên cứu, tôi thấy hữu ích khi nhóm mười đặc tính thành hai loại rộng:

  • nói chung hữu ích cho nghiên cứu: lớn, luôn luôn và không phản ứng
  • nói chung có vấn đề đối với nghiên cứu: không đầy đủ, không thể tiếp cận, không đại diện, trôi dạt, bị nhầm lẫn về mặt thuật toán, bẩn thỉu và nhạy cảm

Khi tôi mô tả những đặc điểm này, bạn sẽ nhận thấy rằng chúng thường xuất hiện vì các nguồn dữ liệu lớn không được tạo ra cho mục đích nghiên cứu.