2.1 Giới thiệu

Trong độ tuổi tương tự, thu thập dữ liệu về hành vi - những người làm những gì, và khi nào - là tốn kém, và do đó tương đối hiếm. Bây giờ, trong thời đại kỹ thuật số, hành vi của hàng tỷ người được ghi lại, lưu trữ và phân tích. Ví dụ: mỗi lần bạn nhấp vào một trang web, thực hiện cuộc gọi trên điện thoại di động của bạn hoặc thanh toán cho một số thứ bằng thẻ tín dụng của bạn, hồ sơ kỹ thuật số về hành vi của bạn được tạo và lưu trữ bởi một doanh nghiệp. Bởi vì các loại dữ liệu này là sản phẩm phụ của hành động hàng ngày của mọi người, chúng thường được gọi là dấu vết kỹ thuật số . Ngoài những dấu vết được tổ chức bởi các doanh nghiệp, chính phủ cũng có dữ liệu vô cùng phong phú về cả người và doanh nghiệp. Các bản ghi kinh doanh và chính phủ này thường được gọi là dữ liệu lớn .

Lũ lụt ngày càng tăng của dữ liệu lớn có nghĩa là chúng ta đã chuyển từ một thế giới mà dữ liệu hành vi khan hiếm đến một thế giới nơi dữ liệu hành vi phong phú. Bước đầu tiên để học từ dữ liệu lớn là nhận ra rằng nó là một phần của một loại dữ liệu rộng hơn đã được sử dụng cho nghiên cứu xã hội trong nhiều năm: dữ liệu quan sát . Nói chung, dữ liệu quan sát là bất kỳ dữ liệu nào phát sinh từ việc quan sát một hệ thống xã hội mà không can thiệp theo một cách nào đó. Một cách thô lỗ để suy nghĩ về nó là dữ liệu quan sát là mọi thứ không liên quan đến việc nói chuyện với mọi người (ví dụ, khảo sát, chủ đề của chương 3) hoặc thay đổi môi trường của mọi người (thí dụ, thí nghiệm, chủ đề của chương 4). Vì vậy, ngoài hồ sơ kinh doanh và chính phủ, dữ liệu quan sát cũng bao gồm những thứ như văn bản của các bài báo và ảnh vệ tinh.

Chương này có ba phần. Đầu tiên, trong phần 2.2, tôi mô tả các nguồn dữ liệu lớn chi tiết hơn và làm rõ sự khác biệt cơ bản giữa chúng và dữ liệu thường được sử dụng cho nghiên cứu xã hội trong quá khứ. Sau đó, trong phần 2.3, tôi mô tả mười đặc điểm chung của các nguồn dữ liệu lớn. Hiểu những đặc điểm này cho phép bạn nhanh chóng nhận ra điểm mạnh và điểm yếu của các nguồn hiện có và sẽ giúp bạn khai thác các nguồn mới sẽ có sẵn trong tương lai. Cuối cùng, trong phần 2.4, tôi mô tả ba chiến lược nghiên cứu chính mà bạn có thể sử dụng để học hỏi từ dữ liệu quan sát: đếm mọi thứ, dự báo mọi thứ và xấp xỉ một thử nghiệm.