2.3.2.6 bẩn

Nguồn dữ liệu lớn có thể được nạp với rác và thư rác.

Một số nhà nghiên cứu tin rằng nguồn dữ liệu lớn, đặc biệt là từ các nguồn trực tuyến, là hoang sơ vì chúng được thu thập tự động. Trong thực tế, những người đã làm việc với các nguồn dữ liệu lớn biết rằng họ là thường xuyên bẩn. Đó là, họ thường xuyên bao gồm các dữ liệu mà không phản ánh hoạt động thực sự quan tâm đến các nhà nghiên cứu. Nhiều nhà khoa học xã hội đã quen thuộc với quá trình làm sạch dữ liệu điều tra xã hội quy mô lớn, nhưng làm sạch nguồn dữ liệu lớn là khó khăn hơn vì hai lý do: 1) họ không được tạo ra bởi các nhà nghiên cứu cho các nhà nghiên cứu và 2) các nhà nghiên cứu thường có ít hiểu biết về cách chúng được tạo ra.

Sự nguy hiểm của bẩn dữ liệu dấu vết kỹ thuật số được minh họa bằng lại và đồng nghiệp (2010) nghiên cứu các phản ứng cảm xúc cho các cuộc tấn công của ngày 11 Tháng Chín, 2001. Các nhà nghiên cứu thường nghiên cứu các phản ứng với các sự kiện bi thảm sử dụng dữ liệu thu thập hồi cứu trên tháng hoặc thậm chí nhiều năm. Nhưng, Back và các đồng nghiệp tìm thấy một thông điệp luôn luôn-về nguồn gốc của những dấu vết-kỹ thuật số ghi lại ngày tháng, tự động ghi lại từ 85.000 Mỹ máy nhắn tin, và điều này cho phép các nhà nghiên cứu để nghiên cứu phản ứng cảm xúc trên một khoảng thời gian tốt hơn nhiều. Trở lại và các đồng nghiệp đã tạo ra một phút bởi phút thời gian cảm xúc của ngày 11 tháng 9 bằng cách mã hóa các nội dung về tình cảm của các tin nhắn pager bằng tỷ lệ phần trăm của các từ liên quan đến (1) nỗi buồn (ví dụ, khóc, đau buồn), (2) lo lắng (ví dụ, lo lắng, sợ hãi), và (3) sự tức giận (ví dụ, ghét, quan trọng). Họ phát hiện ra rằng nỗi buồn và lo lắng dao động trong suốt cả ngày mà không có một mô hình mạnh mẽ, nhưng vẫn có một sự gia tăng ấn tượng trong sự tức giận trong suốt cả ngày. Nghiên cứu này có vẻ là một minh họa tuyệt vời của sức mạnh của luôn-trên nguồn dữ liệu: sử dụng phương pháp chuẩn nó sẽ không thể nào có như vậy một thời gian có độ phân giải cao của phản ứng ngay lập tức với một sự kiện bất ngờ.

Chỉ một năm sau, tuy nhiên, Cynthia Pury (2011) xem lại dữ liệu một cách cẩn thận hơn. Cô phát hiện ra rằng một số lượng lớn các tin nhắn được cho là giận dữ đã được tạo ra bởi một máy nhắn tin duy nhất và tất cả họ đều giống hệt nhau. Đây là những gì những tin nhắn được cho là tức giận nói:

"Khởi động lại máy NT [name] trong tủ [name] tại [vị trí]: QUAN TRỌNG: [ngày tháng và thời gian]"

Các thông điệp này được dán nhãn tức giận vì họ bao gồm từ "QUAN TRỌNG", mà thường có thể chỉ ra sự tức giận nhưng không trong trường hợp này. Loại bỏ các thông điệp được tạo ra bởi máy nhắn tin này tự động duy nhất loại bỏ hoàn toàn sự gia tăng rõ ràng trong sự tức giận trong quá trình cả ngày (Hình 2.2). Nói cách khác, kết quả chính trong Back, Küfner, and Egloff (2010) là một tạo tác của một máy nhắn tin. Ví dụ này minh họa, phân tích tương đối đơn giản của dữ liệu tương đối phức tạp và lộn xộn có tiềm năng để đi sai lầm nghiêm trọng.

Hình 2.2: Xu hướng Ước giận dữ trong suốt 11 tháng 9 năm 2001 dựa trên 85.000 máy nhắn tin của Mỹ (Back, Küfner, và Egloff 2010; Pury 2011; Back, Küfner, và Egloff 2011). Nguyên, Back, Küfner, và Egloff (2010) báo cáo một mô hình tăng sự tức giận trong suốt cả ngày. Tuy nhiên, hầu hết các thông điệp tức giận rõ ràng được tạo ra bởi một máy nhắn tin duy nhất mà nhiều lần gửi thông báo sau: Khởi động lại máy NT [name] trong tủ [name] tại [vị trí]: QUAN TRỌNG: [ngày tháng và thời gian]. Với thông điệp này loại bỏ, sự gia tăng rõ ràng trong sự tức giận biến mất (Pury 2011; Back, Küfner, và Egloff 2011). Con số này là một bản tái tạo của hình 1B Pury (2011).

Hình 2.2: Xu hướng Ước giận dữ trong suốt 11 tháng 9 năm 2001 dựa trên 85.000 máy nhắn tin của Mỹ (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Ban đầu, Back, Küfner, and Egloff (2010) báo cáo một mô hình tăng sự tức giận trong suốt cả ngày. Tuy nhiên, hầu hết các thông điệp tức giận rõ ràng được tạo ra bởi một máy nhắn tin duy nhất mà nhiều lần gửi ra thông điệp sau: "Khởi động lại máy NT [name] trong tủ [name] tại [vị trí]: QUAN TRỌNG: [ngày tháng và thời gian]". Với thông điệp này loại bỏ, sự gia tăng rõ ràng trong sự tức giận biến mất (Pury 2011; Back, Küfner, and Egloff 2011) . Con số này là một bản tái tạo của hình 1B Pury (2011) .

Trong khi dữ liệu bẩn được tạo ra vô ý, chẳng hạn như từ một ồn ào pager-có thể được phát hiện bởi một nhà nghiên cứu lý cẩn thận, cũng có một số hệ thống trực tuyến để thu hút các spammer cố ý. Những kẻ gửi thư rác tích cực tạo dữ liệu giả, và thường xuyên thúc đẩy bởi lợi nhuận làm việc rất chăm chỉ để giữ gửi thư rác của họ che dấu. Ví dụ, hoạt động chính trị trên Twitter có vẻ bao gồm ít nhất một số thư rác tương đối hoàn chỉnh, theo đó một số nguyên nhân chính trị đang cố tình làm cho giống phổ biến hơn so với thực tế là (Ratkiewicz et al. 2011) . Các nhà nghiên cứu làm việc với các dữ liệu có thể chứa thư rác cố ý đối mặt với những thách thức trong việc thuyết phục khán giả rằng họ đã phát hiện và loại bỏ thư rác liên quan.

Cuối cùng, những gì được coi là dữ liệu bẩn có thể phụ thuộc vào cách tinh tế về các vấn đề nghiên cứu của bạn. Ví dụ, nhiều chỉnh sửa Wikipedia được tạo ra bởi chương trình tự động (Geiger 2014) . Nếu bạn quan tâm đến hệ sinh thái của Wikipedia, thì những chương trình quan trọng. Nhưng, nếu bạn quan tâm đến cách con người đóng góp cho Wikipedia, nhưng những chỉnh sửa được thực hiện bởi các chương trình cần được loại trừ.

Những cách tốt nhất để tránh bị lừa bởi dữ liệu bẩn là để hiểu làm thế nào dữ liệu của bạn được tạo ra để thực hiện phân tích thăm dò đơn giản, chẳng hạn như làm điểm phân tán đơn giản.