2.3.8 nhầm lẫn về mặt thuật toán

Hành vi trong các hệ thống dữ liệu lớn không phải là tự nhiên; nó được thúc đẩy bởi các mục tiêu kỹ thuật của các hệ thống.

Mặc dù nhiều nguồn dữ liệu lớn không mang tính phi lý bởi vì mọi người không nhận thức được dữ liệu của họ đang được ghi lại (phần 2.3.3), các nhà nghiên cứu không nên xem xét hành vi trong các hệ thống trực tuyến này là “tự nhiên xảy ra”. được thiết kế cao để tạo ra các hành vi cụ thể như nhấp vào quảng cáo hoặc đăng nội dung. Cách thức mà mục tiêu của các nhà thiết kế hệ thống có thể đưa các mẫu vào dữ liệu được gọi là thuật toán gây nhiễu . Sự nhầm lẫn về thuật toán là tương đối không rõ đối với các nhà khoa học xã hội, nhưng nó là mối quan tâm chính giữa các nhà khoa học dữ liệu cẩn thận. Và, không giống như một số vấn đề khác với dấu vết kỹ thuật số, nhiễu thuật toán phần lớn là vô hình.

Một ví dụ tương đối đơn giản về việc gây nhiễu thuật toán là một thực tế rằng trên Facebook có số lượng người dùng bất thường cao với khoảng 20 người bạn, như được phát hiện bởi Johan Ugander và các đồng nghiệp (2011) . Các nhà khoa học phân tích dữ liệu này mà không có bất kỳ sự hiểu biết về cách thức hoạt động của Facebook có thể nghi ngờ tạo ra nhiều câu chuyện về cách 20 là một số loại số xã hội kỳ diệu. May mắn thay, Ugander và cộng sự đã hiểu rõ quá trình tạo ra dữ liệu, và họ biết rằng Facebook khuyến khích mọi người có ít kết nối trên Facebook để có thêm bạn bè cho đến khi họ tiếp cận được 20 người bạn. Mặc dù Ugander và các đồng nghiệp không nói điều này trong bài báo của họ, chính sách này có lẽ được tạo ra bởi Facebook để khuyến khích người dùng mới trở nên tích cực hơn. Tuy nhiên, nếu không biết về sự tồn tại của chính sách này, sẽ dễ dàng rút ra kết luận sai từ dữ liệu. Nói cách khác, số lượng người đáng ngạc nhiên với khoảng 20 người bạn cho chúng ta biết nhiều hơn về Facebook hơn là hành vi của con người.

Trong ví dụ trước đây, sự nhầm lẫn thuật toán tạo ra một kết quả kỳ quặc mà một nhà nghiên cứu cẩn thận có thể phát hiện và điều tra thêm. Tuy nhiên, có một phiên bản thậm chí còn phức tạp hơn của thuật toán gây nhiễu xảy ra khi các nhà thiết kế hệ thống trực tuyến nhận thức được các lý thuyết xã hội và sau đó nướng các lý thuyết này vào hoạt động của hệ thống của họ. Các nhà khoa học xã hội gọi đây là khả năng thực hiện : khi một lý thuyết thay đổi thế giới theo cách sao cho nó mang thế giới phù hợp hơn với lý thuyết. Trong trường hợp nhiễu thuật toán thực hiện, bản chất bị nhiễu của dữ liệu rất khó phát hiện.

Một ví dụ về một mô hình được tạo ra bởi sự thực hiện là sự chuyển đổi trong các mạng xã hội trực tuyến. Trong những năm 1970 và 1980, các nhà nghiên cứu liên tục phát hiện ra rằng nếu bạn là bạn bè với cả Alice và Bob, thì Alice và Bob có nhiều khả năng trở thành bạn bè với nhau hơn là hai người được chọn ngẫu nhiên. Mô hình rất giống này đã được tìm thấy trong biểu đồ xã hội trên Facebook (Ugander et al. 2011) . Vì vậy, người ta có thể kết luận rằng các mô hình của tình bạn trên Facebook nhân rộng mô hình của tình bạn ngoại tuyến, ít nhất là về mặt transitivity. Tuy nhiên, độ lớn của độ nhạy trong biểu đồ xã hội Facebook một phần được điều khiển bởi thuật toán gây nhiễu. Đó là, các nhà khoa học dữ liệu tại Facebook biết về nghiên cứu thực nghiệm và lý thuyết về sự chuyển đổi và sau đó nướng nó vào cách Facebook hoạt động. Facebook có một tính năng “Mọi người bạn có thể biết” đề xuất những người bạn mới, và một cách mà Facebook quyết định ai sẽ đề xuất với bạn là sự chuyển đổi. Tức là, Facebook có nhiều khả năng cho rằng bạn trở thành bạn bè với bạn bè của bạn bè. Do đó, tính năng này có tác dụng tăng độ nhạy trong biểu đồ xã hội Facebook; nói cách khác, lý thuyết về sự chuyển tiếp đưa thế giới vào với những dự đoán của lý thuyết (Zignani et al. 2014; Healy 2015) . Do đó, khi các nguồn dữ liệu lớn xuất hiện để tái tạo các dự đoán của lý thuyết xã hội, chúng ta phải chắc chắn rằng chính lý thuyết không được đưa vào hệ thống hoạt động như thế nào.

Thay vì nghĩ đến các nguồn dữ liệu lớn như quan sát mọi người trong môi trường tự nhiên, một phép ẩn dụ thích hợp hơn là quan sát mọi người trong một sòng bạc. Sòng bạc là môi trường được thiết kế cao được thiết kế để tạo ra những hành vi nhất định, và một nhà nghiên cứu sẽ không bao giờ mong đợi hành vi trong sòng bạc để cung cấp một cửa sổ không bị cản trở vào hành vi của con người. Tất nhiên, bạn có thể tìm hiểu điều gì đó về hành vi của con người bằng cách nghiên cứu những người trong sòng bạc, nhưng nếu bạn bỏ qua thực tế là dữ liệu đã được tạo ra trong một sòng bạc, bạn có thể rút ra một số kết luận xấu.

Thật không may, đối phó với thuật toán nhiễu là đặc biệt khó khăn bởi vì nhiều tính năng của hệ thống trực tuyến là độc quyền, kém tài liệu, và liên tục thay đổi. Ví dụ, như tôi sẽ giải thích sau trong chương này, sự nhầm lẫn về thuật toán là một giải thích có thể cho sự phân tích dần dần của Google Xu hướng dịch cúm (phần 2.4.2), nhưng yêu cầu này khó đánh giá vì các hoạt động bên trong của thuật toán tìm kiếm của Google là độc quyền. Bản chất động của thuật toán nhiễu là một dạng trôi dạt hệ thống. Xung đột thuật toán có nghĩa là chúng ta nên thận trọng về bất kỳ khiếu nại nào liên quan đến hành vi của con người đến từ một hệ thống kỹ thuật số đơn lẻ, dù lớn đến mức nào.