2.3.2.4 Drifting

Trôi dạt Dân số, trôi dạt sử dụng, và hệ thống trôi làm cho nó khó sử dụng nguồn dữ liệu lớn để nghiên cứu các xu hướng dài hạn.

Một trong những lợi thế lớn của nhiều nguồn dữ liệu lớn được rằng họ thu thập dữ liệu theo thời gian. các nhà khoa học xã hội gọi loại này trên dữ liệu thời gian, dữ liệu theo chiều dọc. Và, một cách tự nhiên, dữ liệu theo chiều dọc là rất quan trọng để nghiên cứu sự thay đổi. Để chắc chắn đo sự thay đổi, tuy nhiên, các hệ thống đo lường chính nó phải được ổn định. Theo lời của nhà xã hội học Otis Dudley Duncan, "nếu bạn muốn đo lường sự thay đổi, không thay đổi các biện pháp" (Fischer 2011) .

Thật không may, nhiều hệ thống, đặc biệt là dữ liệu lớn hệ thống kinh doanh để tạo ra và nắm bắt kỹ thuật số dấu vết-đang thay đổi tất cả các thời gian, một quá trình mà tôi sẽ gọi drift. Đặc biệt, các hệ thống này thay đổi theo ba cách chính: trôi dân (thay đổi trong những người đang sử dụng chúng), trôi dạt về hành vi (thay đổi ở những người đang sử dụng chúng như thế nào), và hệ thống trôi (thay đổi trong hệ thống chính nó). Ba nguồn trôi dạt có nghĩa là bất kỳ mô hình trong dữ liệu dấu vết kỹ thuật số có thể được gây ra bởi một sự thay đổi quan trọng trên thế giới, hoặc nó có thể được gây ra bởi một số hình thức trôi.

Các nguồn đầu tiên trôi dạt-dân trôi dạt-được ai đang sử dụng hệ thống, và điều này thay đổi về quy mô thời gian dài và quy mô trong thời gian ngắn. Ví dụ, từ năm 2008 đến nay độ tuổi trung bình của người dân trên phương tiện truyền thông xã hội đã tăng lên. Ngoài những xu hướng dài hạn, những người sử dụng một hệ thống bất cứ lúc nào thay đổi. Ví dụ, trong cuộc bầu cử Tổng thống Mỹ năm 2012 tỷ lệ tweets về chính trị đã được viết bởi phụ nữ dao động từ ngày này sang ngày (Diaz et al. 2016) . Vì vậy, những gì có thể xuất hiện được một sự thay đổi trong tâm trạng của Twitter-verse có thể thực sự chỉ là những thay đổi về người được nói bất cứ lúc nào.

Ngoài những thay đổi về người đang sử dụng một hệ thống, cũng có những thay đổi trong cách thức hệ thống được sử dụng. Ví dụ, trong các cuộc biểu tình Chiếm Gezi Park ở Istanbul, Thổ Nhĩ Kỳ vào năm 2013 người biểu tình đã thay đổi việc sử dụng hashtags việc phản đối phát triển. Dưới đây là cách Zeynep Tufekci (2014) mô tả trôi, mà cô đã có thể phát hiện vì cô đang quan sát hành vi trên Twitter và trên mặt đất:

"Chuyện gì đã xảy ra là ngay sau khi các cuộc biểu tình đã trở thành những câu chuyện chi phối, số lượng lớn của người dân. . . ngừng sử dụng hashtags ngoại trừ việc chú ý đến một hiện tượng mới. . .. Trong khi các cuộc biểu tình vẫn tiếp tục, và thậm chí tăng cường, các hashtags chết xuống. Phỏng vấn cho thấy hai lý do cho việc này. Đầu tiên, một khi tất cả mọi người biết chủ đề, hashtag là cùng một lúc không cần thiết và lãng phí trên các ký tự giới hạn nền tảng Twitter. Thứ hai, hashtags được nhìn thấy chỉ là hữu ích cho việc thu hút sự chú ý đến một chủ đề cụ thể, chứ không phải để nói về nó. "

Do đó, các nhà nghiên cứu đang nghiên cứu các cuộc biểu tình bằng cách phân tích các tweet với hashtags cuộc biểu tình liên quan sẽ có một cảm giác bị bóp méo của những gì đã xảy ra do trôi dạt về hành vi này. Ví dụ, họ có thể tin rằng các cuộc thảo luận về các cuộc biểu tình giảm lâu trước khi nó thực sự giảm.

Các loại thứ ba trôi dạt là hệ thống drift. Trong trường hợp này, nó không phải là người thay đổi hoặc thay đổi hành vi của họ, nhưng bản thân hệ thống thay đổi. Ví dụ, thời gian qua, Facebook đã tăng giới hạn về độ dài của các cập nhật trạng thái. Do đó, nhiều nghiên cứu theo chiều dọc của các cập nhật trạng thái sẽ dễ bị nhiễu gây ra bởi sự thay đổi này. Hệ thống drift được liên quan chặt chẽ đến vấn đề gọi là thuật toán nhiễu mà bây giờ chúng ta quay lại.