2.3.2 Luôn bật

Luôn luôn-trên dữ liệu lớn cho phép nghiên cứu các sự kiện bất ngờ và đo lường thời gian thực.

Nhiều hệ thống dữ liệu lớn luôn-on; họ đang liên tục thu thập dữ liệu. đặc trưng luôn-on này cung cấp các nhà nghiên cứu với dữ liệu theo chiều dọc (ví dụ, dữ liệu theo thời gian). Luôn luôn-on có hai ý nghĩa quan trọng cho việc nghiên cứu.

Thứ nhất, thu thập dữ liệu luôn bật cho phép các nhà nghiên cứu nghiên cứu các sự kiện bất ngờ theo những cách không thể thực hiện được. Ví dụ, các nhà nghiên cứu quan tâm đến việc nghiên cứu các cuộc biểu tình Chiếm Gezi ở Thổ Nhĩ Kỳ vào mùa hè năm 2013 thường sẽ tập trung vào hành vi của những người biểu tình trong sự kiện này. Ceren Budak và Duncan Watts (2015) đã có thể làm được nhiều hơn bằng cách sử dụng tính chất luôn bật của Twitter để nghiên cứu những người biểu tình đã sử dụng Twitter trước, trong và sau sự kiện. Và, họ đã có thể tạo ra một nhóm so sánh những người không tham gia trước, trong và sau sự kiện (hình 2.2). Tổng cộng, bảng điều khiển cũ của họ bao gồm các tweet của 30.000 người trong hai năm. Bằng cách tăng cường dữ liệu thường được sử dụng từ các cuộc biểu tình với thông tin khác này, Budak và Watts đã có thể tìm hiểu nhiều hơn: họ có thể ước tính những loại người nào có nhiều khả năng tham gia vào các cuộc biểu tình của Gezi và ước tính những thay đổi về thái độ của những người tham gia và không tham gia, cả trong ngắn hạn (so sánh trước Gezi với Gezi) và trong dài hạn (so sánh trước Gezi với bài Gezi).

Hình 2.2: Thiết kế được Budak và Watts sử dụng (2015) để nghiên cứu các cuộc biểu tình Chiếm Gezi ở Thổ Nhĩ Kỳ vào mùa hè năm 2013. Bằng cách sử dụng tính chất luôn bật của Twitter, các nhà nghiên cứu đã tạo ra cái mà họ gọi là bảng điều khiển cũ 30.000 người trong hai năm. Trái ngược với một nghiên cứu điển hình tập trung vào những người tham gia trong các cuộc biểu tình, bảng điều khiển cũ thêm 1) dữ liệu từ những người tham gia trước và sau sự kiện và 2) dữ liệu từ những người không tham gia trước, trong và sau sự kiện. Cấu trúc dữ liệu phong phú này cho phép Budak và Watts ước tính những loại người nào có nhiều khả năng tham gia vào cuộc biểu tình của Gezi và ước tính những thay đổi về thái độ của người tham gia và không tham gia, cả trong ngắn hạn (so sánh trước Gezi với Gezi ) và trong dài hạn (so sánh trước Gezi với bài Gezi).

Hình 2.2: Thiết kế được Budak and Watts (2015) sử dụng Budak and Watts (2015) để nghiên cứu các cuộc biểu tình Chiếm Gezi ở Thổ Nhĩ Kỳ vào mùa hè năm 2013. Bằng cách sử dụng tính chất luôn bật của Twitter, các nhà nghiên cứu đã tạo ra cái mà họ gọi là bảng điều khiển cũ 30.000 người trong hai năm. Trái ngược với một nghiên cứu điển hình tập trung vào những người tham gia trong các cuộc biểu tình, bảng điều khiển cũ thêm 1) dữ liệu từ những người tham gia trước và sau sự kiện và 2) dữ liệu từ những người không tham gia trước, trong và sau sự kiện. Cấu trúc dữ liệu phong phú này cho phép Budak và Watts ước tính những loại người nào có nhiều khả năng tham gia vào cuộc biểu tình của Gezi và ước tính những thay đổi về thái độ của người tham gia và không tham gia, cả trong ngắn hạn (so sánh trước Gezi với Gezi ) và trong dài hạn (so sánh trước Gezi với bài Gezi).

Một người hoài nghi có thể chỉ ra rằng một số ước lượng này có thể được tạo ra mà không có nguồn thu thập dữ liệu (ví dụ, ước tính dài hạn về thay đổi thái độ), và điều đó là chính xác, mặc dù thu thập dữ liệu cho 30.000 người sẽ khá đắt. Ngay cả với ngân sách không hạn chế, tuy nhiên, tôi không thể nghĩ ra bất kỳ phương pháp nào khác về cơ bản cho phép các nhà nghiên cứu quay ngược thời gian và trực tiếp quan sát hành vi của người tham gia trong quá khứ. Cách thay thế gần nhất sẽ là thu thập các báo cáo hồi tố về hành vi, nhưng các báo cáo này sẽ có độ chi tiết giới hạn và độ chính xác đáng ngờ. Bảng 2.1 cung cấp các ví dụ khác về các nghiên cứu sử dụng nguồn dữ liệu luôn bật để nghiên cứu một sự kiện bất ngờ.

Bảng 2.1: Nghiên cứu các sự kiện bất ngờ sử dụng các nguồn dữ liệu lớn luôn luôn.
Sự kiện bất ngờ Nguồn dữ liệu luôn bật Trích dẫn
Chiếm phong trào Gezi ở Thổ Nhĩ Kỳ Twitter Budak and Watts (2015)
Cuộc biểu tình của Umbrella ở Hồng Kông Weibo Zhang (2016)
Vụ nổ cảnh sát ở thành phố New York Báo cáo dừng và đánh dấu Legewie (2016)
Người tham gia ISIS Twitter Magdy, Darwish, and Weber (2016)
Cuộc tấn công ngày 11 tháng 9 năm 2001 livejournal.com Cohn, Mehl, and Pennebaker (2004)
Cuộc tấn công ngày 11 tháng 9 năm 2001 tin nhắn máy nhắn tin Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Ngoài việc nghiên cứu các sự kiện bất ngờ, các hệ thống dữ liệu lớn luôn cho phép các nhà nghiên cứu đưa ra các ước tính thời gian thực, có thể quan trọng trong các thiết lập mà các nhà hoạch định chính sách - trong chính phủ hoặc ngành công nghiệp - muốn trả lời dựa trên nhận thức tình huống. Ví dụ, dữ liệu truyền thông xã hội có thể được sử dụng để hướng dẫn ứng phó khẩn cấp với thiên tai (Castillo 2016) và nhiều nguồn dữ liệu lớn khác nhau có thể được sử dụng để ước tính thời gian thực của hoạt động kinh tế (Choi and Varian 2012) .

Tóm lại, các hệ thống dữ liệu luôn bật cho phép các nhà nghiên cứu nghiên cứu các sự kiện bất ngờ và cung cấp thông tin thời gian thực cho các nhà hoạch định chính sách. Tuy nhiên, tôi không nghĩ rằng các hệ thống dữ liệu luôn luôn phù hợp để theo dõi các thay đổi trong một khoảng thời gian rất dài. Đó là bởi vì nhiều hệ thống dữ liệu lớn đang thay đổi liên tục - một quá trình mà tôi sẽ gọi trôi dạt sau trong chương (phần 2.3.7).