2.3.2.2 không thể tiếp cận

Dữ liệu của các doanh nghiệp và chính phủ là khó khăn đối với các nhà nghiên cứu để truy cập.

Trong tháng 5 năm 2014, Chương trình An ninh Quốc gia Mỹ đã mở một trung tâm dữ liệu ở vùng nông thôn Utah có tên vụng về, Quốc An ninh Mạng Sáng kiến ​​Trung tâm dữ liệu tình báo cộng đồng toàn diện. Tuy nhiên, điều này có trung tâm dữ liệu, đã được biết đến như là trung tâm dữ liệu Utah, được báo cáo là có khả năng đáng kinh ngạc. Một báo cáo cho biết rằng các trung tâm dữ liệu Utah có thể lưu trữ và xử lý tất cả các hình thức truyền thông trong đó có "nội dung hoàn toàn của email cá nhân, các cuộc gọi điện thoại di động, và các tìm kiếm Google, cũng như tất cả các loại dữ liệu cá nhân thu đường đậu xe, hành trình du lịch mua sách, và kỹ thuật số 'túi rác khác " (Bamford 2012) . Ngoài những mối quan tâm nâng cao về tính chất nhạy cảm của nhiều thông tin bị bắt trong dữ liệu lớn, sẽ được mô tả dưới đây hơn, các Trung tâm dữ liệu Utah là một ví dụ cực của một nguồn dữ liệu phong phú đó là không thể tiếp cận với các nhà nghiên cứu. Tổng quát hơn, nhiều nguồn dữ liệu lớn mà sẽ có ích cho các nhà nghiên cứu được kiểm soát và hạn chế của chính phủ (ví dụ, số liệu thuế và dữ liệu giáo dục) và các công ty (ví dụ, truy vấn đến cơ và gọi điện thoại siêu dữ liệu tìm kiếm). Do đó, những dữ liệu này sẽ không được sử dụng ngay lập tức để các nhà nghiên cứu tại các trường đại học, và hầu hết thậm chí sẽ không có sẵn cho các nhà nghiên cứu trong các chính phủ hoặc công ty.

Theo kinh nghiệm của tôi, nhiều nhà nghiên cứu có trụ sở tại các trường đại học hiểu sai nguồn gốc của bất khả tiếp cận này. Những dữ liệu này không phải là không thể tiếp cận bởi vì mọi người ở công ty và chính phủ là ngu ngốc, lười biếng, hoặc bất cần. Thay vào đó, có nghiêm trọng pháp luật, kỹ thuật, kinh doanh, và các rào cản đạo đức ngăn chặn truy cập dữ liệu. Ví dụ, một số điều khoản của dịch vụ thỏa thuận cho các trang web chỉ cho phép dữ liệu được sử dụng bởi các nhân viên hoặc để cải thiện dịch vụ. Vì vậy, một số hình thức chia sẻ dữ liệu có thể phơi bày các công ty đến các vụ kiện hợp pháp của khách hàng. cũng có những rủi ro kinh doanh đáng kể cho các công ty tham gia vào việc chia sẻ dữ liệu. Hãy thử tưởng tượng như thế nào công chúng sẽ phản ứng nếu dữ liệu cá nhân vô tình bị rò rỉ ra từ Google như là một phần của một dự án nghiên cứu trường đại học. vi phạm dữ liệu như vậy, nếu khắc nghiệt, thậm chí có thể là một nguy cơ hiện hữu cho công ty. Vì vậy, Google và lớn nhất công ty, rất sợ rủi ro về việc chia sẻ dữ liệu với các nhà nghiên cứu.

Trong thực tế, hầu như tất cả những người đang ở trong một vị trí để cung cấp truy cập đến một lượng lớn dữ liệu biết những câu chuyện của Abdur Chowdhury. Năm 2006, khi ông là người đứng đầu nghiên cứu AOL, anh cố ý phát hành những gì ông nghĩ được ẩn danh truy vấn tìm kiếm từ 650.000 người dùng AOL để cộng đồng nghiên cứu. Theo như tôi có thể nói, Chowdhury và các nhà nghiên cứu tại AOL đã có ý định tốt và họ nghĩ rằng họ đã ẩn danh dữ liệu. Nhưng, họ đã sai lầm. Nó đã nhanh chóng phát hiện ra rằng các dữ liệu không được như vô danh như các nhà nghiên cứu nghĩ, và các phóng viên của tờ New York Times đã có thể xác định người trong tập dữ liệu một cách dễ dàng (Barbaro and Zeller Jr 2006) . Một khi những vấn đề này đã được phát hiện, Chowdhury loại bỏ các dữ liệu từ trang web của AOL, nhưng đã quá muộn. Các dữ liệu đã được đăng lại trên các trang web khác, và nó có thể sẽ vẫn có sẵn khi bạn đang đọc cuốn sách này. Bởi vì các nỗ lực của mình để chia sẻ dữ liệu với cộng đồng nghiên cứu, Chowdhury đã bị sa thải, và giám đốc công nghệ của AOL từ chức (Hafner 2006) . Ví dụ này cho thấy, những lợi ích cho các cá nhân cụ thể bên trong của công ty để tạo điều kiện truy cập dữ liệu là khá nhỏ và các trường hợp xấu nhất là khủng khiếp.

Nghiên cứu có thể, tuy nhiên, đạt được quyền truy cập vào dữ liệu đó là không thể tiếp cận với công chúng nói chung. Các chính phủ có thủ tục mà các nhà nghiên cứu có thể làm theo để áp dụng cho việc truy cập, và như các ví dụ sau trong chương trình này, các nhà nghiên cứu đôi khi có thể được truy cập vào dữ liệu của công ty. Ví dụ, Einav et al. (2015) hợp tác với một nhà nghiên cứu tại eBay để nghiên cứu các dấu vết kỹ thuật số từ đấu giá trực tuyến. Tôi sẽ nói thêm về nghiên cứu đến từ sự hợp tác này sau đó trong chương (mục 2.4.3.2), nhưng tôi đề cập đến nó bây giờ bởi vì nó có tất cả bốn thành phần mà tôi nhìn thấy trong quan hệ đối tác thành công: quan tâm nghiên cứu, khả năng nghiên cứu, quan tâm công ty, và khả năng của công ty. Nói cách khác, Einav và các đồng nghiệp đã quan tâm và có khả năng nghiên cứu đấu giá trực tuyến. Và, eBay cũng được. Tuy nhiên, tôi đã nhìn thấy rất nhiều hợp tác có thể thất bại vì một trong hai nhà nghiên cứu hoặc công ty thiếu một trong các thành phần này.

Thậm chí nếu bạn có thể phát triển quan hệ đối tác với một doanh nghiệp, tuy nhiên, có một số nhược điểm cho bạn. Đầu tiên, những câu hỏi mà bạn có thể yêu cầu với các dữ liệu có thể được hạn chế; công ty không có khả năng cho phép nghiên cứu có thể làm cho họ trông xấu. Thứ hai, bạn có thể sẽ không có khả năng chia sẻ dữ liệu với các nhà nghiên cứu khác, có nghĩa là các nhà nghiên cứu khác sẽ không thể xác minh và mở rộng kết quả của bạn. Hơn nữa, các quan hệ đối tác có thể tạo ra ít nhất là sự xuất hiện của một cuộc xung đột về lợi ích, nơi mọi người có thể nghĩ rằng kết quả của bạn bị ảnh hưởng bởi quan hệ đối tác của bạn. Tất cả những nhược điểm có thể được giải quyết, nhưng điều quan trọng là phải làm rõ rằng làm việc với dữ liệu không thể truy cập vào tất cả mọi người đã có cả hai mặt tích cực và tiêu cực.

Tóm lại, rất nhiều dữ liệu lớn là không thể tiếp cận với các nhà nghiên cứu. Có nghiêm trọng pháp luật, kỹ thuật, kinh doanh, và các rào cản đạo đức ngăn chặn truy cập dữ liệu, và những rào cản này sẽ không đi xa. Chính phủ các nước nói chung đã lập thủ tục cho phép truy cập dữ liệu, nhưng quá trình này có thể có nhiều quảng cáo hoc ở cấp tiểu bang và địa phương. Ngoài ra, trong một số trường hợp, các nhà nghiên cứu có thể hợp tác với các công ty để có được quyền truy cập dữ liệu, nhưng điều này có thể tạo ra một loạt các vấn đề đối với các nhà nghiên cứu.