3.6.1 Yêu cầu phong phú

Trong yêu cầu làm giàu, dữ liệu khảo sát xây dựng bối cảnh xung quanh một nguồn dữ liệu lớn có chứa một số phép đo quan trọng nhưng thiếu các số liệu khác.

Một cách để kết hợp dữ liệu khảo sát và các nguồn dữ liệu lớn là một quá trình mà tôi sẽ gọi là yêu cầu làm giàu . Trong yêu cầu làm giàu, một nguồn dữ liệu lớn chứa một số phép đo quan trọng nhưng thiếu các phép đo khác để nhà nghiên cứu thu thập các phép đo còn thiếu trong một cuộc khảo sát và sau đó liên kết hai nguồn dữ liệu với nhau. Một ví dụ về yêu cầu làm giàu là nghiên cứu của Burke and Kraut (2014) về việc liệu tương tác trên Facebook có làm tăng sức mạnh tình bạn, mà tôi đã mô tả trong phần 3.2). Trong trường hợp đó, Burke và Kraut kết hợp dữ liệu khảo sát với dữ liệu nhật ký Facebook.

Tuy nhiên, thiết lập mà Burke và Kraut đang làm việc, có nghĩa là họ không phải đối phó với hai vấn đề lớn mà các nhà nghiên cứu làm giàu thường hỏi. Đầu tiên, thực sự liên kết với nhau các tập dữ liệu cấp cá nhân, một quá trình được gọi là liên kết bản ghi , có thể khó nếu không có mã định danh duy nhất trong cả hai nguồn dữ liệu có thể được sử dụng để đảm bảo rằng bản ghi chính xác trong một tập dữ liệu được khớp với bản ghi chính xác trong tập dữ liệu khác. Vấn đề chính thứ hai với yêu cầu làm giàu là chất lượng của nguồn dữ liệu lớn thường sẽ khó cho các nhà nghiên cứu đánh giá bởi vì quá trình mà dữ liệu được tạo ra có thể là độc quyền và có thể dễ bị nhiều vấn đề được mô tả trong chương 2. Nói cách khác, yêu cầu làm giàu sẽ thường xuyên liên quan đến việc liên kết các cuộc điều tra dễ bị lỗi với các nguồn dữ liệu hộp đen có chất lượng không xác định. Mặc dù có những vấn đề này, tuy nhiên, yêu cầu làm giàu có thể được sử dụng để tiến hành nghiên cứu quan trọng, như đã được chứng minh bởi Stephen Ansolabehere và Eitan Hersh (2012) trong nghiên cứu của họ về các mẫu biểu quyết tại Hoa Kỳ.

Cử tri cử tri đã là chủ đề của nghiên cứu sâu rộng trong khoa học chính trị, và, trong quá khứ, sự hiểu biết của các nhà nghiên cứu về phiếu bầu và tại sao nói chung được dựa trên phân tích dữ liệu khảo sát. Bỏ phiếu tại Hoa Kỳ, tuy nhiên, là một hành vi bất thường trong đó chính phủ ghi lại cho dù mỗi công dân đã bỏ phiếu (tất nhiên, chính phủ không ghi lại những người mỗi phiếu công dân cho). Trong nhiều năm, các hồ sơ bỏ phiếu của chính phủ đã có sẵn trên các mẫu giấy, nằm rải rác ở nhiều văn phòng chính quyền địa phương trên khắp đất nước. Điều này khiến các nhà khoa học chính trị gặp khó khăn, nhưng không thể, để có một bức tranh hoàn chỉnh về cử tri và so sánh những gì mọi người nói trong các cuộc điều tra về bỏ phiếu với hành vi bỏ phiếu thực tế của họ (Ansolabehere and Hersh 2012) .

Nhưng những hồ sơ bỏ phiếu này đã được số hoá và một số công ty tư nhân đã thu thập và sáp nhập một cách hệ thống để tạo ra các tệp biểu quyết tổng thể có chứa hành vi bỏ phiếu của tất cả người Mỹ. Ansolabehere và Hersh đã hợp tác với một trong những công ty này — Catalist LCC — để sử dụng tệp biểu quyết chính của họ để giúp phát triển một bức tranh tốt hơn về cử tri. Hơn nữa, vì nghiên cứu của họ dựa trên các hồ sơ kỹ thuật số được thu thập và giám tuyển bởi một công ty đã đầu tư nguồn lực đáng kể vào thu thập và hài hòa dữ liệu, nó cung cấp một số lợi thế so với những nỗ lực trước đó đã được thực hiện mà không cần sự trợ giúp của các công ty và bằng cách sử dụng hồ sơ tương tự.

Giống như nhiều nguồn dữ liệu lớn trong chương 2, tệp chủ Catalist không bao gồm nhiều thông tin về nhân khẩu học, thái độ và hành vi mà Ansolabehere và Hersh cần. Trên thực tế, họ đặc biệt quan tâm đến việc so sánh hành vi bỏ phiếu được báo cáo trong các cuộc điều tra với hành vi bỏ phiếu đã được xác thực (ví dụ, thông tin trong cơ sở dữ liệu Catalist). Vì vậy Ansolabehere và Hersh thu thập dữ liệu mà họ muốn như một cuộc khảo sát xã hội lớn, CCES, đã đề cập trước đó trong chương này. Sau đó, họ đưa dữ liệu của họ cho Catalist, và Catalist cung cấp cho họ một tệp dữ liệu đã hợp nhất bao gồm hành vi bỏ phiếu được xác thực (từ Catalist), hành vi bỏ phiếu tự báo cáo (từ CCES) và nhân khẩu học và thái độ của người trả lời (từ CCES) 3.13). Nói cách khác, Ansolabehere và Hersh kết hợp dữ liệu hồ sơ biểu quyết với dữ liệu khảo sát để nghiên cứu không thể thực hiện được với nguồn dữ liệu riêng lẻ.

Hình 3.13: Sơ đồ nghiên cứu của Ansolabehere và Hersh (2012). Để tạo datafile chính, Catalist kết hợp và hài hòa thông tin từ nhiều nguồn khác nhau. Quá trình sáp nhập này, bất kể việc cẩn thận, sẽ lan truyền sai sót trong các nguồn dữ liệu gốc và sẽ giới thiệu các lỗi mới. Một nguồn lỗi thứ hai là liên kết bản ghi giữa dữ liệu khảo sát và datafile chính. Nếu mọi người đều có một số nhận dạng duy nhất, ổn định trong cả hai nguồn dữ liệu thì mối liên kết sẽ không đáng kể. Nhưng, Catalist phải làm mối liên kết bằng cách sử dụng các định danh không hoàn hảo, trong trường hợp này tên, giới tính, năm sinh và địa chỉ nhà. Thật không may, trong nhiều trường hợp có thể có thông tin không đầy đủ hoặc không chính xác; một cử tri có tên Homer Simpson có thể xuất hiện như Homer Jay Simpson, Homie J Simpson, hoặc thậm chí Homer Sampsin. Mặc dù có khả năng xảy ra lỗi trong datafile chủ Catalist và các lỗi trong liên kết bản ghi, Ansolabehere và Hersh đã có thể xây dựng niềm tin vào ước tính của họ thông qua một số loại kiểm tra khác nhau.

Hình 3.13: Sơ đồ nghiên cứu của Ansolabehere and Hersh (2012) . Để tạo datafile chính, Catalist kết hợp và hài hòa thông tin từ nhiều nguồn khác nhau. Quá trình sáp nhập này, bất kể việc cẩn thận, sẽ lan truyền sai sót trong các nguồn dữ liệu gốc và sẽ giới thiệu các lỗi mới. Một nguồn lỗi thứ hai là liên kết bản ghi giữa dữ liệu khảo sát và datafile chính. Nếu mọi người đều có một số nhận dạng duy nhất, ổn định trong cả hai nguồn dữ liệu thì mối liên kết sẽ không đáng kể. Nhưng, Catalist phải làm mối liên kết bằng cách sử dụng các định danh không hoàn hảo, trong trường hợp này tên, giới tính, năm sinh và địa chỉ nhà. Thật không may, trong nhiều trường hợp có thể có thông tin không đầy đủ hoặc không chính xác; một cử tri có tên Homer Simpson có thể xuất hiện như Homer Jay Simpson, Homie J Simpson, hoặc thậm chí Homer Sampsin. Mặc dù có khả năng xảy ra lỗi trong datafile chủ Catalist và các lỗi trong liên kết bản ghi, Ansolabehere và Hersh đã có thể xây dựng niềm tin vào ước tính của họ thông qua một số loại kiểm tra khác nhau.

Với tập tin dữ liệu kết hợp của họ, Ansolabehere và Hersh đã đưa ra ba kết luận quan trọng. Đầu tiên, việc báo cáo quá nhiều quyền biểu quyết lan tràn: gần một nửa số người bỏ phiếu đã báo cáo bỏ phiếu và nếu có ai đó báo cáo bỏ phiếu, thì chỉ có 80% cơ hội họ thực sự bỏ phiếu. Thứ hai, báo cáo quá mức không phải là ngẫu nhiên: việc báo cáo quá mức phổ biến hơn ở những người có thu nhập cao, được giáo dục tốt, những người tham gia vào các vấn đề công cộng. Nói cách khác, những người có nhiều khả năng bỏ phiếu cũng có nhiều khả năng nói dối về việc bỏ phiếu. Thứ ba, và nghiêm túc nhất, vì tính chất hệ thống của việc báo cáo quá mức, sự khác biệt thực sự giữa các cử tri và các cử tri không nhỏ hơn chúng chỉ xuất hiện từ các cuộc điều tra. Ví dụ, những người có bằng cử nhân có khả năng báo cáo bầu cử cao hơn khoảng 22 điểm phần trăm, nhưng chỉ có 10 điểm phần trăm nhiều khả năng thực sự bỏ phiếu hơn. Hóa ra, có lẽ không ngạc nhiên khi các lý thuyết bỏ phiếu dựa trên nguồn tài nguyên hiện tại tốt hơn nhiều khi dự đoán ai sẽ báo cáo bầu cử (đó là dữ liệu mà các nhà nghiên cứu đã sử dụng trước đây) so với dự đoán ai thực sự bỏ phiếu. Do đó, kết quả thực nghiệm của Ansolabehere and Hersh (2012) kêu gọi các lý thuyết mới để hiểu và dự đoán bỏ phiếu.

Nhưng chúng ta nên tin tưởng bao nhiêu vào những kết quả này? Hãy nhớ rằng, những kết quả này phụ thuộc vào lỗi dễ bị liên kết với dữ liệu hộp đen với số lượng lỗi không xác định. Cụ thể hơn, kết quả dựa trên hai bước chính: (1) khả năng của Catalist kết hợp nhiều nguồn dữ liệu khác nhau để tạo ra một datafile chính xác và (2) khả năng của Catalist liên kết dữ liệu khảo sát với datafile chủ của nó. Mỗi bước này là khó khăn, và sai sót trong cả hai bước có thể dẫn các nhà nghiên cứu đến những kết luận sai lầm. Tuy nhiên, việc xử lý và liên kết dữ liệu rất quan trọng đối với sự tồn tại liên tục của Catalist như một công ty, vì vậy nó có thể đầu tư các nguồn lực để giải quyết những vấn đề này, thường ở quy mô mà không có nhà nghiên cứu nào có thể phù hợp. Trong bài báo của họ, Ansolabehere và Hersh đã thực hiện một số bước để kiểm tra kết quả của hai bước này - mặc dù một số trong số đó là độc quyền — và các kiểm tra này có thể hữu ích cho các nhà nghiên cứu khác có nhu cầu liên kết dữ liệu khảo sát với dữ liệu lớn nguồn.

Các bài học chung mà các nhà nghiên cứu có thể rút ra từ nghiên cứu này là gì? Thứ nhất, có giá trị to lớn cả từ việc làm giàu các nguồn dữ liệu lớn với dữ liệu khảo sát và từ làm giàu dữ liệu khảo sát với các nguồn dữ liệu lớn (bạn có thể xem nghiên cứu này theo cách này). Bằng cách kết hợp hai nguồn dữ liệu này, các nhà nghiên cứu đã có thể làm điều gì đó không thể với một trong hai cá nhân. Bài học chung thứ hai là mặc dù tổng hợp, các nguồn dữ liệu thương mại, chẳng hạn như dữ liệu từ Catalist, không nên được coi là "sự thật về mặt đất", trong một số trường hợp, chúng có thể hữu ích. Những người hoài nghi đôi khi so sánh các nguồn dữ liệu tổng hợp, thương mại này với Chân lý tuyệt đối và chỉ ra rằng những nguồn dữ liệu này thiếu hụt. Tuy nhiên, trong trường hợp này, những người hoài nghi đang so sánh sai: tất cả dữ liệu mà các nhà nghiên cứu sử dụng đều thiếu sự thật tuyệt đối. Thay vào đó, tốt hơn là so sánh các nguồn dữ liệu tổng hợp, thương mại với các nguồn dữ liệu sẵn có khác (ví dụ, hành vi bỏ phiếu tự báo cáo), mà luôn có lỗi. Cuối cùng, bài học chung thứ ba của Ansolabehere và nghiên cứu của Hersh là trong một số trường hợp, các nhà nghiên cứu có thể hưởng lợi từ các khoản đầu tư khổng lồ mà nhiều công ty tư nhân đang thực hiện trong việc thu thập và hài hòa các bộ dữ liệu xã hội phức tạp.