3.4 Ai hỏi

Bản dịch này đã được tạo ra bởi một máy tính. ×

3.4 Ai hỏi

Thời đại kỹ thuật số làm cho việc lấy mẫu xác suất trong thực tế khó khăn hơn và đang tạo ra các cơ hội mới cho việc lấy mẫu không xác suất.

Trong lịch sử lấy mẫu, đã có hai cách tiếp cận cạnh tranh: phương pháp lấy mẫu xác suất và phương pháp lấy mẫu không xác suất. Mặc dù cả hai phương pháp tiếp cận đã được sử dụng trong những ngày đầu lấy mẫu, việc lấy mẫu xác suất đã chiếm ưu thế, và nhiều nhà nghiên cứu xã hội được dạy để xem lấy mẫu không xác suất với hoài nghi lớn. Tuy nhiên, như tôi sẽ mô tả dưới đây, những thay đổi được tạo ra bởi thời đại kỹ thuật số có nghĩa là đã đến lúc các nhà nghiên cứu xem xét lại việc lấy mẫu không xác suất. Đặc biệt, lấy mẫu xác suất đã trở nên khó thực hiện trong thực tế, và việc lấy mẫu không xác suất đã nhanh hơn, rẻ hơn và tốt hơn. Các cuộc khảo sát nhanh hơn và rẻ hơn không chỉ kết thúc ở bản thân: chúng còn cho phép các cơ hội mới như khảo sát thường xuyên hơn và kích thước mẫu lớn hơn. Ví dụ, bằng cách sử dụng các phương pháp không xác suất, Nghiên cứu Bầu cử Quốc hội Hợp tác (CCES) có thể có số lượng người tham gia gấp khoảng 10 lần so với các nghiên cứu trước đó sử dụng lấy mẫu xác suất. Mẫu lớn hơn nhiều này cho phép các nhà nghiên cứu chính trị nghiên cứu sự thay đổi về thái độ và hành vi giữa các nhóm con và bối cảnh xã hội. Hơn nữa, tất cả quy mô được thêm vào này đều không làm giảm chất lượng ước tính (Ansolabehere and Rivers 2013) .

Hiện tại, phương pháp tiếp cận chủ yếu để lấy mẫu cho nghiên cứu xã hội là lấy mẫu xác suất . Trong việc lấy mẫu xác suất, tất cả các thành viên của nhóm dân số mục tiêu đều có xác suất không được biết, không có khả năng được lấy mẫu và tất cả những người được lấy mẫu trả lời khảo sát. Khi các điều kiện này được đáp ứng, kết quả toán học thanh lịch cung cấp bảo đảm có thể chứng minh về khả năng của một nhà nghiên cứu sử dụng mẫu để đưa ra suy luận về dân số mục tiêu.

Tuy nhiên, trong thế giới thực, các điều kiện bên dưới các kết quả toán học này hiếm khi gặp. Ví dụ, thường có lỗi bảo hiểm và không phản hồi. Vì những vấn đề này, các nhà nghiên cứu thường phải sử dụng một loạt các điều chỉnh thống kê để đưa ra suy luận từ mẫu của họ đến dân số mục tiêu của họ. Vì vậy, điều quan trọng là phải phân biệt giữa lấy mẫu xác suất theo lý thuyết , có đảm bảo lý thuyết mạnh mẽ và lấy mẫu xác suất trong thực tế , không đảm bảo và phụ thuộc vào nhiều điều chỉnh thống kê.

Theo thời gian, sự khác biệt giữa lấy mẫu xác suất trong lý thuyết và lấy mẫu xác suất trong thực tế ngày càng tăng. Ví dụ, tỷ lệ không phản hồi đã tăng đều đặn, ngay cả trong các khảo sát chất lượng cao, đắt tiền (hình 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Tỷ lệ không phản hồi cao hơn nhiều trong các cuộc khảo sát qua điện thoại thương mại - đôi khi thậm chí cao tới 90% (Kohut et al. 2012) . Sự gia tăng không phản hồi này đe dọa chất lượng của các ước tính bởi vì các ước tính ngày càng phụ thuộc vào các mô hình thống kê mà các nhà nghiên cứu sử dụng để điều chỉnh cho những người không phản hồi. Hơn nữa, những giảm chất lượng đã xảy ra mặc dù những nỗ lực ngày càng đắt tiền của các nhà nghiên cứu khảo sát để duy trì tỷ lệ đáp ứng cao. Một số người lo ngại rằng những xu hướng giảm đôi chất lượng và tăng chi phí này đe dọa nền tảng của nghiên cứu khảo sát (National Research Council 2013) .

Hình 3.5: Nonresponse đã ngày càng ổn định, ngay cả trong các cuộc khảo sát đắt tiền chất lượng cao (Hội đồng Nghiên cứu Quốc gia 2013; B. D. Meyer, Mok, và Sullivan 2015). Tỷ lệ không phản hồi cao hơn nhiều đối với các cuộc điều tra điện thoại thương mại, đôi khi thậm chí cao tới 90% (Kohut et al. 2012). Những xu hướng dài hạn này không có nghĩa là thu thập dữ liệu đắt hơn và ước tính ít đáng tin cậy hơn. Chuyển thể từ B. D. Meyer, Mok và Sullivan (2015), hình 1.

Hình 3.5: Nonresponse đã ngày càng ổn định, ngay cả trong các cuộc điều tra đắt tiền chất lượng cao (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Tỷ lệ không phản hồi cao hơn nhiều đối với các cuộc điều tra điện thoại thương mại, đôi khi thậm chí cao tới 90% (Kohut et al. 2012) . Những xu hướng dài hạn này không có nghĩa là thu thập dữ liệu đắt hơn và ước tính ít đáng tin cậy hơn. Chuyển thể từ BD Meyer, Mok, and Sullivan (2015) , hình 1.

Đồng thời đã có những khó khăn ngày càng tăng đối với các phương pháp lấy mẫu xác suất, cũng có những phát triển thú vị trong các phương pháp lấy mẫu không xác suất . Có nhiều kiểu phương pháp lấy mẫu không xác suất, nhưng có một điểm chung mà chúng có thể không dễ dàng phù hợp trong khuôn khổ toán học lấy mẫu xác suất (Baker et al. 2013) . Nói cách khác, trong các phương pháp lấy mẫu không xác suất, không phải ai cũng có xác suất được bao gồm và không xác định. Các phương pháp lấy mẫu không xác suất có danh tiếng khủng khiếp giữa các nhà nghiên cứu xã hội và chúng liên quan đến một số thất bại lớn nhất của các nhà nghiên cứu khảo sát, chẳng hạn như thất bại văn học (được thảo luận trước đó) và “Dewey Defeats Truman”. cuộc bầu cử tổng thống năm 1948 (hình 3.6).

Hình 3.6: Tổng thống Harry Truman đang nắm giữ tiêu đề của một tờ báo đã tuyên bố thất bại một cách không chính xác. Tiêu đề này dựa một phần vào các ước tính từ các mẫu không xác suất (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) . Mặc dù “Dewey Defeats Truman” xảy ra vào năm 1948, nhưng vẫn còn một số lý do khiến một số nhà nghiên cứu hoài nghi về các ước tính từ các mẫu không xác suất. Nguồn: Thư viện & Bảo tàng Harry S. Truman .

Một hình thức lấy mẫu không xác suất phù hợp với thời đại kỹ thuật số là việc sử dụng các bảng trực tuyến . Các nhà nghiên cứu sử dụng bảng trực tuyến phụ thuộc vào một số nhà cung cấp bảng điều khiển — thường là một công ty, chính phủ hoặc trường đại học — để xây dựng một nhóm người đa dạng, những người đồng ý làm người trả lời khảo sát. Những người tham gia bảng này thường được tuyển dụng bằng nhiều phương pháp đặc biệt như quảng cáo biểu ngữ trực tuyến. Sau đó, một nhà nghiên cứu có thể thanh toán cho nhà cung cấp bảng điều khiển để truy cập vào một mẫu người trả lời có các đặc điểm mong muốn (ví dụ, đại diện quốc gia của người lớn). Các bảng trực tuyến này là các phương pháp không xác suất bởi vì không phải ai cũng có xác suất bao gồm không xác định. Mặc dù các bảng trực tuyến không xác suất đã được các nhà nghiên cứu xã hội sử dụng (ví dụ, CCES), vẫn còn một số tranh luận về chất lượng của các ước tính đến từ họ (Callegaro et al. 2014) .

Mặc dù có những cuộc tranh luận này, tôi nghĩ có hai lý do tại sao thời điểm thích hợp cho các nhà nghiên cứu xã hội xem xét lại việc lấy mẫu không xác suất. Đầu tiên, trong thời đại kỹ thuật số, đã có nhiều phát triển trong việc thu thập và phân tích các mẫu không xác suất. Những phương pháp mới hơn này đủ khác với các phương pháp gây ra các vấn đề trong quá khứ mà tôi nghĩ có thể coi chúng là “lấy mẫu không xác suất 2.0.” Lý do thứ hai tại sao các nhà nghiên cứu nên xem xét lại việc lấy mẫu không xác suất là vì lấy mẫu xác suất thực hành ngày càng trở nên khó khăn. Khi có tỷ lệ không đáp ứng cao - như có trong các khảo sát thực tế hiện nay, xác suất thực tế cho người trả lời không được biết, và do đó, các mẫu xác suất và các mẫu không xác suất không khác biệt như nhiều nhà nghiên cứu tin.

Như tôi đã nói trước đó, các mẫu không xác suất được nhìn nhận với sự hoài nghi lớn của nhiều nhà nghiên cứu xã hội, một phần vì vai trò của họ trong một số thất bại đáng xấu hổ nhất trong những ngày đầu nghiên cứu khảo sát. Một ví dụ rõ ràng về việc chúng ta đã đi xa đến đâu với các mẫu không xác suất là nghiên cứu của Wei Wang, David Rothschild, Sharad Goel và Andrew Gelman (2015) đã thu hồi chính xác kết quả của cuộc bầu cử năm 2012 của Mỹ bằng cách sử dụng mẫu không xác suất Người dùng Xbox của Mỹ — một mẫu người Mỹ không mang tính ngẫu nhiên. Các nhà nghiên cứu đã tuyển dụng những người trả lời từ hệ thống chơi game XBox, và như bạn có thể mong đợi, mẫu Xbox bị lệch nam và lệch trẻ: 18- 29 tuổi chiếm 19% cử tri nhưng 65% mẫu Xbox và nam giới chiếm 47% của cử tri nhưng 93% của mẫu Xbox (hình 3.7). Do những thành kiến nhân khẩu học mạnh mẽ này, dữ liệu Xbox thô là một chỉ báo về lợi nhuận của cuộc bầu cử kém. Nó dự đoán một chiến thắng mạnh mẽ cho Mitt Romney trên Barack Obama. Một lần nữa, đây là một ví dụ khác về sự nguy hiểm của các mẫu không xác suất, không được điều chỉnh và gợi nhớ đến thất bại văn học tiêu hóa .

Hình 3.7: Nhân khẩu học của người trả lời ở W. Wang et al. (2015) . Bởi vì người trả lời đã được tuyển dụng từ XBox, họ có nhiều khả năng còn trẻ và có nhiều khả năng là nam giới hơn so với cử tri trong cuộc bầu cử năm 2012. Chuyển thể từ W. Wang et al. (2015) , hình 1.

Tuy nhiên, Wang và các đồng nghiệp đã nhận thức được những vấn đề này và cố gắng điều chỉnh cho quá trình lấy mẫu không ngẫu nhiên của họ khi đưa ra các ước tính. Đặc biệt, họ đã sử dụng phân tầng sau , một kỹ thuật cũng được sử dụng rộng rãi để điều chỉnh các mẫu xác suất có lỗi bảo hiểm và không phản hồi.

Ý tưởng chính của phân tầng sau là sử dụng thông tin phụ trợ về dân số mục tiêu để giúp cải thiện ước tính đến từ một mẫu. Khi sử dụng phân tầng để ước tính từ mẫu không xác suất, Wang và đồng nghiệp cắt nhỏ dân số thành các nhóm khác nhau, ước tính hỗ trợ cho Obama trong mỗi nhóm, và sau đó lấy mức trung bình của nhóm ước tính để tạo ra ước tính tổng thể. Ví dụ, họ có thể chia dân số thành hai nhóm (nam và nữ), ước tính sự ủng hộ cho Obama giữa nam và nữ, và sau đó ước tính hỗ trợ tổng thể cho Obama bằng cách lấy trung bình có trọng số để tính đến thực tế là phụ nữ làm tăng 53% cử tri và nam giới lên 47%. Nói chung, phân tầng sau giúp sửa cho một mẫu không cân bằng bằng cách đưa vào thông tin phụ trợ về kích thước của các nhóm.

Chìa khóa để phân tầng sau là để tạo thành các nhóm phù hợp. Nếu bạn có thể cắt giảm dân số thành các nhóm đồng nhất sao cho các mệnh lệnh phản ứng giống nhau đối với mọi người trong mỗi nhóm, thì phân tầng sau sẽ tạo ra các ước tính không thiên vị. Nói cách khác, sau phân tầng theo giới tính sẽ tạo ra ước tính không thiên vị nếu tất cả nam giới có xu hướng đáp ứng và tất cả phụ nữ đều có cùng xu hướng phản ứng. Giả thiết này được gọi là giả định đồng nhất-đáp ứng-propensities-trong-nhóm , và tôi mô tả nó một chút trong các ghi chú toán học ở cuối chương này.

Tất nhiên, có vẻ như không có khả năng rằng các biện pháp ứng phó sẽ giống nhau đối với tất cả nam giới và tất cả phụ nữ. Tuy nhiên, giả định đồng nhất-phản ứng-propensities-trong-nhóm trở nên hợp lý hơn khi số lượng các nhóm tăng lên. Nói chung, nó sẽ trở nên dễ dàng hơn để cắt bớt dân số thành các nhóm đồng nhất nếu bạn tạo ra nhiều nhóm hơn. Ví dụ, có vẻ như không thể tin được rằng tất cả phụ nữ đều có xu hướng phản ứng giống nhau, nhưng có vẻ hợp lý hơn là có cùng xu hướng phản ứng cho tất cả phụ nữ ở độ tuổi 18-29, tốt nghiệp đại học và đang sống ở California . Do đó, khi số nhóm được sử dụng trong phân tầng sau lớn hơn, các giả định cần thiết để hỗ trợ phương pháp trở nên hợp lý hơn. Với thực tế này, các nhà nghiên cứu thường muốn tạo ra một số lượng lớn các nhóm cho phân tầng sau. Tuy nhiên, khi số lượng nhóm tăng lên, các nhà nghiên cứu gặp phải một vấn đề khác: dữ liệu thưa thớt. Nếu chỉ có một số ít người trong mỗi nhóm, thì các ước tính sẽ không chắc chắn hơn, và trong trường hợp cực đoan khi có một nhóm không có người trả lời, sau đó phân tầng hoàn toàn bị phá vỡ.

Có hai cách thoát khỏi sự căng thẳng vốn có này giữa tính chính đáng của giả định đồng nhất-phản ứng-xu hướng trong nhóm và nhu cầu về các cỡ mẫu hợp lý trong mỗi nhóm. Đầu tiên, các nhà nghiên cứu có thể thu thập một mẫu lớn hơn, đa dạng hơn, giúp đảm bảo các cỡ mẫu hợp lý trong mỗi nhóm. Thứ hai, họ có thể sử dụng một mô hình thống kê tinh vi hơn để đưa ra các ước tính trong các nhóm. Và, trên thực tế, đôi khi các nhà nghiên cứu làm cả hai, như Wang và các đồng nghiệp đã làm với nghiên cứu của họ về cuộc bầu cử bằng cách sử dụng những người trả lời từ Xbox.

Bởi vì họ đang sử dụng phương pháp lấy mẫu không xác suất với các cuộc phỏng vấn do máy tính quản lý (tôi sẽ nói thêm về các cuộc phỏng vấn do máy tính quản lý trong phần 3.5). , một con số khổng lồ theo tiêu chuẩn bầu cử bầu cử. Kích thước mẫu khổng lồ này cho phép chúng tạo thành một số lượng lớn các nhóm phân tầng sau. Trong khi sau phân tầng thường liên quan đến việc cắt giảm dân số thành hàng trăm nhóm, Wang và đồng nghiệp chia dân số thành 176.256 nhóm được xác định theo giới tính (2 loại), chủng tộc (4 loại), tuổi (4 loại), giáo dục (4 loại), tiểu bang (51 loại), ID bên (3 loại), tư tưởng (3 loại) và phiếu bầu năm 2008 (3 loại). Nói cách khác, kích thước mẫu khổng lồ của họ, được kích hoạt bởi thu thập dữ liệu chi phí thấp, cho phép họ tạo ra một giả định hợp lý hơn trong quá trình ước tính của họ.

Ngay cả với 345.858 người tham gia duy nhất, tuy nhiên, vẫn còn nhiều, nhiều nhóm mà Wang và các đồng nghiệp hầu như không có người trả lời. Do đó, họ đã sử dụng một kỹ thuật gọi là hồi quy đa cấp để ước tính sự hỗ trợ trong mỗi nhóm. Về cơ bản, để ước tính sự hỗ trợ cho Obama trong một nhóm cụ thể, hồi quy đa cấp gộp thông tin từ nhiều nhóm liên quan chặt chẽ. Ví dụ, hãy tưởng tượng việc ước tính sự ủng hộ cho Obama trong số những người gốc Tây Ban Nha từ 18 đến 29 tuổi, là sinh viên tốt nghiệp đại học, những người đăng ký đảng Dân chủ, tự nhận là người kiểm duyệt và đã bầu cho Obama năm 2008. Đây là một , một nhóm rất cụ thể và có thể không có ai trong mẫu có những đặc điểm này. Do đó, để đưa ra các ước tính về nhóm này, hồi quy đa cấp sử dụng một mô hình thống kê để gộp các ước tính với nhau từ những người trong các nhóm rất giống nhau.

Do đó, Wang và các cộng sự đã sử dụng một phương pháp kết hợp hồi qui đa tầng và phân tầng sau, vì vậy họ gọi chiến lược hồi quy đa cấp của chiến lược của họ với phân tầng sau hoặc trìu mến hơn, “ông P. ”Khi Wang và các đồng nghiệp sử dụng ông P. để ước tính từ mẫu không xác suất XBox, họ đã ước tính rất gần với sự hỗ trợ chung mà Obama nhận được trong cuộc bầu cử năm 2012 (hình 3.8). Trên thực tế, ước tính của họ chính xác hơn là tổng hợp các cuộc thăm dò dư luận truyền thống. Vì vậy, trong trường hợp này, điều chỉnh thống kê - cụ thể là ông P. - dường như làm một công việc tốt, điều chỉnh các thành kiến trong dữ liệu không xác suất; các thành kiến hiển thị rõ ràng khi bạn xem xét các ước tính từ dữ liệu Xbox chưa được điều chỉnh.

Hình 3.8: Các ước tính từ W. Wang et al. (2015) . Mẫu XBox chưa được điều chỉnh đã tạo ra các ước tính không chính xác. Tuy nhiên, mẫu XBox có trọng số đã tạo ra các ước tính chính xác hơn so với mức trung bình của các cuộc khảo sát qua điện thoại dựa trên xác suất. Chuyển thể từ W. Wang et al. (2015) , số liệu 2 và 3.

Có hai bài học chính từ nghiên cứu của Wang và các đồng nghiệp. Đầu tiên, các mẫu không xác suất không điều chỉnh có thể dẫn đến các ước tính xấu; đây là bài học mà nhiều nhà nghiên cứu đã nghe trước đây. Tuy nhiên, bài học thứ hai là các mẫu không xác suất, khi được phân tích đúng cách, thực sự có thể tạo ra các ước tính tốt; các mẫu không xác suất không cần phải tự động dẫn đến một cái gì đó như thất bại văn học tiêu hóa .

Về sau, nếu bạn đang cố gắng quyết định sử dụng phương pháp lấy mẫu xác suất và phương pháp lấy mẫu không xác suất bạn phải đối mặt với một lựa chọn khó khăn. Đôi khi các nhà nghiên cứu muốn có một quy tắc nhanh chóng và cứng nhắc (ví dụ, luôn sử dụng các phương pháp lấy mẫu xác suất), nhưng ngày càng khó đưa ra một quy tắc như vậy. Các nhà nghiên cứu phải đối mặt với sự lựa chọn khó khăn giữa các phương pháp lấy mẫu xác suất trong thực tế - điều này ngày càng tốn kém và xa các kết quả lý thuyết để biện minh cho sử dụng của họ - và phương pháp lấy mẫu không xác suất - rẻ hơn và nhanh hơn, nhưng ít quen thuộc và đa dạng hơn. Tuy nhiên, có một điều rõ ràng là nếu bạn buộc phải làm việc với các mẫu không xác suất hoặc các nguồn dữ liệu không đại diện (suy nghĩ lại Chương 2), thì có một lý do chính đáng để tin rằng các ước tính được thực hiện bằng cách phân tầng và các kỹ thuật liên quan sẽ tốt hơn so với các ước tính thô sơ, chưa được điều chỉnh.