3.4.3 mẫu không xác suất: khớp mẫu

Bản dịch này đã được tạo ra bởi một máy tính. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.3 mẫu không xác suất: khớp mẫu

Không phải tất cả các mẫu không xác suất như nhau. Chúng ta có thể thêm điều khiển hơn trên kết thúc trước.

Cách tiếp cận Wang và các đồng nghiệp sử dụng để ước tính kết quả của cuộc bầu cử tổng thống năm 2012 của Mỹ phụ thuộc hoàn toàn vào những cải tiến trong phân tích dữ liệu. Đó là, họ thu thập được nhiều câu trả lời là họ có thể và sau đó đã cố gắng để tái cân chúng. Một chiến lược bổ sung để làm việc với mẫu không xác suất là có quyền kiểm soát nhiều hơn trong quá trình thu thập dữ liệu.

Ví dụ đơn giản của một quá trình lấy mẫu không xác suất kiểm soát một phần là lấy mẫu hạn ngạch, một kỹ thuật mà đi trở lại những ngày đầu của nghiên cứu khảo sát. Trong mẫu hạn ngạch, các nhà nghiên cứu phân chia dân số thành các nhóm khác nhau (ví dụ, nam thanh niên, phụ nữ trẻ, vv) và sau đó thiết lập hạn ngạch cho số lượng người được lựa chọn trong mỗi nhóm. Trả lời được lựa chọn một cách bừa bãi cho đến khi các nhà nghiên cứu đã đáp ứng hạn ngạch của họ trong mỗi nhóm. Bởi vì các hạn ngạch, các mẫu kết quả trông giống như các mục tiêu dân số hơn sẽ là sự thật khác, nhưng vì các xác suất của sự bao gồm không được biết nhiều nhà nghiên cứu đang hoài nghi về lấy mẫu hạn ngạch. Trong thực tế, lấy mẫu hạn ngạch là một nguyên nhân của "Dewey Thua Truman" lỗi trong năm 1948 các cuộc thăm dò cử Tổng thống Mỹ. Bởi vì nó cung cấp một số kiểm soát quá trình lấy mẫu, tuy nhiên, có thể thấy cách lấy mẫu hạn ngạch có thể có một số ưu điểm so với một bộ sưu tập dữ liệu hoàn toàn không kiểm soát được.

Di chuyển ngoài lấy mẫu quota, phương pháp tiếp cận hiện đại hơn để kiểm soát quá trình lấy mẫu không xác suất hiện nay là có thể. Một cách tiếp cận như vậy được gọi là phù hợp với mẫu, và nó được sử dụng bởi một số nhà cung cấp bảng điều khiển trực tuyến thương mại. Ở dạng đơn giản nhất, phù hợp với mẫu yêu cầu hai nguồn dữ liệu: 1) đăng ký hoàn toàn của dân số và 2) một bảng lớn các tình nguyện viên. Điều quan trọng là các tình nguyện viên không cần phải là một mẫu xác suất từ dân bất kỳ; nhấn mạnh rằng không có yêu cầu để lựa chọn vào bảng điều khiển, tôi sẽ gọi nó là một bảng điều khiển bẩn. Ngoài ra, cả hai đăng ký dân số và bảng điều khiển bẩn phải bao gồm một số thông tin phụ về mỗi người, trong ví dụ này, tôi sẽ xem xét độ tuổi và giới tính, nhưng trong những tình huống thực tế thông tin phụ trợ này có thể được nhiều chi tiết hơn. Bí quyết của khớp mẫu là chọn mẫu từ một bảng điều khiển bẩn trong một cách mà sản xuất mẫu trông giống như mẫu xác suất.

phù hợp với mẫu bắt đầu khi một mẫu xác suất mô phỏng được lấy từ sổ đăng ký dân số; mẫu mô phỏng này sẽ trở thành một mẫu mục tiêu. Sau đó, dựa trên các thông tin phụ trợ, trường hợp trong các mẫu mục tiêu được kết hợp với những người trong bảng điều khiển bẩn để tạo thành một mẫu tương đối. Ví dụ, nếu có một phụ nữ 25 tuổi trong mẫu mục tiêu, sau đó các nhà nghiên cứu tìm thấy một phụ nữ 25 tuổi đến từ bảng điều dơ bẩn để có trong mẫu phù hợp. Cuối cùng, các thành viên của các mẫu tương đối được phỏng vấn để sản xuất những tập cuối cùng của người trả lời.

Mặc dù các mẫu tương đối giống như các mẫu mục tiêu, điều quan trọng là hãy nhớ rằng các mẫu phù hợp không phải là một mẫu xác suất. mẫu phù hợp chỉ có thể phù hợp với mẫu mục tiêu trên các thông tin phụ trợ được biết đến (ví dụ, tuổi tác và giới tính), nhưng không phải trên các đặc tính vô hạn. Ví dụ, nếu người dân trên bảng điều khiển bẩn có xu hướng nghèo hơn, sau khi tất cả, một trong những lý do để tham gia một bảng khảo sát là để kiếm tiền, sau đó thậm chí nếu các mẫu tương đối giống như các mẫu mục tiêu về độ tuổi và giới tính nó vẫn sẽ có một sự thiên vị đối với người nghèo. Sự kỳ diệu của lấy mẫu xác suất đúng là để loại trừ các vấn đề trên cả hai đặc tính đo lường và vô hạn (một điểm đó là phù hợp với các cuộc thảo luận của chúng tôi phù hợp với suy luận nhân quả từ các nghiên cứu quan sát ở Chương 2).

Trong thực tế, phù hợp với mẫu phụ thuộc vào việc có một bảng điều khiển lớn và đa dạng háo hức để hoàn thành cuộc điều tra, và do đó nó chủ yếu được thực hiện bởi các công ty có thể đủ khả năng để phát triển và duy trì một bảng điều khiển như vậy. Ngoài ra, trong thực tế, có thể có vấn đề với kết hợp (đôi khi là một trận đấu tốt cho một người nào đó trong mẫu mục tiêu không tồn tại trên bảng điều khiển) và không phản ứng (đôi khi người trong mẫu tương đối từ chối tham gia cuộc khảo sát). Vì vậy, trong thực tế, các nhà nghiên cứu làm phù hợp với mẫu cũng thực hiện một số loại điều chỉnh sau khi phân tầng để thực hiện ước.

Thật khó có thể cung cấp bảo lãnh về lý thuyết hữu ích về kết hợp mẫu, nhưng trong thực tế nó có thể thực hiện tốt. Ví dụ, Stephen Ansolabehere và Brian Schaffner (2014) so với ba cuộc điều tra song song của khoảng 1.000 người được tiến hành trong năm 2010 sử dụng ba mẫu khác nhau và phỏng vấn các phương pháp như: mail, điện thoại, và một bảng điều khiển Internet sử dụng kết hợp mẫu và điều chỉnh sau khi phân tầng. Các ước tính của ba cách tiếp cận khá giống với ước tính từ các tiêu chuẩn chất lượng cao như: Khảo sát hiện Dân số (CPS) và Phỏng vấn y tế quốc gia khảo sát (NHIS). Cụ thể hơn, các điều tra Internet và thư đã giảm bình quân khoảng 3 điểm phần trăm và các cuộc điều tra điện thoại đã được giảm 4 điểm phần trăm. Lỗi lớn này là khoảng những gì người ta mong đợi từ các mẫu của khoảng 1.000 người. Mặc dù, không ai trong số những phương thức sản xuất dữ liệu tốt hơn đáng kể, cả hai mạng Internet và điện thoại khảo sát (mất ngày hoặc tuần) là nhanh hơn đáng kể đến lĩnh vực so với điều tra mail (mà mất tám tháng), và các cuộc khảo sát Internet, sử dụng phù hợp với mẫu, là rẻ hơn so với hai chế độ khác.

Trong kết luận, các nhà khoa học xã hội và thống kê học là vô cùng hoài nghi về kết luận từ các mẫu không xác suất, một phần vì chúng có liên quan với một số thất bại đáng xấu hổ của nghiên cứu khảo sát như các cuộc thăm dò Literary Digest. Trong một phần, tôi đồng ý với thái độ hoài nghi này: mẫu không xác suất không điều chỉnh có khả năng sản xuất ước tính xấu. Tuy nhiên, nếu các nhà nghiên cứu có thể điều chỉnh cho những định kiến trong quá trình lấy mẫu (ví dụ, sau phân tầng) hoặc kiểm soát quá trình lấy mẫu hơi (ví dụ, kết hợp mẫu), họ có thể sản xuất ước tính tốt hơn, và thậm chí cả các ước tính về chất lượng đủ cho hầu hết các mục đích. Tất nhiên, nó sẽ là tốt hơn để làm lấy mẫu xác suất hành động hoàn hảo, nhưng điều đó không còn dường như là một lựa chọn thực tế.

Cả hai mẫu không xác suất và mẫu xác suất khác nhau về chất lượng của họ, và hiện nay nó có khả năng thì phần lớn ước tính từ mẫu xác suất là đáng tin cậy hơn ước tính từ các mẫu không xác suất. Nhưng, ngay cả bây giờ, ước tính từ các mẫu không xác suất tốt thực hiện có lẽ là tốt hơn so với ước tính từ mẫu xác suất kém tiến hành. Hơn nữa, các mẫu không xác suất rẻ hơn đáng kể. Do đó, nó xuất hiện rằng xác suất vs lấy mẫu không xác suất cung cấp một chi phí-chất lượng thương mại-off (Hình 3.6). Nhìn về phía trước, tôi hy vọng rằng ước tính từ các mẫu không xác suất thực hiện tốt sẽ trở nên rẻ hơn và tốt hơn. Hơn nữa, do các sự cố trong các cuộc điều tra điện thoại cố định và tăng tỷ lệ không trả lời, tôi hy vọng rằng mẫu xác suất sẽ trở nên đắt hơn và có chất lượng thấp hơn. Bởi vì những xu hướng dài hạn, tôi nghĩ rằng lấy mẫu không xác suất sẽ trở nên ngày càng quan trọng trong thời kỳ thứ ba của nghiên cứu khảo sát.

Hình 3.6: Xác suất lấy mẫu trong thực tế và lấy mẫu không xác suất cả lớn, chủng loại không đồng nhất. Nhìn chung, có một chi phí-lỗi thương mại-off với mẫu không xác suất là chi phí thấp hơn nhưng lỗi cao hơn. Tuy nhiên, thực hiện tốt việc lấy mẫu không xác suất có thể sản xuất ước tính tốt hơn so với lấy mẫu xác suất kém làm. Trong tương lai, tôi hy vọng rằng mẫu không xác suất sẽ được tốt hơn và rẻ hơn trong khi lấy mẫu xác suất sẽ tồi tệ hơn và đắt tiền hơn.